"Обработка естественного языка"
Систематический обзор литературы с помощью НЛП: зачем это нужно и как это работает

Ответить на конкретный, четко определенный исследовательский вопрос из огромного количества существующей научной и клинической литературы по вопросам здравоохранения может быть чрезвычайно сложно. Тем не менее, это как раз цель систематических обзоров литературы (SLR) в области здравоохранения, которые используют систематический подход для критической оценки и оценки огромного количества количественных и качественных данных по конкретной проблеме, связанной со здоровьем.
SLR предоставляют исчерпывающее резюме - особенно по сравнению с другими типами обзоров, такими как быстрые обзоры - всех доказательств, доступных по конкретному исследовательскому вопросу, чтобы сделать эти доказательства более доступными для ключевых лиц, принимающих решения. Чтобы получить максимальную отдачу, SLR должны выполняться чрезвычайно строго. Институт медицины США (IOM) разработал 21 стандарт, призванный направлять разработку высококачественных SLR в здравоохранении.
Из-за высокой степени строгости, SLR считаются наивысшим возможным уровнем доказательств и играют жизненно важную роль в принятии решений в области здравоохранения. Они также являются ключевым компонентом практики доказательной медицины (ДМ), междисциплинарного процесса, связывающего научные данные с клиническим опытом и ценностями пациентов. Практика доказательной медицины также включает использование анализа пользы и риска, метаанализа и рандомизированных контролируемых исследований (РКИ). Одна из важных задач при выполнении SLR - это анализ больших исследовательских баз данных для выявления RCT из миллионов других имеющихся документов (например, только 1,6% из 26,6 млн статей в PubMed в 2016 году были RCT).
Но количество времени и усилий, необходимых для производства высококачественных SLR, может быть пугающим. И именно здесь автоматизация с использованием таких методов искусственного интеллекта, как обработка естественного языка (NLP), может иметь огромное значение.
Необходимость автоматизации SLR с использованием NLP
На разработку SLR обычно уходит очень много времени, и требуется, чтобы несколько членов специализированной команды уделяли значительное количество часов: согласно этому исследованию 2018 года, проведенному Bullers et. др., в среднем 1139 часов на проект. Даже разработка вопроса исследования может занять много времени: многие эксперты рекомендуют использовать инструмент PICO (проблема, вмешательство, сравнение, результат) для улучшения этого процесса.
Университет Торонто говорит, что команды SLR должны обладать следующими способностями и специальными навыками:
- Эксперты в предметной области с клинической / методологической экспертизой
- Два независимых рецензента
- Информационный специалист / медицинский библиотекарь, обученный методам SLR
- Статист (если в том числе метаанализ)
- Тай-брейк для разрешения спорных решений
Несмотря на то, что требуется большое количество членов команды, SLR по-прежнему требуют значительного времени. Канадский Западный университет оценивает необходимое время, необходимое для завершения SLR, от шести месяцев до 1,5 лет; U of T говорит, что команды, состоящие из нескольких экспертов в предметной области, должны планировать как минимум девять - 12 месяцев в зависимости от темы. Для публикаций первичных исследований, претендующих на включение в SLR, процесс еще более леденящий: большинство из них не попадают в SLR в среднем от 2,5 до 6,5 лет.
Этот медленный процесс разработки SLR имеет серьезные последствия для точности и актуальности: 23% всех SLR считаются устаревшими в течение двух лет после публикации из-за новых данных или результатов.
Но есть веские причины, по которым они занимают так много времени. SLR включают в себя несколько различных трудоемких задач, включая разработку стратегии поиска, перевод стратегии поиска, документацию и написание методологии поиска. Основные этапы строгой SLR в здравоохранении включают:
- Формулировка конкретного вопроса исследования здравоохранения
- Разработка протокола
- Проведение обыска
- Выбор и оценка исследований
- Извлечение соответствующих данных, а затем их анализ, обобщение и синтез (часто самый трудоемкий этап)
- Интерпретация результатов
Из-за огромного количества ручных усилий, SLR, как известно, сложно масштабировать, даже при использовании программного обеспечения для систематического обзора, которое помогает управлять процессом вместе с группами экспертов.
Как НЛП решает эти проблемы?
НЛП (включая интеллектуальный анализ текста) - это тип ИИ, который использует компьютеры для понимания неструктурированных данных, таких как письменный язык. NLP может читать и понимать этот текст, извлекая целевую информацию, используемую для автоматизации задач SLR, что помогает ускорить несколько элементов процесса, включая извлечение информации, в геометрической прогрессии. Одно исследование 2016 года с использованием машинного классификатора опорных векторов показало высокую точность, и рецензенты должны были прочитать только 3,7 предложения (в среднем) на документ вместо всего документа.
Поскольку алгоритмы НЛП являются областью машинного обучения, они обучаются по мере обработки все большего и большего количества релевантных данных, становясь все более и более опытными в своих задачах по мере обработки дополнительных корпусов и обучающих данных.
Извлечение информации с использованием NLP включает извлечение понятий (также известное как распознавание именованных сущностей) и извлечение отношений (также известное как извлечение ассоциаций). Jonnalagadda et. al. говорят, что эти методы использовались для автоматизации извлечения геномной и клинической информации из биомедицинской литературы. Исследователи добавляют, что автоматизация извлечения данных в SLR может существенно сократить время, необходимое для завершения систематических обзоров, и, таким образом, уменьшить временную задержку для воплощения научных данных в клинической практике.
Критические задачи НЛП в развитии SLR в здравоохранении
Для процесса SLR особенно подходят две возможности НЛП: извлечение данных, о котором мы уже упоминали, и классификация текста.
- Автоматическая классификация текста полезна, поскольку она может считывать содержимое документов и классифицировать их на основе определенных предопределенных параметров - например, определения того, является ли конкретный документ RCT, что позволяет сэкономить часы ручной работы. Классификация текстов в первую очередь включает две основные задачи: а) выявление ключевых предложений и игнорирование нерелевантных отрывков, б) классификация этих предложений или абзацев и их маркировка на основе заранее определенных категорий или критериев.
- Между тем извлечение данных идентифицирует фрагменты текста или чисел (например, результаты конкретного отчета или количество субъектов клинического исследования) на основе представляющих интерес переменных и извлекает информацию из исходного файла.
Marshall et. al. Указать, что наиболее заметный тип классификации текста, используемый в процессе рецензирования, - это проверка абстрактных текстов, которая определяет, соответствуют ли статьи критериям включения в рецензию. Алгоритмы машинного обучения также можно обучить использованию абстрактного скрининга для ранжирования документов по релевантности, что потенциально экономит рецензентам десятки часов.
Модели НЛП, используемые в медицинских SLR
Несколько предварительно обученных моделей НЛП особенно хорошо подходят для научного текста и использования при разработке медицинских SLR:
- SciBERT - это предварительно обученная языковая модель, основанная на представлениях двунаправленного кодера от трансформаторов (BERT), оптимизированная для медицинских приложений с 1,14 млн случайно выбранных статей Семантический ученый.
- BioBERT выполняет биомедицинский анализ текста на основе предварительно обученной модели представления биомедицинского языка. Он обучен и оптимизирован с использованием множества источников, включая английскую Википедию, BooksCorpus, PubMed Abstracts и полнотекстовые статьи PMC. Для дальнейшей тонкой настройки BioBERT используются наборы данных распознавания биомедицинских именованных сущностей, такие как NCBI Disease (2014) и BC4CHEMD (2015).
- ClinicalBERT - еще одна языковая модель, основанная на BERT и ориентированная на здравоохранение. Он оценивает представление клинических заметок, но в основном используется в клинической области.
Использование НЛП для медицинских SLR, конечно, не без проблем, не в последнюю очередь из-за сложности английского (или любого другого) языка. Некоторые слова и утверждения могут иметь множество нюансов, в то время как другие могут иметь несколько значений в зависимости от контекста. Некоторые разговорные выражения имеют значение, совершенно отличное от их буквального эквивалента. Даже грамматика может быть совершенно непоследовательной в зависимости от автора и его уровня знакомства с языком.
Все это приводит к головокружительному количеству возможных фраз, слов и комбинаций, которые любой алгоритм НЛП должен оценивать с головокружительной скоростью. Но опытные инженеры по машинному обучению, эксперты в предметной области и специалисты по обработке данных компании CapeStart могут помочь, сочетая аннотации данных, разработку пользовательских моделей машинного обучения и разработку программного обеспечения. Наши решения для НЛП и аннотации данных, ориентированные на здравоохранение, используются некоторыми из самых инновационных медицинских компаний в различных областях, включая классификацию медицинских текстов, распознавание именованных сущностей, анализ текста и тематическое моделирование. CapeStart также предлагает готовые модели, подходящие для сложных задач SLR.