Гибкая языковая модель Facebook «RAG» достигает результатов SOTA в тестировании открытого домена

Недавние разработки больших предварительно обученных языковых моделей привели к значительным успехам в области обработки естественного языка (НЛП). Современные подходы, такие как генеративные преобразователи seq2seq, используют большой объем немаркированного текста для построения общей модели понимания языка перед его точной настройкой на конкретные задачи НЛП, такие как анализ настроений или ответы на вопросы (QA). Хотя такие модели обладают большим потенциалом, у них также есть три основных недостатка: они не могут легко расширить или пересмотреть свою память, они не могут прямо дать понимание своих прогнозов и могут вызывать случайные «галлюцинации».

Для решения этих проблем исследователи из Facebook AI, Университетского колледжа Лондона и Нью-Йоркского университета недавно представили генерацию с расширенным поиском (RAG) - гибридную сквозную дифференцируемую модель, которая объединяет компонент поиска информации с генератором seq2seq и может быть точно настроены на наукоемкие последующие задачи для достижения самых современных результатов.

Как и стандартные модели seq2seq, RAG принимает последовательность на входе и выводит соответствующую последовательность. Но вместо того, чтобы передавать ввод непосредственно в генератор, RAG вместо этого использует ввод для получения набора соответствующих документов, таких как статьи из корпуса Википедии.

В отличие от предварительно обученных моделей, внутренние знания RAG можно пересматривать, расширять и даже изменять - и в этом его истинная сила, согласно Facebook. Изменение того, что знает предварительно обученная языковая модель, обычно влечет за собой переобучение всей модели с новыми документами. Предлагаемый подход, однако, позволяет исследователям и инженерам эффективно контролировать то, что RAG знает и чего не знает, не тратя время на процессы переподготовки всей модели.

Модели RAG объединяют предварительно обученную параметрическую и непараметрическую память. Параметрическая память - это предварительно обученный генеративный преобразователь seq2seq, а непараметрическая память - это плотный векторный индекс Википедии от предварительно обученного нейронного ретранслятора. Таким образом, RAG имеет два источника знаний: те, которые модели seq2seq хранят в своих параметрах, и знания, хранящиеся в корпусе. Эта установка предназначена для сочетания гибкости подходов «закрытой книги» (только параметрических) с производительностью подходов «открытой книги» или на основе поиска (непараметрические), чтобы позволить RAG преуспеть в наукоемком естественном языке. Задачи генерации.

Исследователи оценили RAG в широком спектре наукоемких задач, включая ответы на вопросы в открытой области, абстрактные ответы на вопросы, генерацию сомнительных вопросов и проверку фактов, каждая из которых использовала один дамп Википедии в качестве непараметрического источника знаний.

Для ответа на вопросы в открытом домене исследователи использовали популярные наборы данных QA с открытым доменом Natural Questions (NQ), TriviaQA (TQA), WebQuestions (WQ) и CuratedTrec (CT) со стандартным точным соответствием (EM) в качестве метрики и RAG. достижение результатов SOTA по всем четырем задачам QA с открытым доменом. В ответах на абстрактные вопросы RAG-Sequence превзошла Facebook BART по генерации Open MS-MARCO на 2,6 балла Bleu и 2,6 балла Rouge-L. В задаче генерации вопросов Jeopardy RAG превзошел BART по метрике Q-BLEU-1. Результаты показывают, что RAG имеет преимущества даже в чисто добывающих задачах, что, наряду с его гибкостью, предполагает его широкий потенциал.

RAG выпущен в библиотеке трансформера Hugging Face. Имея всего пять строк кода, исследователи и инженеры могут быстро разрабатывать и развертывать решения для наукоемких задач с помощью RAG. Статья Генерация с расширенным поиском для наукоемких задач НЛП находится на arXiv.

Аналитик: Геката Хе | Редактор: Майкл Саразен; Юань Юань

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Гибкая языковая модель Facebook «RAG» достигает результатов SOTA в тестировании открытого домена

Похожие вопросы