Как работает генерация диалогов, часть 1 (НЛП)

PLATO-K: Генерация расширенного диалога с внутренними и внешними знаниями(arXiv)

Автор: Сыци Бао, Хуан Хэ, Цзюнь Сюй, Хуа Лу, Фань Ван, Хуа У, Хань Чжоу, Вэньцюань У, Чжэн-Ю Ню, Хайфэн Ван

Аннотация: В последнее время практическое развертывание диалоговых систем с открытым доменом было затруднено из-за недостатка информации и фактической неточности. С этой целью мы вводим PLATO-K, основанный на двухэтапном диалогическом обучении, чтобы усилить запоминание внутренних знаний и использование внешних знаний. На первом этапе PLATO-K обучается через массивные диалоговые корпуса и запоминает необходимые знания в параметрах модели. На втором этапе PLATO-K имитирует людей для поиска внешней информации и использования знаний для генерации ответов. Обширные эксперименты показывают, что проблема знаний значительно облегчается в PLATO-K благодаря такому всестороннему расширению внутренних и внешних знаний. По сравнению с существующей современной моделью китайского диалога, общая вовлеченность PLATO-K значительно улучшилась на 36,2% и 49,2% в болтовне и интеллектуальных разговорах.

2.Генерация медицинского диалога с учетом терминологии(arXiv)

Автор:Чэнь Тан, Хунбо Чжан, Тайлер Лоакман, Чэнхуа Линь, Фрэнк Герин.

Аннотация : Генерация медицинских диалогов направлена на создание ответов в соответствии с историей диалогов между врачами и пациентами. В отличие от генерации диалогов в открытой области, для этого требуются базовые знания, характерные для медицинской области. Существующие генеративные фреймворки для создания медицинских диалогов не в состоянии включить в себя предметно-ориентированные знания, особенно в отношении медицинской терминологии. В этой статье мы предлагаем новую структуру для улучшения создания медицинских диалогов, рассматривая особенности, основанные на предметной терминологии. Мы используем механизм внимания для включения терминологически ориентированных функций и заполнения семантического разрыва между медицинскими фоновыми знаниями и общеупотребительными высказываниями, заставляя языковые модели изучать представления терминологии с помощью вспомогательной задачи распознавания терминологии. Экспериментальные результаты демонстрируют эффективность нашего подхода, в котором предлагаемая нами структура превосходит языковые модели SOTA. Кроме того, мы предоставляем новый набор данных с аннотациями медицинской терминологии для поддержки исследований по созданию медицинских диалогов. Наш набор данных и код доступны по адресу https://github.com/tangg555/meddialog.

3. Генерация персонализированных диалогов с персонализированным вниманием(arXiv)

Автор:Цюши Хуан, Юй Чжан, Том Ко, Сюбо Лю, Бо Ву, Вэньу Ван, Лилиан Тан

Вывод:Системы диалогов на основе персонажей нацелены на создание согласованных ответов на основе исторического контекста и предопределенного персонажа. В отличие от обычного создания диалогов, диалог на основе персонажей должен учитывать как контекст диалога, так и личность, что создает проблему для последовательного обучения. В частности, это требует тонкого баланса веса между контекстом и персоной. Чтобы достичь этого, в этой статье мы предлагаем эффективную основу с персональным адаптивным вниманием (PAA), которая адаптивно интегрирует веса от персоны и контекстной информации с помощью нашего спроектированного внимания. Кроме того, к PAA применяется механизм динамического маскирования, который не только отбрасывает избыточную информацию в контексте и персоне, но также служит механизмом регуляризации, чтобы избежать переобучения. Экспериментальные результаты демонстрируют превосходство предложенной структуры PAA по сравнению с сильными исходными данными как при автоматической оценке, так и при оценке человеком. Кроме того, предлагаемый подход PAA может одинаково хорошо работать в режиме с низким уровнем ресурсов по сравнению с моделями, обученными в условиях полных данных, которые достигают аналогичного результата только с 20–30% данных по сравнению с более крупными моделями, обученными в полном объеме. -установка данных. Чтобы в полной мере использовать эффективность нашего дизайна, мы разработали несколько вариантов обработки взвешенной информации различными способами, демонстрируя необходимость и достаточность наших схем взвешивания и маскирования.

Как работает генерация диалогов, часть 1 (НЛП)

Похожие вопросы