Привет, коллеги-разработчики НЛП!!!

Раньше мне было очень трудно не отставать от концепций НЛП, готовясь к интервью или наставляя кого-то. Поэтому я составил здесь список основных концепций, чтобы вы могли быстро просмотреть и не перегружаться таким количеством ресурсов. Вот так,

Наиболее часто используемые термины НЛП и их значения

  • Словарный запас. Группа терминов, используемых в тексте или речи.
  • Корпус или Корпус (множественное число): это набор текста похожего типа, например обзор фильма, сообщения в социальных сетях и т. д.
  • Документы. Они представляют собой основную часть текста и вместе образуют корпус.
  • Вне словарного запаса. В эту категорию включены термины, не вошедшие в словарь, который мы создали во время обучения нашей модели.
  • Предварительная обработка. Это метод, который пытается удалить нежелательный текст или шум из заданного текста и сделать его «чистым». Это первый шаг любой задачи НЛП.
  • Токенизация. Токенизация разбивает большие наборы текста на мелкие части для удобства чтения и понимания. Каждая небольшая часть называется «текстом» и содержит фрагмент значимой информации.
  • Внедрение (Word). Это процесс внедрения каждого токена в виде вектора перед его передачей в модель машинного обучения. Помимо слов, встраивания также можно выполнять с фразами и символами.
  • N-граммы: это непрерывная последовательность (аналогичная степеням в теории чисел) n-символов заданного текста.
  • Трансформеры. Это архитектуры глубокого обучения, способные распараллеливать вычисления. Трансформаторы используются для изучения долгосрочных зависимостей.
  • Части речи (POS): это функции слова, такие как существительное, глагол и т. д.
  • Тегирование частей речи. Это процесс распределения слов в предложениях по разным частям речи.
  • Стоп-слова. Это удаление нежелательного текста из дальнейшей обработки текста, например, a, to, can и т. д.
  • Нормализация. Это процесс преобразования похожих терминов в каноническую форму, т. е. в единый объект.
  • Лемматизация. Лемматизация в НЛП — это тип нормализации, используемый для группировки терминов, похожих на их базовую форму, на основе частей речи. Например, говорить и говорить можно сопоставить с одним термином, ходить.
  • Стемминг Стемминг также является типом нормализации и похож на лемматизацию, но разница здесь в том, что он разделяет слова без тегов частей речи. Это быстрее, чем лемматизация, а также может быть более точным в некоторых случаях.

Что такое корпус в НЛП?

Корпус или корпус (множественное число) представляет собой набор текста аналогичного типа, например, обзоры фильмов, сообщения в социальных сетях и т. д.

Что такое n-грамм в НЛП?

N-граммы — это непрерывная последовательность (подобная степеням в теории чисел) n-символов данного текста.

Что такое скип-грамм?

Skipgram — это метод обучения без учителя, используемый для поиска слов, наиболее близких к целевому слову. Это процесс, обратный модели непрерывного мешка слов.

Каковы особенности корпуса текстов в НЛП?

К особенностям текстового корпуса относятся:

  1. Количество слов
  2. Векторное обозначение
  3. Тег части речи
  4. Логическая функция
  5. Разбор зависимостей

Что означает «Парсинг»?

Разобрать документ — значит разобраться в его грамматической структуре. Например, приложение НЛП анализирует текст, определяя взаимосвязь слов и фраз в тексте (например, какие слова являются подлежащим или дополнением данного глагола?). Разбор будет отличаться от одного набора текста к другому, поскольку его цель — понять грамматику и то, что пытается передать автор или говорящий.

Что такое «извлечение признаков» в НЛП?

Процесс извлечения характеристик включает в себя определение определенных ключевых слов или фраз, которые помещают их в определенную категорию, часто на основе предполагаемого настроения автора. Например, отзыв о продукте, сделанный покупателем со словом хороший или фразой супер качество, можно резюмировать как положительный отзыв. Процесс извлечения признаков в НЛП может позволить классифицировать данную фразу или использование определенных слов в категорию положительных отзывов.

Что такое «НЕР»?

Скорее всего, это будет один из вопросов, которые вы получите на собеседовании по НЛП. Распознавание именованных сущностей (NER) — это процесс НЛП, который выделяет компоненты предложения, чтобы обобщить его в его основные компоненты, подобно построению диаграмм предложений в начальной школе. Например, предложение «Сара родилась на Манхэттене в 1994 году» можно отнести к категории:

  • Сара = имя
  • Манхэттен = город/местоположение
  • 1994 = время

NER помогает машинам понять контекст документа, идентифицируя данные, относящиеся к «кто, что, когда и где». Это очень полезно для сканирования документов и ответов на чат-боты в среде обслуживания клиентов.

5. Что такое «стоп-слово»?

Такие артикли, как «the» или «an», а также другие слова-заполнители, которые связывают предложения вместе (например, «как», «почему» и «есть»), но не имеют особого дополнительного значения, часто называются «стоп». слова. Чтобы добраться до корня поиска и предоставить наиболее релевантные результаты, поисковые системы регулярно отфильтровывают стоп-слова.

Как вы оцениваете модель НЛП?

Модели НЛП следует проверять на точность, но также необходимо учитывать вероятность ложноположительных и ложноотрицательных результатов из-за сложности и нюансов языка. Поэтому, хотя точность важна, вы также хотите проверить модель НЛП, используя следующие показатели:

Отзыв = истинный положительный результат / истинный положительный результат + ложноотрицательный результат = истинный положительный результат / общий фактический положительный результат

Точность = истинный положительный результат / истинный положительный результат + ложноположительный результат = истинный положительный результат / общее прогнозируемое положительное значение

F1 — это сочетание отзыва и точности,

F1 = 2 X Точность * Отзыв / Точность + Отзыв

Что такое TF-IDF?

Термин частотно-обратная частота документа (TF-IDF) является индикатором того, насколько важным является данное слово в документе, что помогает идентифицировать ключевые слова и помогает в процессе извлечения признаков для целей категоризации. В то время как TF указывает, как часто используется данное слово или фраза (W), IDF измеряет его важность в документе. Формулы для ответа на этот вопрос интервью НЛП следующие:

  • TF(W) = Частота W в документе / Общее количество терминов в документе
  • IDF(W) = log_e (общее количество документов/количество документов, содержащих терм W)

Используя эти формулы, вы можете определить, насколько важно данное слово или фраза в документе. Если TF-IDF высокий, то частота этого термина ниже; если TF-IDF низкий, то его частота выше. Поисковые системы используют это, чтобы ранжировать сайты.

10. Что такое «скрытая семантическая индексация»?

Скрытое семантическое индексирование (LSI) используется для извлечения полезной информации из неструктурированных данных путем идентификации различных слов и фраз, которые имеют одинаковые или похожие значения в заданном контексте. Это математический метод определения контекста и получения более глубокого понимания языка, широко используемого поисковыми системами.

Надеюсь, вы, ребята, нашли это полезным. Я буду обновлять эту историю всякий раз, когда я нахожу время. Ваше здоровье !