Мы генерируем все больше и больше неструктурированных текстовых данных. Основными двумя источниками являются:

  1. Естественный язык — Боты
  2. Социальные медиа

На помощь приходят подходы машинного обучения. Давайте рассмотрим некоторые приложения машинного обучения для анализа текстовых данных.

  1. Преобразование речи в текст и преобразования текста в речь
  2. Понимание естественного языка (NLU)
  3. Извлечение сущности
  4. Классификация домена/намерения для естественного языка
  5. Кластеризация документов
  6. Классификация документов
  7. Тематическое моделирование
  8. Извлечение ключевых слов
  9. Анализ настроений
  10. Сходство документов

Популярные услуги НЛУ:

  • Служба распознавания речи Microsoft (LUIS)
  • Диалоговый поток Google (Api.ai)
  • Лекс Амазонки
  • Разговор IBM Watson
  • Wit.ai от Facebook

Мы подробно рассмотрим каждый из вышеперечисленных в следующих постах. Быть в курсе.