В этой статье я буду обсуждать разницу между извлечением текста и извлечением из базы данных.
В этом цифровом мире текстовые данные есть повсюду, от твитов в твиттере до анализа текста в документах, все связано с текстом. Многие продукты, основанные на машинном обучении, эффективно используют эти текстовые данные для создания удивительных технологий, основанных на таких темах, как анализ настроений, моделирование тем, извлечение отношений и т. Д.
Поэтому, поскольку текстовые данные есть повсюду, для нас важно сконцентрироваться и создать алгоритмы, которые могут помочь нам извлекать данные за минимальное время с оптимальной релевантностью. Например, предположим, что если мы введем в браузере Google «Алгоритмы машинного обучения pdf», мы получим некоторые соответствующие документы, как показано ниже.
По запросу мы получим необходимые документы в оптимальные сроки. Итак, что мы можем сделать из этого процесса запроса, мы хотим, чтобы система давала нам результаты запроса за минимальное время, релевантность документов также становится важным фактором, вы не получите психологические документы при вводе алгоритмов машинного обучения. потому что тема не имеет большого отношения к данному запросу. Поэтому создание одной такой системы сложно из-за нескольких факторов и компромиссов, с которыми мы сталкиваемся, когда строим такие системы для большого корпуса документов или поиска текстовых данных.
Теперь, зная сложность этих систем, давайте обсудим, в чем разница между поиском текста и поиском из базы данных. Но перед этим давайте рассмотрим формальное определение этих режимов поиска.
Поиск текста - это задача, при которой система отвечает на запрос пользователя соответствующими документами. Это препроцессор для интеллектуального анализа текста.
Получение базы данных означает получение данных из системы управления базами данных, такой как ODBMS (википедия).
Теперь давайте сравним оба этих фактора по нескольким факторам:
Структура данных:
- В случае систем, основанных на поиске текста, фрагменты информации имеют неструктурированный или свободный текстовый формат. По некоторым источникам, 80% текстовых данных в Интернете неструктурированы.
- В системах баз данных, как многие из вас знают, данные хорошо структурированы. Например, посмотрите, как каждая запись хорошо структурирована на рисунке ниже.
Неоднозначность данных
- В случае систем, основанных на поиске текста, мы часто добываем данные, которые являются неоднозначными по своей природе, например, когда мы анализируем данные твиттера, мы часто сталкиваемся с множеством текстов, которые являются неоднозначными словами и иногда рассматривают только одну модальность. информации, то есть текста, сложнее понять, в каком контексте было использовано предложение.
- Поскольку базы данных имеют хорошо структурированный формат, текстовые данные, хранящиеся в этой базе данных, имеют четко определенную семантику или уровень двусмысленности очень низкий. Например, если нам нужен список студентов в базе данных колледжа, которые выбрали курс машинного обучения, мы можем легко это сделать, потому что у нас есть четко определенные семантически разделенные столбцы.
# SQl query SELECT student_name FROM college WHERE course_name is "machine learning"
Спецификация запроса
- Когда мы говорим об извлечении текста из обширного информационного пространства, у всех нас есть свои собственные запросы, то есть нет определенного способа получить конкретную информацию, мы просматриваем информационное пространство и пытаемся получить некоторые релевантные документы. Например, см. Рисунок ниже
Таким образом, спецификация для получения определенных текстовых данных не определена должным образом, или мы можем сказать, что это неполная спецификация.
- Для получения текста из базы данных у нас есть четко определенные операторы или запросы из-за хорошо структурированных данных. Итак, у него есть полная спецификация для запроса. Например, для SQL-запроса
Результаты запроса
- В случае текстовых поисковых систем мы получаем соответствующие документы в результате определенного запроса.
- В случае систем поиска базы данных у нас есть записи или записи данных, хранящиеся в базе данных, поэтому, когда мы запрашиваем, мы получаем совпадающие записи в системах поиска базы данных.
Итак, все это некоторые важные различия, которые мы должны знать, когда дело доходит до понимания концепций поисковых систем.
Надеюсь, эта статья окажется для вас полезной. Спасибо.
использованная литература
[1] Ч. Чжай и С. Массунг, Управление и анализ текстовых данных: практическое введение в поиск информации и интеллектуальный анализ текста, серия книг ACM, издательство Morgan & Claypool Publishers, 2016 г.