В своем последнем посте я попытался объяснить, что такое визуальная аналитика, и на некоторых примерах показал, чем она может отличаться от визуализации данных в целом. Сегодня мы поговорим об одной конкретной области исследований в рамках Visual Analytics, т. е. Visual Text Analytics. Этот учебник будет посвящен мельчайшим деталям этой области исследований, и в моем следующем посте я сделаю пошаговое руководство о том, как вы можете на самом деле разработать приложение.
ВИЗУАЛЬНАЯ АНАЛИТИКА ТЕКСТА:
В связи со всплеском создания цифрового текста в Интернете в виде обзоров продуктов, описаний, отзывов и т. д. возникла потребность в использовании методов интеллектуального анализа текста для понимания и анализа этих неструктурированных данных. . Обычно организации хотели бы иметь возможность идентифицировать шаблоны, конкретные ключевые слова (которые оказывают влияние), сходства и т. д. с помощью анализа текста. Однако задача анализа скрытых шаблонов в больших зашумленных текстовых корпусах может быть огромной и временами пугающей для аналитиков. Чтобы смягчить проблему в обсуждении, эта область исследований направлена на объединение интеллектуального анализа текста, визуализации текста и взаимодействия человека с компьютером для понимания данных.
РЕШЕНИЕ:
В прошлом я создал пару приложений Visual Text Analytics с использованием стека технологий, таких как — D3.js, Plotly/Dash, Python Flask (для API) и т. д., и подумал, что может быть интересно попробовать разработать приложение с использованием Решения Qlik Sense с открытым исходным кодом. Прежде всего, для этого блога мы рассмотрим два фреймворка Qlik — Nebula.jss и Picasso.js. Если вы не знаете о них, вот краткий обзор:

Итак, что будет строиться?
Моя идея состоит в том, чтобы создать исследовательское приложение визуальной аналитики, чтобы получать информацию из набора данных Cannabis. Это будет полнофункциональное приложение для анализа различных компонентов, таких как "Эффекты", "Ароматы", "Типы штаммов каннабиса". и "Описание". В этом конкретном наборе данных поле Описание является текстовым и содержит сводку по конкретному штамму. Итак, это поле будет нашим фокусом для части текстовой аналитики. Ниже приведен пример поля Описание:
Штамм (A-10): A-10 имеет землистый, гашишный вкус, который придает телу очень тяжелый камень. часто используется для лечения бессонницы и хронической боли.
Чтобы приступить к разработке приложения, я разработал высокоуровневую архитектуру для отображения различных компонентов, задействованных в создании приложения. Надеюсь, это даст лучшее представление о наших следующих шагах.

Мы подробно разберем каждый из этих компонентов в нашем следующем уроке и увидим их в действии, когда закончим разработку приложения.