В продолжение моей предыдущей статьи, эта будет посвящена этапу Подготовка процесса анализа данных. Это вторая фаза 6-этапного процесса любого проекта по анализу данных.

После определения проблемы и формулировки проблемы бизнес-кейса следующим шагом является подготовка данных для анализа. Фаза подготовки — это не что иное, как сбор данных, которые мы будем анализировать. Этот шаг жизненно важен, так как он определяет размер, форму и тип данных для последующих шагов.

Типы данных

Существует 2 способа классификации данных, которые мы собираем на основе местоположения данных:

  1. Внутренние данные
  2. Внешние данные

1. Внутренние данные

Внутренние данные — это данные, которые находятся внутри организации, в которой вы работаете.

2. Внешние данные

Внешние данные — это данные, которые находятся за пределами организации, в которой вы работаете.

Другой способ классификации данных основан на праве собственности на данные. Позволь мне объяснить!

Данные подразделяются на 3 категориив зависимости от принадлежности. Категории:

  1. Собственные данные
  2. Сторонние данные
  3. Сторонние данные

1. Собственные данные

Любые данные, собираемые физическим лицом, называются данными первой стороны. Этот тип сбора данных включает в себя проведение опросов, заполнение форм и т. д. Основное преимущество этого типа сбора данных заключается в том, что требования могут быть адаптированы к постановке задачи, которую мы пытаемся решить.

Также выше релевантность данных к постановке задачи. Это уменьшает объем работы, затрачиваемой на совершенствование данных для анализа.

Примеры собственных данных включают данные из CRM, отзывы клиентов и данные опросов.

2. Сторонние данные

Вторичные данные — это данные, которые собираются и продаются другой стороной. Эта сторона может быть деловым партнером или внешним поставщиком. Вторичные данные могут быть не такими релевантными, как исходные данные, поскольку нет связи между поставщиком и вашим описанием проблемы, но это не самое худшее.

Это более быстрый способ сбора данных, но немного более рискованный, поскольку вы платите за него деньги, а данные могут оказаться не совсем полезными.

Примеры сторонних данных включают данные, приобретенные у внешних поставщиков или партнеров.

3. Сторонние данные

Сторонние данные — это данные, которые собираются из внешних источников. Эти источники включают, помимо прочего, источники из категорий первых и вторых сторон. Это могут быть опросы, формы обратной связи, данные, приобретенные у внешних сторон, и т. д. Данные из этих источников часто объединяются для получения окончательного набора данных.

Недостатком сторонних данных является то, что границы данных могут быть неточными и случайными. Это приводит к включению выбросов в данные, что впоследствии приводит к увеличению времени, затрачиваемого на фазе процесса.

Заключение

В заключение, существуют различные методы сбора данных для вашего анализа. Здесь нет универсальной ситуации. Масштаб, срочность, стоимость и другие факторы влияют на процесс сбора данных. Принимая во внимание все обстоятельства, следует иметь в виду, что качество данных определяет качество понимания, которое вы извлекаете из этих данных.

Счастливого обучения!

Ознакомьтесь с другими моими статьями на тему Блокчейн и Машинное обучение/Глубокое обучение. Дайте мне знать о любых других темах для освещения в будущем!

Смотрите мою предыдущую статью здесь 👇



Серия 101 по аналитике данных — этап «Спросить
Самый распространенный метод сбора данных — опрос кого-либо. Именно здесь начинается процесс анализа данных…adithnarasimhan.medium.com»