В продолжение моей предыдущей статьи, эта будет посвящена этапу Подготовка процесса анализа данных. Это вторая фаза 6-этапного процесса любого проекта по анализу данных.
После определения проблемы и формулировки проблемы бизнес-кейса следующим шагом является подготовка данных для анализа. Фаза подготовки — это не что иное, как сбор данных, которые мы будем анализировать. Этот шаг жизненно важен, так как он определяет размер, форму и тип данных для последующих шагов.
Типы данных
Существует 2 способа классификации данных, которые мы собираем на основе местоположения данных:
- Внутренние данные
- Внешние данные
1. Внутренние данные
Внутренние данные — это данные, которые находятся внутри организации, в которой вы работаете.
2. Внешние данные
Внешние данные — это данные, которые находятся за пределами организации, в которой вы работаете.
Другой способ классификации данных основан на праве собственности на данные. Позволь мне объяснить!
Данные подразделяются на 3 категориив зависимости от принадлежности. Категории:
- Собственные данные
- Сторонние данные
- Сторонние данные
1. Собственные данные
Любые данные, собираемые физическим лицом, называются данными первой стороны. Этот тип сбора данных включает в себя проведение опросов, заполнение форм и т. д. Основное преимущество этого типа сбора данных заключается в том, что требования могут быть адаптированы к постановке задачи, которую мы пытаемся решить.
Также выше релевантность данных к постановке задачи. Это уменьшает объем работы, затрачиваемой на совершенствование данных для анализа.
Примеры собственных данных включают данные из CRM, отзывы клиентов и данные опросов.
2. Сторонние данные
Вторичные данные — это данные, которые собираются и продаются другой стороной. Эта сторона может быть деловым партнером или внешним поставщиком. Вторичные данные могут быть не такими релевантными, как исходные данные, поскольку нет связи между поставщиком и вашим описанием проблемы, но это не самое худшее.
Это более быстрый способ сбора данных, но немного более рискованный, поскольку вы платите за него деньги, а данные могут оказаться не совсем полезными.
Примеры сторонних данных включают данные, приобретенные у внешних поставщиков или партнеров.
3. Сторонние данные
Сторонние данные — это данные, которые собираются из внешних источников. Эти источники включают, помимо прочего, источники из категорий первых и вторых сторон. Это могут быть опросы, формы обратной связи, данные, приобретенные у внешних сторон, и т. д. Данные из этих источников часто объединяются для получения окончательного набора данных.
Недостатком сторонних данных является то, что границы данных могут быть неточными и случайными. Это приводит к включению выбросов в данные, что впоследствии приводит к увеличению времени, затрачиваемого на фазе процесса.
Заключение
В заключение, существуют различные методы сбора данных для вашего анализа. Здесь нет универсальной ситуации. Масштаб, срочность, стоимость и другие факторы влияют на процесс сбора данных. Принимая во внимание все обстоятельства, следует иметь в виду, что качество данных определяет качество понимания, которое вы извлекаете из этих данных.
Счастливого обучения!
Ознакомьтесь с другими моими статьями на тему Блокчейн и Машинное обучение/Глубокое обучение. Дайте мне знать о любых других темах для освещения в будущем!
Смотрите мою предыдущую статью здесь 👇
Серия 101 по аналитике данных — этап «Спросить
Самый распространенный метод сбора данных — опрос кого-либо. Именно здесь начинается процесс анализа данных…adithnarasimhan.medium.com»