Базовое понимание основ науки о данных

«Ученый по обработке данных — это тот, кто разбирается в статистике лучше любого инженера-программиста и лучше любого специалиста в области статистики».

«АНАЛИТИК ДАННЫХ» смотрит на «прошлые данные» и «что происходит, когда происходит».
DA ПРЕДОСТАВЛЯЕТ «СВОДКУ» ДАННЫХ.

«УЧЕНЫЕ ПО ДАННЫМ» ПРЕДОСТАВЛЯЮТ «ПРОГНОЗЫ» В ОТНОШЕНИИ «ДАННЫХ» И СОЗДАЮТ ЛУЧШУЮ МОДЕЛЬ ДЛЯ ДАННЫХ.

Проблемы в ML: -

Десять важных моментов, которые нужно знать при выполнении машинного обучения:

- 1 DATA  COLLECTION
- 2 INSUFFICIENT DATA
- 3 NON REPRESENTATIVE DATA
- 4 POOR QUALITY DATA
- 5 IRREVELANT FEATURES
- 6 OVERFITTING
- 7 UNDERFITTING
- 8 SOFTWARE INTEGRATION
- 9 OFFLINE LEARNING/DEPLOYMENT
- 10 COST INVOLVED

1- Сбор данных

Два способа сбора данных -

API
ВЕБ-ЧИСТКА

2- Недостаточно данных / помеченных данных

Больше данных имеет значение в любом случае, например, если вы создали две модели, одну с меньшим количеством данных, и модель работала хорошо, а вторая модель была создана с большими данными, где модель не дала хороших результатов по сравнению с первой моделью, но поскольку данные были там больше, чем первая, поэтому выберет вторая модель.

Но в реальной жизни сбор размеченных данных — большая проблема. например, вам нужно создать модель классификации изображений, для этого вы можете выбирать данные путем веб-скраппинга, но маркировка переменных является большой задачей, поскольку маркировка готовых данных очень мала.

3- Нерепрезентативные данные

когда у вас есть нерепрезентативные данные, это означает, что вы собираетесь решить мою проблему, но ваши данные наполовину. например, вы проводите опрос, какая политическая партия побеждает, и вы собираете данные не по всей Индии, а из некоторых мест, где люди предвзято относятся к одной партии, которая называется (шум выборки), это необъективные данные, и ваша модель не даст надлежащего Результаты.

4 — Данные низкого качества

Неформатированные данные, резкие данные, выбросы и пропущенные значения — все это, когда у нас есть данные, мы можем сказать, что это данные низкого качества.

5- Нерелевантные функции

Признаки означают — COLUMN Столбец, который не способствует нахождению каких-либо значений. Например, «МУСОР В МУСОР» — допустим, вы организуете беговой марафон, пригласили людей для участия и собираете некоторые данные на основе (роста, веса, возраста и местоположения) — это переменные, которые вы собрали, и теперь вы можете думать о местоположении. переменная не дает никакого результата о том, кто может пробежать марафон или нет. так что местоположение не имеет значения.

также иногда вы комбинируете две переменные и создаете одну новую переменную, поскольку обе функции в конечном итоге говорят одно и то же. например, рост, вес, поэтому вы создали новую переменную «ИМТ», которая по-прежнему дает то же значение для данных.

6 — Переоснащение

вы обучили модель ML, и ваша модель только что изучила все данные, когда вы вводите новые данные в модель, она не работает должным образом, это называется переоснащением. бывший — я поехал в Европу и пошел за покупками в один магазин и обнаружил, что цена очень высока, поэтому я решил и дал отзыв, что Европа очень дорогая, что неправильно, основываясь на одном мнении. это переоснащение.

7 — Недооснащение

Противоположность переоснащению

8 — Интеграция программного обеспечения

в конце, когда вы будете работать над моей моделью, она будет решать проблемы пользователей, работая как программная часть.
поэтому, когда вы создали мл после создания модели, следующая работа — вам нужно поместить вашу модель в программное обеспечение.
поэтому интеграция моделей машинного обучения в программное обеспечение — сложная задача. бывший. в java это было очень сложно. тензор в порядке.
Одна модель машинного обучения не будет хорошо работать на каждой платформе. поэтому вам следует проверить свою модель, преобразовав ее в веб-сайт и преобразовав в приложение для Android. на данный момент это сложная работа по запуску модели в программном обеспечении.

9 — Пакетное обучение / автономное обучение

В пакетном/автономном режиме модель обучения не обновляется онлайн.

10 — Затраченные затраты

Когда вы развертываете модель ежедневно и более 10 000 пользователей ежедневно используют вашу модель и обновляют вашу модель на сервере, это требует огромных затрат. Так что не создавайте безосновательную модель

После создания модели правильно разверните ее на сервере и отправьте пользователю для проверки работы вашей модели. этот процесс подпадает под ML OPS. который работает на серверах, где развертывается модель обновления модели, запускается модель и проверяется на основе использования пользователем.

ПРИМЕНЕНИЕ ОД

Есть так много примеров, когда ML используется. Я сосредоточусь на 5 примерах: -

1- Retail (Amazon / Big bazar)
2 - Banking and Finance
3- Transport - OLA
4 - Manufacturing - Tesla
5- COnsumer Internet - Twitter

1- Розничная торговля (Amazon/Большой базар)

Розничная торговля — большой рынок для Ml. например, использование амазонки мл. Каждый год у амазонки большие продажи в Индии, которые происходят за счет увеличения продаж, и если у вас есть продукт на 6 лакхов, то как вы узнаете, какой запас продукта необходим для увеличения запасов, весь продукт имеет очень огромную стоимость. поэтому специалисты по данным «используют все прошлые данные о продажах, изучают поведение данных и приходят к выводу, какие данные о продуктах мы можем увеличить.

Вы думали, почему большой базар или любой другой магазин запрашивает все ваши личные данные перед покупкой чего-либо? потому что они анализируют на основе вашего покупательского поведения и создают ваш профиль, и на основе вашего интереса ваш номер предоставляется той же компании, поэтому вы получаете случайный звонок, электронное письмо или сообщение, не проверяя их страницу. ex — вы покупаете продукты для фитнеса в основном, поэтому, основываясь на вашем поведении, большой базар или amazon дали ваш номер любому тренажерному залу или фитнес-компании. для фитнес-компаний это очень качественные данные по сравнению с отправкой и сбором данных по электронной почте.
Вам было любопытно, как каждый товар распределяется в любом магазине, таком как Walmart, большой базар, больше, магазины Reliance и т. Д. Все это делается путем изучения данных, какой товар может сочетаться с каким товаром для увеличения продаж с помощью «ОБУЧЕНИЕ НА ОСНОВЕ СООТВЕТСТВУЮЩИХ ПРАВИЛ », который является моделью ML, также путем нахождения корреляций между двумя элементами.

2 — Банковское дело и финансы

В банковском деле используется очень высокая базовая модель ML для многих вещей:

1- одобрение кредита клиенту путем сравнения поведения клиентов
2- выделение кредитной карты на основе проверки поведения клиентов
3- где можно открыть новую ветку
4- какой сегмент клиент может предложить продукты.

3- Транспорт — OLA

Вы когда-нибудь задумывались, почему цена ola зависит от времени, например, ранним утром или поздней ночью цена удваивается? потому что есть приложение, которое используется водителями ola или uber, которое разделено на красные и зеленые области, которые показывают, где клиент находится высоко, а такси низко, поэтому uber, ola предлагает водителям такси двойную плату за поездку в это место и выбрать клиента. и эти деньги платит клиент, поэтому цены выше в определенное время. эта зона поиска определяется поведением клиентов с использованием модели мл.
Swiggy отправляет 3 заказа вместе, что делается только путем анализа расстояния клиента на основе мл.
поэтому в логистике мл обеспечивает лучшее решение.

4 — Производство — Тесла

ML также широко используется в производстве, поскольку бывшая TESLA использует автоматизацию в производстве.

Как Тесла может узнать, какая часть машины не работает? Таким образом, в тот же день автомобиль не будет создан, поскольку Tesla уже предоставляет продукт покупателю на основе даты, поэтому, если производство останавливается даже на один день, продажи продукта также увеличиваются в день, что плохо для имиджа названия продукта. поэтому tesla использует «интернет-датчик» «IOT» на своей производственной машине, который проверяет постоянные характеристики машины, такие как температура, скорость вращения и давление. если какое-либо устройство выходит из строя, поэтому, если возникает какой-либо сигнал, эта конкретная машина проверяется, прежде чем она выйдет из строя. этот процесс называется «прогнозирование технического обслуживания».

5- Потребительский Интернет — Твиттер

Twitter — одна из тех компаний, которая очень старая, но не прибыльная по сравнению с Facebook, LinkedIn, YouTube и Twitter, не имеющая активного источника дохода. Глава Twitter решил использовать твиты и проводить анализ настроений в твитах и использовать этот план для заработка.

Анализ настроений означает проверку настроений с помощью слов и проверку того, дает ли пользователь положительные или отрицательные отзывы, выбирая слова из отрицательных и положительных слов.
поэтому Twitter использовал анализ настроений и зарабатывал деньги.
во время выборов люди делают много твитов, а также используют хэштеги, поэтому Twitter собирает все твиты, собирая хэштеги и анализируя опросы, положительные для какого лидера или отрицательные для какого лидера, так что это очень реальные данные, и люди настоящие, и они давая ответ, основанный на их собственной оригинальной личности и основе взгляда на мыслительный процесс. и Twitter анализирует эти данные, поэтому эти данные могут быть проданы Twitter биржевым брокерам, таким как Morgan Stanley, JPMorgan и т. д., которые помогают этой биржевой брокерской компании вкладывать деньги в те компании, которые поддерживают ведущую партию. поэтому, когда партия побеждает, и акции компании, поддерживающей партию, увеличиваются. и компания становится надежной для предоставления более правильных прогнозов. поэтому эти компании отдают Twitter процент прибыли, полученной в результате их анализа настроений по данным. Таким образом, машинное обучение помогает потребительским интернет-компаниям.

MLDLC («Жизненный цикл разработки машинного заработка»)

КАК ML Do обрабатывает данные —

1- Сформулируйте проблему
2- Сбор данных
3- Предварительная обработка данных
4- Исследовательский анализ данных
5- Разработка и выбор функций
6- Оценка обучения модели
7- Развертывание модели
8- Тестирование
9 — оптимизировать

1- Сформулируйте проблему

Если вам нужно создать модель, вы должны подумать о нескольких вещах, прежде чем начинать модель - подумайте обо всех проблемах.

Сколько ни один сотрудник не будет работать
Модель находится под присмотром или без присмотра
Сколько затрат это займет
Модель пакетного обучения или онлайн-модель
Какой алгоритм поможет
Где вы собираете данные после того, как сделаете все, что мы думаем для второго шага.

2- Сбор данных

В конкретных компаниях, где сбор данных затруднен:

через API мы можем собирать данные, используя некоторый код Python
Веб-скраппинг данных с веб-сайтов компаний extrivago дает данные об отелях
Хранилище данных создает (ETL) и извлекает данные отсюда через кластер.

3- Предварительная обработка данных

Данные обычно имеют нечистую структуру, зашумленные данные, выбросы, количество мест, откуда поступают данные.

здесь мы должны удалить «дубликаты», удалить «отсутствующие значения», удалить «выбросы» и «значения масштабирования» для выравнивания параметров данных, выполняя «стандартизацию».

4- Исследовательский анализ данных

EDA делают для анализа данных. найти взаимосвязь между «входными» и «выходными» данными, проведя множество экспериментов с визуализацией данных, «одномерный анализ» означает, как работают отдельные переменные (среднее значение, sd, какая кривая следует)

«Двусторонний анализ» — это то, как две переменные работают вместе.
«многофакторный анализ» проверка производительности с несколькими переменными.
«Обнаружение выбросов» выполняется в процессе EDA.

5- Разработка и выбор функций

Эта функция означает «ВХОДНАЯ колонка».
выходной столбец зависит от входного столбца.
мы также создаем новый столбец на основе сходства двух переменных и удаляем старый.
мы также можем вносить изменения в текущие функции в зависимости от характера необходимой работы.
ненужные функции можно удалить, что бесполезно для поиска результатов.

6- Оценка обучения модели

После того, как все данные очищены и все функции созданы, вы выбираете разные «АЛгоритмы» для «ДАННЫХ», чтобы проверить, какой из них лучше всего работает с данными.
В процессе оценки мы используем «матрицу эффективности», которая различается в зависимости от алгоритма.
оценка модели помогает узнать, какую модель можно выбрать.
затем выберите модель и выполните наилучшую настройку гиперпараметров модели, чтобы ее функции работали хорошо.
Иногда методы ансамбля объединяют несколько моделей, чтобы получить хорошую модель.
так что в конце у вас есть очень мощная модель, которая хороша для «предсказания».

7- Развертывание модели

Теперь, после создания модели, вам нужно развернуть эту модель для конечного пользователя. для развертывания модели необходимо преобразовать ее в «Программное обеспечение».
из «модели» мы делаем «бинарный файл» с помощью «pickle» или других «инструментов» и конвертируем его в «API»

. «API» дает ответ в формате «JSON».

. и этот ответ в формате JSON показал пользователю.

. этот процесс называется развертыванием модели.

для развертывания мы используем такие серверы, как — «herikoo», «AWS», «GCP», «А AZURE».
на сервере в масштабе вы запускаете модель, выполняете резервное копирование модели, резервное копирование данных, настройку автоматизации и решаете, как часто следует переобучать модель, чтобы избежать «загнивания» модели.

8- Тестирование

затем вы проводите бета-тестирование, например, «A/B-тестирование» на некоторых доверенных пользователях, чтобы сначала проверить, как работает модель. если у него есть какие-то проблемы, вы снова выполняете процесс MLDLC, чтобы реформировать модель.

9- Оптимизировать

на сервере в масштабе вы запускаете модель, выполняете резервное копирование модели, резервное копирование данных, настройку автоматизации и решаете, как часто следует переобучать модель, чтобы избежать «загнивания» модели.
время автоматизации решит, еженедельно, ежемесячно и ежечасно обучаемая модель.