Недавно я прослушал целую лекцию по студии Azure ML и пытался понять, насколько хорошо я с ней справлюсь. Раньше я занимался анализом данных, когда моя компания была еще активна. Это был анализ розничных данных супермаркета. Я немного изменил данные, чтобы они соответствовали реальным данным, но это не настоящие. Я хотел проверить, насколько быстро я смогу воспроизвести работу в студии машинного обучения Azure для тех, кто не имеет предварительных знаний об этом.

На первый взгляд он был быстрым, элегантным и стабильным. Частично из-за того, что лекция была настолько хороша, что сделала ее одним из самых простых доступных инструментов (вам следует пройти курс Основы науки о данных). Но попытка разобраться с этим показала мне, что это не так просто, что любой может напрямую стать полноценным специалистом по данным. Мне приходилось иногда с ним играться, прежде чем я действительно мог с ним справиться.

По сути, это просто перетаскивание, очень просто. Но для того, чтобы перетаскивать, нам нужно знать, что перетаскивать. Некоторые методы должны строго соблюдаться, чтобы управлять вашим процессом так, как мы этого хотим. Есть некоторые задачи, которые я обнаружил, что не могу сделать сразу.

  1. Мне не удалось найти компонент, который может отфильтровывать строки, в которых значения равны 0 (это повлияло на мое подразделение). У меня была задача отфильтровать те строки, в которых уровень стоимости равен 0 (ошибка опечатки или, возможно, элемент свободен с чем-то другим). Если бы я хотел узнать процент прибыли отдельных компонентов, я не мог бы использовать 0. Это было исправлено с помощью двух компонентов «Значения обрезки» и «Очистить отсутствующие данные».
  2. Мне не удалось найти компонент для выбора строк на основе сравнения ключей другого набора данных. Тот же пример, что и выше. Я смог отфильтровать строки на основе правила, но затем, чтобы объединить его, я не нашел для него компонента.

Еще одна проблема, с которой я столкнулся, заключалась в том, что я не мог видеть точечную диаграмму при визуализации данных. Я думал, что это может быть из-за подписки, я использовал бесплатную версию. Но настоящая причина заключалась в том, что студия визуализации Azure ML не могла обрабатывать данные такого размера. У меня было около 700 тыс. строк, хотя нормализованные данные не отображались. Но когда количество строк достигает уровня ниже уровня, автоматически отображается точечная диаграмма.

Еще одна вещь, которую я заметил, заключалась в том, что выполнение Python в Azure ML Studio немного медленнее по сравнению с тем, как оно выполняется локально. Но встроенные компоненты работают быстро. Поэтому по возможности желательно использовать по максимуму те компоненты, которые есть в наличии.

Сейчас я не продвинулся далеко со студией Azure ML. Я смог закончить только предварительную обработку своих данных.

На рисунке показана схема высокого уровня моих операций. Пошаговая предварительная обработка показана ниже.

  1. Удалите строки с нормой затрат 0 из данных, сначала сбросив нулевые значения как отсутствующие значения, а затем очистив отсутствующие значения в данных.
  2. Используйте «Применить математическую операцию». Вычтите ставку из ставки себестоимости, найдите прибыль для отдельного продукта и добавьте ее к данным в виде столбца.
  3. Используйте «Применить математическую операцию», чтобы найти процент прибыли, разделив ставку на ставку затрат.
  4. Нормализуйте все данные, кроме количества. Количество сильно колеблется, так как смешанные продукты, такие как бумага, могут доходить до 500, а такие продукты, как ручка, могут быть только 1 в количестве. Так что в настоящее время сохраняем количество без изменений и нормализуем остальные данные.
  5. Последние 3 выполнения Python должны определить 3 потока для продвижения вперед. Я буду группировать данные — на основе элементов, на основе идентификатора счета и на основе даты (я могу снова разделить дату).

Я начну свою работу с этими данными позже и добавлю их во вторую часть своей серии. Спасибо.

Доступна Часть 2 эксперимента.