AWS стремится предоставить машинное обучение каждому разработчику и аналитику бизнес-аналитики с помощью SageMaker Canvas.

SageMaker Canvas помогает бизнес-аналитикам с помощью визуального интерфейса укажи и щелкни для создания прогнозов машинного обучения без каких-либо знаний в области машинного обучения или даже одной строки кода. Работает с любыми табличными данными, которые можно импортировать с локальной машины, S3, RedShift и Snowflake.

Случаи использования:

  1. Прогнозировать отток клиентов
  2. Оптимизация цены и дохода
  3. Эффективно планируйте запасы
  4. Мультиклассовая классификация

Как начать создавать модели машинного обучения?

Перейдите в раздел Консоль SageMaker Canvas. При первом посещении этой страницы вам потребуется выполнить начальную настройку. После первоначальной настройки вы увидите что-то похожее на изображение ниже. Нажмите Открыть холст.

Запуск приложения холста занимает около 5–7 минут. После запуска приложения вы увидите, как показано ниже. Он будет иметь много предварительно загруженных наборов данных для опробования.

У нас есть набор данных, состоящий из заголовков и описаний новостей, которые разделены на 4 категории: 1 Мир, 2 Спорт, 3 Бизнес, 4 Наука и технологии. . Это будет проблема многоклассовой классификации, и мы попытаемся решить ее с помощью SageMaker Canvas. Чтобы импортировать данные, нажмите кнопку Импорт в правом верхнем углу. Вы получите всплывающее окно, как показано ниже.

Вы можете импортировать данные из любого из поддерживаемых источников. Я импортировал из S3. После выбора файла нажмите «Импорт данных». Вы сможете просмотреть данные и убедиться, что данные импортированы правильно.

Убедившись, что данные верны, вы можете нажать «Создать модель» в правом верхнем углу. Он спросит у вас имя, которое вы хотите дать модели. Я дал имя моей модели как «CanvasModel». Это будет выглядеть так, как показано ниже.

Вам нужно будет выбрать целевой столбец с левой стороны. Целевые столбцы – это столбец в вашем наборе данных, для которого вы хотите делать прогнозы. SageMaker Canvas просматривает данные целевого столбца и рекомендует тип модели, которую можно обучить.

Ниже вы также можете увидеть визуализатор данных. Это поможет вам получить графическое представление информации и данных. Он предоставляет доступный способ увидеть и понять тенденции, выбросы и закономерности в данных.

Вы можете выбрать Предварительный просмотр модели перед созданием модели, чтобы понять, насколько хорошо модель может делать прогнозы. SageMaker Canvas автоматически обрабатывает отсутствующие значения в наборе данных во время построения модели. Он выводит отсутствующие значения, используя соседние значения, которые присутствуют в наборе данных.

После того, как вы выбрали тип модели, визуализировали свои данные и предварительно просмотрели модель, вы можете приступить к созданию фактической модели. Существует 2 способа построения модели в SageMaker Canvas.

  1. Быстрая сборка. На сборку модели уходит около 15–20 минут, но она не очень точна. Кроме того, ваш входной набор данных может содержать не более 50 000 строк.
  2. Стандартная сборка — занимает около 90–100 минут. Он имеет более высокую точность, чем быстрая сборка.

Как только вы выберете любую из вышеперечисленных сборок, начнется сборка модели. После завершения сборки это будет выглядеть примерно так. Он покажет вам точность модели вверху. Это также дает вам представление о модели.

Вы можете нажать «Прогнозировать», там вы получите возможность одиночного прогнозирования или массового прогнозирования. Давайте нажмем на одиночный прогноз, и вы увидите что-то вроде этого.

В приведенном выше примере я поставил значения, как показано ниже:

title: Sachin ready for Nagpur
description: Sachin Tendulkar will play in the third Test against Australia beginning Tuesday. That the master batsman has been declared fit to play in the Test was announced by physio Andrew Leipus of the Indian cricket team.

Он предсказывает его как 2 с вероятностью 75%. Согласно набору данных, значения для прогнозирования следующие: 1-Мир, 2-Спорт, 3-Бизнес, 4-Наука/Технология. Таким образом, он правильно смог предсказать вышеприведенную новость как "Спорт".

Плюсы:

  1. Очень легко создавать модели ML с интуитивно понятным пользовательским интерфейсом.
  2. Код не требуется
  3. Возможность визуализации данных
  4. Возможность одиночного и группового прогнозирования
  5. Canvas поддерживает следующие типы данных категориальный, числовой, текстовый и дата-время.

Минусы:

  1. Цена очень высока. Обучение одной модели с миллионом ячеек стоит 30 долларов.
  2. Поддерживает только табличные данные.

Если вам понравился этот пост, пожалуйста 👏👏за него, подписывайтесь на меня, если хотите читать больше таких постов!

Твиттер: https://twitter.com/IVaibhavMalpani
LinkedIn: https://www.linkedin.com/in/ivaibhavmalpani/