Сейчас? Почему? Как? С подробным учебным пособием

В 2023 году глобальная сцена будет меняться под воздействием глубоко укоренившихся технологий, в частности, приливной волны искусственного интеллекта (ИИ) и машинного обучения. Databricks позиционирует себя как ведущую платформу для обучения этих продвинутых моделей, популярность которой растет благодаря возможностям генеративного искусственного интеллекта и большой языковой модели (LLM). Приобретение Databricks компании MosaicML (ссылка) только увеличило ее возможности, позволив клиентам легко и с минимальными затратами обучать своих собственных LLM.

Учитывая эти события, становится ясно, почему наша сертификация по машинному обучению пользуется большим спросом. И организации, ищущие квалифицированных специалистов, и отдельные лица, стремящиеся подчеркнуть свою квалификацию, все больше осознают ее ценность.

Почему вы должны доверять моим советам? Отличный вопрос! У меня есть сертификаты ML Associate и Professional от Databricks, а также несколько других, включая Data Engineering и Analyst. Вы можете проверить мои учетные данные здесь (ссылка).

Почему этот блог и чем он мне полезен? Увеличьте ценность RSU для Databricks! :-D Это будет расти, меня это не волнует. Помимо шуток, моя истинная мотивация заключается в том, чтобы помогать другим в их учебном путешествии. Как опытный ветеран Databricks, я помню препятствия, с которыми я столкнулся в первые дни из-за неадекватного руководства. Таким образом, этот блог служит упрощенной пошаговой картой готовности к сертификации. Я надеюсь, что это поможет некоторым любознательным людям ориентироваться в море подготовки.

Хватит болтовни, пора перейти непосредственно к процессу сертификации. Поверьте, это увлекательное путешествие!

Обзор сертификации:

Как пройти этот сертификат? Вам нужно будет ответить на 45 вопросов MCQ в течение 90 минут с точностью более 70 %. Эти вопросы разделены на четыре столпа:

  1. Машинное обучение Databricks — 29% (13/45)
  2. Рабочие процессы машинного обучения — 29% (13/45)
  3. Искра ОД — 33% (15/45)
  4. Масштабирование моделей машинного обучения — 9% (4/45)

Источник: databricks.com

Пробные экзамены:

Бесплатный источник (1 набор): ССЫЛКА

Теперь давайте углубимся в каждую тему и подтему.

Примечание. Мне не разрешено делиться реальными экзаменационными вопросами или документами, но я могу делиться темами и учебными материалами → вести вас по правильному пути.

Столп 1: Машинное обучение Databricks — 29% (13/45)

В этом разделе рассматриваются различные особенности Databricks с упором на применение Databricks ML и среды выполнения Databricks для машинного обучения. Тематические области включают в себя:

A. Машинное обучение Databricks (кластеры, репозитории, задания)

Кластеры — см. документацию Конфигурация кластера.

  • Кластеры Databricks, включая случаи использования одного типа вместо другого.
  • Узел драйвера и рабочая заметка
  • Режим доступа к кластеру

Репозитории — читайте из ЭТОЙ и ЭТОЙ документации.

  • Управление филиалами
  • Редактировать блокноты репо
  • Зафиксировать изменения репо в GIT
  • Увидеть изменения визуально

Вакансии — читайте в документации Создание вакансий.

  • Попробуйте создать задание один раз и посмотрите, какие там есть варианты.

B. Среда выполнения Databricks для машинного обучения (основы, библиотеки)

Основы — читайте в статье Среда выполнения Databricks для машинного обучения

  • Чтение в средах выполнения Databricks ML и средах выполнения без машинного обучения; проверить разницу

Библиотеки —Чтение из Библиотеки кластера.

  • Ознакомьтесь с распространенными известными библиотеками и пакетами в средах выполнения DBR ML.
  • Если вы хотите внести некоторые изменения в библиотеку; подумайте о нескольких способах сделать это.
  • Рассмотрите возможность сотрудничества с вашим товарищем по команде.

C. AutoML (классификация, регрессия, прогнозирование)

Прочтите документацию по AutoML.

  • Изучите показатели оценки
  • Настройки по умолчанию
  • Лучшие сгенерированные модели — найдите и измените их
  • Созданные блокноты
  • API

D. Магазин функций (основы)

Прочтите документацию Feature Store.

  • Прочтите основы о том, когда и почему его использовать
  • Изучите API клиента магазина функций
  • Просто напишите 2–4 строки кода для создания (и записи) и добавления в хранилище функций.
  • А затем используйте эту FS в своей модели мл для обучения; Если вы можете сделать это, вы должны быть хороши в этой основной теме!

E. MLflow (отслеживание, модели, реестр моделей)

Читайте из документации Модели MLflow и Реестр моделей.

  • Проверьте компоненты управляемого потока машинного обучения Databricks.
  • Изучите клиентский API MLflow и найдите лучшие прогоны
  • Научитесь регистрировать метрики и посмотрите, сможете ли вы автоматически регистрировать их.
  • Напишите немного кода для Nest, сделайте несколько прогонов и изучите код.
  • Загляните в пользовательский интерфейс Model Registry и посмотрите расположение моделей; посмотрите лучший, основанный на показателях вашей отслеживаемой модели, возможно, R2
  • Изучите различные способы перехода на этап модели; Посмотрите на этапы, которые существуют.

Столп 2: рабочие процессы машинного обучения — 29% (13/45)

A. Исследовательский анализ данных (обобщенная статистика, удаление выбросов)

Сводная статистика — прочитать ЭТОТ документ и ЭТО.

  • Научитесь получать сводку из ваших фреймов данных — среднее значение, медиана, стандартное отклонение и т. д.
  • Попробуйте описать или обобщить методы; увидеть, что вы получаете по-другому

Удаление выбросов — ваша общая концепция машинного обучения.

  • Кроме того, научитесь программировать на Python — по фильтрации ваших данных.

B. Разработка признаков (вменение отсутствующих значений, горячее кодирование)

Вменение отсутствующих значений

  • Тип вменения на основе типа столбца
  • Подумайте о бизнес-контексте упущенной ценности; Может ли быть какая-то причина или предвзятость?
  • Узнать среднюю медианную моду

One-Hot-Encoding — читайте из ЭТОЙдокументации.

  • Узнайте, когда можно, а когда нельзя
  • Влияние на модели на основе дерева
  • Плотные векторы против разреженных векторов
  • Индексатор строк

C. Настройка (основы гиперпараметров, распараллеливание гиперпараметров)

Гиперпараметр — чтение из документации ЭТО и ЭТО.

  • Узнайте разницу между гиперпараметром и параметрами
  • Узнайте, как найти лучшие
  • Подробнее о Гиперопт
  • Поиск по сетке, случайный поиск… и их влияние на производительность, потребности в вычислениях

Распараллеливание гиперпараметров — прочтите подмножество из ЭТОЙдокументации.

  • Гиперопт с MLlib
  • Прочтите статью, опубликованную выше — Распараллеливайте настройку гиперпараметров с помощью scikit-learn и MLflow

D. Оценка и выбор (перекрестная проверка, показатели оценки)

Перекрестная проверка

  • Знайте разницу, когда использовать, порядок использования и потенциальное влияние или порядок — оценщик, конвейер, CV
  • Для резюме — научитесь ставить складки
  • Узнать об утечке данных
  • Узнать о вычислительной сложности

Метрики оценки — читайте здесь или выбирайте из любого понравившегося места.

  • Ознакомьтесь с различными показателями оценки для регрессии, классификации и прогнозирования, т. е. R2, MAE, RMSE, оценка F1, отзыв, точность, AUC,…
  • Для классификаций, основанных на потребностях бизнеса, какие показатели вы бы использовали

Столп 3: Spark ML — 33% (15/45)

А. Концепции распределенного машинного обучения

Прочтите часть документации ЭТО, ЭТО и ЭТО.

  • Гиперопт с MLlib
  • Прочтите статью, опубликованную выше — Распараллеливайте настройку гиперпараметров с помощью scikit-learn и MLflow
  • Знайте о моделях, которые можно распространять, а о тех, которые нельзя распространять по умолчанию.
  • Панды, Scikit Learn, MLlib, Spark ML

B. API-интерфейсы моделирования Spark ML (разделение данных, обучение, оценка, оценщики и преобразователи, конвейеры)

Читать здесь

С. Гиперопт

Читайте из ЭТОЙдокументации.

  • Когда использовать, а когда нет
  • Параметры, которые вы можете изменить

D. API Pandas в Spark

Читайте из ЭТОЙдокументации.

  • Знайте его работу
  • Когда использовать Pandas API в Spark VS Pandas VS Spark
  • Подумайте о сценариях вашего проекта, когда каждый из них будет применим

E. Pandas UDF и Pandas Function API

Прочтите документацию Pandas UDFs и Pandas Function APIs.

Столп 4: Масштабирование моделей машинного обучения — 9% (4/45)

A. Распределенная линейная регрессия и деревья решений

Прочтите ЭТУи ЭТУдокументацию.

  • Узнайте, как Spark справляется с этим
  • Изучите код и выполните его один раз, чтобы проверить.

B. Методы сборки (бэггинг, бустинг)

Ансамблевое обучение в основном включает в себя комбинацию нескольких различных моделей, совокупная прогностическая сила которых превышает прогностическую силу любой отдельной модели.

  • Теперь узнайте, как маленькие модели можно соединять друг с другом — последовательно или параллельно.
  • Свести к минимуму переоснащение
  • Когда вы сталкиваетесь со значительным количеством выбросов

И с этим вы успешно прошли весь учебный план. Отличная работа! Пришло время рискнуть, либо сразу погрузиться в экзамен, либо начать с нескольких пробных экзаменов. У тебя это полностью получилось!

Поделитесь своим отзывом здесь, как только вы это сделаете. Я буду ждать!

Я хотел бы поблагодарить — Брианну Бартон и Юссефа Мрини за то, что они позволили мне позаимствовать их собранное содержимое.

Подписывайтесь на меня здесь и в LinkedIn для получения дополнительной информации. Адьос пока!