Сертификация Databricks Machine Learning Associate: подробное учебное руководство

Сейчас? Почему? Как? С подробным учебным пособием

В 2023 году глобальная сцена будет меняться под воздействием глубоко укоренившихся технологий, в частности, приливной волны искусственного интеллекта (ИИ) и машинного обучения. Databricks позиционирует себя как ведущую платформу для обучения этих продвинутых моделей, популярность которой растет благодаря возможностям генеративного искусственного интеллекта и большой языковой модели (LLM). Приобретение Databricks компании MosaicML (ссылка) только увеличило ее возможности, позволив клиентам легко и с минимальными затратами обучать своих собственных LLM.

Учитывая эти события, становится ясно, почему наша сертификация по машинному обучению пользуется большим спросом. И организации, ищущие квалифицированных специалистов, и отдельные лица, стремящиеся подчеркнуть свою квалификацию, все больше осознают ее ценность.

Почему вы должны доверять моим советам? Отличный вопрос! У меня есть сертификаты ML Associate и Professional от Databricks, а также несколько других, включая Data Engineering и Analyst. Вы можете проверить мои учетные данные здесь (ссылка).

Почему этот блог и чем он мне полезен? Увеличьте ценность RSU для Databricks! :-D Это будет расти, меня это не волнует. Помимо шуток, моя истинная мотивация заключается в том, чтобы помогать другим в их учебном путешествии. Как опытный ветеран Databricks, я помню препятствия, с которыми я столкнулся в первые дни из-за неадекватного руководства. Таким образом, этот блог служит упрощенной пошаговой картой готовности к сертификации. Я надеюсь, что это поможет некоторым любознательным людям ориентироваться в море подготовки.

Хватит болтовни, пора перейти непосредственно к процессу сертификации. Поверьте, это увлекательное путешествие!

Обзор сертификации:

Как пройти этот сертификат? Вам нужно будет ответить на 45 вопросов MCQ в течение 90 минут с точностью более 70 %. Эти вопросы разделены на четыре столпа:

Машинное обучение Databricks — 29% (13/45)
Рабочие процессы машинного обучения — 29% (13/45)
Искра ОД — 33% (15/45)
Масштабирование моделей машинного обучения — 9% (4/45)

Источник: databricks.com

Пробные экзамены:

— Бесплатный источник (1 набор): ССЫЛКА

Теперь давайте углубимся в каждую тему и подтему.

Примечание. Мне не разрешено делиться реальными экзаменационными вопросами или документами, но я могу делиться темами и учебными материалами → вести вас по правильному пути.

Столп 1: Машинное обучение Databricks — 29% (13/45)

В этом разделе рассматриваются различные особенности Databricks с упором на применение Databricks ML и среды выполнения Databricks для машинного обучения. Тематические области включают в себя:

A. Машинное обучение Databricks (кластеры, репозитории, задания)

Кластеры — см. документацию Конфигурация кластера.

Кластеры Databricks, включая случаи использования одного типа вместо другого.
Узел драйвера и рабочая заметка
Режим доступа к кластеру

Репозитории — читайте из ЭТОЙ и ЭТОЙ документации.

Управление филиалами
Редактировать блокноты репо
Зафиксировать изменения репо в GIT
Увидеть изменения визуально

Вакансии — читайте в документации Создание вакансий.

Попробуйте создать задание один раз и посмотрите, какие там есть варианты.

B. Среда выполнения Databricks для машинного обучения (основы, библиотеки)

Основы — читайте в статье Среда выполнения Databricks для машинного обучения

Чтение в средах выполнения Databricks ML и средах выполнения без машинного обучения; проверить разницу

Библиотеки —Чтение из Библиотеки кластера.

Ознакомьтесь с распространенными известными библиотеками и пакетами в средах выполнения DBR ML.
Если вы хотите внести некоторые изменения в библиотеку; подумайте о нескольких способах сделать это.
Рассмотрите возможность сотрудничества с вашим товарищем по команде.

C. AutoML (классификация, регрессия, прогнозирование)

Прочтите документацию по AutoML.

Изучите показатели оценки
Настройки по умолчанию
Лучшие сгенерированные модели — найдите и измените их
Созданные блокноты
API

D. Магазин функций (основы)

Прочтите документацию Feature Store.

Прочтите основы о том, когда и почему его использовать
Изучите API клиента магазина функций
Просто напишите 2–4 строки кода для создания (и записи) и добавления в хранилище функций.
А затем используйте эту FS в своей модели мл для обучения; Если вы можете сделать это, вы должны быть хороши в этой основной теме!

E. MLflow (отслеживание, модели, реестр моделей)

Читайте из документации Модели MLflow и Реестр моделей.

Проверьте компоненты управляемого потока машинного обучения Databricks.
Изучите клиентский API MLflow и найдите лучшие прогоны
Научитесь регистрировать метрики и посмотрите, сможете ли вы автоматически регистрировать их.
Напишите немного кода для Nest, сделайте несколько прогонов и изучите код.
Загляните в пользовательский интерфейс Model Registry и посмотрите расположение моделей; посмотрите лучший, основанный на показателях вашей отслеживаемой модели, возможно, R2
Изучите различные способы перехода на этап модели; Посмотрите на этапы, которые существуют.

Столп 2: рабочие процессы машинного обучения — 29% (13/45)

A. Исследовательский анализ данных (обобщенная статистика, удаление выбросов)

Сводная статистика — прочитать ЭТОТ документ и ЭТО.

Научитесь получать сводку из ваших фреймов данных — среднее значение, медиана, стандартное отклонение и т. д.
Попробуйте описать или обобщить методы; увидеть, что вы получаете по-другому

Удаление выбросов — ваша общая концепция машинного обучения.

Кроме того, научитесь программировать на Python — по фильтрации ваших данных.

B. Разработка признаков (вменение отсутствующих значений, горячее кодирование)

Вменение отсутствующих значений —

Тип вменения на основе типа столбца
Подумайте о бизнес-контексте упущенной ценности; Может ли быть какая-то причина или предвзятость?
Узнать среднюю медианную моду

One-Hot-Encoding — читайте из ЭТОЙдокументации.

Узнайте, когда можно, а когда нельзя
Влияние на модели на основе дерева
Плотные векторы против разреженных векторов
Индексатор строк

C. Настройка (основы гиперпараметров, распараллеливание гиперпараметров)

Гиперпараметр — чтение из документации ЭТО и ЭТО.

Узнайте разницу между гиперпараметром и параметрами
Узнайте, как найти лучшие
Подробнее о Гиперопт
Поиск по сетке, случайный поиск… и их влияние на производительность, потребности в вычислениях

Распараллеливание гиперпараметров — прочтите подмножество из ЭТОЙдокументации.

Гиперопт с MLlib
Прочтите статью, опубликованную выше — Распараллеливайте настройку гиперпараметров с помощью scikit-learn и MLflow

D. Оценка и выбор (перекрестная проверка, показатели оценки)

Перекрестная проверка —

Знайте разницу, когда использовать, порядок использования и потенциальное влияние или порядок — оценщик, конвейер, CV
Для резюме — научитесь ставить складки
Узнать об утечке данных
Узнать о вычислительной сложности

Метрики оценки — читайте здесь или выбирайте из любого понравившегося места.

Ознакомьтесь с различными показателями оценки для регрессии, классификации и прогнозирования, т. е. R2, MAE, RMSE, оценка F1, отзыв, точность, AUC,…
Для классификаций, основанных на потребностях бизнеса, какие показатели вы бы использовали

Столп 3: Spark ML — 33% (15/45)

А. Концепции распределенного машинного обучения

Прочтите часть документации ЭТО, ЭТО и ЭТО.

Гиперопт с MLlib
Прочтите статью, опубликованную выше — Распараллеливайте настройку гиперпараметров с помощью scikit-learn и MLflow
Знайте о моделях, которые можно распространять, а о тех, которые нельзя распространять по умолчанию.
Панды, Scikit Learn, MLlib, Spark ML

B. API-интерфейсы моделирования Spark ML (разделение данных, обучение, оценка, оценщики и преобразователи, конвейеры)

Читать здесь

С. Гиперопт

Читайте из ЭТОЙдокументации.

Когда использовать, а когда нет
Параметры, которые вы можете изменить

D. API Pandas в Spark

Читайте из ЭТОЙдокументации.

Знайте его работу
Когда использовать Pandas API в Spark VS Pandas VS Spark
Подумайте о сценариях вашего проекта, когда каждый из них будет применим

E. Pandas UDF и Pandas Function API

Прочтите документацию Pandas UDFs и Pandas Function APIs.

Апачская стрела
Сгруппированная карта, Карта, Сгруппированная карта
ПрименитьInPandas()
картаInPandas()

Столп 4: Масштабирование моделей машинного обучения — 9% (4/45)

A. Распределенная линейная регрессия и деревья решений

Прочтите ЭТУи ЭТУдокументацию.

Узнайте, как Spark справляется с этим
Изучите код и выполните его один раз, чтобы проверить.

B. Методы сборки (бэггинг, бустинг)

Ансамблевое обучение в основном включает в себя комбинацию нескольких различных моделей, совокупная прогностическая сила которых превышает прогностическую силу любой отдельной модели.

Теперь узнайте, как маленькие модели можно соединять друг с другом — последовательно или параллельно.
Свести к минимуму переоснащение
Когда вы сталкиваетесь со значительным количеством выбросов

И с этим вы успешно прошли весь учебный план. Отличная работа! Пришло время рискнуть, либо сразу погрузиться в экзамен, либо начать с нескольких пробных экзаменов. У тебя это полностью получилось!

Поделитесь своим отзывом здесь, как только вы это сделаете. Я буду ждать!

Я хотел бы поблагодарить — Брианну Бартон и Юссефа Мрини за то, что они позволили мне позаимствовать их собранное содержимое.

Подписывайтесь на меня здесь и в LinkedIn для получения дополнительной информации. Адьос пока!