Сейчас? Почему? Как? С подробным учебным пособием

В 2023 году глобальная сцена будет меняться под воздействием глубоко укоренившихся технологий, в частности, приливной волны искусственного интеллекта (ИИ) и машинного обучения. Databricks позиционирует себя как ведущую платформу для обучения этих продвинутых моделей, популярность которой растет благодаря возможностям генеративного искусственного интеллекта и большой языковой модели (LLM). Приобретение Databricks компании MosaicML (ссылка) только увеличило ее возможности, позволив клиентам легко и с минимальными затратами обучать своих собственных LLM.
Учитывая эти события, становится ясно, почему наша сертификация по машинному обучению пользуется большим спросом. И организации, ищущие квалифицированных специалистов, и отдельные лица, стремящиеся подчеркнуть свою квалификацию, все больше осознают ее ценность.
Почему вы должны доверять моим советам? Отличный вопрос! У меня есть сертификаты ML Associate и Professional от Databricks, а также несколько других, включая Data Engineering и Analyst. Вы можете проверить мои учетные данные здесь (ссылка).
Почему этот блог и чем он мне полезен? Увеличьте ценность RSU для Databricks! :-D Это будет расти, меня это не волнует. Помимо шуток, моя истинная мотивация заключается в том, чтобы помогать другим в их учебном путешествии. Как опытный ветеран Databricks, я помню препятствия, с которыми я столкнулся в первые дни из-за неадекватного руководства. Таким образом, этот блог служит упрощенной пошаговой картой готовности к сертификации. Я надеюсь, что это поможет некоторым любознательным людям ориентироваться в море подготовки.
Хватит болтовни, пора перейти непосредственно к процессу сертификации. Поверьте, это увлекательное путешествие!
Обзор сертификации:
Как пройти этот сертификат? Вам нужно будет ответить на 45 вопросов MCQ в течение 90 минут с точностью более 70 %. Эти вопросы разделены на четыре столпа:
- Машинное обучение Databricks — 29% (13/45)
- Рабочие процессы машинного обучения — 29% (13/45)
- Искра ОД — 33% (15/45)
- Масштабирование моделей машинного обучения — 9% (4/45)
Источник: databricks.com
Пробные экзамены:
— Бесплатный источник (1 набор): ССЫЛКА
Теперь давайте углубимся в каждую тему и подтему.
Примечание. Мне не разрешено делиться реальными экзаменационными вопросами или документами, но я могу делиться темами и учебными материалами → вести вас по правильному пути.
Столп 1: Машинное обучение Databricks — 29% (13/45)
В этом разделе рассматриваются различные особенности Databricks с упором на применение Databricks ML и среды выполнения Databricks для машинного обучения. Тематические области включают в себя:
A. Машинное обучение Databricks (кластеры, репозитории, задания)
Кластеры — см. документацию Конфигурация кластера.
- Кластеры Databricks, включая случаи использования одного типа вместо другого.
- Узел драйвера и рабочая заметка
- Режим доступа к кластеру
Репозитории — читайте из ЭТОЙ и ЭТОЙ документации.
- Управление филиалами
- Редактировать блокноты репо
- Зафиксировать изменения репо в GIT
- Увидеть изменения визуально
Вакансии — читайте в документации Создание вакансий.
- Попробуйте создать задание один раз и посмотрите, какие там есть варианты.
B. Среда выполнения Databricks для машинного обучения (основы, библиотеки)
Основы — читайте в статье Среда выполнения Databricks для машинного обучения
- Чтение в средах выполнения Databricks ML и средах выполнения без машинного обучения; проверить разницу
Библиотеки —Чтение из Библиотеки кластера.
- Ознакомьтесь с распространенными известными библиотеками и пакетами в средах выполнения DBR ML.
- Если вы хотите внести некоторые изменения в библиотеку; подумайте о нескольких способах сделать это.
- Рассмотрите возможность сотрудничества с вашим товарищем по команде.
C. AutoML (классификация, регрессия, прогнозирование)
Прочтите документацию по AutoML.
- Изучите показатели оценки
- Настройки по умолчанию
- Лучшие сгенерированные модели — найдите и измените их
- Созданные блокноты
- API
D. Магазин функций (основы)
Прочтите документацию Feature Store.
- Прочтите основы о том, когда и почему его использовать
- Изучите API клиента магазина функций
- Просто напишите 2–4 строки кода для создания (и записи) и добавления в хранилище функций.
- А затем используйте эту FS в своей модели мл для обучения; Если вы можете сделать это, вы должны быть хороши в этой основной теме!
E. MLflow (отслеживание, модели, реестр моделей)
Читайте из документации Модели MLflow и Реестр моделей.
- Проверьте компоненты управляемого потока машинного обучения Databricks.
- Изучите клиентский API MLflow и найдите лучшие прогоны
- Научитесь регистрировать метрики и посмотрите, сможете ли вы автоматически регистрировать их.
- Напишите немного кода для Nest, сделайте несколько прогонов и изучите код.
- Загляните в пользовательский интерфейс Model Registry и посмотрите расположение моделей; посмотрите лучший, основанный на показателях вашей отслеживаемой модели, возможно, R2
- Изучите различные способы перехода на этап модели; Посмотрите на этапы, которые существуют.
Столп 2: рабочие процессы машинного обучения — 29% (13/45)
A. Исследовательский анализ данных (обобщенная статистика, удаление выбросов)
Сводная статистика — прочитать ЭТОТ документ и ЭТО.
- Научитесь получать сводку из ваших фреймов данных — среднее значение, медиана, стандартное отклонение и т. д.
- Попробуйте описать или обобщить методы; увидеть, что вы получаете по-другому
Удаление выбросов — ваша общая концепция машинного обучения.
- Кроме того, научитесь программировать на Python — по фильтрации ваших данных.
B. Разработка признаков (вменение отсутствующих значений, горячее кодирование)
Вменение отсутствующих значений —
- Тип вменения на основе типа столбца
- Подумайте о бизнес-контексте упущенной ценности; Может ли быть какая-то причина или предвзятость?
- Узнать среднюю медианную моду
One-Hot-Encoding — читайте из ЭТОЙдокументации.
- Узнайте, когда можно, а когда нельзя
- Влияние на модели на основе дерева
- Плотные векторы против разреженных векторов
- Индексатор строк
C. Настройка (основы гиперпараметров, распараллеливание гиперпараметров)
Гиперпараметр — чтение из документации ЭТО и ЭТО.
- Узнайте разницу между гиперпараметром и параметрами
- Узнайте, как найти лучшие
- Подробнее о Гиперопт
- Поиск по сетке, случайный поиск… и их влияние на производительность, потребности в вычислениях
Распараллеливание гиперпараметров — прочтите подмножество из ЭТОЙдокументации.
- Гиперопт с MLlib
- Прочтите статью, опубликованную выше — Распараллеливайте настройку гиперпараметров с помощью scikit-learn и MLflow
D. Оценка и выбор (перекрестная проверка, показатели оценки)
Перекрестная проверка —
- Знайте разницу, когда использовать, порядок использования и потенциальное влияние или порядок — оценщик, конвейер, CV
- Для резюме — научитесь ставить складки
- Узнать об утечке данных
- Узнать о вычислительной сложности
Метрики оценки — читайте здесь или выбирайте из любого понравившегося места.
- Ознакомьтесь с различными показателями оценки для регрессии, классификации и прогнозирования, т. е. R2, MAE, RMSE, оценка F1, отзыв, точность, AUC,…
- Для классификаций, основанных на потребностях бизнеса, какие показатели вы бы использовали
Столп 3: Spark ML — 33% (15/45)
А. Концепции распределенного машинного обучения
Прочтите часть документации ЭТО, ЭТО и ЭТО.
- Гиперопт с MLlib
- Прочтите статью, опубликованную выше — Распараллеливайте настройку гиперпараметров с помощью scikit-learn и MLflow
- Знайте о моделях, которые можно распространять, а о тех, которые нельзя распространять по умолчанию.
- Панды, Scikit Learn, MLlib, Spark ML
B. API-интерфейсы моделирования Spark ML (разделение данных, обучение, оценка, оценщики и преобразователи, конвейеры)
Читать здесь
С. Гиперопт
Читайте из ЭТОЙдокументации.
- Когда использовать, а когда нет
- Параметры, которые вы можете изменить
D. API Pandas в Spark
Читайте из ЭТОЙдокументации.
- Знайте его работу
- Когда использовать Pandas API в Spark VS Pandas VS Spark
- Подумайте о сценариях вашего проекта, когда каждый из них будет применим
E. Pandas UDF и Pandas Function API
Прочтите документацию Pandas UDFs и Pandas Function APIs.
- Апачская стрела
- Сгруппированная карта, Карта, Сгруппированная карта
- ПрименитьInPandas()
- картаInPandas()
Столп 4: Масштабирование моделей машинного обучения — 9% (4/45)
A. Распределенная линейная регрессия и деревья решений
Прочтите ЭТУи ЭТУдокументацию.
- Узнайте, как Spark справляется с этим
- Изучите код и выполните его один раз, чтобы проверить.
B. Методы сборки (бэггинг, бустинг)
Ансамблевое обучение в основном включает в себя комбинацию нескольких различных моделей, совокупная прогностическая сила которых превышает прогностическую силу любой отдельной модели.
- Теперь узнайте, как маленькие модели можно соединять друг с другом — последовательно или параллельно.
- Свести к минимуму переоснащение
- Когда вы сталкиваетесь со значительным количеством выбросов
И с этим вы успешно прошли весь учебный план. Отличная работа! Пришло время рискнуть, либо сразу погрузиться в экзамен, либо начать с нескольких пробных экзаменов. У тебя это полностью получилось!
Поделитесь своим отзывом здесь, как только вы это сделаете. Я буду ждать!
Я хотел бы поблагодарить — Брианну Бартон и Юссефа Мрини за то, что они позволили мне позаимствовать их собранное содержимое.
Подписывайтесь на меня здесь и в LinkedIn для получения дополнительной информации. Адьос пока!