Публикации по теме 'data-science'


Нормализация данных в Python
При работе над проектами машинного обучения вам необходимо правильно подготовить данные, прежде чем вводить их в модель. Одним из методов работы с набором данных является нормализация. Что такое нормализованные данные? Нормализованные данные в статистике в большинстве случаев предполагают исключение единиц измерения из набора данных. В результате это позволяет легко сравнивать данные с разными шкалами и измеренными из разных источников. Почему нормализованные данные важны? При..

Самовнимание
Трансформеры, по одной концепции 1 | Основы самовнимания TL; DR. Трансформаторы - это захватывающая и ( относительно ) новая часть машинного обучения (ML), но есть много концепций, которые необходимо разбить, прежде чем вы сможете понять их. Это первый пост в колонке, которую я пишу о них. Здесь мы сосредоточимся на том, как работает основной механизм самовнимания, который является первым слоем модели Трансформера. По сути, для каждого входного вектора Self-Attention создает..

«Влияние искусственного интеллекта также носит социальный характер»
Сильвен Дюрантон , глобальный лидер BCG GAMMA, беседовал с Флораном Вайре (руководитель Les Echos) [Флоран Вайре] Как француз оказался во главе BCG Gamma? [Сильвен Дюрантон] Я начал работать в BCG двадцать пять лет назад, где впервые работал полный рабочий день. После нескольких лет работы в офисах BCG за границей я вернулся в Париж, где создал подразделение по ценообразованию компании и вошел в состав Исполнительного комитета парижского офиса. Благодаря моему долгому опыту..

Настройка гиперпараметров с поиском по сетке и случайным поиском
И подробное описание того, как их комбинировать Настройка гиперпараметров , также известная как оптимизация гиперпараметров, является важным шагом в обучении любой модели машинного обучения, который напрямую влияет на производительность модели. В этой статье рассматриваются два очень популярных метода настройки гиперпараметров: поиск по сетке и случайный поиск , а также показано, как объединить эти два алгоритма с грубой и точной настройкой. К концу статьи вы узнаете их..

ColumnTransformer в SciKit для LabelEncoding и OneHotEncoding в машинном обучении
В очень старом посте Кодировщик меток против одного горячего кодировщика в машинном обучении я продемонстрировал, как использовать кодирование меток и одно горячее кодирование для разделения категориальных текстовых данных на числа и разные столбцы. Но библиотека SciKit прошла долгий путь с тех пор, как я написал этот пост, и сделала жизнь намного проще. Разработчики библиотеки могли догадаться, что люди очень часто используют LabelEncoding и OneHotEncoding. Поэтому они решили создать..

Краткое введение в недообучение и переоснащение
В реальных наборах данных Переоснащение или Недостаточное соответствие — самые большие проблемы, с которыми сталкиваются инженеры по машинному обучению. Прежде чем идти дальше, давайте сначала разберемся с концепцией недообучения и переобучения. Что такое недообучение? Когда ваша модель не работает ни с данными обучения, ни с данными тестирования, ваша модель, вероятно, не соответствует требованиям. Почему это происходит? Потому что ваша модель недостаточно сложна, чтобы..

R против Python | Насколько программно они отличаются друг от друга
Язык непрограммистов(R) против языка начинающих программистов Теперь пришло время для второго раунда битвы. В нашем предыдущем посте ( R vs Python ) мы обсуждаем некоторые теоретические аспекты . Теперь пришло время углубиться в понимание различий между двумя языками с их программными аспектами . И Python, и R — популярные языки программирования для статистики. В то время как функциональность R разработана для статистиков (из-за этого иногда люди называют R языком..