Публикации по тегам sampling

Публикации по теме 'sampling'

Как бы вы выбрали репрезентативную выборку поисковых запросов из 5 миллионов запросов?

n = (Z² * p * q) / E² ФОРМУЛА ОБЪЕМА ОБРАЗЦА Выбор размера выборки является важным шагом в разработке исследования или опроса. Размер выборки должен быть достаточно большим, чтобы обеспечить надежные и точные результаты, но не настолько большим, чтобы его сбор стал нецелесообразным или дорогим…

Милая история о выборке данных

В самом сердце земли Дейта живет мистер Дупер, фермер. Ему принадлежат пышные открытые луга и широкие зеленые поля вдоль берега реки. Он владеет несколькими (почти бесчисленными) овцами, а также другим крупным рогатым скотом и курами. В последнее время Дупер начал замечать проблему: внезапно некоторые из его овец начали синеть. Это странное заболевание, которое требовало срочного внимания, поэтому он звонит ветеринару земли Дейта, мистеру Доку, который проводит первичную проверку и..

Балансировка несбалансированных данных: методы недостаточной и избыточной выборки в Python

Наборы данных, в которых более 50% записей принадлежат одному классу, считаются несбалансированными. Большинство алгоритмов машинного обучения лучше работают со сбалансированными наборами данных, поскольку они направлены на оптимизацию общей точности классификации или связанных показателей. В случаях несбалансированных данных границы решений, установленные алгоритмами, имеют тенденцию отдавать предпочтение классу большинства, что приводит к неправильной классификации класса меньшинства...

Как обрабатывать несбалансированные данные для задачи классификации

Введение Проблемы классификации довольно распространены в мире машинного обучения. Как мы знаем, в проблеме классификации мы пытаемся предсказать метку класса, изучая входные данные или предиктор, где целевая или выходная переменная является категориальной переменной по своей природе. Если вы уже сталкивались с проблемами классификации, вы, должно быть, сталкивались со случаями, когда число наблюдений одной из меток целевого класса значительно ниже, чем у других меток классов. Этот тип..

Полное руководство по выборке Гиббса в Python: от обзора литературы до производственного кода

Введение. В области статистического моделирования и машинного обучения выборка играет решающую роль в понимании сложных распределений и оценке неизвестных параметров. Для таких целей широко используется выборка Гиббса, метод Монте-Карло с цепями Маркова (MCMC). В этом сообщении блога мы углубимся в мир выборки Гиббса, начиная с обзора литературы и заканчивая разработкой готового к производству кода Python. Мы также сравним отбор проб Гиббса с традиционными методами отбора проб и..

Общие методы борьбы с несбалансированными наборами данных

Одна из распространенных проблем классификации машинного обучения, с которой мы сталкиваемся, - это несбалансированный набор данных. Это может произойти для задач двоичной и мультиклассовой классификации. Часто у вас будет один класс большинства (например, 80% распределения меток) и один или несколько классов меньшинства (например, 20% или 15% / 5% распределения меток). Обнаружение мошенничества, специальная медицинская терапия и отказ оборудования - вот примеры реальных приложений для..

Основы машинного обучения: выборка и стандартная ошибка

Выборка - это процесс, связанный с отбором отдельных наблюдений; это помогает нам делать статистические выводы о населении. Сбор всей информации о населении (перепись) требует много времени и средств. Поэтому выборка выполняется, чтобы сделать выводы о совокупности. При проведении выборки мы предполагаем, что выборки взяты из генеральной совокупности, а средние значения выборки и средние значения совокупности равны. Учитывая, что выборка - это группа индивидуальных наблюдений,..