Публикации по теме 'data-mining'


Классификатор изображений с использованием Tensorflow и Keras
Обзор Этот блог посвящен классификатору изображений, который я создал с помощью keras и tensor-flow. Целью этого проекта было создание классификатора изображений, который может различать три разных типа транспортных средств — самолеты, мотоциклы и шхуны (парусники). Набор данных, который я использовал для этого проекта, доступен на kaggle и состоит из около 800 изображений первых самолетов и мотоциклов и около 60 изображений шхуны. Я провел различные тесты на этой модели, чтобы..

Изолирующий лес для интеллектуального анализа данных
Автор: Ада Чжу ([email protected]) и Сиддхарт Суреш ([email protected]) Мотивация: Это руководство представляет собой введение в алгоритм обнаружения аномалий на основе неконтролируемого дерева — Isolation Forest. Мы намерены направить эту статью всем, кто интересуется методами интеллектуального анализа данных, ориентированными на обнаружение аномалий. Будучи аспирантами Школы наук о данных Университета Вирджинии, мы нашли этот метод уникальным, но он очень мало освещается в..

Интеллектуальный анализ данных простым способом
Говоря простым языком, интеллектуальный анализ данных — это поиск ценной информации в больших наборах данных. Он включает в себя обнаружение закономерностей с помощью машинного обучения, статистики и СУБД. Интеллектуальный анализ данных включает в себя извлечение данных и извлечение полезных знаний из необработанных данных, которые могут быть выполнены с использованием таких процессов, как кластеризация, классификация, правило ассоциации. Кластеризация . Группа означает кластер данных...

Поиск экземпляра проблемы с использованием наивного байесовского классификатора.
Учитывая набор данных с 14 примерами, содержащими 4 атрибута, а именно Outlook, Temp, Humidity и Windy. Мы должны найти вероятность появления данного экземпляра (прогноз = солнечно, температура = прохладно, влажность = высокая, ветреная = сильная) с помощью наивного байесовского классификатора. Кроме того, нормализуйте результаты. Шаг 1: Находим априорную вероятность, P(Playtennis=ДА) = 9/14 = 0,64 P (игровой теннис = НЕТ) = 5/14 = 0,36 Шаг 2: Условную вероятность отдельных..

Понимание AUC - кривой ROC
Кривая AUC - ROC - это измерение производительности для задач классификации при различных настройках пороговых значений. ROC - это кривая вероятности, а AUC - степень или мера разделимости. Он говорит о том, насколько модель способна различать классы. Чем выше AUC, тем лучше модель предсказывает 0 классов как 0 и 1 класс как 1. По аналогии, чем выше AUC, тем лучше модель позволяет различать пациентов с заболеванием и пациентов без заболевания. Кривая ROC построена с отношением TPR к FPR,..

Анализ алгоритмов шинлинга и случайной проекции
Анализ алгоритмов шинлинга и случайной проекции В предыдущей статье мы обсуждали сходство последовательностей через расстояние Левенштейна и оценивали его при O(m*n). Поскольку мы пытаемся применить этот алгоритм к наборам данных большего размера и масштаба, он становится непрактичным. Варианты использования, которые следует здесь рассмотреть, — это индексация веб-страниц поисковыми системами и плагиат. В поисковых системах важно обнаруживать близкие дубликаты и оценивать их на..

Анализ киберугроз: применение машинного обучения, интеллектуального анализа данных и извлечения текстовых функций для ...
ВАЖНО: эта публикация официально опубликована и принадлежит Портсмутскому университету. Любое использование этой публикации должно иметь надлежащие ссылки. Не стесняйтесь использовать любое проведенное исследование, однако укажите, пожалуйста, должное признание этой работы. Эта публикация не содержит всех отрывков, содержащихся в полном исследовательском проекте, из-за деликатности информации и исследований. См. Полную версию публикации. Аннотация Даркнет стал центром..