Код проекта



  • Этот проект основан на руководстве Николаса Ренотта "Создание глубокого классификатора изображений CNN с ЛЮБЫМИ изображениями" на его канале YouTube.
  • Хотя его модель предназначена для бинарной классификации, этот проект был изменен, чтобы классифицировать наши изображения по нескольким классам.

Введение

Под ослепительным фасадом индустрии моды скрываются трудоемкие задачи, особенно когда каждый сезон выпускаются новые коллекции. Наш проект реализует преобразующую инициативу: модернизировать эти процессы за счет применения искусственных нейронных сетей (ИНС), дополнительно подкрепленных методами трансферного обучения и увеличения данных. Этот свежий подход революционизирует то, как мы классифицируем предметы моды.

Сегодня мы начинаем всестороннее путешествие по этому процессу, следуя хорошо зарекомендовавшей себя методологии CRISP-DM в качестве нашей дорожной карты для успешного анализа данных. Если вы не знакомы с CRISP-DM, обратитесь к приведенной ниже статье для получения подробного руководства.



Понимание бизнеса

Что нужно для того, чтобы начать листинг товаров.В большинстве случаев товары должны иметь глобальный номер предмета торговли (GTIN), например UPC, ISBN или EAN. Amazon использует эти идентификаторы продуктов, чтобы точно определить товар, который вы продаете… В дополнение к идентификатору продукта, вот некоторая важная информация, которая содержится в каждом списке продуктов: название продукта, условия поиска и релевантные ключевые слова…— Руководство для начинающих по продажам на Amazon

В настоящее время категоризация продуктов представляет собой ручную и трудоемкую работу, требующую как времени, так и ресурсов. Этот процесс может привести к неточностям из-за субъективной интерпретации изображений продукта и человеческих ошибок, что может негативно сказаться на удовлетворенности клиентов и, в конечном итоге, на продажах.

Наша цель — разработать модель глубокой нейронной сети, которая автоматизирует задачу классификации изображений продуктов, начиная с изображений обуви. Мы предполагаем, что эта автоматизация приведет к существенному повышению эффективности и точности, а также к значительному снижению затрат. Это революционизирует существующий подход к категоризации в индустрии моды.

Понимание данных

  1. Распределение по классам: обучающий набор — 10 000 изображений (2 000 на класс), тестовый набор — 1 215 изображений (переменное распределение по классам), проверочный набор — 2 500 изображений (500 на класс).
  2. Распределение значений пикселей: 0 ~ 255 пикселей.
  3. Распределение по размерам: как показано на диаграмме.
  4. Качество данных: Неправильные типы данных или изображения с низким разрешением обнаружены не были.

Понимание данных: предположения и гипотезы

  1. Сложность функций. Дизайн обуви включает в себя множество сложных функций, таких как разнообразные дизайны, текстуры, материалы и узоры.
  2. Изменчивость между классами. Ожидается значительная межклассовая изменчивость из-за различных характеристик, которыми обладают разные типы обуви. Масштаб и положение
  3. Инвариантность.Изображения сохраняют согласованное представление обуви с точки зрения масштаба и ориентации, лишенное какой-либо иерархической структуры. Высокий
  4. Качество данных. Мы предполагаем, что набор данных имеет высокое качество, и тщательная проверка не выявила неуместных или сомнительных изображений.

Подготовка данных

  1. Изменение размера. На этом шаге стандартизируются размеры изображения, что обеспечивает единообразие входных данных для модели.
  2. Нормализация. Этот процесс корректирует значения пикселей в диапазоне от 0–255 до 0–1, предотвращая сбои или замедления процесса обучения из-за больших целых чисел.
  3. Увеличение данных. Внедряя случайные реалистичные преобразования в изображения, мы увеличиваем разнообразие набора данных, способствуя лучшему обобщению модели.
  4. Метки кодирования. Мы преобразуем категориальные признаки в числовые, что является важной процедурой для многих алгоритмов машинного обучения.

Моделирование

Базовая модель: CNN с максимальным объединением

Базовая модель демонстрирует значительное переоснащение, что приводит к неудовлетворительной точности. Потенциальные средства правовой защиты могут включать увеличение данных, регуляризацию посредством ранней остановки и применение стратегий трансферного обучения.

Увеличение данных

Дополнение обучающих данных различными преобразованиями и использование предварительно обученных функций повышает способность модели к обобщению и более эффективно снижает переоснащение, чем применение каждого метода по отдельности.

Трансферное обучение

Мы выбрали DenseNet201 из-за его превосходной точности, отзыва и точности. Модель продемонстрировала существенное повышение точности на +29% по сравнению с базовой моделью, но немного увеличилась дисперсия.

Комбинированная стратегия

По сравнению с ResNet152, DenseNet201 обеспечивает более высокую точность, полноту и достоверность, а также продемонстрировал улучшенные возможности обобщения за счет снижения потерь при проверке с 1,61 до 0,59 при обучении с использованием дополненных данных. Несмотря на эти улучшения, произошло незначительное снижение точности на 0,009, что указывает на то, что может потребоваться дальнейшая оптимизация модели.

Модель ансамбля

Благодаря объединению DenseNet201 и ResNet152V2, обученных на дополненных данных, ансамблевая модель успешно справилась с переобучением, повысив точность на 0,027 и получив оценку 0,85. Примечательно, что он достиг идеальной точности предсказания 100% при оценке невидимых данных, что свидетельствует о его надежных способностях к обобщению. Это подчеркивает мощь трансферного обучения в сочетании с увеличением данных для повышения точности модели с помощью ансамблевого моделирования.

Оценка

Ансамблевая модель продемонстрировала значительные улучшения по сравнению с базовой моделью CNN, повысив точность, полноту и точность на значительные 0,3. Критическая проблема переобучения была эффективно решена с помощью методов увеличения данных.

Однако из-за существующих проблем с качеством данных окончательная модель демонстрирует значительную дисперсию и погрешность, что указывает на необходимость дополнительных уточнений для повышения производительности модели.

  1. Недостаточное количество категорий. Текущая классификация некоторых товаров, например, группировка некоторых женских сандалий как балеток, может быть слишком широкой. Это может привести к тому, что модель изучит обобщенные представления признаков в пределах категории, что приведет к увеличению дисперсии прогнозов.
  2. Неправильная категоризация.Неправильная маркировка предметов, например ошибочное определение кроссовок как лодочек, может исказить понимание моделью характеристик, связанных с категорией. Это может привести к тому, что модель сформирует неправильные шаблоны, что может увеличить погрешность предсказания.
  3. Наличие нерелевантных изображений.Набор данных включает несвязанные изображения в определенных категориях. Это может внести шум в данные, что приведет к переобучению модели этими нерелевантными признаками, что впоследствии увеличит дисперсию и снизит ее способность обобщать невидимые релевантные данные.

Развертывание

Стратегии повышения точности текущей модели

  1. Повысить качество данных. Удалите ненужные изображения и уточните категории классификации для более точной идентификации закономерностей.
  2. Оптимизация использования модели: отдайте предпочтение DenseNet201 из-за его производительности и рассмотрите более продвинутые методы увеличения данных.
  3. Точная настройка модели. Внедрите планирование скорости обучения и настройку гиперпараметров для оптимизации точности.

Будущая работа

  1. Расширить модель. Стремитесь распознавать больше типов обуви и, в конечном итоге, все модные товары, что требует более сложной структуры модели.
  2. Используйте регуляризацию. Применяйте такие методы, как регуляризация L1/L2, отсев и ранняя остановка, чтобы не отставать от меняющихся тенденций моды.
  3. Улучшение сбора данных. Увеличение объема сбора данных и использование методов дополнения данных для создания более надежной и эффективной модели.

Заключение

В заключение, наш проект использовал искусственные нейронные сети (ИНС) для модернизации классификации предметов моды, что позволило добиться успехов в трудоемком отраслевом процессе. Будущие усилия направлены на то, чтобы расширить этот подход на большее количество предметов, адаптируясь к модным тенденциям. Это путешествие ознаменовало наступление новой эры в категоризации моды, подчеркнув преобразующую силу искусственного интеллекта в индустрии моды.

Чтобы ознакомиться с пошаговым руководством по созданию модели CNN, обязательно посмотрите учебное видео по ссылке ниже!