Элементы сверточных нейронных сетей (CNN)

свертка

В CNN свертка используется для извлечения функции из изображения. Процесс свертки включает скалярное произведение изображения и фильтра. Это приводит к извлечению карты признаков. Эти фильтры инициализируются случайным образом в начале свертки. По мере обучения значения или веса в фильтрах меняются. Может быть несколько фильтров для извлечения различных функций изображения. И каждый из фильтров при свертывании создает другую карту объектов. Их можно объединить, чтобы классифицировать изображение.

Фильтры/ядра

Веса внутри ядра используются для определения типа функции, которую мы хотим извлечь из изображения. Обучение начинается с установки всех случайных значений внутри фильтра. По мере обучения модели веса внутри фильтра корректируются для извлечения определенного признака. Например, у нас могут быть фильтры для извлечения ребер в начальном слое, затем у нас могут быть детекторы петель.

Эпохи

Эпоха определяет, сколько раз модель прогоняется через набор обучающих данных. Однократного запуска модели через обучающий набор данных недостаточно. Эпоха — это один из гиперпараметров модели, и его можно запускать столько раз, сколько необходимо. Чтобы идеально оптимизировать внутренние параметры или веса модели, нам нужно большое количество выборочных данных. Но поскольку у нас не может быть большого количества выборочных данных, мы можем компенсировать это, прогоняя одни и те же данные несколько раз.

свертка 1x1

Свертка 1x1 используется для уменьшения размера. Когда изображение с шириной W, высотой H и количеством каналов C свертывается с фильтрами F, 1x1 и шагом 1, это приведет к выходному слою WxHxF. Таким образом, фильтры F 1x1 можно использовать для уменьшения или увеличения размерности в измерении фильтра. Если увеличить шаги, размерность уменьшится.

свертка 3x3

Свертка выполняется на изображении с использованием ядра Ширина = 3 и Высота = 3. Ядро 3x3 обычно используется в нейронных сетях. Ядро 3x3 обычно используется для извлечения функций низкого уровня из входных данных. Когда изображение размером 300x300 свертывается с ядром 3x3, получается изображение размером 298x298, уменьшая размер (Ш, В) на 2.

Карты объектов

Когда фильтр применяется к одному слою, результирующий выходной слой называется картой объектов. В нейронной сети определенные функции изображения сопоставляются вместе. Эти наборы меньших функций могут быть объединены для формирования более крупных карт функций. Количество карт объектов зависит от числовых фильтров, примененных к этому слою.

Разработка функций

Разработка функций — это процесс преобразования необработанных данных в подходящие функции. Функции используются при разработке прогностической модели. Разработка функций включает в себя выбор данных, построение функции и извлечение функции. Очень важно выбрать правильные функции, чтобы иметь хорошую модель. Разработка функций опирается на знание предметной области для преобразования необработанных данных в функции.

Рецептивное поле.

Сложно связать каждый входной элемент с нейронами. Мы выбираем локальную область на входе и подключаем к ней нейроны. Эта локальная область, которая соединяет нейрон, называется рецептивным полем. Рецептивное поле — это область входного слоя, которая используется для вычисления карты объектов. Например, если у нас есть входное изображение 10X10 и фильтр 3X3, то принимающее поле будет 3x3. Как правило, восприимчивое поле выбирается ниже, чтобы облегчить вычисления. Но объединение двух или более маленьких фильтров 3x3 приведет к увеличению рецептивного поля. Если два рецептивных поля 3x3 сложить друг с другом, получится фильтр 5x5.

Функция активации

Сам термин активация происходит от нейронов в головном мозге. Точно так же, как и нейроны, мы пытаемся определить, следует ли учитывать вывод для дальнейшей обработки. Эти функции активации представляют собой не что иное, как передаточные функции, которые выводят значение от 0 до 1 или от -1 до 1 в зависимости от функции активации. Функции активации используются для введения нелинейности в выходной сигнал. Если бы нелинейности не было, то сколько бы слоев не добавлялось в модель, она все равно будет вести себя как один слой.