«Я видел новости о камере наблюдения с функцией обнаружения крика 10 лет назад».

Это похоже на распознавание речи в начале 2000-х.

Когда люди впервые сталкиваются с технологией машинного прослушивания, некоторые вспоминают новостные статьи об умных камерах безопасности с функцией обнаружения крика и выстрелов, опубликованные более 10 лет назад. Мы действительно можем найти довольно много статей об этом в СМИ, но очень сложно найти реально работающую в реальной жизни.

Многие технологии со временем совершенствуются, но иногда новые технологии основаны на принципиально иной методологии с гораздо большим потенциалом, охватом, преимуществами и функциональностью, и мы называем это «следующим поколением». Это похоже на распознавание речи в начале 2000-х. Все мы помним, что технология распознавания речи существовала очень давно, но она могла понимать только несколько слов или очень простые предложения с низкой точностью. Не машина приспосабливается к человеку, но человеку нужно было говорить как робот для лучшего распознавания. В то время это могло произвести на людей вау-эффект, но трудно сказать, что это широко использовалось в нашей повседневной жизни.

Однако теперь распознавание речи стало частью нашей повседневной жизни. Теперь он понимает гораздо более естественное произношение в реальном мире, интегрировано во многие интеллектуальные устройства, меняет то, как мы взаимодействуем с машинами. Я бы не сказал, что он идеальный, потому что в нем еще есть много вещей, которые нужно улучшить. Например, вы можете просто попробовать «Привет, ву-ву» вместо «Привет, Google». Или вы можете попробовать «Алеку» вместо «Алекса». Я уверен, что вы поймете, что я имею в виду под многими пунктами, которые нужно улучшить.

То же самое происходит с современной технологией машинного прослушивания. Обычное распознавание звука ограничивается распознаванием нескольких звуков с частыми ложными тревогами из похожих звуков. Он основан на методе, основанном на правилах, который использует ручные спектральные характеристики, которые полностью вручную спроектированы человеческими знаниями и наблюдениями. Это не означает, что методы машинного обучения (ML) являются совершенно новыми в этой области. Машинное обучение широко использовалось, и современный алгоритм в этой области до 2016 года фактически представлял собой комбинацию созданных вручную функций с классификаторами машинного обучения.

Современное машинное прослушивание теперь может делать гораздо больше. Во-первых, он обеспечивает значительно лучшую производительность в реальном мире. Предыдущие подходы не были адаптированы к различным средам и ситуациям, тогда как сквозное глубокое обучение (DL) можно обучить с помощью различных реальных случаев, что значительно повышает надежность и снижает частоту ложных срабатываний.

Во-вторых, он имеет большой потенциал для поддержки огромного количества целевых звуков. Для обычного метода падение производительности - это своего рода неизбежная проблема, потому что все правила должны быть изменены в соответствии с новыми целевыми классами. Но для алгоритма, основанного на глубоком обучении, большее количество целевых звуков означает, что он может извлекать лучшую функцию из входных данных, следовательно, производительность может быть еще улучшена, и он может удалить ложную тревогу, вызванную аналогичными звуками. Это легко, если вы думаете, что обнаружение одного звука равносильно обнаружению отрицательных звуков для всех остальных.

В-третьих, что наиболее важно, его можно обобщить гораздо шире, чем раньше. Если мы используем глубокое обучение только для определенного устройства или микрофона, оно ничего не стоит по сравнению с традиционными подходами, а только вводит тяжелые вычисления (хотя, вероятно, это того стоит с точки зрения маркетинга).

Наиболее важно то, что при правильном использовании технологий DL и обработки аудиосигналов мы можем получить чрезвычайно обобщенную систему, которая может использоваться с любыми устройствами, микрофонами и средами. Это очень важно для будущего машинного прослушивания, потому что скоро мы будем окружены тысячами устройств IoT, все из которых будут работать в разных средах с различными микрофонами, а также мы никогда не сможем получить информацию о записи всех видео на Youtube.

Что делает это таким трудным?

Принятие обобщенного решения требует глубокого понимания обработки аудиосигналов. Назовите лишь некоторые из них: частота дискретизации, кодек, типы микрофона, размер окна анализа и так далее. Речь идет не просто о применении методов глубокого обучения к данным, потому что это хорошо работает только для демонстрации.

Далее идут миллионы разных звуков. Например, лай собаки может показаться простым, но существуют тысячи разных видов с разным возрастом. Кроме того, описание звуков на человеческом языке иногда может быть неоднозначным, или одни и те же звуки могут быть описаны разными словами. Звук клавиш можно охарактеризовать как звенящие клавиши, но можно сказать, что это звенение металла или звук брелка. И есть много разных звуков в другой культуре, например, акустическая сцена метро в Сеуле не будет такой же, как андерграунд в Лондоне. К тому же некоторые звуки очень сложно собрать. Возможно, нам не удастся собрать реальный звук автомобильной аварии за короткое время, потому что трудно угадать, когда это происходит и где.

Распространенный миф о количестве данных

Объем данных действительно очень важен для глубокого обучения. Вот почему многие люди говорят, что данные - это новая нефть. Однако я хотел бы подчеркнуть, что больше данных не обязательно означает лучшую точность. Фактически, есть много других вещей, которые связаны с конечной производительностью системы.

Количество необходимых данных разное для разных звуков. Например, звук сирены, генерируемый машиной, всегда один и тот же, поэтому нам не потребуется много данных для него. С другой стороны, сирену скорой помощи в туннеле со скоростью 60 км / ч достать было бы очень сложно. В этом случае гораздо лучше будет имитировать его с помощью техники обработки сигналов.

Кроме того, производительность насыщается, когда достигается определенный объем входных данных от того же источника звука. Это также зависит от целевого звука, но ясно, что производительность не увеличивается только потому, что для обучения используется больше данных. Более важным фактором производительности, особенно для обобщенной системы, является разнообразие данных. Поиск закономерностей из различных условий позволит модели DL лучше изучить уникальный образец целевого звука, а не подгонять его под записывающее устройство или среду.

Наконец, чрезвычайно важно качество данных. Высокое качество здесь не означает чистый звук, записанный в студии, потому что в реальной жизни мы никогда не столкнемся с чистой студийной средой. Это означает соответствующие аудио образцы с правильными метками. Если в обучающей выборке содержится много неверных или зашумленных данных, это может отрицательно сказаться на производительности системы.

Подводя итог, можно сказать, что просто тратить время и деньги на данные - это не способ сделать систему DL сильнее. Создание эффективного, подходящего и устойчивого конвейера сбора данных, связанного с архитектурой DL и техникой увеличения данных, и сосредоточение внимания на качестве данных, а не на количестве, будет ключом к успешной системе машинного прослушивания.

Куда он движется

Машинное прослушивание на основе глубокого обучения уже обладает высокой производительностью. Но помимо производительности, у него есть еще больший потенциал, который может сделать нашу жизнь намного удобнее, предоставляя общую способность к звуковому познанию. Это позволит использовать звуковую информацию не только для простого триггерного действия, но и для контекстно-зависимых автономных систем и роботов-гуманоидов.

На мой взгляд, современное машинное прослушивание начнется с замены существующих систем распознавания звука, а затем перейдет к поддержке большего количества целевых звуков (более широкая ширина) с более подробной информацией (более глубокая глубина). Сейчас термин «машинное прослушивание» используется в основном для обнаружения звуков окружающей среды, но постепенно он будет развиваться, чтобы объединить анализ речи и поиск музыкальной информации под одной крышей, чтобы в конечном итоге достичь понимания акустической информации, подобного человеческому.