Итоги дня 032

В день 032 мы рассмотрели работу с аудиовходом: общие аудиофункции. Мы видели, что среднеквадратичное значение набора значений (или непрерывной волны) представляет собой квадратный корень из среднего арифметического квадратов значений или квадрат функции, определяющей непрерывную форму волны.

Сегодня мы продолжим с того места, на котором остановились в день 032.

Работа с аудиовходом: общие аудиофункции (продолжение)

Быстрое преобразование Фурье (БПФ)

«Быстрое преобразование Фурье (БПФ) — это алгоритм, который производит выборку сигнала в течение определенного периода времени (или пространства) и делит его на частотные составляющие. Эти компоненты представляют собой одиночные синусоидальные колебания на разных частотах, каждая со своей амплитудой и фазой».

Давайте рассмотрим относительно простую аудиофункцию, использующую быстрое преобразование Фурье (БПФ). Если вы интересуетесь звуком и ничего не знаете о БПФ, я настоятельно рекомендую вам пойти и узнать об этом. Вы можете начать с курса Обработка аудиосигналов для музыкальных приложений на Coursera, созданного Университетом Помпеу Фабра в Барселоне, Стэнфордским университетом.



На приведенной ниже диаграмме показано, как обычно строится БПФ, с частотой от низкой к высокой по оси x и величиной или силой каждой частоты по оси y.

В зависимости от того, как долго наше окно анализа, наше БПФ даст нам различное количество значений амплитуды частоты. Обычно это колеблется от 16 или 32 значений как минимум до 4096 максимум. На самом деле мы могли бы использовать целый список величин БПФ в качестве нашего вектора признаков и попытаться заставить компьютер что-то узнать из него.

Для относительно ограниченных наборов входных звуков мы сможем построить достойный классификатор высоты тона или, возможно, классификатор тембра, используя только значения амплитуды БПФ. Но если мы хотим убедиться, что каждая функция, которую мы используем, актуальна и информативна, а также избежать огромного количества функций, мы часто можем добиться большего успеха, чем просто необработанное БПФ.

Мы можем сделать одну простую вещь — определить одну частоту в звуке, которая имеет самую высокую амплитуду. Если мы хотим создать очень простой классификатор высоты тона, например, для отслеживания высоты звука одного инструмента, где наш инструмент, расположение микрофона и акустическая среда меняются не так сильно, это может дать нам некоторую информацию, которую мы могли бы использовать. Конечно, этого будет достаточно, чтобы дать нам информацию о том, играет ли наш инструмент низкую или высокую ноту, и это может быть одной из нескольких полезных функций для других типов задач. Например, классифицировать, является ли говорящий мужчиной или женщиной.

Приятно знать, что ты все еще здесь. Мы подошли к концу дня 033. Надеюсь, вы нашли это информативным. Спасибо, что нашли время в своем графике и позволили мне быть вашим проводником в этом путешествии. И до следующего раза оставайтесь легендарными.

Справочник

https://www.kadenze.com/courses/machine-learning-for-musicians-and-artists-v/sessions/sensors-and-features-generating-useful-inputs-for-machine-learning

https://en.wikipedia.org/wiki/Fast_Fourier_transform