Библиотека для извлечения слов (речь) из аудиопотока?

У меня есть аудиопоток, и я бы извлек из него слова (речь). Так, например, имея audio.wav, я получу 001.wav, 002.wav, 003.wav и т. д., где каждый XXX.wav — это одно слово.

Я ищу библиотеку или программу для этого - платформа не имеет значения, но я предпочитаю решение с открытым исходным кодом.

Заранее спасибо за помощь.


person greenoldman    schedule 05.07.2010    source источник


Ответы (1)


Nuance, компания, которая производит Dragon Naturally Speaking имеет ряд Комплекты для разработки программного обеспечения.

Набор Audio Mining соответствует вашим требованиям:

Dragon NaturallySpeaking SDK AudioMining — это набор инструментов для распознавания речи, не зависящий от говорящего, который позволяет индексировать 100% речевой информации в аудиофайлах. Технология использует высокоточное распознавание речи для преобразования аудиофайлов в текст XML с информацией о временных метках. Его можно интегрировать со стандартными продуктами текстового поиска, чтобы обеспечить быстрый доступ к определенному аудиоконтенту.

Преобразование речи в речь + метаданные — это, безусловно, самая трудная часть для правильной работы. Когда у вас есть речь + метаданные, извлечение слов в виде отдельных аудиофайлов намного проще.

person mattbh    schedule 06.07.2010
comment
NB Упомянутый комплект Audio Mining поставляется со следующей оговоркой: ** Технология Dragon AudioMining разработана специально для американского английского языка и не предназначена для расшифровки встреч или интервью. ** - person Lee Goddard; 20.09.2013
comment
Очень сложно найти информацию о Nuance AudioMining в Интернете. И это кажется противоречивым, поскольку транскрипция встреч и интервью прямо упоминалась при запуске продукта еще в 1999 году: youtube.com/watch?v=yagvFY_rUwM - person Christoph; 22.10.2015