Публикации по теме 'speech'
Спектральный анализ при обработке речи: сглаживание кепстра и расчет LPC-анализа
В этой статье от GrabVoice мы будем следовать этим двум давно используемым стратегиям спектрального анализа — сглаживанию кепстра и вычислению анализа LPC для оценки формант из записанных данных выборки аудио.
Прочитать аудиофайл
Как уже упоминалось, первым шагом обработки речи является чтение аудиоданных. Нам нужно прочитать данные выборки вместе с частотой дискретизации и информацией о канале. Данные для того, что мы используем, записаны от 1 не носителя английского языка,..
Машинное обучение для распознавания речи
Машинное обучение для распознавания речи
Глубокое обучение (DL) — это сложный метод машинного обучения (ML), поддерживаемый алгоритмами искусственной нейронной сети (NN). Глубокое обучение как многообещающая отрасль компьютерных наук в последние годы привлекло к себе большое внимание. По сравнению с типичными методами машинного обучения, такими как метод опорных векторов (SVM) и k-ближайших соседей, глубокое обучение обладает преимуществами автоматического изучения признаков, надежной..
Распознавание речи с использованием Python
В этом уроке я с нуля разработаю систему распознавания речи на Python с использованием необходимых библиотек.
Перед началом работы вам необходимо загрузить и установить некоторые необходимые инструменты, чтобы успешно пройти это руководство. Кстати, весь код будет доступен в моем репозитории GitHub :
Тану-Н-Прабху / Python Постоянная ссылка Dismiss GitHub является домом для более 40 миллионов разработчиков, работающих вместе над размещением и проверкой..
Как мы используем извлечение сущностей для улучшения соответствия в центрах обработки вызовов
Колл-центры записывают и хранят разговоры между клиентом и агентом с целью обучения, обеспечения качества и соблюдения отраслевых правил. Эти записанные звуковые взаимодействия представляют собой голос клиента, поскольку они содержат отзывы, предложения, запросы и проблемы клиента, связанные с предлагаемыми продуктами и услугами.
Значительная часть этих взаимодействий содержит конфиденциальную информацию, относящуюся к финансовым или личным данным их клиентов. Чтобы обеспечить..
Вопросы по теме 'speech'
Программное обеспечение для распознавания голоса для разработчиков
Доктора наконец сказали это, мне нужно расслабиться на моем запястье в течение нескольких месяцев. Поскольку я .NET-разработчик, это может на некоторое время лишить меня средств к существованию, чего я не хочу делать. Тем не менее, есть ли...
20593 просмотров
schedule
06.04.2024
Библиотека для извлечения слов (речь) из аудиопотока?
У меня есть аудиопоток, и я бы извлек из него слова (речь). Так, например, имея audio.wav, я получу 001.wav, 002.wav, 003.wav и т. д., где каждый XXX.wav — это одно слово.
Я ищу библиотеку или программу для этого - платформа не имеет значения, но...
3364 просмотров
schedule
31.12.2023
ISpRecoGrammar::IsPronounceable в PHP?
Я пытался найти что-то, что могло бы проверить строку на «Произносимость», и хотя я действительно сомневаюсь, что есть что-то, что могло бы быть в свободном доступе.
На самом деле я был немного удивлен, обнаружив, что у Microsoft есть библиотека....
109 просмотров
schedule
01.11.2022
Какую базу данных речи и программное обеспечение для записи следует использовать для приложения распознавания речи?
Я хочу реализовать приложение, которое бы распознавало наш диалект.
Я знаю, что сначала мне нужна база данных речи, чтобы я мог составить корпус речи. Какую базу данных речи вы бы порекомендовали?
Подойдет ли Audacity для записи? Если нет,...
285 просмотров
schedule
09.02.2024
Могу ли я запустить распознаватель речи в режиме прослушивания и быть невидимым для пользователя?
Я использую распознаватель речи на C# для создания базовой грамматики и прослушивания команд.
Поскольку я разрабатываю эту грамматику/систему для использования в небольшой игре/приложении, которое я делаю, я хотел бы запустить распознаватель речи в...
259 просмотров
schedule
11.11.2023
Обнаружение высоты звука в Python
Концепция программы, над которой я работаю, - это модуль Python, который определяет определенные частоты (частота человеческой речи 80–300 Гц) и путем проверки из базы данных показывает интонацию предложения. Я использую SciPy для построения частот...
25372 просмотров
schedule
28.10.2023
Где найти недостающие файлы для создания помощника ILA
Я пытаюсь загрузить CMU Pocketsphinx в Windows 10 в Visual Studio 2013 с помощью этой ссылки https://sites.google.com/site/ilavoiceassistant/how-tos/installing-pocketsphinx
В этом есть шаг, в котором говорится, что я должен добавить существующие...
117 просмотров
schedule
30.07.2022
Вычислить автокоррелограмму (коррелограмму) из волнового файла?
Как вычислить автокоррелограмму (коррелограмму) из речевого сигнала (в виде wav-файла) в питоне? Есть ли для этого какие-либо функции онлайн-кода/библиотеки?
1061 просмотров
schedule
06.08.2022
MFCC: Каковы диапазоны частот 20 банков фильтров в Librosa MFCC?
В библиотеке Librosa, когда мы используем librosa.feature.mfcc (y, sr), он возвращает массив (20,?) Numpy. Как мне проверить частотный диапазон возвращаемых 20 банков фильтров?
145 просмотров
schedule
11.01.2024
Влияние порядка LP и частоты дискретизации на форманты речи
Я пытался понять линейное предсказание речи. Я узнал, что порядок p предиктора LP должен быть (Fs/1000)+2. В случае речевого сигнала 8 кГц спектр LP будет находиться в диапазоне от 0 до 4 кГц, и каждой форманте будет соответствовать от 4 до 5 пиков....
64 просмотров
schedule
10.09.2022
Как я могу запустить инструментарий OpenSMILE из среды Matlab?
Я хочу использовать набор инструментов OpenSMILE в качестве экстрактора голосовых функций. Но я разрабатывал скрипты своих проектов в среде Matlab. Итак, я ищу способ вызова OpenSMILE из Matlab и обработки полученных функций. Я был бы рад, если бы...
112 просмотров
schedule
26.07.2022