Как работает нейросеть, расшифровывая речь

Опубликовано: 2020-10-09

Вы же используете технологию преобразования речи в текст, чтобы не тратить лишнее время на текстовый набор? Мы расскажем вам о «внутренней кухне» процесса транскрибации.

Как это работает?

Первый шаг в распознавании речи — нам нужно передать звуковые волны в компьютер.

Звук передается в виде волн, но компьютер понимает только цифры. Итого, нужно преобразовать волны в числа. Звуковые волны однообразные. В каждый момент времени они имеют одно значение, зависящее от высоты волны. Давайте увеличим масштаб одной крошечной части звуковой волны и посмотрим:

Чтобы превратить эту звуковую волну в числа, мы просто записываем высоту волны в равноотстоящих точках:

«Образец волны»

Это образец. Необходимо чтение тысячи слов в секунду и запись числа, представляющего высоту звуковой волны в этот момент времени. Давайте скажем «Привет», и измерим нашу звуковую волну 16 000 раз в секунду. Вот первые 100 образцов:

«Каждое число представляет собой амплитуду звуковой волны с интервалом 1/16000 секунды»

Распознавание знаков по коротким звукам

Получилось аудио в формате, который легко обрабатывать. Теперь введем его в глубинную нейронную сеть. В нейросеть поступают звуковые фрагменты длительностью 20 миллисекунд. Для каждого небольшого фрагмента звука надо определить букву, которая соответствует звуку, который в данный момент произносится.

Мы будем использовать нейронную сеть с обратными связями — у которой есть память, которая влияет на будущие прогнозы. Это значит, что каждая буква, которую она предсказывает, должна влиять на вероятность следующей буквы, которую она также предсказывает. Например, мы говорим «при», скорее всего, дальше мы скажем «вет» и получится «Привет». И вряд ли в следующий раз мы скажем что-то непроизносимое после частицы «при», например, «абв». Таким образом, память о предыдущих прогнозах помогает нейросети делать более точные прогнозы в будущем.

Интересная информация: если вдруг вы решите немного исковеркать распознаваемое слово, виртуальный ассистент в вашем телефоне исправит вашу ошибку. Например, вы скажете «Превед», но программа распознает это слово как «Привет».

Это разумное поведение для нейросети — не распознавать ошибочные слова, но бывает и такое, что вы произносите правильные слова, а телефон не распознает их — и это раздражает. Чтобы исправить эти недоработки, модели распознавания речи всегда переобучаются с большим количеством данных.

Для компаний, вроде Google или Amazon, очень ценны тысячи часов записанного разговорного звука — это то, что совершенствует их систему распознавания речи. Именно поэтому пользователи выбирают облачные API этих компаний для преобразования речи в текст. А значит, для стартаперов нет смысла конкурировать с Google и пытаться создать собственную систему распознавания речи.

Источник: https://medium.com/@venkateshpnk22/how-to-convert-your-speech-voice-to-text-data-1b2686099260

Метки:

Расшифровка аудио и видеозаписей

Расшифровка: статьи и новости отрасли

нужен
перевод?

заказать онлайн

+7 (495) 995 7253

info@swan-swan.ru