Как работает программное обеспечение для расшифровки речи

Опубликовано: 2020-07-06

Было бы замечательно, если бы компьютеры также могли понимать речь, как и люди: без набора мыслей на клавиатуре, без затрат времени.

В принципе, машины уже давно умеют слушать и разговаривать, почему же люди не используют эти возможности? Возможно, потому что мы даже не удосужились попробовать это, предполагая, что компьютеры никогда не смогут понимать человеческий голос.

На самом деле ученые, математики и лингвисты до сих пор работают над вопросом распознавания речи. Насколько успешно? Будем ли мы в один прекрасный день общаться с нашими компьютерами? Давайте разберемся.

Понимание речи

Язык — это главное отличие людей от животных. Мы можем наслаждаться многогранностью языка. Используя буквы алфавита, можем составить любое количество слов и выразить бесконечное количество мыслей.

Во время разговора наши голоса генерируют звуки (которые соответствуют буквам в словах). Например, слово «кошка» соответствует звукам «к», «о», «ш», «к» и «а».

Помимо звуков речи существует также концепция фонем: проще говоря, фонемы — это основные блоки звука, из которых строятся все слова.

Если вам сложно разобраться в разнице между звуками и фонемами, вот простой способ запомнить это. Звуки — это реальные, конкретные вещи, которые мы говорим, а фонемы — это абстрактные, теоретические фрагменты звука, которые мы храним в наших умах, и которые фактически никогда не произносятся.

Компьютеры могут манипулировать фонемами, но реальная часть речи, которую они анализируют, всегда связана с обработкой звуков. Когда мы слушаем речь, наши уши ловят звуки, летящие по воздуху, и наш мозг превращает их обратно в слова, предложения, мысли и идеи — так быстро, что мы часто знаем, что люди скажут, прежде чем слова произнесутся.

Все эти удивительные вещи делает наш мозг. Возможно, поэтому нам кажется, что слушание — это просто, и мы думаем, что компьютеры тоже должны слышать, распознавать и транскрибировать произносимые слова. Если бы это было так просто!

Почему речью так сложно управлять?

Проблема в том, что слушать намного сложнее, чем кажется. Возникают одновременно разные проблемы:

Когда кто-то разговаривает с нами на улице, трудно отделить их слова (ученые называют это акустическим сигналом) от фонового шума или похожей речи из других разговоров.
Когда люди говорят быстро, объединяя все свои слова в длинный поток, сложно понять — когда заканчивается одно слово и начинается следующее. И можно неправильно понять контекст.
Голоса разных людей различаются, и наши голоса тоже иногда меняются. Но мозг различает одно и то же слово, независимо от того, кто и каким голосом его произнес.
А есть еще омофоны — слова, которые только звучат одинаково, а пишутся по-разному и смысл тоже разный. Например, «в течение» и «в течении». Но наш мозг правильно понимает, что имеет в виду собеседник.
А еще можно просто ослышаться и понять смысл предложения совершенно иначе.

Помимо всего этого, существуют такие проблемы, как синтаксис (грамматическая структура языка) и семантика (значение слов), и то, как они помогают нашему мозгу расшифровать услышанные слова. Учитывая все эти факторы, мы видим, что распознавание и понимание произнесенных слов в режиме реального времени (когда люди говорят с нами) — это удивительная демонстрация невероятного умственного развития. И компьютеры пытаются хотя бы приблизиться к таким способностям.

Метки:

Расшифровка аудио и видеозаписей

Расшифровка: статьи и новости отрасли

нужен
перевод?

заказать онлайн

+7 (495) 995 7253

info@swan-swan.ru