Для чего нужна транскрибация и распознавание речи?

Опубликовано: 2020-07-13

Мы уже рассмотрели наиболее распространенные приложения для распознавания речи, в том числе автоматические телефонные коммутаторы и автоматические системы голосовой диктовки. Но есть еще много примеров, откуда они взялись.

Во многих мобильных телефонах есть встроенная функция распознавания голоса. Еще в конце 1990-х годов в телефонах была опция голосового набора номера, где пользователи записывали звуковой фрагмент для каждой записи в телефонной книге. Например, произносили слово «Дом» и телефон в дальнейшем мог распознать это слово. Позже появились системы, которые автоматически превращают голосовые сообщения в текст.

В современных смартфонах распознавание речи еще более функциональное. Siri от Apple, Google Assistant или Microsoft Cortana — это персональные помощники в смартфонах, которые слушают, что вы говорите, выясняют, что вы имеете в виду, а затем пытаются выполнять ваши запросы, будь то поиск номера телефона или бронирование столика в местном ресторане.

Смартфоны соединяют распознавание речи со сложными системами обработки естественного языка (NLP), поэтому могут выяснить не только то, что вы говорите, но что вы на самом деле имели в виду, и чего вы действительно хотите. При нехватке времени пользователи считают подобную систему удобной.

Если у вас есть умные колонки с голосовым управлением, например, Amazon Echo или Google Home, вам не нужен другой гаджет (ноутбук, планшет или смартфон): вы просто задаете вопросы или даете простые команды, обращаясь к колонке, и устройство немедленно отвечает.

Будет ли востребованным распознавание речи?

Технологии распознавания речи постоянно совершенствуются. Сложно не заметить улучшения. Так, компьютерная диктовка на ОС Windows 95 была довольно надежной, но пользователям приходилось говорить относительно медленно, отрывисто, делая небольшую паузу между каждым словом или группой слов, из-за чего ход мыслей прерывался. И это было довольно утомительно проговаривать одно слово за раз.

Несколько лет спустя ситуация улучшилась, и расшифровка речи стала непрерывной, люди могли говорить в привычном темпе, как удобно и при этом быть уверенным в точном распознавании слов. Впрочем, несмотря на этот технический прогресс, многие авторы предпочитают писать с помощью клавиатуры и мыши. Отчасти потому, что так привычней. А еще, проще быстро напечатать предложение, чем неразборчиво пробормотать слова в микрофон, а потом делать исправления.

Мобильная революция?

Можно подумать, что технологии распознавания речи будут в первую очередь использоваться на мобильных устройствах. Мало кому нравится печатать текст на маленьком сенсорном экране, двумя большими пальцами на всплывающей QWERTY-клавиатуре. А вот детям такой набор текста очень даже нравится, они выросли с этим методом. Приноровиться к телефонной клавиатуре несложно. И напечатать краткий текст — это быстрее, чем исправление дурацких догадок компьютера. Есть еще проблема конфиденциальности — многие люди используют мобильные телефоны в общественных местах и не хотят, чтобы окружающие были вовлечены в нюансы личной жизни. Также сложно диктовать в шумной обстановке.

А как дела с расшифровкой речи на ПК? Опытные пользователи знают, что проще сесть за клавиатуру и написать тысячи слов текста, чем диктовать, старательно пытаясь выбрать слова, а потом долго редактировать, вырезать и вставлять слова.

А попытки с помощью голосовых команд открывать и закрывать окна, запускать программы или перемещаться по экрану компьютера — это утомительный, неповоротливый и медленный процесс с массой ошибок. Легче просто щелкнуть мышью или провести пальцем.

Разработчики систем распознавания речи обещают, что всё может измениться благодаря обработке естественного языка и интеллектуальным поисковым системам, которые могут понимать разговорные запросы. Но это говорят на протяжении десятилетий: дивный новый мир всегда не за горами.

Да, конечно, Google теперь может понимать речь, но это вовсе не значит, что мы автоматически захотим говорить, а не набирать наши запросы, особенно, учитывая, какие странные вещи люди ищут в интернете.

Люди не просто так изобрели письменность. Письмо и речь служат различным целям. Когда мы пишем, мы можем изложить более длинные, четко выраженные и проработанные мысли, не беспокоясь об ограничениях кратковременной памяти. А говорим мы, не раздумывая, импровизируя. Письмо — это нечто приватное по своей сути, тщательно и вдумчиво составленное. Разговор — это совершенно другой способ выражения своих мыслей, и люди не всегда хотят высказывать свое мнение.

Конечно, технология автоматической расшифровки речи будет развиваться, но даже разработчики не знают, каким образом. В конце концов, этот текст был создан с помощью клавиатуры.

нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru