Полноценная транскрибация аудио программами — это только вопрос времени?

Опубликовано: 2020-08-12

Несмотря на развитие технологий, проблема полноценной транскрибации остается нерешенной. Конечно, телефоны и устройства умного дома, благодаря самообучающимся нейронным сетям, могут понимать довольно сложные команды. Но если речь идет о продолжительных человеческих разговорах, то даже самое современное программное обеспечение не может обеспечить точную транскрибацию.

Если думать масштабно, то с помощью расшифровки речи можно получить доступ к огромным архивам устных историй, быстрочитающим людям будет проще усваивать информацию с длинных аудиозаписей, а труд журналистов облегчится, на YouTube будет проще искать информацию — и это не полный перечень удобств. Исследователи говорят, что полноценная транскрибация — это только вопрос времени, хотя никто не знает, сколько времени понадобится.

Вот, что говорит Сюэдун Хуан, старший научный сотрудник Microsoft, сравнивая человеческую транскрибацию и программы по распознаванию голоса: «Люди транскрибируют разговорную речь с уровнем ошибок около 4%, а самые лучшие разработки от IBM, Google, Microsoft допускают около 8% ошибок, в остальных программах по распознаванию голоса процент погрешностей ближе к 12%. Итого, технологические разработки работают примерно вдвое хуже, чем люди.

Но это отличнейший результат по сравнению с тем, как программы транскрибации работали еще 5 лет назад. А десять лет назад показатель ошибок вообще достигал 80%! Это отличный прогресс для одного десятилетия. Сложно предугадывать, но если работать в прежнем темпе, то в ближайшие 2-3 года программы смогут транскрибировать речь на уровне с людьми».

А вот что говорит Карл Кейс, научный сотрудник в Baidu: «Современные речевые системы на английском и китайском языках показывают очень хорошие результаты. Мы стремимся к тому, чтобы программы работали не просто «в некоторых условиях, зависит от контекста», а чтобы понимали человеческую речь, как и люди».

Кейс вместе с коллегами испытывали свой API в разных неблагоприятных условиях: при ветреной погоде, когда шумит автомобильный мотор, с музыкой на заднем плане… Они сделали свою систему распознавания речи доступной для широкой публики частично во имя науки, а отчасти потому, что чем больше у продукта пользователей, тем лучше он становится.

Как можно экономить на транскрибации

Что делать тем людям, которые не могут себе позволить оплачивать работу профессиональных транскрибаторов? Решения, конечно, есть, но ни одно не является абсолютно идеальным.

Так, программист Энди Байо решил расшифровать аудиоинтервью, воспользовавшись помощью исполнителей на краудсорсинговой платформе Amazon Mechanical Turk. Он разделил запись на небольшие кусочки и передал работу по расшифровке этих фрагментов разным исполнителям на площадке. Получилось недорого, но такой процесс требует подготовки, а потом самостоятельного редактирования.

Еще можно поэкспериментировать с Google Docs. В редактор встроен бесплатный инструмент транскрибации аудиофайлов. Если спикер в записи говорит медленно и достаточно четко, то система сможет распознать речь и транскрибировать текст с частотой ошибок примерно 15%.

Также можно попробовать метод под названием «попугай», если требуется транскрибировать сложные записи, с несколькими спикерами, фоновым шумом, невнятной речью и прочими проблемами. Запись прослушивается по частям, а потом услышанную речь повторяют в микрофон, и программа транскрибирует немного точнее, чем при произведении записи. Такой подход экономит время при наборе текста, но это небыстро.

Потребуются десятилетия, чтобы программы понимали людей

А вот Роджер Циммерман, руководитель отдела исследований и разработок в 3Play Media — эта компания разрабатывает приложение для автоматической транскрибации, сомневается, что технология распознавания речи вскоре сравняется с человеческими возможностями. Роджер считает, что для этого потребуются десятилетия. Пока продукт компании для расшифровки работает с точностью около 80%.

Циммерман считает: «Люди не говорят так, как пишут. Мы запинаемся, исправляемся, повторяем уже сказанное. Поэтому языковая модель несовместима со спонтанной речью. Новые нейронные сети понимают, что делают, когда декодируют звуковой сигнал, но они действительно не понимают, что должна делать языковая модель, чтобы имитировать человеческий язык».

Технологии диаризации

В целом есть технологии, которые могут улучшить работу программ для транскрибации. Эта технология известна как «двухсторонняя диаризация» (разделение дикторов). Эту систему не нужно обучать на образцах речи, она может определять, кто говорит, и что говорят. Легко распознать речь одного человека, который медленно произносит слова. Но группа людей, ведущих оживленную беседу — это совсем другое. Эти задачи решаются с помощью «развитой транскрибации», но пока этот метод не выходит за рамки научных исследований.

Джеральд Фридланд, который возглавлял проект по диаризации в некоммерческом институте, утверждает — если микрофон расположен близко, то с помощью технологии можно идентифицировать говорящего в 98% случаев. Но как только микрофон отдаляется, частота ошибок возрастает до 15-100%, на точность распознавания влияют различные помехи. Также в диаризационных исследованиях сложно работать с детьми и пожилыми людьми.

«Я думаю, что идеальный распознаватель речи, который «слушает» как человек, не будет разработан в разумные сроки. Вероятно, наше поколение не доживет до этого момента», считает Фридланд.

Но дела с распознаванием речи не так уж и плохи, говорит Фридланд. Большинство стартапов по разработке транскрибаторских продуктов используют API Google, то есть распознают речь в облаке. Но это не настолько сложный процесс, чтобы не обойтись без интернета. На самом деле, можно создать синтезатор голоса, который работает локально. Рынок открыт для инноваций.

Источник: https://www.wired.com/2016/04/long-form-voice-transcription/

нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru