Человек или машина: что использовать – ручную или автоматическую транскрибацию?

Опубликовано: 2019-12-16

Программное обеспечение для распознавания голоса становится всё лучше. Во времена Siri, Alexa и Google Assistant мы рассчитываем на более продвинутые программы для расшифровки аудио или видео. Но насколько хороши эти сервисы? Сколько раз вы получали результаты автоматической расшифровки с грубейшими (и даже нелепыми) ошибками?

Надо признать — машины довольно легко справляются с расшифровкой простых записей. А вот люди гораздо лучше различают и распознают контекст конференц-звонков, вебинаров, подкастов или любого другого контента.

С одной стороны, автоматическая транскрибация — это быстро и конфиденциально. Но в конечном итоге текстам нужна вычитка человеком. Поэтому, если вы ищете точность и удобство, не проще ли сразу заказать услуги ручной транскрибации?

Если вы пока не уверены — какое решение выбрать, давайте подробно рассмотрим и обсудим плюсы и минусы обоих вариантов.

Преимущества автоматической расшифровки

Такие инструменты, как Scribie, AWS Transcribe или Google Cloud Speech, преобразуют речь из аудио в текст. В среднем, двухчасовой разговор расшифровывается за 30 минут. Это быстрый и простой способ получить текстовый черновик. Конечно, на выходе не получится идеально задокументированная версия аудио, но и стоимость такой расшифровки невысокая.

Еще одна выгода автоматических сервисов — конфиденциальность, чужие уши не будут слушать ваши разговоры. Особенно, если записи секретные, например, сеансы психотерапии, стоит позаботиться о приватности. Хотя некоторые платформы, такие как Google и AWS, передают ваши данные на внешние серверы. Поэтому выбирайте сервис, который работает на собственной платформе для обработки записей.

Кому подходит это решение?

Расшифровки интервью или необработанных видеоматериалов часто используются авторами и журналистами в качестве чернового наброска. Также на автоматических сервисах можно создать субтитры, а потом загрузить файл с титрами в свое видео на YouTube.

Ученые могут расшифровать свои файлы с помощью программного обеспечения, а потом самостоятельно отредактировать копию. Потому что их записи могут содержать высокотехнологичные термины или ключевые данные, поэтому важна точность и аккуратность.

Во многих компаниях расшифровывают совещания и деловые встречи, чтобы сохранить обсуждаемые детали в качестве резервной копии. Также эти сервисы полезны для контакт-центров, которые записывают большое количество телефонных разговоров с клиентами.

Итого, сервисы автоматической транскрибации подойдут для: журналистов, врачей, исследователей, бизнеса, колл-центров, СМИ.

Недостатки автоматических сервисов

В программном обеспечении для расшифровки нет функции логического вывода. Без этой технологии система не сможет вносить исправления в зависимости от контекста, а также определять разных спикеров, делать абзацы в нужных местах, расставлять знаки препинания и многое другое.

Если определенный сервис транскрибации гарантирует 100% точность, значит, это либо преувеличенные заявления, либо программа разработана для одного конкретного вида записей. В любом случае, на точность всегда влияет произношение спикера и качество звука.

Типичные ошибки программного обеспечения

Ресурсы программных продуктов довольно ограничены, поэтому следует ожидать распространенных ошибок.

Искусственному интеллекту сложно отслеживать обороты речи, особенно, когда между несколькими говорящими происходит быстрый обмен репликами. В таких случаях величина ошибок может достигать от 20% до 30%. В лучшем случае система сможет распознать до 90% речи. Но абзацы, так или иначе, не будут расставлены правильно, некоторые слова будут пропущены, а ораторы не будут отслеживаться. Также программное обеспечение с трудом распознает имена людей и малоизвестные географические названия.

Также не стоит рассчитывать, что в автоматически расшифрованных стенограммах будут правильно расставлены кавычки. Система не сможет определить, где начало цитаты, где окончание, где кавычки открыть, где закрыть. AWS, Google Web Speech и Speechmatics вообще не поддерживают кавычки. Также есть проблемы с распознаванием дефисов, восклицательных знаков и правильным использованием заглавных букв.

Конечно же, результаты автоматической транскрибации — это всегда черновик, далее следует редактировать текст вручную.

Преимущества ручной транскрибации

Ручная работа обеспечивает высокое качество расшифровки, точность около 95%. Передать задачу специалисту целесообразно в случае, если файл большой, спикеры говорят быстро или с акцентом, проблемы с записью вроде фонового шума или искажения.

Также транскрибаторы расставляют временные коды при расшифровке, что помогает определить, когда произносится предложение, и субтитры отображаются в нужное время.

Кому подходит ручная транскрибация

Компании нанимают транскрибаторов, чтобы соответствовать корпоративному стилю. Или, например, чтобы создать субтитры для телешоу, стенографию выступления. Для расшифровки материалов особой важности, где желательно участие человека в наборе текста, например, медицинских и научных работ, судебных протоколов, показаний свидетелей и других юридических документов.

Конечно, услуги ручной расшифровки стоят дороже по сравнению с автоматическими сервисами, но внимательный профессионал на самом деле экономит вам деньги тем, что защищает от ошибок. Например, известен случай, когда из-за пропущенного знака препинания случилось повреждение реактивного двигателя. Это была очень дорогостоящая ошибка.

Вывод: услуги ручной транскрибации подойдут для: предприятий, ученых, СМИ, преподавателей, маркетологов, юристов.

Читайте также: Расшифровка аудиозаписей

Источник: https://scribie.com/blog/2018/10/manual-or-automated-transcription/

Метки:

Расшифровка: статьи и новости отрасли

Расшифровка аудио и видео

нужен
перевод?

заказать онлайн

+7 (495) 995 7253

info@swan-swan.ru