Транскрибация, или преобразование речи в текст, стала частью рабочего процесса для многих специалистов: журналисты, видеоредакторы, юристы, врачи и не только. Работники средств массовой информации делают запись интервью для дальнейшего цитирования, юристы записывают показания, чтобы зафиксировать сказанные слова и ссылаться на них. Текстовые цитаты из фильмов, записанные комментарии политиков, титры к телепередачам — всё это стенограммы.
Каким путем можно конвертировать речь в текст?
К традиционным способам преобразования речи в текст можно отнести ручную транскрибацию, которая в свою очередь делится на две разновидности:
- Набор текста в процессе постепенного прослушивания предварительно записанного аудио- или видеофайла.
- Набор текста в режиме реального времени, прослушивая живую речь.
Первый вид расшифровки занимает больше времени, но результат получается точнее, ведь скорость воспроизведения записанного файла можно снизить до комфортного темпа. Для второго вида транскрибирования необходимо быть исключительно быстрым машинистом. Расшифровка в режиме реального времени — это узкоспециализированный навык, требующий обширной подготовки. Например, записью речи вживую занимаются судебные протоколисты, для этих целей они используют специальное оборудование и систему условных сокращений. Как правило, точность расшифровки в режиме реального времени несколько ниже, потому что нет времени на исправление ошибок.
Впрочем, ручной набор текста — не всегда идеальное решение. Ведь есть альтернативы — автоматическая транскрибация. Отличается от ручной расшифровки скоростью и более низкой ценой за обработку файла. В случае с ручной транскрибацией есть только один способ ускорить процесс расшифровки — разделить исходную запись на несколько файлов и отправить фрагменты нескольким транскрибаторам, оплатив их работу по почасовой ставке или за страницу. Программное обеспечение транскрибирует аудио- или видеофайл полностью и намного быстрее, чем человек. И это надежнее: ведь машина выдаст готовый результат в 100% случаев за обозначенное время, в то время как люди могут нарушить сроки сдачи работы по разным причинам.
Программы для расшифровки преобразуют речь в текст за счет технологии искусственного интеллекта (ИИ) — это значит, автоматического распознавания речи и обработки естественного языка. Концепция довольно простая: программное обеспечение распознает различные звуки, из которых состоит человеческая речь. И сопоставляет эти звуки с соответствующим словом в своем обширном словаре на том или ином языке.
Впрочем, надо понимать, что искусственный интеллект несовершенен. Заказчик получает черновик с расшифровкой, а дальше надо заниматься ручным редактированием. Чем лучше качество звука в записи, тем выше точность, однако 100% точности машины пока предложить не могут, в отличие от людей. Но программы постоянно обучаются и совершенствуются.
Для многих специалистов и во многих отраслях важно записать данные, сохранить информацию в аудио- или видеоформате и преобразовать записи в текст для дальнейшей работы. А это значит, что запись звука должна быть четкой и чистой, а расшифровка максимально точной, ведь небольшая опечатка может привести к проблемам. Но как мы выяснили, автоматическая расшифровка недостаточно точная, а ручная — недостаточно быстрая. Что делать в таких обстоятельствах? Как получить самый лучший результат расшифровки?
Эксперты в сфере транскрибации нашли решения:
- Сочетание ручной и автоматической транскрибации.
- Делать записи без фонового шума и одновременного разговора разных спикеров.
Источник: https://trint.com/resources/9wk9x0ky/how-does-automated-transcription-work