Почему исследователям не нужны инструменты автоматической транскрибации?

Опубликовано: 2021-03-17

Несмотря на развитие программного обеспечения для распознавания речи, транскрибация — это все еще нелегкий процесс. К тому же, нет никаких гарантий, что записи, позволяющие идентифицировать личность, не будут прослушаны и расшифрованы посторонними лицами.

Не существует правильного способа расшифровки интервью или других записей исследований в области социальных наук. Так, был случай, когда британский социолог Гарри Коллинз дословно расшифровал беседы об обнаружении гравитационных волн. «Дословно» это значит, что в стенограмме сохранился также и речевой «мусор» вроде «эээммм», «нууууу», смех, вздохи и прочее. Несколько исследователей попросили удалить эти элементы из расшифровки.

Также Коллинз решил исправить ломаный английский язык, на котором итальянские физики вели дебаты с американскими коллегами, потому что в письменной форме эти выражения выглядели бы необоснованными, что значительно снизило бы авторитет экспертов.

Между тем, решения относительно того, удалять или оставлять нелингвистические звуки, могут повлиять на результаты исследования. Поэтому многие исследователи выбирают самый простой способ расшифровки — превратить транскрибацию в относительно механический процесс, записывать всё, что слышно, оставить все звуки, не принимать никаких решений об «очистке» данных до завершения процесса транскрибации. Исторически такая утомительная работа была обязанностью аспирантов или младших научных сотрудников. Но самостоятельная расшифровка интервью поможет лучше понять данные, улавливать идеи и закономерности, и в результате провести качественное социологическое исследование.

Стартапы в сфере ИИ мешают транскрибации

В свое время несколько студентов Дублинского городского университета решили автоматизировать процесс распознавания речи. Не сказать, что это была кропотливая и продолжительная работа, но в итоге они разработали HappyScribe. Спустя два года HappyScribe поддерживает более 100 языков с функциями экспорта и импорта файлов различных форматов. Этим инструментом пользуются тысячи исследователей и журналистов.

Среди аналогичных программ для транскрибации можно назвать Trint, Verbit, Otter и Voicea, с помощью этих технологий можно расшифровывать речь в реальном времени, делать заметки и краткое изложение. Эти стартапы привлекают финансирование на миллионы долларов — а это значит, что рынок развивается, и спрос на транскрибацию растет.

Новички могут начать знакомство с инструментами автоматической транскрибации с Otter, потому что можно бесплатно использовать 600 минут в месяц. Verbit предназначен для более сложных задач благодаря функции многоуровневой проверки и возможности загрузить собственный словарь, например, с профессиональным сленгом. Также для транскрибирования подойдет приложение TranscribeMe или Dictate2us, которое можно использовать в качестве диктофона для записи интервью, или бесплатное oTranscribe.

Известные программы для анализа данных, такие как NVIVO от QSR International, также добавляют функции для автоматической расшифровки, поиска по тексту стенограммы и создания примечаний. Транскрибатор NVIVO поддерживает 26 языков, соответствует требованиям относительно защиты данных.

Появляются продукты для распознавания речи нескольких людей одновременно, такие как Voicea, которые используются для записи рабочих встреч, для исследований в фокус-группах, или в тех случаях, когда в разговоре задействовано несколько человек, и труднее различать спикеров. Профессиональные расшифровщики обычно решают эту проблему, замедляя речь или прослушивая запись несколько раз.

На рынке ощущается нехватка инструментов для транскрибации, которые могли бы использовать научные сотрудники для расшифровки интервью. Скорее, разрабатываются инструменты, чтобы сделать доступными видео- и аудиоматериалы, например, для создания субтитров для учебных лекций, и для перехода к голосовой связи, учитывая возрастающее количество виртуальных ассистентов.

В итоге, крупные технологические компании разработали системы распознавания речи,  которые действительно хорошо справляются с большими объемами аудио и видео, длинными блоками монологов или диалогов. Фоновый шум, акценты и диалекты больше не помеха для распознавания речи. Таким образом, Google Docs или сервисы Microsoft справятся с расшифровкой речи ничем не хуже, чем люди.

Впрочем, даже лучшие инструменты автоматической транскрибации, которые могут распознавать более 50 языков, акценты и диалекты, не могут справиться с миксованием языков. Например, когда докладчик включает в русскую речь немного английских фраз, потом добавляет немного польских слов, а потом к разговору подключается другой человек, который разговаривает на ином языке. Большинство инструментов все еще некорректно работает при плохом качестве звука — и хотя для человека-расшифровщика это тоже проблема, но роботы в плане распознания речи при некачественной записи проигрывают людям.

Однако есть одна загвоздка: алгоритмы необходимо улучшать, а для этого требуется большое количество данных. Все понимают, что даже такие игроки, как Amazon, Apple, Google и Microsoft, используют труд людей-транскрибаторов, а значит, есть проблемы с защитой данных. Поэтому не стоит использовать сервисы автоматической транскрибации, если запись содержит конфиденциальные и идентифицирующие личность данные, и непонятно, что происходит с исходниками дальше. И надо всегда учитывать риск того, что третьи стороны получат доступ к аудиофайлам, даже если заниматься расшифровкой самостоятельно.

В 1976 году учёный, работающий в области компьютерных наук, Радж Редди предсказал, что алгоритм распознавания речи будет разработан в течение 10 лет. Это заняло больше времени, но созданные алгоритмы выдают результаты ничем не хуже, чем профессиональные расшифровщики, постоянно совершенствуются и стоят дешевле. С помощью этих инструментов исследователи могут транскрибировать длинные аудиозаписи, а потом решать, что делать с полученными стенограммами: оставлять дословную расшифровку вместе с нетекстовыми элементами, или редактировать контент, пока не получится хорошо написанный и понятный текст, который можно использовать для других целей.

Благодаря программам автоматической транскрибации исследователи тратят меньше времени на расшифровку записей и получают больше времени для размышлений, глубокого анализа данных и аннотаций.

Теперь вернемся к британскому социологу Коллинзу, который редактировал ломаный английский итальянских физиков при расшифровке интервью. Правильно ли он поступил? Социолог уверен, что всё сделал правильно. Он провел исследование и пришел к выводу, что если оставить в расшифрованном тексте невербальные элементы, то неуверенность говорящего будет больше бросаться в глаза, чем при передаче мыслей в записанном звуке.

Также Коллинз считает, что для исследований важнее навыки интерпретации услышанного, а не дословная расшифровка записанных слов. Это значит, что важнее вести обдуманную беседу. Идеи Коллинза поддерживает другой ученый Николас Лубере, который разработал новый метод «Систематическое и рефлексивное интервьюирование и отчетность». Суть этого метода состоит в том, чтобы процесс транскрибации вообще не использовать, вместо этого интервью записывать, далее выделять ключевые мысли беседы, на основании чего составлять отчеты.

Итого, исследователям не нужны инструменты автоматической транскрибации, они используют методы, которые позволяют напрямую комментировать видео и аудиофайлы и глубже анализировать записи.

Об услуге расшифровки аудиозаписей людьми.

нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru