Перевод звука в текст. Как расшифровать шум, смех и другие звуки в записи

Транскрибация звуков в записи. Когда не справляются нейросети...

Самый популярный вид транскрибации — это преобразование в текст человеческой речи. В основном требуется перевод аудио в текст. При этом основная задача транскрибатора – передать смысл текста. В процессе расшифровки устной речи специалист концентрируется только на словах, которые произнес актёр, диктор, ведущий, спикер или другой участник в процессе записи. На другие звуковые эффекты, которые случайно зафиксировал микрофон, стараются не обращать внимания и, как следствие, не расшифровывать. Например:

  • Журналист взял интервью у гостя в публичном месте, где регулярно раздаются посторонние шумы: разговоры окружающих людей, хлопанье дверьми, крики детей, звон посуды, сигналы проезжающих машин. Этот фоновый шум не имеет никакой ценности для интервьюера, даже мешает. Задача при расшифровке аудио передать основные тезисы и мысли собеседника.
  • Студент на лекции записал речь преподавателя. В это время в аудитории звучали и другие звуки: перешептывание соседей, что-то упало со стола, кто-то из слушателей отпросился выйти в коридор. Студенту неинтересна информация, которая не имеет отношения к теме учебного предмета, поэтому все лишние фразы из расшифровки лекции будут удалены и в окончательный текст не попадут.
  • Секретарь компании вел запись тренинга, чтобы потом пополнить базу знаний для сотрудников. На мероприятии было многолюдно, поэтому об идеальной тишине говорить не приходится, да и тренеры время от времени отвлекались: рассказывали шутки, отвечали на вопросы персонала, решали организационные вопросы, например, просили вынести на сцену реквизит. Чтобы подготовить качественный  учебный материал на базе этого тренинга транскрибатор обращает внимание только на структуру и значимую смысловую информацию.
  • Таким образом, перевод речи в текст не включает в себя расшифровку или описание посторонних звуков и шумов. Слова-паразиты, междометия исключаются.

Но бывает, что требуется перевод звука из аудио или видео в текст. и не всегда нейросети могут справится с такой задачей.

Что такое расшифровка звука

Транскрибация звуковых эффектов — это процесс преобразования в письменный текст не только произносимых значимых слов, но и вообще всех звуков, которые воспринимает человеческое ухо. Они должны быть зафиксированы в процессе записи. Сюда относят:

  • Сознательные и непроизвольные физиологичные звуки, которые человек производит в процессе разговора или даже молчания. Это плач, смех, чихание, кашель, слова-филлеры вроде «нууу», «типа», «эээммм», повторения, запинания, похрустывание суставами...
  • Шум окружающего мира в открытых пространствах. Это сигналы автомобилей, выкрики пешеходов, аудио-реклама, сирены и сигнализация, проезжающие мимо вагоны метро и поездов, щебет птиц...
  • Намеренные и неосторожные звуки, которые издают предметы. Это хлопанье дверей, падение с полок разных вещей, шум аппаратуры (фена, перфоратора), звон посуды...
  • Звуки музыки со словами или инструментальной.

Это неполный перечень существующих звуковых эффектов. Смысл в том, что в процессе транскрибации речи подобные элементы не включаются в стенограмму. Но если перед нами поставлена задача перевести звук в текст, транскрибатор меняет методологию работы.

В результате готовая стенограмма выглядит совсем иначе.

В процессе расшифровки звука в текст транскрибатор использует более сложные методы работы, поэтому процесс занимает больше времени, требует больше трудозатрат и креативного подхода. Существуют определенные профессиональные стандарты, как следует делать текстовое описание звуков, но во многих случаях приходится проявлять изобретательность и внедрять индивидуальные решения.

 

Вот как могла бы выглядеть стенограмма со звуками, если расшифровать несколько кадров из популярного фильма 2023 года «Barbie»:

08:50: Кен: Эй, Барби, зацени.

08:53: звучит бодрящий припев «Туа-ту-ту-туа».

(Шум волны).

(Крик чаек).

09:06: Алан: Нет.

09:08: Кен бежит по пляжу с доской, звучит предупреждающий тревожный сигнал надвигающейся опасности.

09:12: звук столкновения тела Кена с бутафорской волной.

09:13: Алан: (протяжно) Нееееееееееет.

09:17: свист переворачивающего тела в воздухе и вопли Кена: Оооооооооооооо!

09:22: тело Кена падает со звуком на песок, одновременно с резким свистом приземляется доска для серфинга.

09:24: перепуганные возгласы окружающих людей и тревожные крики.

09:27: Барби: Кен…

09:28: Кен: Привет, Барби.

Скриншот из фильма 2023 года «Barbie»

В процессе транскрибации звуков расшифровывается всё, что может уловить ухо:

  • Объясняется словами, на что это похоже, какие ассоциации и чувства вызывает.
  • При необходимости делается перевод звуков на другой язык.
  • Записываются в виде текста знакомые или необычные звуки.
     

Расшифровка звуков для досудебного расследования, экспертизы, научных и сследований:

  1. Формирования доказательной базы в процессе досудебного расследования. Каждый расшифрованный звук поможет подтвердить или опровергнуть факты, явления или действия, которые имеют значение для уголовного производства. Например, звук удара кулака по столу в качестве подтверждения угрозы для второй стороны.
     
  2. Проведения различных экспертиз.
     
  3. Научных исследований. Социологи, психологи, врачи разных специальностей активно используют расшифровки в работе. Рассказ пациента часто включает в себя звуки плача, смеха, намеренного искажения привычных слов. Перевод звуков видео в текст помогает сделать точные выводы о физическом и душевном состоянии человека и защищает специалиста от возможных претензий со стороны пациента или его родственников.
     

Для таких целей чаще всего заказывают дословную транскрибацию видеозаписей вместе со звуками. Пожалуй, это самый сложный тип расшифровки, потому что большую часть работы занимают повторные прослушивания текста или проверка фрагментов видео. Процесс расшифровки звуков невозможно автоматизировать, искусственный интеллект пока не научился распознавать богатейшую гамму звуковых эффектов и ранжировать эмоциональные реакции.

Вопросы-ответы:

Как правильно писать стенограмму?

Положите записывающее устройство, диктофон, телефон как можно ближе к человеку, чью речь надо записать. Перед записью проверьте заряд батареи аккумулятора, если интервью или заседание суда планируется на 2-3 часа. Нажмите на значок Запись или Микрофон. После завершения отправьте нам файл любым удобным для вас способом: через мессенджеры, форму сайта или на e-mail: info@swan-swan.ru

Как правильно называется перевод звука в текст?

Перевод звука в текст называется транскрибация.

Сколько стоит набор текста с аудиозаписи?

Набор текста производится вручную.   Цена от 23 руб/минута.

Если вам потребовался перевод звука из аудио или видео в текст — сделайте заказ онлайн через форму сайта или направьте письмо: info@swan-swan.ru. Наши специалисты оперативно создадут стенограмму для любых целей. При необходимости документ можно заверить печатью и подписью директора агентства СВАН, чтобы гарантировать точность и корректность расшифровки.

 

Почитать подробнее об услугах расшифровки, посмотреть примеры транскрибации можно тут: https://swan-swan.ru/rasshifrovka-vyorstka-dizayn/

нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru