Автоматическое распознавание речи. Автоматическая транскрибация

Опубликовано: 2020-09-02

Рассмотрим улучшения в автоматической транскрибации речи. Ведь технологии постоянно совершенствуются. На образцах человеческой речи можно обучить нейросетевые программы распознавать разговорный язык с точностью, которая приближается к 95%. Всего несколько лет назад это было немыслимо.

Основатель Otter.ai, программы-транскрибатора, и выпускник Стэнфорда, Сэм Лианг сказал, что все сказанные человеком за его жизнь слова — это всего два терабайта информации. Эти данные можно сжать и достаточно компактно разместить на устройствах хранения, которые стоят менее 50 долларов.

Развитие технологий ИИ вредит нашей конфиденциальности?

Благодаря развитию технологий распознавания речи появились виртуальные помощники, такие как Siri от Apple, Alexa от Amazon, Google Voice, Microsoft Cortana и другие. В то же время, эти технологии оказывают свое влияние на нашу работу, повседневную жизнь и на другие сферы. Это касается вопросов конфиденциальности.

«Компьютеры лучше людей способны организовывать, анализировать и оценивать человеческие коммуникации», — сказал Марк Ротенберг, исполнительный директор Центра электронной частной информации в Вашингтоне. В 2015 году против Samsung подали жалобу в Федеральную торговую комиссию, утверждая, что запись и хранение разговоров их умными телевизорами представляет угрозу для конфиденциальности. По его словам, речевая транскрибация вызывает вопросы по поводу защиты конфиденциальной информации.

Этот вопрос касается также бизнеса, но в другом аспекте. Компании, наоборот, заинтересованы в записи всех разговоров сотрудников, даже тех, которые ведутся в курилке. Мистер Лианг говорит, что такой интерес связан с тем, что компании хотят сформировать новую базу знаний, чтобы понимать, как люди на самом деле общаются друг с другом и как рождаются новые идеи.

Возможности сервисов автоматической транскрибации

С развитием рынка автоматической транскрибации разработано множестве новых приложений. Так, в Калифорнийском университете в Лос-Анджелесе создали продукт Otter.ai, чтобы помочь студентам в ведении заметок, особенно тем, у кого проблемы со слухом. Больше нет необходимости писать конспекты вручную и просить поделиться записями, если не успел всё занотировать — запись лекции ведется в автоматизированном порядке.

Сервис Otter.ai можно использовать в Zoom — системе видеоконференций, где можно получить стенограмму деловой встречи. Еще одна полезная функция в Otter.ai — возможность легко выделить и затем маркировать разных докладчиков в одной записи.

Услуги автоматической речевой транскрибации востребованы в разных областях, например, чтобы создавать субтитры для каналов YouTube, корпоративных обучающих видеороликов, компаниям по исследованиям рынка нужны стенограммы от фокус-групп.

На рынке есть много сервисов, где можно заказать как точные услуги расшифровки по более высокой цене, так и дешевые, сгенерированные машиной тексты, которые потом можно самостоятельно исправить. Вопрос — уничтожит ли автоматическая транскрибация человеческие трудовые ресурсы? По словам Джейсона Чиколы, основателя и исполнительного директора компании Rev, он не верит в такие перспективы. «Люди и машины будут работать вместе в обозримом будущем», — сказал он.

Польза для бизнеса и медицины

Речевые технологии оказывают несомненное влияние на структуру корпораций.

Главный научный сотрудник Salesforce, компании, занимающейся облачным программным обеспечением, Ричард Сошер говорит: «Наши чат-боты обрабатывают множество сервисных случаев. Если в крупных сервисных организациях с тысячами сотрудников автоматизировать хотя бы 5% клиентских запросов, это существенно облегчит работу».

Врачам также полезны сервисы автоматической транскрибации, чтобы вести записи и электронные медицинские карты. Раньше врачей критиковали за то, что во время визита они смотрели на экраны и печатали, а не поддерживали зрительный контакт с пациентами. Поэтому медицинские стартапы предложили решения, с помощью которых прием у врача записывается программными средствами и удаленно редактируется — обычно студентами-медиками, а врач в результате получает готовые заметки.

Будущее за обработкой естественного языка

Хотя автоматизированные системы транскрибации значительно улучшены, они все еще далеки от совершенства. Точности расшифровки в 95% можно достичь только при самых лучших условиях. Акцент, неудачно установленный микрофон или фоновый шум негативно сказываются на уровне точности.

Вся надежда на другую речевую технологию — обработку естественного языка, которая пытается определить значение слов и предложений, только тогда машины сравняются с людьми в точном понимании речи. Но пока обработка естественного языка остается неосвоенной областью искусственного интеллекта.

Вот что сказал по этому поводу научный сотрудник из Стэнфордского университета Кристофер Мэннинг, специализирующийся на обработке естественного языка: «Компьютеры все еще не могут сделать то, что людям дается без особых усилий. И я абсолютно уверен, что мне не придется менять сферу деятельности до самой пенсии».

Источник: https://www.nytimes.com/2019/10/02/technology/automatic-speech-transcription-ai.html

Метки:

Расшифровка: статьи и новости отрасли

Расшифровка аудио и видео

нужен
перевод?

заказать онлайн

+7 (495) 995 7253

info@swan-swan.ru