Вы здесь

Сбор данных для бизнеса. Будущее за расшифровкой речи? (часть 2)

Опубликовано: 2020-09-07

Продолжение. Начало: Сбор данных для бизнеса. Будущее за расшифровкой речи? (часть 1)

Зачем нам нужны инструменты автоматической расшифровки речи?

Начнем с составления списка критериев, чтобы помочь вам подобрать подходящий инструмент АРР.

Во-первых, ответьте — чего вы пытаетесь достичь с помощью технологии АРР? От этого зависит выбор функций. Вот список сопутствующих вопросов для определения приоритетов того, что важно для вашего проекта:

  • Синхронный / асинхронный. Вам нужна мгновенная транскрибация в реальном времени? Или вы используете предварительно записанные файлы, вроде MP3?
  • Обозначение спикера / канала. Вам нужно в любой момент времени отметить, кто говорит (оператор колл-центра с клиентом, ведущий подкаста с гостем) или из какого канала идет звук?
  • Метки времени. Нужны ли вам временные отметки для каждого слова в аудиофайле для сопоставления с внешним источником после транскрибации?
  • Пользовательский словарь. Вы будете расшифровывать речь профессионалов из сферы здравоохранения, юриспруденции или другой области, где используют терминологию?
  • Иностранные языки. На каких языках вы будете транскрибировать?

Вот график, с помощью которого вы можете узнать, что могут предложить четверо ведущих игроков в сфере автоматического распознавания речи с поддержкой ИИ.

 

Microsoft

AWS

Google Cloud

IBM

Распознавание спикера

Только подтверждает докладчиков на основе предоставленного вами списка людей

Да

Да

Да

Обозначение канала

Нет

Да

Да

Нет

Временные метки

Нет

Да

Да

Да

Специализированный словарь

Да

Да

Да

Да

Помощь с языками

5 – 23
(в зависимости от способа)

Английский, испанский,
французский канадский
(и не только)

100+

7

Rest API

Да

(не больше 15 секунд)

No

Да

Да

Кто это делает лучше?

Определились с параметрами проекта? Теперь проведем технологический отбор, чтобы найти лучшее решение.

Для начала стоит разобраться, как сделать общую оценку точности расшифровки (Word Error Rate, WER, вероятность ошибки в слове). Разработчики приложения Descript выпустили собственную методологию, чтобы оценивать общую погрешность. У этого продукта понятная методология, аккуратный дизайн и исполнение. Согласно этому стандарту оценки, лидирующие позиции в распознавании речи занимают Google и Amazon.

Как ИИ может понимать смысл сказанного

Обратим внимание на ограничения распознавания речи. Можно получить весьма точную транскрибацию, но за текстом теряются эмоции. Мы не можем понять, с какими выражениями, интенсивностью говорил докладчик, на чем акцентировал. Всё это имеет значение.

Поэтому ИИ развивается в том направлении, чтобы не просто понимать потребности и мнения клиента, а автоматизировать это понимание. Здесь вступает в игру обработка естественного языка (NLP). NLP извлекает ключевые термины и их взаимосвязи из гор неструктурированных данных, чтобы понять и проанализировать сказанное.

Этот процесс выглядит так: преобразованные разговорные неструктурированные данные превращаются в текст, далее этому тексту придается смысл и переводится в форму, в которой можно выполнять запросы к нему, чтобы превратить в интеллектуальный анализ данных.

Будьте в курсе прогресса АРР

Итого, нет никаких сомнений, что технологии распознавания речи будут развиваться по мере роста потребностей бизнеса, а техногиганты будут и дальше вкладывать ресурсы в развитие ИИ. Если вы видите, что технологии ИИ могут радикально изменить ваш бизнес, то почему бы не заняться их внедрением?

Источник: https://www.mindovermachines.com/speech-to-text-the-future-of-unstructured-data-part-2/


 

нужен
перевод?

заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru