Продолжение. Начало: Сбор данных для бизнеса. Будущее за расшифровкой речи? (часть 1)
Зачем нам нужны инструменты автоматической расшифровки речи?
Начнем с составления списка критериев, чтобы помочь вам подобрать подходящий инструмент АРР.
Во-первых, ответьте — чего вы пытаетесь достичь с помощью технологии АРР? От этого зависит выбор функций. Вот список сопутствующих вопросов для определения приоритетов того, что важно для вашего проекта:
- Синхронный / асинхронный. Вам нужна мгновенная транскрибация в реальном времени? Или вы используете предварительно записанные файлы, вроде MP3?
- Обозначение спикера / канала. Вам нужно в любой момент времени отметить, кто говорит (оператор колл-центра с клиентом, ведущий подкаста с гостем) или из какого канала идет звук?
- Метки времени. Нужны ли вам временные отметки для каждого слова в аудиофайле для сопоставления с внешним источником после транскрибации?
- Пользовательский словарь. Вы будете расшифровывать речь профессионалов из сферы здравоохранения, юриспруденции или другой области, где используют терминологию?
- Иностранные языки. На каких языках вы будете транскрибировать?
Вот график, с помощью которого вы можете узнать, что могут предложить четверо ведущих игроков в сфере автоматического распознавания речи с поддержкой ИИ.
|
Microsoft |
AWS |
Google Cloud |
IBM |
Распознавание спикера |
Только подтверждает докладчиков на основе предоставленного вами списка людей |
Да |
Да |
Да |
Обозначение канала |
Нет |
Да |
Да |
Нет |
Временные метки |
Нет |
Да |
Да |
Да |
Специализированный словарь |
Да |
Да |
Да |
Да |
Помощь с языками |
5 – 23 |
Английский, испанский, |
100+ |
7 |
Rest API |
Да (не больше 15 секунд) |
No |
Да |
Да |
Кто это делает лучше?
Определились с параметрами проекта? Теперь проведем технологический отбор, чтобы найти лучшее решение.
Для начала стоит разобраться, как сделать общую оценку точности расшифровки (Word Error Rate, WER, вероятность ошибки в слове). Разработчики приложения Descript выпустили собственную методологию, чтобы оценивать общую погрешность. У этого продукта понятная методология, аккуратный дизайн и исполнение. Согласно этому стандарту оценки, лидирующие позиции в распознавании речи занимают Google и Amazon.
Как ИИ может понимать смысл сказанного
Обратим внимание на ограничения распознавания речи. Можно получить весьма точную транскрибацию, но за текстом теряются эмоции. Мы не можем понять, с какими выражениями, интенсивностью говорил докладчик, на чем акцентировал. Всё это имеет значение.
Поэтому ИИ развивается в том направлении, чтобы не просто понимать потребности и мнения клиента, а автоматизировать это понимание. Здесь вступает в игру обработка естественного языка (NLP). NLP извлекает ключевые термины и их взаимосвязи из гор неструктурированных данных, чтобы понять и проанализировать сказанное.
Этот процесс выглядит так: преобразованные разговорные неструктурированные данные превращаются в текст, далее этому тексту придается смысл и переводится в форму, в которой можно выполнять запросы к нему, чтобы превратить в интеллектуальный анализ данных.
Будьте в курсе прогресса АРР
Итого, нет никаких сомнений, что технологии распознавания речи будут развиваться по мере роста потребностей бизнеса, а техногиганты будут и дальше вкладывать ресурсы в развитие ИИ. Если вы видите, что технологии ИИ могут радикально изменить ваш бизнес, то почему бы не заняться их внедрением?
Источник: https://www.mindovermachines.com/speech-to-text-the-future-of-unstructured-data-part-2/