Распознавание речи и распознавание говорящего

Опубликовано: 2020-07-15

Бывают такие фразы, которые сложно расслышать, если люди произносят слова быстро и с нечеткой дикцией. Например, «Несу разные вещи» и «несуразные вещи». Как же компьютеры распознают такую речь?

Технология распознавания голоса безостановочно развивается с начала 1980-х годов. Однако до сих пор возникают определенные трудности, связанные с преобразованием произнесенных слов в компьютерный текст, что сводит к минимуму эффективность этой технологии.

Расшифровку речи можно разделить на две основные категории: распознавание голоса и распознавание говорящего. Каждая отличается технологиями и способом применения. Однако иногда эти отдельные функциональные категории используют совместно, чтобы обеспечить наиболее точную расшифровку речи, зависящую от особенностей голоса говорящего.

Распознавание речи — это способность устройства идентифицировать отдельные слова или фразы из человеческой речи. Эти слова могут использоваться для управления работой системы — компьютерным меню, производственными процессами или прямым вводом речи в приложение. Системы расшифровки речи могут быть независимыми от говорящего, как правило, с ограниченным словарным запасом, или зависимыми от говорящего.

Независимые системы используются в известном контексте. Зависимые системы увеличивают словарный запас за счет «обучения» для каждого конкретного пользователя. Это обучение обычно состоит из того, что пользователь произносит определенную серию слов и фраз, чтобы система могла изучить приемы произношения пользователя и образцы речи. Затем система создает шаблон специально для каждого пользователя.

Голос и телефония

Если вы когда-либо звонили в справочную службу или использовали голосовую почту, ваш запрос, вероятно, был обработан системой IVR на основе ASR. Что это за инициалы? IVR (Interactive Voice Response) — это интерактивная система речевой связи. Как правило, системы IVR функционируют через режим диалога с помощью сенсорной клавиатуры телефона. Благодаря чему пользователь может вводить номера счетов, отвечать на вопросы с несколькими вариантами ответов и т. д.

ASR (automatic speech-recognition system) — это система автоматического или адаптивного распознавания речи. Итого, ASR обеспечивает более естественное взаимодействие человека с телефонной системой.

Многие системы справочно-информационного обслуживания используют ASR для облегчения обработки входящих вызовов. Абоненты задают вопрос, затем система пытается интерпретировать произнесенные слова. Подобное использование ASR / IVR технологии в телефонии опирается на голосовые модели.

Более практичным и достижимым подходом к ASR является внедрение управляемой речью системы IVR на основе меню. Ограниченный словарь и фиксированный контекст такой системы существенно снижает ее сложность и стоимость. Доступные на рынке системы отличаются по возможностям — некоторые могут распознавать продиктованные номера, поэтому пользователю не требуется нажимать на кнопки в телефоне с тональным набором. Другие системы отличаются широкими возможностями настройки, которые можно интегрировать в центры обработки вызовов и внутренние дата-центры.

Также существуют системы, которые распознают слова из фиксированных или программируемых словарей. В такие словари можно добавлять узкоспециализированные слова, в зависимости от задачи, например, имена сотрудников и названия отделов, вопросы для анкетирования.

Сложность диктовки

Пожалуй, диктовка — самая сложная задача для систем распознавания речи. Обычно люди понимают свободную речь. Но ведь мы общаемся друг с другом, используя акцент, интонации, эмоции — это усложняет распознавание произносимых слов компьютером. Впрочем, несмотря на несовершенство, если эти системы обучить, может получиться эффективная и полезная технология. Одним из примеров системы диктовки является программное обеспечение Lernout & Hauspie's Voice Xpress.

С подобными продуктами распознавание голоса значительно улучшается, поскольку система обучена понимать человека. Кроме того, во время диктовки, если система не понимает слово или дикцию, пользователю предлагается ввести слово или произнести непонятное слово по буквам.

Имеет значение и качество микрофона при использовании систем диктовки. Так, во встроенных в ноутбуки микрофонах качество звука ниже, чем в шумоподавляющей гарнитуре, которую можно установить в фиксированном положении.

Но даже лучшие микрофоны не могут подавить слишком много фонового шума. Для приемлемой работы системы диктовки надо минимизировать уровни окружающего шума и других помех. В противном случае точность диктовки ухудшается.

Распознавание говорящих

Вместе с требованиями к безопасности данных появляются новые методы идентификации людей, исходя из того, что каждый человек уникален. В частности, каждый голос — уникальный, что может использоваться для биометрической проверки пользователя, для физической защиты зоны, для ограничения доступа к личным файлам или проверки личности по телефону.

Для использования системы новому пользователю надо зарегистрироваться. Для этого пользователю следует повторить последовательность числовых или устных подсказок. После этого система генерирует модель голосовых образцов пользователя. Эта модель уникальна для этого человека. Используя голосовую биометрию в сочетании с другими формами идентификации (имя пользователя и пароль, физический ключ или комбинация) можно обеспечить высокую степень достоверности при проверке личности пользователя.

Таким образом, с помощью технологии распознавания говорящего можно войти в здание, отметить время начала рабочего дня и ухода с работы, получить доступ к файлам и не только.

Улучшение технологии распознавания голоса

Независимо от того, осознаем мы это или нет, мы постоянно используем эту технологию в нашей повседневной жизни. Эти системы улучшились настолько, что их можно использовать для повседневных приложений диктовки, контроля, логистики и телефонии.

Управлять голосом — проще, нежели клавиатурой. В частности, программное обеспечение для диктовки позволяет людям с ограниченными возможностями, или слабовидящим, эффективнее использовать компьютер. К тому же с помощью систем расшифровки голоса можно улучшить работу других электронных и электромеханических устройств, чтобы улучшить качество жизни инвалидов.

Многие мобильные приложения понимают речь, благодаря чему можно заполнить нужные поля с использованием голосового ввода.

Технология распознавания и расшифровки речи проникла в нашу повседневную жизнь, с помощью голоса мы управляем освещением в доме, открываем двери офиса, получаем доступ к конфиденциальным файлам, ищем информацию в интернете.

Это не все возможности использования технологии. На рынке можно найти продукты, которые помогут решить любые пользовательские запросы с использованием технологии расшифровки речи.

 

Источник: https://www.govtech.com/magazines/gt/Speech-Recognition-vs-Speaker-Recognition-.html

 

нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru