Google Speech против Amazon Transcribe

Опубликовано: 2019-03-19

Технологии преобразования текста в речь сделали нашу жизнь легкой. Они помогают нам экономить время и силы и обеспечивают практически мгновенную передачу нужной информации. Эти технологии распознавания речи исследуются и совершенствуются технологическими гигантами Google и Amazon с помощью платформ, получивших названия Google Speech и Amazon Transcribe соответственно. Ниже мы проведем краткий сравнительный анализ этих технологий, основываясь на некоторых чертах, общих для обеих платформ.

Языки

Google Speech: сфера применения платформы очень широка – она поддерживает 119 языков. Одних только разновидностей английского насчитывается тринадцать – австралийский, канадский, английский Ганы, Великобритании, Индии, Ирландии, Кении, Новой Зеландии, Нигерии, Филиппин, Южной Африки, Танзании и США. Он также поддерживает девять языков Индии – бенгали, хинди, гуджарати, каннада, малайялам, марати, тамильский, телугу и урду.

Amazon Transcribe: платформа поддерживает меньше разновидностей английского – британский, канадский, австралийский, и некоторые другие. Кроме того, платформа поддерживает еще шесть языков – арабский, китайский, французский, немецкий, португальский и испанский. В будущем число поддерживаемых платформой языков планируется увеличить еще на шесть – японский, русский, итальянский, турецкий, чешский и традиционный китайский.

Длина аудио

Google Speech: платформа предусматривает две отдельные системы – для длинных и для коротких аудио. Система для длинных аудио предназначается для транскрибирования, а система для коротких аудио – для голосовых интерфейсов.

Amazon Transcribe: платформа предусматривает один ввод для аудио любой длины. Как в Google, так и в Amazon предельная продолжительность аудио для транскрибации составляет 120 минут на каждый API-вызов.

Языки программирования

Google Speech: платформа поддерживает Python, node.js, Java, C++, C#, PHP и Ruby.

Amazon Transcribe: платформа поддерживает NET, Go, Java, JavaScript, PHP, Python и Ruby.

Конфиденциальность

Google Speech: платформа обеспечивает пользователю преимущества конфиденциальности, предоставляя ему возможность пользоваться программой «регистрации данных». Google использует данные пользователей для собственного обучения и совершенствования моделей обучения систем распознавания речи. Если пользователь не хочет регистрировать данные, относящиеся к определенному проекту, он может отключить эту опцию.

Amazon Transcribe: с другой стороны Amazon сохраняет голосовые данные в системе в целях совершенствования моделей ее обучения и данные становятся доступны определенным уполномоченным сотрудникам Amazon. Однако, обратившись в поддержку AWS, пользователь может попросить удалить запись своего голоса.

Формат аудио

Google Speech: в число поддерживаемых форматов аудио входят FLAC, AMR, PCMU или WAV. Кроме того, имеются комплекты разработчиков ПО для C#, Go, Java, Node.js, PHP, Python и Ruby. Платформе не требуются дополнительные средства для подавления шумов. В системе оптимизирован сервис транскрибирования шумных аудиозаписей без использования дополнительных средств подавления шумов. Однако, для получения оптимальных результатов, пользователю рекомендуется использовать микрофон.

Amazon Transcribe: аудио на входе в Amazon Transcribe может быть в формате FLAC, MP3, MP4 или WAV. Необходимо указывать язык и формат файла на входе в Amazon Transcribe.

Пользовательский словарь

Google Speech: платформа не позволяет пользователям создавать свой собственный словарь. При этом, по сравнению с Amazon Transcribe, у Google Speech гораздо больше поддерживаемых языков.

Amazon Transcribe: технология позволяет пользователям создавать свой словарь. Например, при наличии часто используемой пользователем терминологии, характерной для организации пользователя, эту терминологию можно ввести в состав Amazon Transcribe. Однако, эта возможность недоступна для австралийского и канадского вариантов английского языка.

Дополнительные возможности

Google Speech позволяет пользователям надиктовывать и символы выражения эмоций. Для этого пользователь должен назвать символ для выражения эмоций, который он хочет ввести в текст. Например, просто сказать: «добавить «смайлик» или «подмигивание». Эта функция доступна только для английского языка. В Amazon Transcribe подобных функций не предусмотрено.

В Amazon Transcribe можно при необходимости автоматизировать пунктуацию – обучающаяся система это позволяет, в то время как Google Speech такой возможности не предлагает.

Заключение

В целом обе платформы конкурируют друг с другом на равных. Одна из них поддерживает большее количество языков, в то время как другая позволяет пользователям составлять собственный словарь. В определенных аспектах платформы весьма схожи друг с другом.

Более или менее, в части преобразования речи в текст обе платформы обладают целым рядом преимуществ и недостатков. Будет интересно наблюдать за тем, как оба разработчика будут использовать алгоритмы обучения систем в будущем, разрабатывая новые технологии в целях получения конкурентного преимущества.

 

Читайте также: Профессиональная расшифровка аудио и видео в текст от 21 руб./мин

нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru