9 голосовых баз данных, о которых вы должны знать

Опубликовано: 2020-04-20

В ноябре 2017 года Mozilla представила первый выпуск своей модели расшифровки речи в текст с открытым исходным кодом. Точность этой модели приближается к человеческому восприятию звука. Что еще более важно, компания также выпустила вторую по величине в мире общедоступную базу голосовых данных под названием Common Voice — 20 000 человек по всему миру помогли этому проекту.

Mozilla начала работу над Common Voice в июле 2017 года, призывая добровольцев представить образцы своей речи или проверить автоматические расшифровки. К ноябрю накопилось около 400 000 записей, что составляет 500 часов речи.

«Это только первый релиз, дальше будет больше», — написал Шон Уайт в блоге и объяснил значимость Common Voice: «Одной из причин, почему на рынке так мало сервисов, является отсутствие данных. Стартапам, исследователям или тем, кто хочет работать с голосовыми технологиями, нужны высококачественные транскрибированные голосовые данные для совершенствования алгоритмов машинного обучения. Пока базы данных довольно ограниченные».

Действительно, разработчики жалуются на нехватку качественных данных для обучения искусственного интеллекта.

Конечно, Amazon и Google на протяжении многих лет собирали различные звуки и голоса. Некоторые из аудиоданных Google — общедоступные. Но Стивен Татеосян, директор по безопасному Интернету вещей и промышленным решениям в NXP Semiconductors, отметил, что этих данных недостаточно для разработки продукта производственного уровня. Или, возможно, они не самого высокого качества, недостаточно разнообразные.

В результате многие компании предпочитают создавать собственные базы данных. Некоторые компании используют данные из открытого доступа, чтобы дополнить свои разработки, другим компаниям для создания нишевого продукта достаточно общедоступных данных.

Итого, разработчикам пригодятся разные базы голосовых данных. Вот какие коллекции звуков и голосов (публичные и частные) стоит исследовать помимо Common Voice.

Google Audioset

Это расширяющаяся база из 635 классов звуковых событий и коллекция из 2 084 320 десятисекундных звуковых клипов из YouTube, отмеченных человеком. Эти 10-секундные сегменты видео доступны через поиск на основе метаданных, контекста и анализа контента.

Google пишет: «Результатом является набор данных беспрецедентного многообразия и размера, который, мы надеемся, существенно стимулирует разработку высокопроизводительных распознавателей звуковых событий. Выпуская AudioSet, мы надеемся решить задачу обнаружения звуковых событий, а также создать всесторонний словарь звуковых событий».

VoxCeleb

Масштабная база данных для идентификации ораторов. Содержит около 100 000 фраз от 1251 знаменитости, различных профессий, возрастов, с разными акцентами. Эти фразы взяты из видео на YouTube. «С помощью этой базы можно определить, какой звезде принадлежит голос», — утверждает VoxCeleb.

2000 HUB5 English Evaluation Transcripts

Эта база данных состоит из стенограмм 40 телефонных разговоров на английском языке. Разработана Консорциумом лингвистических данных с целью исследовать новые перспективные области в распознавании разговорной речи и преобразования разговорной речи в текст, разрабатывать передовые технологии, включающие эти идеи, и измерять производительность новых технологий.

Транскрибации 40 файлов исходных речевых данных представлены в формате .txt. Для составления базы использовались:

1) 20 телефонных разговоров, когда спикеры вели беседы на повседневные темы со случайными абонентами.

2) 20 телефонных разговоров без подготовленного заранее текста между носителями английского языка.

Callhome American English Speech

Еще одна разработка Консорциума лингвистических данных. В базе 120 получасовых телефонных разговоров между носителями английского языка — в основном между членами семьи или близкими друзьями. Все звонки исходили из Северной Америки. 90 из 120 звонков были сделаны за пределы континента, а остальные 30 звонков сделаны в Северной Америке.

LibriSpeech ASR Corpus

База данных LibriSpeech состоит из приблизительно 1000 часов записи английской речи — это прочитанные аудиокниги из проекта LibriVox. С помощью добровольцев этого проекта создано около 8000 аудиокниг для открытого доступа, большинство из которых на английском языке.

CHiME-5

Эта база данных посвящена проблеме распознавания разговорной речи в повседневной домашней обстановке. Речевой материал был получен путем записи двадцати отдельных вечеринок, которые проходят в реальных домах. Двухчасовая запись каждой вечеринки состояла из трех этапов: приготовление еды на кухне, обед в столовой, разговор после обеда в гостиной.

The TED-LIUM corpus

Материалы взяты на веб-сайте TED. Состоит из аудиозвонков и их транскрибаций. В базе 2351 аудио-разговор, 452 часов аудио и 2351 автоматических стенограмм в формате STM.

Free Spoken Digit Dataset

Голосовая база данных, состоящая из записей произносимых цифр. Записи обрезаются так, чтобы в начале и в конце была пауза.

Источник: https://www.cmswire.com/digital-asset-management/9-voice-datasets-you-should-know-about/

Метки:

Расшифровка аудио и видео

Расшифровка: статьи и новости отрасли

нужен
перевод?

заказать онлайн

+7 (495) 995 7253

info@swan-swan.ru