Эмма Вуллакотт, 25 сентября 2018 г.
Корреспондент Би-Би-Си по вопросам технологии бизнеса
Качество машинных переводов постоянно улучшается, но ошибки все еще случаются
Несмотря на усовершенствования приложений для перевода, они все еще далеки от идеала. В особенности, это касается редких языков. Могут ли искусственный интеллект и нейронные сети исправить ситуацию?
По данным компании Google, во время чемпионата мира по футболу в России этим летом был зафиксирован резкий рост обращений к сервису Google Translate. Болельщики пытались общаться со своими гостями и фанатами, приехавшими на Чемпионат из других стран.
Особенно часто они искали перевод слов «стадион» и «пиво».
В те дни обычные разговорники не пользовался спросом. Недавнее исследование Британского совета показало, что сегодня примерно две трети респондентов в возрасте от 16 до 34 лет, находясь в чужой языковой среде, пользуются мобильными приложениями для перевода.
Однако несмотря на то, что такие приложения несомненно становятся лучше, целиком полагаться на них пока нельзя. Каждый пятый из опрошенных заявил, что сталкивался с непониманием в отпуске из-за некорректного автоматического перевода.
Данная проблема особенно актуальна для носителей языков национальных меньшинств.
Валлийцы, к примеру, обращали внимание на отдельные случаи особо «грубого» перевода, а именно, одно предупреждение «Ведутся взрывные работы» было переведено как «Gweithwyr yn ffrwydro» или «Рабочие взрываются».
А пользователь Google Translate обнаружил этим летом, что при вводе в поле для перевода слова «собака» 18 раз выдается следующий перевод с языка маори: «На часах Судного дня три минуты до полуночи. Мы видим знаки и колоссальные изменения в мире, свидетельствующие о том, что мы все быстрее приближаемся к концу света и второму пришествию Иисуса».
* «Пирог жены» и «дьявольская вода»: Опасности автоперевода
Так почему же в эпоху сверхмощных компьютеров и «машинного обучения» до сих пор встречаются ошибки при переводе?
Главная проблема заключается в том, что часто слова имеют несколько значений. Такие омографы, как они называются, могут поставить в неловкое положение не только отдыхающих на курортах, но и членов правительства.
Рассмотрим, к примеру, некачественный перевод «Белой книги» (план «Брексит») правительства Великобритании в июле, где фраза «демократические процедуры» была переведена на немецкий как «demokratische Übung», где «Übung» дословно можно перевести как «физическое упражнение».
Чтобы исключить такие ошибки, алгоритмы машинного обучения в приложениях для перевода постоянно дорабатываются. Они сверяются с предыдущими запросами, принимают во внимание контекст, в котором то или иное слово использовалось ранее и подбирают наиболее подходящее его значение.
В начале этого года компания Microsoft объявила, что добилась «человеческого паритета» в плане качества своих переводов. Ряд китайских новостных статей был переведен на английский язык с использованием машинного перевода, и группа независимых экспертов обнаружила, что их качество оказалось не хуже переводов, выполненных двумя профессиональными переводчиками.
По словам Microsoft, данное достижение стало возможным только благодаря использованию глубоких нейронных сетей, а также статистического машинного обучения.
Проще говоря, в основе данного процесса лежит усовершенствование исходного «сырого» варианта перевода путем многократного повторения разных вариантов, их сравнения, сопоставления и обучения. Подобным образом переводу учится и человек.
По словам Сюэдуня Хуаня, в планах научиться соблюдать правила языка при машинном переводе.
Переводческая система уже имеет четкое представление о грамматической структуре предложения в каждом языке, исходя из анализа всех ранее переведенных документов.
Вместо передачи правил перевода с языка на язык вручную, современные переводческие системы рассматривают этот процесс как проблему машинного обучения в процессе перевода текста с языка на язык с учетом ранее выполненных человеком переводов и последних достижений в области прикладной статистики и машинного обучения», – объясняет Сюэдунь Хуань, главный инженер исследовательской группы Microsoft по работе с искусственным интеллектом.
Машинный перевод, качество которого сравнимо с качеством перевода, выполненным человеком, кажется довольно впечатляющим достижением. Но даже в Microsoft признают, что перевод исторических новостных статей – это не то же самое, что и перевод живой беседы, где идиоматические тонкости, акценты и диалектические особенности представляют намного более серьезную проблему.
Наушники с функцией синхронного перевода
В прошлом году Google выпустила беспроводные наушники Pixel Buds (Пиксель Батс) с функцией синхронного переводчика 40 языков – хотя насколько точным может быть перевод – это спорный вопрос.
Нью-йоркский стартап Waverly Labs разработал собственные наушники Pilot с функцией переводчика и приложение для смартфона, которое, по данным компании, может переводить на/с 15 языков практически в режиме реального времени.
Но когда приходится переводить между двумя языками, у которых нет большой базы взаимных переводов, к которой можно было бы обращаться, например, с сингальского языка на язык пушту, задача усложняется.
Можно сначала перевести с сингальского языка на английский, а затем полученный результат – на пушту, но очевидно, что при таком подходе будут появляться указанные выше ошибки.
Описанный выше случай с языком маори и апокалиптическими предсказаниями объясняется в том числе избыточной зависимостью машинных переводов от текстов, которые существуют на обоих интересующих пользователя языках. В случае с английским и маори это была Библия.
«Если вы закладываете в модель для перевода предложения из древнего манускрипта и пытаетесь перевести разговор двух современных людей, модель столкнется со сложностями, потому что и содержание, и стилистика современной разговорной речи очень сильно отличается от того, что можно найти в древних манускриптах», - объясняет разработчик искусственного интеллекта из Facebook Гийом Лампл.
«Кроме того, модель, похоже, будет генерировать сегменты с использованием слов, которые найдет в манускрипте. Нечто подобное, вероятно, может произойти с языками, где не наработана переводческая база, а значительная доля подходящих значений в целом будет приходиться на древние источники».
Тема искусственного интеллекта сегодня очень популярна в творчестве
Проект, над которым Лампл сейчас работает вместе с командой исследователей из Facebook и Сорбонны, может предложить решение этой проблемы.
Они используют исходные тексты, состоящие всего лишь из нескольких сотен тысяч предложений в каждом языке, но не используют предложения, переведенные напрямую.
По существу, эта система принимает во внимание то, как одни слова сочетаются с другими. Например, в английском слова "кот" и "пушистый" используются вместе так же, как в испанском. Система обучается подобным подстановкам слов, и это позволяет ей делать более точные переводы. Затем используются те же техники, что и в случае с переводчиком Microsoft.
По словам Лампла, фактически при помощи такой методики можно не только переводить живые языки, но и расшифровывать мертвые и потерянные.
«Но есть серьезная проблема – недостаток предложений, составленных на этих языках. Например, Манускрипт Войнича (кодекс, написанный предположительно в XV веке, который до сих пор не может быть переведен) состоит всего лишь из нескольких сотен страниц. Этого слишком мало для нашей модели», – говорит он.
При наличии достаточного объема текста система должна справиться с расшифровкой мертвого языка, полагает Лампл.
Эта перспектива открывает и многие другие удивительные возможности. "Мы можем научиться общаться с инопланетянами, – рассуждает Лампл. – Но для начала им придется много говорить, причем на темы, схожие с теми, на которые обычно говорим мы".