Банки информации и базы открытых данных: опыт GDELT

Опубликовано: 2019-07-24

Возможно ли, что создание сервиса, подобного GDELT приведет к созданию всемирной памяти переводов?

Глядя на миг глазами других: машинный перевод в массы

Представьте себе мир без языковых барьеров, в котором доступ к информации в реальном времени, можно получить откуда угодно, при этом информация безупречно переводится на ваш язык, а то, что написали вы, становится доступным для всех, на каком-бы языке мира они не говорили. Это — мечта писателей-фантастов с незапамятных времен. В таком мире получивший массовое распространение машинный перевод устраняет барьеры, препятствующие доступу к информации и затрудняющие общение, создавая пост-языковой мир. Тем не менее, несмотря на то, что цифровой мир стремительно разрушает географические барьеры, и сегодня нам сложно услышать граждан большей части мира, наличие языковых барьеров означает, что существенная часть информации о мире остается недоступной.

Основной подход при поиске информации на разных языках заключается в переводе ключевых слов поиска с одного языка на другой, при помощи уже существующего перевода, либо машинного перевода. К несчастью, различие между языками таково, что одно слово с одного языка на другой можно перевести дюжиной разных слов, что превращает операцию поиска по одному слову в поистине непосильную логическую задачу. Традиционные системы машинного перевода, как правило, не готовы тут же предоставить полный перечень любого возможного варианта перевода слова с одного языка на другой. Например, если вы наберете «New York» в Google Translate, в качестве перевода вы получите «New York», в то время как Bing Translate предложит Вам «New Yorgis». На самом деле, на эстонский, название «New York» можно перевести четырнадцатью различными способами: «New York», «New Yorki», «New Yorgi», «New Yorgisse», «New Yorgis», «New Yorgist», «New Yorgile», «New Yorgil», «New Yorgilt», «New Yorgiks», «New Yorgini», «New Yorgina», «New Yorgita» и «New Yorgiga».

Это означает, что при поиске определенного слова или фразы на другом языке зачастую может понадобиться помощь человека, для которого язык является родным. Только так можно будет сформулировать поисковый запрос правильно.

Более того, если цель заключается в том, чтобы произвести поиск не только по основному ключевому слову, тогда потребуется разработать алгоритм обработки слов для каждого интересующего нас языка. К несчастью, нехватка обучающих данных для огромного количества языков, за исключением нескольких десятков крупных, означает, что для большинства языков мира существует лишь несколько подобных алгоритмов и инструментов. Один из таких инструментов GDELT

GDELT — The Global Database of Events, Language, and Tone

Глобальная база данных событий, языка и настроения «The Global Database of Events, Language, and Tone» — https://gdelt.github.io
GDELT представляет собой базу данных, которая хранит информацию о политических событиях со всего мира.
Список того, кто что сделал, когда и где, составляет в GDELT уже более 200 миллионов событий, от наших дней до 1979 года (планируется исследовать события до 1800 года).

Каждый день информация собирается путем изучения репортажей со всех стран в мире и через анализ настроений — это компьютерный автоматизированный метод определения отношение писателя или оратора к событию — GDELT создаёт каталог человеческого поведения и убеждений по всему миру.
GDELT доступен для общественности — «политологи и эксперты могут получать информацию, с помощью которой они могут строить и проверять свои теории и делать прогнозы в отношении будущих событий».

В результате, имея цифровой доступ к невообразимому объему знаний из любого уголка планеты, мы редко способны увидеть что-нибудь за пределами того, что изложено на языке, на котором говорим мы сами. Это может иметь самые катастрофические последствия. Мы можем не понять знаки, заранее предупреждающие нас об эпидемиях, или понимать терроризм в слишком узком смысле. Когда мы читаем о конфликтах или о странах, где говорят на других языках, мы воспринимаем эти рассказы только сквозь призму нашего собственного языка. Фактически, нам никогда не удается увидеть мир чужими глазами.

Машинный перевод поможет понять главное

А что, если мы попробуем представить, что всё обстоит ровно обратным образом? Представьте, что системы машинного перевода используются для перевода мировых новостей на всё большее количество языков в режиме реального времени. За несколько секунд с момента публикации новости в какой-нибудь стране мира она переводится с помощью системы машинного перевода в промежуточную семантическую структуру, используемую для удержания смысла вне зависимости от языка, на котором новость изложена изначально, а постоянно обновляемая языковая модель обеспечивает переводы новости на любые интересующие нас языки. Теперь поиск по ключевому слову на определенном языке можно использовать для поиска машинных переводов мировых новостей на этот язык. В этом случае можно быть уверенным, что поиск названия «New York» на английском языке даст нам новостные материалы на эстонском языке, в которых может использоваться любая из 14 возможных форм, приведенных выше, которые, в результате машинного перевода были преобразованы в английское «New York». Подобным же образом алгоритмы обработки естественного языка могут работать на своих языках, обрабатывая переведенные результаты и преобразуя их на языки, для которых алгоритмы были разработаны. Таким образом, любой алгоритм, предназначенный для обработки англоязычного контента, может быть использован непосредственно для машинного перевода на английский язык с любого другого языка, что делает алгоритмы всех языков мира доступными для использования с любым языком.

Именно в этом заключалась цель моего проекта открытых данных GDELT Project и реализуемой в его рамках инициативы Translingual, запущенной почти четыре года назад. В отличие от традиционных систем машинного перевода, используемых для простого перевода отдельных документов по требованию, цель инициативы Translingual заключалась в переводе мировых новостей в режиме реального времени, буквально через несколько секунд после их публикации. Перевод осуществляется с 65 языков (скоро их число превысит 100), на которые приходится 98,4% мировых новостей, публикуемых не на английском языке. Каждая статья переводится на английский с использованием циклического прояснения контекста подобно тому, как это делается при переводе, а не просто с использованием простой «интерпретации», ассоциируемой сегодня с машинным переводом. Алгоритмы для обработки естественных языков работают с контентом, изложенном на исходном языке. Но переводы на английский, позволяют GDELT равномерно использовать один и тот же алгоритм применительно к каждой новостной статье, вне зависимости от ее исходного языка, перебрасывая мост между языками, когда дело доходит до автоматического майнинга текста.

Чтобы понять, насколько машинный перевод важен для понимания мира вокруг нас, ниже мы приводим карту, на которой указаны места, идентифицированные GDELT как упомянутые в 7,1 млрд. географических ссылок, содержащихся в 850 миллионах новостных публикаций, мониторинг которых осуществлялся проектом в период с 2015 года по настоящее время.

«Места, упомянутые в мировых новостных сводках, мониторинг которых осуществлялся проектом GDELT в период с 2015 по 2018 годы».

GDELT

Цветами на карте обозначены наиболее распространённые языки новостных сводок, в которых упоминаются соответствующие географические места (65 языков, с которых в настоящее время осуществляется перевод в рамках проекта). В то время, как Париж может упоминаться в новостных сводках любых стран мира по меньшей мере один раз в год, чаще всего Париж упоминается во франкоязычных новостях, отражая географический аспект журнализма.

Наиболее очевидное, что можно увидеть, глядя на эту карту — это насколько мала та часть мира, которая находит свое отражение в англоязычных новостях. Другими словами, чтобы на самом деле понимать местные новости и рассказы о том, что происходит в других странах мира, необходимо пользоваться источниками новостей на соответствующих языках. Пестрота этой карты напоминает нам о разнообразии мира, в котором мы живем, а также о том, как много мы упускаем, сосредотачиваясь только на языке, на котором говорим сами.

Прибегая к этой модели, компании всё чаще сочетают массовый машинный перевод с машинным переводом отдельных материалов, что позволяет им глубже понимать смысл местных событий и нарративов.

Подведем итог: мы живем в эру, где машинный перевод, пусть и далекий от совершенства, тем не менее, весьма применим и достаточно точен, чтобы позволить нам использовать его для перевода мировых новостей в режиме реального времени, осуществляя поиск и майнинг данных независимо от языка. По мере дальнейшего, весьма быстрого совершенствования машинного перевода, нам всё чаще удаётся увидеть мир глазами других.

Источник: https://www.forbes.com/sites/kalevleetaru/2018/11/24/seeing-the-world-through-the-eyes-of-others-mass-machine-translation/

Специально для Бюро переводов СВАН


 
нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru