Covid-19 — это самая сложная переводческая задача в истории

Опубликовано: 2021-03-19

Службы наподобие Google Translate поддерживают около 100 языков, с небольшими вариациями. Но что насчет тысячи других языков, ведь на них говорят люди, которые точно также уязвимы перед этим кризисом?

Будучи пользователем англоязычного интернета в год пандемии, вы определенно видели информацию, которую публикуют общественные органы о Covid-19. Вполне вероятно, что вы даже при желании не можете избежать этой информации, как онлайн, так и вне интернета, начиная от плакатов о мытье рук и лент социального дистанцирования до видеороликов с инструкциями по ношению масок. 

Но если мы хотим предотвратить распространение пандемии среди всех людей в мире, эта информацию должна также достигать всех людей в мире, а это означает перевод обращений к общественности на тему коронавируса на все возможные языки, причем перевод точный и адаптированный к культуре.
Довольно просто упустить из вида, насколько важен язык в вопросах заботы о здоровье, когда вы пользуетесь англоязычным интернетом, где вопрос «почему болит голова и чем это опасно?» моментально решается статьей в Википедии или поиском на WebMD. Более половины мирового населения не ищут свои симптомы в Google, и даже не получают от врача брошюру с объяснением диагноза, поскольку нет таких брошюр на языке, который они понимают.

Этот языковый и медицинский пробел не является уникальным для коронавируса. Wuqu' Kawoq|Maya Health Alliance — это некоммерческая организация в Гватемале, которая последние 13 лет предоставляет поддержку в вопросах здоровья на аборигенных языках майя, например какчикель или киче. Одним из ранних клиентов Wuqu' Kawoq была говорящая на какчикель женщина, знавшая о наличии у нее диабета — она смогла повторить название болезни, которое услышала от испаноговорящих врачей — но большая часть лечения диабета заключается в тщательном балансе сахара, поступающего с пищей, а в этом непонятное и непереведенное название ей никак помочь не могло. Пока в Wuqu' Kawoq с помощью медицинских работников не придумали название для диабета на какчикель—каб’кик’ель, что дословно означает «сладкая кровь». Новая терминология помогла сотрудникам Wuqu' Kawoq объяснить женщине, как лечить ее заболевание на родном языке: «Твоя кровь слишком сладкая, чтобы сделать ее менее сладкой, тебе надо есть меньше сладкой пищи». Вооруженная этой информацией, женщина после возвращения смогла объяснить своей семье как нужно готовить, чтобы облегчить ее состояние.

Наподобие диабета, коронавирус в данный момент является заболеванием, связанным с образом жизни — пока у нас не будет вакцины или других вариантов лечения, наилучшим способом борьбы с ним будет изменение своих привычек. О чем нам и говорят все эти плакаты о мытье рук и соблюдении социальной дистанции. Врач может дать таблетку или сделать укол человеку, который не понимает, как они работают, но, поскольку пока у нас нет таких средств от вируса SARS-CoV-2, мы находимся перед лицом того, что служба сбора информации об эпидемиологической обстановке центров контроля и профилактики заболеваний считает бедственным положением в сфере коммуникации, а ВОЗ называет «инфодемией».
За последние несколько месяцев Wuqu' Kawoq расширила свою обычную деятельность (вопросы первичной помощи наподобие диабета, акушерства и детского недоедания, а также сопровождение аборигенов в испаноговорящие больницы для перевода и защиты интересов) и привлекает переводчиков для работы в телемедицине во время телефонных врачебных консультаций и написания подкастов о коронавирусе на языках майя для трансляции по местному радио — это самый эффективный способ распространения информации в сельской местности, где интернет-связь не всегда доступна.

И это только один из многих переводческих проектов, связанных с коронавирусом, которые зарождаются сейчас по всему миру. Adivasi Lives Matter делает информационные листовки на языках, на которых говорят в Индии, включая кодава, маратхи и одиа. Правительство Северной территории Австралии выпускает видеоролики на языках первой нации, включая йолу мата, пинтуби-луритья и вальбири. Округ Кинг в Сиэтле выпускает листовки с фактами на языках, на которых говорят в диаспорах местных иммигрантов и беженцев, включая амхарский, кхмерский и маршалльский. VirALLanguages готовит видеоролики на языках Камеруна, в том числе оши, агхем и бафут, где снимаются хорошо известные члены сообщества, местные «инфлюэнсеры». Даже в Китае, где исторически продвигается мандаринское наречие (путунхуа) в качестве единственного государственного языка, распространюет информацию о коронавирусе на хубейском диалекте мандаринского наречия, монгольском, йи, корейском и других языках.

Согласно регулярно обновляемому списку, составленному проектом «Языки под угрозой», информация о коронавирусе из достоверных источников (государственные органы, некоммерческие организации и группы добровольцев, которые четко указывают источник своих рекомендаций по здоровью) существует более чем на 500 языках, включая 400 видеороликов на 150 языках. Некоторые из этих проектов представляют собой короткую, стандартизированную информацию на большом количестве мировых языков, например, перевод пяти руководств ВОЗ в виде плакатов на более чем 220 языков или перевод информационных записок ВОЗ, разрушающих мифы, на более чем 60 языков. Но многие проекты, особенно на языках, которые мало представлены на мировой сцене, создаются отдельными местными группами, которые чувствуют ответственность за определенную область, в том числе правительствами, некоммерческими организациями и добровольцами, имеющими чуть лучшее образование или доступ в интернет.

И все же остаются пробелы: Правительство Южной Африки подверглось критике в социальных сетях за проведение совещаний в основном на английском языке, вместо хотя бы двух из 10 официальных языков: язык народа нгуни (зулу или коса) и язык народа сото (сетсвана или сесото). Англия была призвана к судебной ответственности за отсутствие британского сурдопереводчика на регулярных правительственных совещаниях, по примеру Шотландии, Уэльса и Северной Ирландии. (Многие другие страны также дальновидно привлекают сурдопереводчиков, начиная с Нидерландов и заканчивая Новой Зеландией.)

Но в целом, существует понимание, что язык — это важная часть борьбы с коронавирусом. Понимание, пришедшее из тяжело доставшегося опыта. Когда специалисты по заболеваниям дыхательных путей говорят о предшественниках Covid-19, они вспоминают вирусы SARS и MERS; когда лингвисты говорят о пандемии, они возвращаются к двум разным прецедентам: землетрясение 2010 г. на Гаити и пандемия эболы в Западной Африке (2013–2016 гг.) и Демократической Республике Конго (с 2018 г.).
В обоих случаях местные жители и сотрудники гуманитарной помощи говорили на разных языках. В Гаити это привело к возникновению инициативы под названием Миссия 4636, где гаитяне могли посылать просьбы о помощи — например, если заметили человека, запертого внутри здания, или нуждались в медицинской помощи — по номеру СМС 4636, а волонтеры из гаитянской диаспоры по всему миру переводили десятки тысяч просьб с креольского гаитянского наречия на английский и пересылали их англоговорящим работникам гуманитарной помощи на месте, в среднем в течение 10 минут.

При эпидемии эболы языковые проблемы умножились. В Демократической Республике Конго существует минимум семь основных языков: французский, киконго (кутиба), лингала, суахили, цилуба, африканский язык жестов для франкофонов и американский язык жестов, и множество малых языков, распространенных в определенных районах, согласно карте, созданной организацией «Переводчики без границ». Недавнее исследования «Переводчиков без границ» указывает, на что должны быть похожи такие ресурсы, отражая то, что можно назвать универсальным человеческим желанием проверить свое заболевание по WebMD: «Участники исследования выразили раздражение по поводу информации наподобие «Чтобы вылечиться, обратитесь в центр лечения вируса эбола как можно скорее». Они хотят получать более подробное и продуманное объяснение того, как действуют лекарства и почему они выбраны... Люди хотят получить подробную информацию по сложным вопросам, которые повлияют на их решения, и они хотят получить ее на «языке сообщества» — т.е. изложенную на таком языке и в таком стиле, который они понимают, с использованием слов и концепций, которые им знакомы».

Не понимание языка сообщества может считаться небрежением. Надежда на язык-посредник, например, французский или суахили, наносит несоразмерный вред женщинам в Демократической Республике Конго, которые с большой вероятностью говорят только на нанде и других местных наречиях. Она может даже привести к беде. Роб Манро, работавший в группе языковой технической поддержки на землетрясении в Гаити и вспышке вируса эбола, рассказал мне историю, случившуюся в Сьерра-Леоне во время кризиса эбола, когда наивные доброжелатели решили создать службу публичных оповещений о вирусе. По совету говорящей на манде правящей партии они записали объявления на манде и включали их по громкоговорителям в районе, говорящем на темне, чем породили теории заговора о том, что вирус используется для подавления политических соперников.

Для Covid-19 языковая компетентность не менее важна: Достаточно подробное объяснение того, как происходит заболевание, позволяет людям придумать разумные меры предосторожности в непредвиденных обстоятельствах, а составление этих объяснений на подходящем языке сообщества также помогает убедить людей, что рекомендациям стоит доверять и следовать. Не говоря о том, что, пока страны наращивают темпы по отслеживанию контактов для открытия границ, это тоже должно происходить на всех языках, на которых говорят в сообществе. (Текущая потребность в испаноязычных отслеживателях контактов в США всего лишь начало.)

Но во время пандемии надо не только перевести информацию на один или несколько основных языков в одной области; надо работать с тысячами языков, минимум в диапазоне от 1000 до 2000 из семи с лишним тысяч языков, которые существуют на сегодняшний день в мире, по совокупным оценкам экспертов, с которыми я говорила. И все они подчеркнули, что это количество очень примерное, но с большим им еще не приходилось сталкиваться.

Машинный перевод может помочь в некоторых обстоятельствах, но к нему нужно относиться с осторожностью. Вот пример того, как можно ошибиться с такой простой фразой как «мойте руки». Японский эквивалент фразы «мойте руки» по версии Google Translate будет 手を洗いなさい (te o arainasai), что, как мне сказали, технически соответствует грамматике, но сказано в стиле, подходящем для разговора родителя с ребенком. Конечно, в некоторых обстоятельствах это может быть уместным, но также может оставить плохое впечатление («снизить соблюдение», по выражению органов общественного здравоохранения) на плакатах, нацеленных на взрослых.

Поэтому я попросила моих читателей в Twitter найти любой язык, который они хорошо знают, где предложенный Google Translate вариант фразы «мойте руки» подходил по стилю для заявления государственной службы или плаката. Многие языки дали грамматически верные результаты, но для европейских языков сайт обычно предлагал неформальную форму в единственном числе «ты» (форма «tu» или «du»). Неформальная форма часто уместна в устной речи, но редко встречается на официальных плакатах, где большинство людей ожидают безличного обращения («Нужно мыть руки») или вежливой формы наподобие «vous», «usted» или «Sie». Из десятка языков мы нашли два, где результаты подходили для объявления: корейский и суахили. Уместность может показаться незначительным вопросом, но представьте, что ваш врач спрашивает вас, взрослого человека, бо-бо ли у вас животик, вместо вопроса о боли в животе. Такой вопрос просто не внушает уверенности.

Я не говорю, что машинный перевод бесполезен, особенно в некоторых случаях, когда быстро понять суть важнее, чем вникать в детальный перевод, который удается людям. Например, при быстрой сортировке просьб о помощи по мере поступления или отслеживании зарождения неверной информации. Но людей нужно держать в курсе происходящего, поэтому в спокойные времена требуется инвестировать и людские, и машинные усилия, чтобы в кризис можно было эффективно воспользоваться результатами.

Большая проблема с машинным переводом заключается в том, что для многих языков он не является доступным вариантом. Организация «Переводчики без границ» переводит информацию о коронавирусе на 89 языков, отвечая на особые запросы местных организаций, и 25 из них (т.е. примерно треть) вообще не включены в список Google Translate. Машинный перевод работает для языков со множеством ресурсов, где новостные сайты и словари могут использоваться для обучения машины. Иногда, как в случае с французским или испанским, обладающими большими ресурсами языки бывших метрополий также подходят в качестве языка-посредника в целях перевода. В других случаях наблюдается несоответствие между тем, что легко перевести с помощью машины и тем, что нужно «Переводчикам без границ»: В группу поступало множество запросов на информацию о коронавирусе на языках канури, дари и тигринья, которых нет в Google Translate, но не было запросов для голландского или иврита (они есть в Google Translate, но им не требуется помощь «Переводчиков без границ» — правительство этих стран и так выпускает собственные материалы).

Google Translate поддерживает 109 языков, в Bing Translate есть 71, и даже Википедия существует только на 309 языках. Эти цифры бледнеют в сравнении с 500 с лишним языков в списке проекта «Языки под угрозой», и все эти ресурсы созданы людьми. Анна Белев, которая составляет список с середины марта, рассказала мне, что она добавляет примерно десяток языков каждый день, и это заниженная цифра — в список намеренно не вносятся языки, обеспеченные собственными ресурсами, наподобие голландского (если только они не используются в качестве языка-посредника, как французский), на основании приоритетов, схожих с «Переводчиками без границ». Конечно, намного проще перевести несколько документов, чем создать целую систему машинного перевода, но одно не мешает другому.

Кризис наподобие пандемии может подчеркнуть как недостатки, так и потенциал, имеющийся у системы. С одной стороны, меньше переездов автотранспортом или самолетом означает повышение качества воздуха и снижение выбросов углекислого газа, т.е. потенциальную возможность при открытии границ обратиться к большой труднорешаемой проблеме общества. С другой стороны, люди, наиболее пострадавшие от коронавируса, и так находились в менее выгодном положении, включая работающих мигрантов, беженцев и аборигенов — другой сорт большой социальной проблемы, и открытие границ только ухудшит ее.

Недостаток лингвистической структуры интернета состоит в том, что ИТ-платформы в основном поддерживают от 30 до 100 основных, наиболее состоятельных языков, и эта цифра практически не увеличилась с тех пор, как я начала ее отслеживать в 2016 г. при написании «Потому что Интернет». Потенциал состоит в том, что сети переводчиков, как профессиональных, так и добровольцев, смогли сделать информацию о коронавирусе доступной на 500 языках всего за несколько месяцев. При зарождении сети предположение о том, что пользователей интернета устраивают несколько доминирующих языков, было оправданным. Но сейчас ситуация в значительной степени изменилась: за несколько месяцев с нуля были созданы ресурсы на языках в количестве, почти в два раза превышающем языки, накопленные Википедией за 19 лет, и почти в пять раз превышающем количество языков, подключенное в Google Translate за 14 лет. Эти числа демонстрируют, что до значительного количества людей можно дотянуться через интернет на языках, отличных от тех, которые обычно поддерживает Кремниевая долина — и ИТ-платформам необходимо придумать, как догнать эту новую реальность. Люди заслуживают полный лингвистический доступ не только к информации о коронавирусе.

В долгосрочной перспективе организация «Переводчики без границ» также ставит своей целью помощь в этой технической проблеме, при помощи проекта, известного под названием Переводческая инициатива для Covid-19 (TICO-19). «Переводчики без границ» работают с исследователями университета Carnegie Mellon и лидирующими ИТ-компаниями, включая Microsoft, Google, Facebook и Amazon (с заметным исключением в виде Apple) для перевода связанных с коронавирусом материалов на 36 языков, с помощью сети переводчиков этих компаний (и на их инструментах). Следующим этапом станет перепрофилирование этого переведенного материала в обучающие данные — огромное количества текста и записей, необходимое каждому языку в качестве сырья для таких инструментов, как машинный перевод и автоматическое распознавание речи.

Это не 500 языков, и даже не более длинный список «Переводчиков без границ», включающий 89 языков, но пригодится любая малость. «Мне очень хочется», говорит Антонис Анастасопулос, доктор наук в университете Carnegie Mellon, работающий в проекте TICO-19, «чтобы все эти прекрасные инициативы, выпускающие переводы на недостаточно представленных языках, также выпускали свои данные в текстовом формате с открытой лицензией, помимо файлов PDF или изображений, которыми просто поделиться в социальных сетях, но тяжело считывать машинам». 
Стоит заметить, что уже существующие связи играют важнейшую роль: проект TICO-19 смогли запустить так быстро только потому, что «Переводчики без границ» с 2017 г. уже работали над схожим, но меньшим по масштабу проектом под названием «Гамаюн» вместе с ИТ-компаниями, для перевода материалов на 10 ключевых недостаточно представленных языков и перепрофилирования их в обучающие данные, в целях предоставления технической поддержки продукции на ключевых языках наподобие канури (для перемещенных лиц в северно-восточной Нигерии) и языке рохинджа (для беженцев рохинджа в Бангладеше).

Самые успешные попытки побороть вирус состоят из множества мелких, незаметных решений многих людей — оставаться дома, мыть руки, кропотливо испытывать возможные вакцины — и это же можно сказать о проблемах коммуникации. Для ИТ тоже остается дело: передавать шаблоны плакатов и текст видеороликов переводчикам, следить, какие языки актуализированы, чтобы не дублировать усилия, рассылать плакаты и видео через группы WhatsApp. Все это было бы невозможным в эру до интернета, особенно с социальным дистанцированием. Но эти задачи полагаются на скромные, управляемые человеком инструменты, совместные документы, списки адресов электронной почты и камеры телефонов, а не на чудесный искусственный интеллект, который спасет положение в последнюю минуту.

Историк и писательница Ада Палмер подчеркнула, что это первая пандемия в истории человечества, когда мы обладаем знаниями о болезни и гигиене, когда мы понимаем, что нужно делать, чтобы продержаться достаточно долго, чтобы дождаться разработки вакцины, когда соблюдение социальной дистанции стало реалистичным вариантом стратегии, даже если оно перевернуло нашу жизнь. Таким образом, это также первая пандемия в истории человечества, когда у нас есть возможности и ответственность, чтобы поделиться этим пониманием через сеть лингвистической помощи, которая, по сути, проникает в каждый уголок земного шара.

нужен
перевод?
заказать онлайн
+7 (495) 995 7253
info@swan-swan.ru