Статистический машинный перевод: дайте точку опоры!

Статистический машинный перевод: дайте точку опоры!
Впервые опубликовано на уже несуществующем сайте MEMBRANA

Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке…

Фраза эта гласила: «Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают». Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса (Johns Hopkins University), предвещал скорое появления новой системы по «кличке» Decoder.

Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт (Kevin Knight), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой.

Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии «учат» программу, какое слово что означает - с учётом синтаксиса.

Подобные «словарные» технологии используются в системах вроде Yahoo! Babel Fish и Translate.ru.

Поскольку их банки данных - собственно, словари, - были и являются поныне очень массивными, раньше они были более эффективными, нежели «статистические» переводчики.

А новая технология статистического машинного перевода позволяет создавать системы, которые будут «щёлкать» тексты на самых разных языках.

Главное - это наличие «параллельных данных».

скриншот автоматического переводчика Translate.ru

Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов - сотрудниками корпорации IBM. Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру «скормить» текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, «выучит» второй язык.

New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) - «rajl kabir» и «rajl tawil». Если машина «знает», что первая фраза означает «крупный человек», а вторая - «высокий человек», то банальная статистика позволит машине понять, что «rajl» означает «человек».

Подобные простые фразы носят название «N-граммы», и они считаются базовыми элементами систем машинного перевода.

Хотя принцип кажется простым до примитивизма, у него есть ряд своих «но». Во-первых, для полноценного «знания» второго языка требуется огромный массив данных - одним текстом не обойдёшься.

Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения.

А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM.

Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски (David Yarowski) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский, бенгальский, непальский и даже клингоский - язык, на котором говорит раса клингонов, существ из сериала Star Trek .

Для «разработки» этого языка даже создан целый институт, умудрившийся перевести на этот язык Библию и «Гамлета».

Технология всё та же: если автоматическому переводчику предоставить «на съедение» тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны.

Доктор Яровкски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время.

Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета (University of Southern California), в частности, Францем Йозефом Охом (Franz Josef Och).

Перефразируя Архимеда, Ох говорит: «Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода».

Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны - а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели.

Надо сказать, что в своё время таким образом была расшифрована надпись на Розеттском камне - базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена «Птолемей» и «Клеопатра», удалось расшифровать иероглифическую египетскую надпись, и в итоге - практически весь язык.

Дело Франсуа Шампольона (François Champollion), которому и принадлежит пальма первенства в расшифровке надписи Розеттского камня, живёт, процветает и автоматизируется.

Впервые опубликовано на уже несуществующем сайте MEMBRANA

← Вернуться

Статистический машинный перевод: дайте точку опоры! Впервые опубликовано на уже несуществующем сайте MEMBRANA

Статистический машинный перевод: дайте точку опоры!
Впервые опубликовано на уже несуществующем сайте MEMBRANA