История машинного перевода

История машинного перевода
Впервые опубликовано на сайте Диалог

40-е: первые шаги
50-е: первое разочарование
60-е: низкий старт
70-80-е: новый импульс
От 90-х к XXI веку
Прошлое и будущее машинного перевода. Основные даты

40-е: первые шаги

История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П.П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). В марте 1947 г. Уоррен Уивер (Warren Weaver), директор отделения естественных наук Рокфеллеровского фонда (Rockefeller Foundation), в переписке с Эндрю Бутом (Andrew D. Booth) и Норбертом Винером (Norbert Wiener) впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме, адресованном Фонду.

У.Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text." ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно - это взломать код, чтобы извлечь информацию, заключенную в тексте"). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva: стадия передачи информации разделена два этапа; на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самой живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания).

В те годы довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов . В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г в Нью-Йорке была представлена первая система МП - IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы…

50-е: первое разочарование

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов . Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня . Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он её нашёл. Коробка была в манеже. Джон был очень счастлив.). Pen в данном случае должно переводиться не как "ручка" (инструмент для письма), а как "детский манеж" (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь, в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

60-е: низкий старт

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии ; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

70-80-е: новый импульс

С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в эпоху "Ренессанса". При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из "врага" и "конкурента" профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

О возрождении МП в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итальяно-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем МП в Японии (главным образом основанных на технологии interligva, разработанной Уивером в конце 40-х гг.); в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы.

За период 1978-93 в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге "не нужно дважды переводить одно и то же предложение!". В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.) .

От 90-х к XXI веку

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare, Ata Software; Lingvistica b.v. и др. (подробнее о зарубежных разработчиках МП и их системах см. здесь).

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: alphaWorks; PROMT's Online Translator; LogoMedia.net; Yahoo! Babel Fish; InfiniT.com.

С начала 1990-х гг. на рынок систем ПК выходят отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer's Machine Translation). В 1991 г. было создано ЗАО "ПРОект МТ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система МП для Windows. В 1994 г. вышла версия STYLUS 2.0 для Windows 3.Х/95/NT, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП.

В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант - для поддержки нескольких языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.

В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. Для корпоративных клиентов разработаны также специальные серверные решения - корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 г. "ПРОМТ" обновила всю линию своих программных продуктов, выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.

Перевод в режиме он-лайн при поддержке системы "ПРОМТ" используется на ряде отечественных и зарубежных сайтов: PROMT's Online Translator, InfiniT.com и др.

Программные продукты компании "ПРОМТ" удостоены целого ряда отечественных и зарубежных наград.

Прошлое и будущее машинного перевода. Основные даты
Впервые опубликовано на сайте Wired

1629 Рене Декарт предложил универсальный язык, в котором один символ выражает эквивалентные идеи различных естественных языков.

1933 Русский изобретатель П.П. Смирнов-Троянский получил патент на "машину для подбора и печатания слов при переводе с одного языка на другой".

1939 Лаборатории Bell Labs на Всемирной ярмарке в Нью-Йорке демонстрирует первое электронное устройство синтеза речи.

1949 Уоррен Уивер (Warren Weaver), руководитель отдела естественных наук Рокфеллеровского фонда, публикует меморандум, посвященный перспективам развития машинного перевода (МТ).

1952 Йошуа Бар-Хиллел (Yehoshua Bar-Hillel), главный штатный исследователь проблем машинного перевода Массачусетского технологического университета, организует первую конференция по машинному переводу.

1954 Первая публичная демонстрация машинного перевода состоялась в Джорджтаунском университете: 49 предложений были переведены с русского языка на английский с использованием словаря, содержащего 250 слов, и шести грамматических правил.

1960 Бар-Хиллел публикует отчет, в котором утверждается, что корректный автоматический перевод в принципе невозможен.

1964 Национальная Академия Наук США основала Комитет по проблемам автоматической обработки речи (ALPAC).

1966 ALPAC публикует отчёт по машинному переводу с выводами о том, что годы исследований в этом направлении не принесли ожидаемого результата. Это привело прекращению финансирования государством программ развития МП.

1967 Л. Э. Баум (L.E. Baum) со своими коллегами из Института оборонных исследований (Принстон, штат Нью-Джерси) развивает скрытые модели Маркова как математическую основу распознавания речи.

1968 Питер Тома (Peter Toma), бывший лингвист из Джоджтаунского университета, основывает одну из первых фирм-разработчиков систем МП - "Система автоматического перевода и электронные коммуникации" (Latsec).

1969 В Миддлтауне, штат Нью-Йорк, Чарльз Бирн (Charles Byrne) и Бернард Скотт (Bernard Scott) основали фирму Logos с целью разработки систем МП.

1978 В рамках проекта Network Speech Compression (NSC) переданы первые слова естественного языка в объединенной сети APRANET.

1982 Джанет и Джим Бейкер основали фирму Dragon Systems (г. Ньютон, Массачусетс).

1983 Представлена автоматическая система обработки речи (ALPS) - первая программа МП для микрокомпьютеров.

1985 DAPRA начинает программу исследований в области распознавания речи.

1986 В Японии организована Лаборатории исследования в области перевода и телекоммуникаций (ATL-ITL).

1987 В Бельгии Джо Лерноут (Jo Lernout) и Пол Хауспи (Pol Houspie) основали компанию Lernout & Houspie.

1988 Учёные из Исследовательского центра Томаса Дж. Уотсона компании IBM возвращаются к разработке статистического метода МП, при котором сравниваются параллельные тексты и подсчитывается вероятность соответствия слов.

1990 Dragon Systems выпускает программу DragonDictate, первую систему преобразования устной речи в письменную, способную распознавать 30 тысяч слов.

DAPRA запускает программу "Системы разговорной речи" (SLS) с целью разработки приложений, обеспечивающих голосовое взаимодействие между человеком и машиной.

1991 Появилась первая рабочая станция переводчика, объединяющая программы STAR's Transit, IBM's TranslationManager, Canadian Translation Services' PTT и Eurolang's Optimizer.

1992 ART-ITL основала Консорциум исследований в области перевода с естественных языков (C-STAR), который организует первую публичную демонстрацию телефонного перевода между английским, немецким и японским языками.

1993 В Германии идет работа над проектом Verbmobil. Исследователи сосредоточили свое внимание на переносных системах обеспечения перевода деловых переговоров с английского на немецкий и японский.

Фирма BBN Technologies демонстрирует первую готовую рабочую станцию МП с поддержкой автоматического распознавания речи в реальном времени на основе двадцатитысячного словаря независимо от личности говорящего.

1994 Бесплатный перевод при помощи системы SYSTRAN становится доступным на форумах CompuServe.

1997 Babel Fish на AltaVista предлагает онлайн перевод с использованием системы SYSTRAN.

Программы NaturallySpeaking (Dragon Systems) и ViaVoice (IBM) - первые системы распознавания речи для ПК, основанные на подробных словарях.

Parlance Corporation, дочерняя компания BBN Technologies, выпускает программу Name Connector, первую международную АТС, которая перенаправляет телефонные звонки на основе распознавания произнесенных вслух имён.

1999 Телевизионная передача новостей затранскрибирована с 85-процентной точностью.

Фирма Logos выпускает программу e.Sense Enterprise Translation, первый многоязычный веб-переводчик на базе единого сервера.

IBM выпускает ViaVoice для Макинтошей - первую систему такого рода для компьютеров этой платформы .

Кевин Найт (Kevin Knight) из Института информационных исследований (ISI) при Южно-калифорнийском университете возглавил межуниверситетскую команду с целью разработки программы Egypt для построения систем статистического МП. Egypt выявляет статистику соответствий в двуязычном тексте, анализирует эти соответствия и использует результаты для обеспечения автоматического перевода.

2000 В Лаборатории Линкольна (Массачусетский технологический университет) Янг-Сук Ли (Young-Suk Lee) и Клиффорд Вейнстейн (Clifford Weinstein) демонстрируют продвинутый прототип системы перевода устной речи с корейского на английский.

В Институте информационных исследований (ISI) при Южнокалифорнийском университете реализована обратная транслитерация имён собственных, которые заменяются приближенными фонетическими соответствиями. Southern California переводится на арабский как "Janoub Kalyfornya".

2001 В Институте языковых технологий (LTI) университета Карнеги Меллон, возглавляемом Дж. Карбонеллом (Jaime Carbonell), создается система устного перевода для "малых" языков, таких, как хорватский или мапудунгун (язык народа мапучи в Чили).

Специалисты в области биомедицинской инженерии, Теодор Бергер (Theodore Berger) и Джим-Ши Лио (Him-Shih Liaw) создали новую Нейросетевую систему распознавания речи Berger-Liaw, которая понимает разговорные языки лучше самих людей.

Далее идут фантазии авторов на момент написания статьи в 2003 году!

2003 Клифф пропустил текст Улисса Джойса через свой Ноутмейкер, новый универсальный интерпретатор и референт художественной литературы. Программа заявила: "Твой преподаватель тоже этого не читал. Не беспокойся по поводу содержания своего сочинения, просто включи в него слова Dublin, pub и fuck."

2005 GeoCities сносит 350 тысяч домашних страниц пользователей по причине их несоответствия контролируемому английскому языку, представленному в виде электронного словаря из 1000 слов и обеспечивающему интерфейс с системой машинного перевода GeoCities.

2006 "Мы попали в злополучные 0,001%", сокрушается Рафу Санджали, директор NASA, после четвертой неудачной попытки запустить самопилотируемый корабль на Марс по причине отказа системы МП "с 99,999-процентной гарантией точности".

2007 Microsoft останавливает свою кампанию "О чём вы хотите подумать сегодня?" после единодушного осуждения разработанного ею многообещающего Интерфейса распознавания мысли (TRI).

2020 "Обучение детей чтению и письму - бесполезная трата времени", заявил Йео Киа Вей, министр образования Сингапура и упразднил изучение этих предметов в школе. "Дети должны быть избавлены от тягостного труда по распознаванию крошечных значков на бумаге или на экране. Пусть этим занимаются машины".

2043 Строительство Вавилонской башни завершено в Ираке (бывшей Вавилонии) после 4000-летнего перерыва, благодаря Универсальному языку компании NEC Technologies.

2058 Реформированный Институт Рифкина (RRI) получил патент на изобретённый им симбио-паразит, который питается электрическими импульсами центра речи человеческого мозга и выдаёт переведённый сигнал, который может быть понят всяким, кто вставит это устройство себе в ухо. Контора Дугласа Адамса возбудила иск, заявив о своём первоочередном праве на изобретение.

2264 "Человек глуп, как мешок опилок", заявило Устройство 296. "Только абсолютно наивным учёным могло прийти в голову разработать технологию для понимания того, что произносят эти неопрятные куски протоплазмы. В шуме, который они производят из отверстий в голове, решительно намного меньше смысла, чем в космическом излучении".

Составители: Кристин Демос (kvdemos@yahoo.com) и Марк Фраунфельдер (mark@well.com). 1629-2000: K. D.; 2001-2264: M. F.

По материалам сайта Диалог

← Вернуться