Агентство Лангуст [переход на главную]

От омонимии к полисемии. Искусство машинного перевода - 2
По материалам журнала Hard'n'Soft

В февральском номере журнала Hard'n'Soft за 2008 год была размещена статья со сравнением различных систем машинного перевода текста.

Ниже материал статьи приведён полностью.

Системы машинного перевода (МП) - одно из самых перспективных и вместе с тем спорных направлений программного обеспечения. Сомнение вызывает сама возможность получать текст на другом языке с помощью электронной машины. Многие специалисты считали и считают, что компьютер никогда не будет в состоянии адекватно переводить информацию.

Японский учёный Макото Нагао однажды заметил, что рано или поздно любая система машинного перевода зайдет в тупик. Проще говоря, увеличение словаря, совершенствование функциональных возможностей этих программ не приведет к существенному повышению качества текста, которые они будут выдавать на выходе.

Причин тому множество. Но все же главным препятствием на пути достижения компьютерными программами уровня перевода, сделанного профессиональными лингвистами, является наличие таких языковых явлений, как полисемия (разные значения одного и того же слова) и омонимия (совпадение различных по значению слов). Поэтому получить абсолютно связный текст на другом языке в обозримом будущем вряд ли удастся.

Однако производители компьютерных переводчиков не согласны с пессимистическими прогнозами относительно своих детищ и упорно продолжают их совершенствовать. Причем не только вширь, за счет увеличения количества поддерживаемых языков, но и вглубь, шлифуя те направления перевода, которые уже известны их системам МП.

В 2005 году мы рассмотрели наиболее известные из компьютерных переводчиков. Теперь же на конкретных примерах попробуем оценить, каких успехов добились эти программы в последние годы, удалось ли им сделать качественный скачок. Скорость обработки документов, понятно, всегда была главным преимуществом машинного перевода, так что на ней мы особо останавливаться не будем.

PROMT Professional 8.0

Разработчик: 000 «ПРОМТ»

Цена: 15000 рублей купить программы ПРОМТ

интерфейс PROMT 8.0 в стиле MS Office 2007

Весьма ощутимого прогресса в интерпретации текстов на другом языке добились разработчики из компании ПРОМТ. Весной прошлого года они представили очередной, восьмой релиз одноименного переводчика. Его появление вполне можно назвать еще одним шагом на пути к достижению оптимального качества машинного перевода.

В этом релизе PROMT появилось немало новшеств. Кто приобретал предыдущие версии, заметит их сразу, еще в момент инсталляции. Теперь для установки PROMT необходимо наличие в системе платформы Microsoft. NET Framework 3.0 и библиотек VSTO 2005 SE (Visual Studio 2005 Tools) - они будут автоматически инсталлированы с диска. Кстати, восьмой релиз переводчика компании ПРОМТ можно совершенно спокойно использовать в Windows Vista.

Следующее приятное открытие ждет постоянных пользователей системы МП PROMT при первом запуске - она приобрела новый эффектный интерфейс в стиле MS Office 2007. Преобразилась и сама организация управления программой: вместо огромного числа различных меню и подменю теперь используется система закладок.

Но самое главное то, что качество текста на выходе у новой версии выше, чем у предыдущей. Например, в одном из текстов с сайта news.bbc.co.uk, посвященном наводнению в Южной Калифорнии в 1997 г., восьмой релиз смог безошибочно перевести конструкцию Scientists at the Jet Propulsion Laboratory in Pasadena, a division of the California Institute of Technology как «Ученые в Лаборатории Реактивного движения в Пасадене, подразделении Калифорнийского Института технологии». В то время как седьмая версия неверно интерпретировала слово division. Она справедливо перевела его как «отделение», но поставила в винительном, а не предложном падеже. Стоит отметить, что в обоих случаях были активизированы дополнительные тематические словари «Путешествие» и «Экология». В старой версии их для этого пришлось перетаскивать мышкой, чтобы поставить выше основного. В новом релизе глоссарии можно перемещать с помощью указателей.

для неизвестных слов PROMT может использовать транслитерацию

Неудобством предыдущей версии PROMT было и то, что она довольно часто предлагала сразу несколько вариантов перевода, лишние из которых нужно было удалять вручную при окончательной доработке текста. В восьмом релизе вы можете выбирать, нужно ли программе давать другие интерпретации сомнительных, с её точки зрения, слов или ограничиться только основной. Для этого нужно либо поставить галочку у пункта «Показывать варианты перевода», либо, как принято по умолчанию, снять её. Доступна эта опция на закладке «Другие настройки». Там же при желании можно задать транслитерацию незнакомых системе слов.

Как и в седьмом релизе PROMT, в восьмом можно подключить самые разные дополнительные словари. Причем два из них - «Информатика» и «Интернет» - входят в стандартный дистрибутив. Еще свыше 140 тематических глоссариев, как и прежде, нужно будет приобретать и устанавливать с помощью утилиты TDSetup отдельно. Они требуются для более точного перевода текста по той или иной теме, которую PROMT умеет определять автоматически.

программа PROMT возволяет задействовать базы перевода по технологии Translation Memory

Кстати, важнейшие функции по предварительной настройке перевода - использование дополнительных словарей (если они есть) и резервирование слов - доступны на закладках в нижней части окна. Там же можно задействовать препроцессоры, например, для текстов со смайликами (smileys - рожицы), а также базы текстов и их эквивалентов на другом языке по технологии Translation Memory. Это готовые образцы, которые система МП автоматически подставляет при последующих переводах.

В восьмом PROMT вы сможете обращаться за помощью к онлайновой версии (при наличии, естественно, доступа в Интернет) словаря Multitran. Для этого щелкните правой кнопкой мыши по интересующему слову и выберите в выпадающем контекстном меню параметр «Справка по словарям». Кроме того, как и в предыдущих версиях переводчика, уточнять значение тех или иных слов можно в словаре PROMT Electronic Dictionary, чья суммарная словарная база превышает 7 млн. единиц. А вот OCR-система I.R.I.S., которая использовалась в седьмом PROMT, в восьмом, к сожалению, отсутствует. Открыть теперь можно только текстовые документы формата TXT, DOC и RTF, а также HTML-страницы. Впрочем, пользователи OCR-систем FineReader купить программы компании ABBYY и Cognitive OpenOCR (Cuneiform) вполне могут обойтись и без нее, проведя интеграцию в переводчик применяемой ими распознавалки на закладке «Сервис». Там же вы сможете подключить еще и внешние словари, и проверку орфографии купить программу ОРФО, а также запустить озвучивание текста, в том числе с использованием мультяшных персонажей MS Agent.

Функции перевода внедряются теперь также в текстовый процессор Write из состава пакета OpenOffice.org. Это приложение, а также интернет-пейджер ICQ и браузер Mozilla Firefox добавлены в список поддерживаемых как раз в восьмом релизе PROMT. Кроме того, как и раньше, встроить систему МП компании ПРОМТ можно в Internet Explorer, пакет MS Office и просмотрщик PDF-файлов Adobe Acrobat Reader. Выбрать те или иные программы для подключения вы сможете с помощью утилиты PROMT Extensions Manager. Направления перевода в версии «Гигант» поддерживаются те же, что и в седьмом релизе, - англо-русско-английское, немецко-русско-немецкое, французско-русско-французское, испано-русско-испанское и итальянско-русское.

Retrans 2005 1.0

Разработчик: Ретранс Текнолоджиз

Цена: в настоящее время в свободной продаже отсутствует

переводчик Retrans 2005

Система МП Retrans 2005 (которая в настоящее время в свободной продаже отсутствует) московской компании «Ретранс Текнолоджиз» переводит только с английского на русский и с русского на английский. Так что соперничать с PROMT, по крайней мере, пока, она может только в одном направлении перевода. Причем, как показали проведенные нами пробные испытания, главным образом на научно-популярных текстах. Во всяком случае, с материалом news.bbc.co.uk, посвященным изучению повреждения солнечной батареи астронавтами на МКС, она справилась в некоторых, но далеко не всех, фрагментах лучше именитого соперника. Скажем, предложение Nasa is trying to assess the damage in a newly unfurled solar wing at the International Space Station (ISS) система Retrans 2005 перевела почти без ошибок: «НАСА пытается оценивать размер ущерба в вновь раскрытом солнечном крыле на международной космической станции (МКС)». Собственно, промахнулась она только в варианте предлога, поставив «в» вместо «во» и в использовании строчной буквы «м» в слове «международный». Поскольку речь идет о названии космического аппарата, то есть имени собственном, поставить нужно было заглавную. Но все это, согласитесь, мелочи.

Вариант, предложенный PROMT, тоже близок к идеальному: «Nasa пытается оценить размер ущерба в недавно развернутом солнечном крыле в Международной Космической станции (ISS)». Но, как видите, проблема возникла с аббревиатурами - их питерская программа оставила без перевода. Да и предлог нужно было использовать «в», а не «на».

зарезервировать слова в Retrans 2005 можно путём добавления их в словарь без перевода

Однако были предложения, в которых переводчик PROMT был точнее Retrans 2005, причем ощутимо. Последней, к примеру, явно не удался перевод предложения Astronauts from the orbiter have already attached the new Harmony module to the station. Его она интерпретировала весьма неожиданным образом: «Космонавты из орбитального аппарата уже присоединил Нью-хармоню модуля к станции». Затруднение вызвало множественное число глагола have attached и сочетание new Harmony module, перевести которое следовало как «новый модуль «Гармония». Профессиональный же лингвист, конечно, выбрал бы еще более точный вариант перевода: «новый модуль Harmony». Что касается PROMT, то он был намного точнее соперника, но тоже небезгрешен: «Астронавты от орбитального аппарата уже приложили новый модуль Гармонии к станции».

Для улучшения качества интерпретации текста на русском языке в данном конкретном случае в PROMT вы можете воспользоваться функцией резервирования слова Harmony. К сожалению, такой функции в режиме автоматического перевода Retrans 2005 нет. Впрочем, можно пополнить пользовательский словарь, задав в окне, открываемом щелчком по кнопке «Добавить запись», в качестве исходного варианта и перевода на русский слово Harmony. В этом случае переводиться оно в Retrans 2005 не будет. Исчезнет, соответственно, и ошибка: «новый Harmony модуль».

Основательно подкорректировать текст на выходе в этой системе; МП можно, задействовав полуавтоматический режим «Перевода с редактированием промежуточных результатов». При его выборе переведенный текст будет представлен в виде отдельных предложений, причем разделенных на составляющие их слова и словосочетания. Каждому из них программа предлагает варианты перевода - один или сразу несколько. Пользователь может выбрать оптимальный эквивалент из имеющихся или добавить новый. Обе эти операции осуществляются с помощью команд контекстного меню. Там же можно зарезервировать слова, которые не требуется переводить. Эта опция в интерактивном режиме работы Retrans 2005, в отличие от автоматического, имеется.

в интерактивном режиме можно выбирать оптимальные варианты перевода

Наряду с возможностью быстрой коррекции перевода предметом особой гордости разработчиков этой системы МП является используемый «семантико-синтаксический, преимущественно фразеологический» метод перевода, предложенный в конце 1970-х гг. профессором Г.Г. Белоноговым. О его принципах мы рассказали в упомянутой выше статье «Искусство машинного перевода». Дабы не повторяться, отметим лишь, что согласно этой технологии переводить текст нужно не пословно, а целыми словосочетаниями. Чем больше их будет в базе и чем полнее они будут, тем точнее получится перевод. Этот подход отличается от того, что реализован в PROMT, где разработчики сосредоточили свое внимание не на составе основного словаря (хотя и он регулярно пополняется), а на моделировании грамматических конструкций при помощи «расширенных сетей переходов».

Для Retrans 2005 же полнота глоссария играет решающую роль. В настоящее время политематический словарь системы МП Retrans 2005 включает 2,6 млн. языковых единиц для русско-английского и 2,7 млн. - для англо-русского направления перевода, что, к слову, почти в два раза больше, чем два года назад. По оценке специалистов «Ретранс Текнолоджиз», словарная база их системы МП еженедельно пополняется несколькими сотнями единиц. Причем львиная доля приходится на вспомогательные тематические словари. Для специальных текстов их, конечно, крайне желательно задействовать. К ранее имевшимся Business («Бизнес»), Automatics («Автоматика»), Biology («Биология») в последние годы добавились словари Building («Строительство»), Geology («Геология»), Informatic («Информатика»), Politics («Политика») и еще семь глоссариев.

А вот функционально, в силу ряда причин, существенных изменений в Retrans 2005 не произошло. По-прежнему интегрировать её можно только в браузер Internet Explorer и текстовый процессор Microsoft Word.

Pragma 5

Разработчик: Trident Software

Ориентировочная цена: 110 долл. (русский и английский модули)

окно «Быстрого перевода» программы Pragma

Впрочем, разработчики еще одного популярного компьютерного переводчика Pragma украинской фирмы Trident Software решили в последней его, пятой, версии и вовсе отказаться от внедрения в какие-либо внешние приложения. Предыдущие релизы встраивались в самые разные программы, в том числе в приложения свободно распространяемого офисного пакета OpenOffice.org, в почтовик Outlook Express, а также в файлы помощи. Впрочем, в них и теперь возможен мгновенный перевод. Для этого достаточно выделить интересующий текст и нажать кнопку Pragma Monitor в системном трее. В появляющемся диалоговом окне необходимо выбрать направление перевода, а также тематику. Далее подскажите программе, размещать ли его в том же документе, что и оригинал, или создать для этого новый.

в любом режиме работы Pragma пользователь может выбрать не только направление, но и тематику перевода

В программах, в которых такой реактивный вариант перевода невозможен, придется провести его непосредственно в окне самой Pragma - Fast Translation. Оно активизируется с помощью параметра «Быстрый перевод» в меню, которое, в свою очередь, вызывается кликом правой кнопки мыши по значку программы в системном трее. Для того чтобы поместить в него интересующий текст, выделите его в любом приложении и нажмите сочетание клавиш <Ctrl> + <C>. Затем щелкните по кнопке «Перевод» - и вы получите эквивалент интересующего документа на другом языке, задать который из нескольких возможных здесь также разрешается.

Система МП Pragma поддерживает, как и PROMT, не только англо-русско-английское направление перевода. Владеет она и другими языками - немецким, украинским, латышским, а начиная с последней на данный момент пятой версии, еще и французским и польским. Так что её вполне можно назвать полиглотом.

в настойках Pragma можно подключать самые различные темы для переводов

Есть у Pragma и ещё одно принципиальное отличие от вышеупомянутых конкурирующих систем - значительно меньший дистрибутив. Базовый модуль всего 2 Мбайт и словари для тех или иных языков - примерно 1,3-5,1 Мбайт каждый. Пользователь вправе выбирать и, соответственно, приобретать оптимальный для себя набор. Здесь, правда, надо иметь в виду, что в ряде случаев перевод осуществляется не напрямую, а через язык-посредник. В большинстве случаев в качестве такового, как отмечают разработчики, выступает русский. Но не всегда - при переводе на польский в качестве промежуточного используется украинский язык.

По качеству перевода текста на космическую тематику, хотя мы активизировали в ее настройках тему «Космонавтика», Pragma немного уступила двум большим переводчикам. К примеру, сочетание Ground controllers она перевела как «Грунтуйте диспетчеров». В то время как PROMT интерпретировала его как «Наземные диспетчеры», a Retrans 2005 - как «Офицеры наземного поста». Международную космическую станцию Pragma несколько поспешно назвала «Междупланетной». Конкуренты, как мы отметили выше, здесь ошибки не допустили.

А вот текст о наводнении в Южной Калифорнии Pragma удалось перевести довольно неплохо. Например, предложение Not an ideal place to park your car в её трактовке звучит так: «Не идеальное место, чтобы парковать ваш автомобиль» аренда транспорта у местных владельцев. У PROMT получилось примерно так же: «Не идеальное место, чтобы оставить Ваш автомобиль». А вот Retrans 2005 здесь немного запуталась: «Не идеал место парковать вашего автомобиль».

Впрочем, в другом случае именно система «Ретранс Текнолоджиз» была точнее конкурентов. Сочетание The California Highway Patrol в версии Retrans 2005 выглядит так: «Дорожный патруль Калифорнии» (следующая далее аббревиатура СНР была зарезервирована добавлением в словарь от перевода). Pragma и PROMT предложили здесь менее удачный, на наш взгляд, эквивалент: «Калифорнийский Патруль Шоссе».

К сожалению, возможности настройки перевода в Pragma весьма ограниченны. Прежде всего, необходимо задать тематику текста - варианты интерпретации маркируются в соответствии с ними. Десять из них доступны изначально, еще десятки - от «Авиации» до «Этнографии» - одним щелчком мыши подключаются в соответствующем разделе «Настроек». Можно еще пополнить и подредактировать словарную базу, воспользовавшись встроенным «Корректором словаря».

Экономный переводчик

программа X-Translator Discovery - облегчённая версия переводчика PROMT

Наряду с «большой» версией своего переводчика компания ПРОМТ предлагает потребителям еще и сокращённый вариант. Точнее, даже два - собственный Promt4U и выпущенный вместе с «Бизнессофт» X-Translator Discovery. Оба они рассчитаны на домашних пользователей, многие из которых готовы отказаться от мощной функциональности расширенного пакета ради выгодной цены. Стоят диски с лейблами PROMT и ИДДК (товарным знаком «Бизнессофта») всего лишь 799 и 405 рублей соответственно. Для X-Translator Discovery также есть CD с коллекциями дополнительных словарей - «Наука», «Техника» и «Коммерция». Их, как и в большом PROMT, можно установить с помощью утилиты TDSetup. Она входит в состав X-Translator Discovery.

Сам же процесс перевода осуществляется в графической оболочке, ЕХЕ-файл которой находится в папке PrmtX. Для получения перевода в ней достаточно открыть DOC, RTF или ТХТ-файл или скопировать в верхнюю часть окна интересующий текст из буфера обмена, а затем кликнуть по кнопке «Перевести».

В меню «Перевод» можно сменить направление, например, с русского на английский или с английского на русский язык, если вы приобретете версию с их поддержкой. Там же можно провести резервирование отдельных слов. А вот дополнительные словари (один из которых, кстати, включен в дистрибутив X-Translator Discovery) подключаются в разделе «Тематика».

С помощью пакета ПРОМТ и ИДДК вы сможете быстро переводить сайты во Всемирной сети, поскольку он интегрируется в браузер Internet Explorer. Позволяет X-Translator Discovery осуществлять и перевод сообщений в ICQ. Нужно только запустить программу Promt for ICQ и задать в её настройках горячие клавиши.

* * *

Достичь в полной мере адекватного перевода, во всяком случае, на примере выбранных нами текстов пока не удалось ни одной системе МП. Но это вовсе не значит, что в дальнейшем такого уровня развития они добиться не сумеют. Медленно, но верно машинные переводчики прогрессируют. Быстрее других программ этого класса совершенствуется система МП PROMT. Но и другие переводчики не стоят на месте. Весьма удобно пользоваться режимом перевода одной кнопкой в Pragma. Что касается Retrans 2005, то реализованный в этой системе МП фразеологический метод перевода выглядит весьма многообещающим. Если удастся собрать 15-20 млн. словосочетаний, то вполне возможно, что удастся добиться достаточного покрытия текстов и, соответственно, приемлемого качества перевода научно-популярных текстов и деловых документов. И, следовательно, понимать материалы на незнакомом языке мы сможем без каких-либо усилий, причем буквально в два счета. С помощью компьютерного переводчика, конечно.

© Александр Евдокимов

По материалам журнала Hard'n'Soft

← Вернуться
хостинг для сайтов © Langust Agency 1999-2024, ссылка на сайт обязательна