Агентство Лангуст [переход на главную] Langust
Яндекс.Метрика

18/06/2014 Машинный перевод для профи
Впервые опубликовано на сайте Хабрахабр

На сайте Хабрахабр была опубликованы материалы доклада о продуктивном машинном переводе.

Ниже материалы доклада приведены частично.

В конце мая 2014 г. в Москве мы (ABBYY Language Services) собирали представителей индустрии перевода и локализации на круглый стол TAUS, чтобы всем вместе поговорить об автоматизации перевода: что это такое, какая от этого польза, что с этим делать и кому это нужно.

Разговор получился продуктивным, чем мы очень довольны. Теперь мы расскажем вам об одном из докладов, который стал лучшим по итогам круглого стола и позволил его автору получить специальную награду TAUS Excellence Award.

Небольшая справка про TAUS

TAUS - авторитетная международная организация, которая с 2004 г. занимается вопросами автоматизации перевода. Среди её членов не только мы, но и Google, eBay, Cisco, Intel, Adobe, Siemens и многие другие корпорации купить книги по бизнесу. Основатель организации - Яп ван дер Меер, практически живая легенда индустрии. Узнать больше о TAUS можно в нашем корпоративном блоге или на сайте организации.

Продуктивное профессиональное использование машинного перевода

контроль качества на протяжении всего процесса работы с машинным переводом позволит избежать неприятных сюрпризов

Доклад, на котором мы остановимся, был посвящён теме машинного перевода (MT). Вообще, о машинном переводе говорили многие участники. Например, что его популярность не снижается, и многие обычные пользователи и компании начали активнее использовать его в своей работе - только через Яндекс.Перевод ежедневно проходит около 100 Гб информации.

Наш директор по инновациям Антон Воронов решил рассказать о том, что необходимо для продуктивного профессионального использования машинного перевода.

Мы уже писали, что на Западе успели оценить пользу от средств автоматизации, и многие организации и поставщики лингвистических услуг используют разные технологии в реальной работе над заказами: словари, глоссарии, базы памяти переводов, краудсорсинг и машинный перевод. Всё просто: представители индустрии поняли - несмотря на то, что объёмы контента во всём мире удваиваются почти ежегодно, темпы перевода остаются прежними. Очевидно, нужно повышать продуктивность работы.

Доказано на практике, что машинный перевод стоит использовать, если выполняются хотя бы два-три пункта из следующих требований:

При этом нужно учитывать особенности системы: чтобы добиться высокого качества перевода от MT, требуется изрядное количество баз памяти переводов, выбор подходящего «движка» машинного перевода, его настройка на тип проекта и глубокая интеграция системы MT в ваш производственный процесс. Иначе чуда не произойдёт.

Как это выглядит на практике? Представьте, что вам нужно перевести много технических инструкций к определённому ПО. Во-первых, стоит запастись базами Translation Memory, которые составлялись при предыдущих переводах для этого ПО или остались после подобных проектов - чем больше, тем лучше. Затем имеет смысл определиться с подходящей системой машинного перевода - возможно, в прошлых проектах какая-то из них показала себя наилучшим образом - и поколдовать с её настройкой: скормить имеющиеся базы и параллельные тексты. В процессе перевода будьте готовы отслеживать работу машины: чтобы можно было оперативно внести корректировки, если что-то пойдёт не так.

В нашей практике доказала свою эффективность следующая схема производственного процесса:

Как показал опыт, для максимальной автоматизации переводческого процесса в любой компании необходимо позаботиться об онлайн CAT-инструменте. В него нужно интегрировать модуль управления терминологией и системы MT. Также имеет смысл предусмотреть гибкую модель производства (на случай, если придётся что-то менять на ходу), возможности командной работы исполнителей в режиме реального времени, автоматическую регистрацию всех действий постредактора (это позволит найти «узкие места») и встроенный контроль качества.

В нашем случае этот полный цикл автоматизации выполняется на основе SmartCAT, про который писали раньше и который продолжаем активно развивать.

Немного коснулись и того, как можно тренировать «движки» машинного перевода. Чтобы ожидания от результатов MT оправдались, важно повторно использовать лингвистические ресурсы при настройке системы. Извлекайте терминологию, следите за её единообразием и отдавайте полученные глоссарии «движкам». Берите сегменты, которые уже переведены и прошли стадию постредактирования, и делитесь ими со своими системами MT: здесь важны последние варианты, поскольку они более актуальны.

Контроль качества на протяжении всего процесса работы с машинным переводом позволит избежать неприятных сюрпризов. История изменений текста, затраченное время и результаты автоматической проверки качества помогут выбрать сегменты, требующие пристального внимания при финальной оценке качества. А вообще, всякое может случится, поэтому будьте готовы к изменениям в процессе контроля качества при переводе MT.

Немного поговорили и о планах. Дело в том, что у нас получилось так глубоко погрузиться в процесс, поскольку мы сами давно и активно тестируем в работе различные системы автоматизации и методы работы в поисках высокой производительности и гибкого управления уровнем качества. Нам стало ясно, что для более эффективной работы с MT очень не хватает интегрированного модуля для извлечения терминологии, подсказок при поиске в уже загруженных базах, данных о контексте тех или иных терминов. И, конечно, больше проверок качества и больше метрик. Мы продолжаем внедрять это в наши продукты и собственные процессы.

Безусловно, лингвистические технологии продолжают развиваться. Но объёмы контента растут ещё быстрее, а существующие решения по-прежнему требуют участия в процессе профессиональных переводчиков. В общем, ближайшее будущее отрасли за совместной работой людей и машин.

© Антон Воронов, директор по инновациям компании ABBYY Language Services.

Впервые опубликовано на сайте Хабрахабр

Вернуться
хостинг от Зенон Н.С.П. © Langust Agency 1999-2017, ссылка на сайт обязательна