ЛЕКЦИЯ №8 МАШИННЫЙ ПЕРЕВОД Машинный перевод (МП) текстов с одних ЕЯ на другие — одна из наиболее ранних задач невычислительных приложений ЭВМ и ИИ. Отметим два аспекта, определяющих актуальность задач МП и не снижающееся внимание к ним со стороны ученых и разработчиков ИАС: все возрастающая потребность в переводах в науке, литературе, дипломатии, экономике и других областях деятельности, обусловливаемая повышением открытости границ, интернационализацией науки и экономики, взаимопроникновением культур и т.д.; для МП гораздо яснее критерии оценивания результатов, чем в задачах понимания текстов, организации диалога и др. Создание систем МП требует совместной работы специалистов разного профиля: в первую очередь, лингвистов, математиков и программистов. Системы МП различают по трем аспектам: рабочим языкам; типам текста; ограничениям по ПрО. По количеству поддерживаемых рабочих языков различают двуязычные и многоязычные системы МП. Язык исходного текста называется входным, а (формируемого текста) — выходным. язык перевода На рис. 1, а условно представлены две системы МП, обеспечивающие перевод с языка 1 на язык 2 и с языка 2 на язык 1. На рис. 1, б условно изображены два класса систем МП. Системы первого класса переводят текст с языка 1 на языки 2.1, 2.2, ..., 2.k, а системы второго класса переводят текст с языков 2.1, 2.2, ..., 2.к на язык 1. Рис. 1. Системы МП: а — двуязычные; б — многоязычные 1 В современных многоязычных системах МП поддерживаемые языки могут быть и входными, и выходными. Направление перевода определяет роли языков (входной, выходной). По типу текста выделяются системы для перевода письменного текста и устного диалога. Системы первого типа классифицируются по назначению для перевода: деловой прозы (научно-технических статей, заголовков и аннотаций, описаний изобретений, технической документации и др.); художественной литературы. Системы для перевода устного диалога обычно ориентированы на узкую тематику: резервирование мест в гостинице; определение маршрута проезда по городу и т.д. Они интегрируются с системами анализа и синтеза устной речи. Ограничения систем МП по ПрО обусловлены поддержкой в них лексики, соответствующей той или иной области знаний (медицины, информатики, математики и т.д.). Системы МП бывают автоматическими и автоматизированными. На рис. 2 изображены три схемы автоматизированных систем МП. Их достоинствами являются простота реализации и повышение производительности перевода в 3—5 раз по сравнению с переводом вручную человеком. Недостаток таких систем связан с необходимостью участия в переводе специалиста в ПрО, к которой относится текст, владеющего входным и выходным языками. Рис. 2. Автоматизированные системы МП: а — с постредактированием; б — с предредактированием; в — с пред- и постредактированием; 1 — входной текст; 2 — система МП; 3 — перевод, сформированный системой МП; 4 — человек (редактор), обрабатывающий с помощью текстового редактора перевод, сформированный системой МП; 5 — выходной текст; 6 — человек (редактор), выполняющий предварительную обработку входного текста с помощью текстового редактора; 7 — входной текст после предварительного редактирования человеком. 2 Как обычно, перед описанием схемы автоматического решения интеллектуальной задачи полезно рассмотреть процесс ее решения человеком. Выполняя перевод, человек уясняет смысл очередного фрагмента текста (фразы, абзаца) и выражает его на выходном языке, стараясь обеспечить структурную и смысловую близость к оригиналу (без этого результатом будет не перевод, а пересказ). При переводе человек использует как лингвистические знания о входном и выходном языках, так и экстралингвистические знания (знания о ПрО, общих закономерностях среды перевода, законах коммуникации). В соответствии с возможностями компьютерной реализации данных функций человека и разрабатывались поколения систем МП. Выделяют три поколения таких систем: 1) П-системы - системы прямого перевода (direct systems); 2) Т-системы (от слова transfer - преобразование); 3) И-системы (от слова interlingua - язык-посредник). Цикл работы П-системы состоит из трех этапов: На первом этапе выполняется морфологический анализ входной фразы. С помощью базы правил для входного языка и двух словарей (словаря основ слов и словаря оборотов) она переводится в ее морфологическое представление. При этом каждой основе и каждому обороту ставятся в соответствие свои наборы признаков. Таким образом, морфологическим представлением фразы является множество пар (признак, значение). На втором этапе выполняется перевод морфологического представления входной фразы в морфологическое представление выходной фразы. Для этого используется база правил соответствия морфологических признаков входного и выходного языков. На третьем этапе выполняется морфологический синтез: устанавливаются нужный порядок и форма слов согласно правилам грамматики выходного языка. Итоговый результат по качеству получается немного лучше подстрочного перевода. В Т-системах помимо процедур морфологической обработки реализуются методы синтаксического анализа и синтеза. Работа Т-системы включает пять этапов: На первом этапе осуществляется морфологический анализ входной фразы (аналогично П-системам). На втором этапе по его результатам выполняется синтаксический анализ, в ходе которого строится представление входной фразы в виде синтаксического дерева (дерева синтаксического разбора). Фраза — законченный оборот речи, предложение. 3 Различают два типа деревьев синтаксического разбора: деревья синтаксических составляющих; деревья синтаксических зависимостей. В первом случае грамматика ЕЯ описывается в виде моделей Н. Хомского. Дерево составляющих представляет вложенные группы словоформ. Самая крупная словоформа соответствует фразе, самые мелкие — синтаксически неделимым текстовым единицам (словам, словосочетаниям). Во втором случае узлы дерева представляют синтаксические единицы текста, а дуги — отношения подчинения между ними. Это позволяет использовать при анализе фильтровый метод. На третьем этапе выполняется переход от входного к выходному языку. Для этого синтаксическое дерево входной фразы преобразуется в синтаксическое дерево выходной фразы. Выделяются три уровня преобразования: поверхностно-синтаксический; глубинно-синтаксический; синтактико-семантический. В соответствии с их поддержкой различают и Т-системы. На четвертом этапе проводится синтаксический синтез. Грамматические правила в Т-системах имеют декларативную (дескриптивную) форму. На пятом этапе, как и в П-системах, осуществляется морфологический синтез. В И-системах наряду с морфологией и синтаксисом используются экстралингвистические знания, т.е. знания о семантике и прагматике ПрО. Поэтому после этапов морфологического и синтаксического анализа входной фразы функционирование И-системы включает этап семантического анализа. Его результатом служат семантические представления входной и выходной фраз, эквивалентные с точностью до лексики. Отношения между этапами функционирования трех поколений систем МП иллюстрирует рис. 3. Таким образом, системы МП представляют собой сложные программные комплексы с разными видами обеспечений. К лингвистическому обеспечению систем МП относятся: словари слов и словосочетаний с соответствующими признаками; морфологические таблицы суффиксов и окончаний; базы грамматических правил и др. 4 Рис. 3. Отношения между этапами функционирования трех поколений систем МП Математическое обеспечение систем МП включает: модели для представления лингвистической информации; алгоритмы их преобразования; правила логического вывода для уточнения обрабатываемого текста на основе экстралингвистических знаний. К программному обеспечению систем МП относятся: программы выполнения перевода; ведения словарей; формирования базы правил и т.д. Информационное обеспечение (ИО) систем МП представляет база экстралингвистических знаний о ПрО. К числу наиболее распространенных в России систем МП и компьютерных словарей относятся: Stylus - система МП, включающая множество словарей по разным ПрО; Universal Translator - многоязычная система МП; Socrat - система, позволяющая сканировать документы, переводить их содержимое и проверять орфографию; Polyglossum - многоязычная система МП с широким набором предметных словарей; Promt - многоязычная система МП, содержащая множество словарей по разным ПрО; WebTranSite - система для перевода web-страниц; Lingvo - компьютерный англо-русский и русско-английский словарь. 5 Основные характеристики компьютерного словаря Lingvo (разработчик — компания ABBYY Software House): перевод слова, набранного в панели ввода словаря или перенесенного на пиктограмму работающей системы с помощью операции «drag and drop»; перевод слова из буфера промежуточного хранения по горячей клавише; одновременная работа с большим количеством предметных словарей; гипертекстовое представление словарных статей; наличие тезауруса; наличие звуковой базы, представляющей произношение основных английских слов; полнотекстовый поиск слов и словосочетаний в статьях всех словарей; пословный перевод фразы; вставка перевода в редактируемый текст с помощью операции «drag and drop»; представление транскрипции, грамматических характеристик и парадигмы слова (списка всех его форм); предоставление подсказки по правильному написанию слова; создание и ведение собственных словарей. 6