RCDL 2009 сентября 2009 г. 17- 21 Корпоративная переводческая сеть с

реклама
Корпоративная переводческая сеть с
использованием специальных
электронных библиотек
RCDL 2009
17- 21 сентября 2009 г.
к.т.н. Абрамова Н.Н., к.т.н. Абрамов В.Е., Карнацкая А.А., Рожков В.М.
ФГУП «НИЦИ при МИД России»
NAbramova@mid.ru, AbramVal@yandex.ru, Akarnatskaya@mid.ru, Vrozhkov@mid.ru
1
Проблемы автоматизации перевода



В условиях глобализации современного мира выдвигаются
более высокие требования к качеству и скорости перевода.
Постоянно происходит рост требующих перевода на
иностранные языки материалов, так как расширяются
международные связи. На перевод накладываются довольно
жесткие требования к используемой терминологии: термины,
впервые появившиеся в основополагающих международных
документах, таких как резолюции ООН, международные
конвенции и договоры и переведенные на иностранные языки,
в последующих документах должны переводиться таким же
образом.
Из-за неудовлетворительного качества машинного перевода на
постредактирование переведенного материала иногда можно
затратить больше времени, чем на перевод по старинке без
помощи программ.
Ни одна из ныне существующих в мире систем перевода не
может обеспечить уровень перевода, сравнимый с уровнем
человека-переводчика, однако переводчикам необходимы
средства автоматизации, облегчающие их труд.
2
Состояние проблемы



«Память переводчика», «накопители переводчика» или
«накопители переводов» стали создаваться начиная с 80-х годов
прошлого века.
Появились системы автоматизированного перевода, основанные
на принципах «памяти переводчика» и выполняющие в отличие
от систем машинного перевода не полный перевод текста, а его
фрагменты без формирования связного текста, оставляя за
человеком значительную часть по переводу, согласованию и
редактированию текста. На сегодняшний день известно
несколько часто используемых систем автоматизированного
перевода, например, Trados , OmegaT, SDLX, Wordfisher,
Metatexis , DejaVu , Transit , TermStar .
Помимо программных систем помощь переводчику оказывают
автоматические словари, например, Translatelt, PROMT VERDict, ABBYY Lingvo, Мультитран, Контекст.
3
Требования к автоматизированному
рабочему месту (АРМ) переводчика



ПК с достаточным объемом оперативной и дисковой
памяти и высокой скоростью обработки информации,
оснащенный DVD и периферийными устройствами
(сканер, принтер, web-камера) и имеющий доступ в
корпоративную сеть и сеть Интернет.
Программное обеспечение (ПО) : текстовый редактор,
система
оптического
распознавания
текстов,
электронные переводчики, клиент-серверное ПО для
совместной работы.
Дополнительно на рабочую станцию можно установить
системы автоматического реферирования текстов и
системы распознавания голоса.
4
Доводы в пользу использования платформы
IBM Lotus Domino/Notes







Существует корпоративная информационная система, разработанная на
этой платформе
Накоплены значительные объемы информации для автоматизации
переводов, находящиеся в БД Lotus Notes.
Позволяет использовать Web–сервер для получения и обмена
дополнительной информацией помимо имеющейся в корпоративной сети.
Позволяет легко переходить из одной ОС на другую или использовать
несколько серверов под разными ОС.
Дает возможность организовать коллективную работу над переводимым
документом.
Поддерживает формат Unicode, что позволяет работать с многоязычными
документами.
Имеет встроенный текстовый редактор и сервис проверки орфографии.
5
Корпоративная переводческая
сеть
Схема компонентов АРМ переводчика
На каждом АРМе установлены следующие средства:
 клиент-серверное программное обеспечение Lotus
Notes;
 текстовый редактор Word Microsoft Office 2007;
 система оптического распознавания текстов Abby
Fine Reader 8.0;
 электронный переводчик Promt ;
 электронный словарь Lingvo 9.0;
 реплика базы данных «Тексты для перевода»;
 реплика базы данных «Результаты поиска».
7
Фрагмент тематического рубрикатора
Права человека
Билль о правах человека
Право на самоопределение
Права коренных народов и меньшинств
Предупреждение дискриминации
Права женщин
Права ребенка
Права пожилых людей
Права инвалидов
Права человека в области отправления правосудия
Брак
Право на здоровье
Право на труд и на справедливые условия занятости
Свобода ассоциации
Рабство, сходная с рабством практика и принудительный труд
Права мигрантов
Гражданство, безгражданство, право убежища и беженцы
8
Электронные библиотеки
Состав библиотеки
Терминологические
словари
Параллельные
тексты
Источники для
формирования
Глоссарии по
внешнеполитической
деятельности (русскоанглийские и русскофранцузские);
электронный русскоанглийско-французскоиспанский словарь по
внешнеполитической
деятельности
Хранение
База данных
«Память
переводчика»
на сервере
Lotus Domino
Резолюции ООН,
меморандумы,
международные
конвенции и договоры
9
Подготовка текстов для ввода в базу
данных «Память переводчика»
Этапы работ
Проверка выравнивания абзацев в параллельных
текстах
II. Автоматическое формирование файла для
импорта в базу данных
o
Разбивка каждого текста на части (24 абзаца)
o
Извлечение из параллельных текстов
заголовков и запись их в поля названия
документа на русском и иностранных языках.
o
Формирование полей из текста каждого
абзаца.
o
Проведение морфологического анализа
текста каждого абзаца на русском языке и
запись результатов в соответствующие поля.
I.
Средства
Текстовый
редактор (Word,
WordPad, )
Программа
Formfile (язык
С++)
10
Программа автоматического формирования
файла для импорта в базу данных
Фрагмент текста, предназначенного для импорта в
базу данных
Chart: Часть 8
Name_ru:Международная конвенция о борьбе с финансированием терроризма
Name_en:International Convention for the Suppression of the Financing of Terrorism
Name_es:Convenio internacional para la represión de la financiación del terrorismo
Name_fr:Convention internationale pour la répressiondu financement du terrorisme
Ab1_ru:8. Протокол о борьбе с незаконными актами, направленными против безопасности
стационарных платформ, расположенных на континентальном шельфе, совершенный в
Риме 10 марта 1988 года.
Ab1_en:8. Protocol for the Suppression of Unlawful Acts against the Safety of Fixed Platforms
located on the Continental Shelf, done at Rome on 10 March 1988.
Ab1_es:8. Protocolo para la represión de actos ilícitos contra la seguridad de las plataformas fijas
emplazadas en la plataforma continental, hecho en Roma el 10 de marzo de 1988.
Ab1_fr:8. Protocole pour la répression d’actes illicites contre la sécurité des plates-formes fixes
situées sur le plateau continental, fait à Rome le 10 mars 1988.
Kod:Борьба с терроризмом и преступностью
Kod:Борьба с финансированием терроризма
Vid: Д
RmaName: международн конвенци о борьб с финансировании терроризм #2 3 3 4 4 6 7
RmaAb1: 8 & протокол о борьб с незаконн акт & направлен против безопасност стационарн
платформ & расположенн на континентальн шельф & совершенн в рим 10 март 1988 год &
#0 -1 -1 -1 0 0 3 6 5 8 8 9 11 11 10 12 12 14 15 14 16 16 17 17 18 18 19 18
12
Представление по тематике русско-английских
параллельных текстов
13
Представление русско-французского словаря
14
Работа с исходными текстами
Представление результатов поиска
Результат поиска в русско-английских тестах
Результат поиска в русско-французских тестах
18
Направления дальнейшей работы
Проблема
Решение
Вариативность терминологии
Предварительная обработка текстов на
русском языке с помощью тезауруса
при подготовке файла для импорта в БД
«Память переводчика», и тезаурусная
обработка исходного текста,
предназначенного для перевода, в
процессе работы программы
Перевод исходного текста на основе
имеющихся в БД «Память переводчика»
иноязычных эквивалентов.
Установить критерий близости текстов
абзацев на русском языке. Выдавать
пользователю абзацы, отвечающие
этому критерию, и соответствующие им
абзацы параллельных текстов на
нужном языке.
Насыщение БД «Память переводчика»
Форсировать работы по
предварительной обработке текстов за
счет привлечения большего числа
специалистов.
Оптимизация работы программного
комплекса с целью улучшения временных
характеристик
Доработка программного комплекса
Скачать