УДК ??? О СХЕМЕ ВЗАИМОДЕЙСТВИЯ В КОМПЛЕКСЕ «АНАЛИЗ И СИНТЕЗ ЕСТЕСТВЕННОГО ЯЗЫКА И ИЗОБРАЖЕНИЙ» С.С. Курбатов (cul@nicevt.ru) ОАО НИЦЭВТ, Москва К.А. Найденова (Naidenovaxen@gmail.com) Военно-медицинская академия, Санкт-Петербург Г.К. Хахалин (gkhakhalin@yandex.ru) независимый исследователь, Москва Для комплекса, объединяющего разномодальные системы концептуального распознавания и синтеза изображений, анализа и синтеза ЕЯ-текстов, рассматривается схема их взаимодействия через общую прикладную онтологию. Прикладная онтология представляется на языке семантического гиперграфа. Даны примеры из области «Планиметрия», которые иллюстрируют разные типы взаимодействия. Введение Данная работа является продолжением рассмотрения вопросов по проекту с условным названием «естественный язык (ЕЯ) + зрение + рисование», в котором ставится задача интеграции разномодальных систем искусственного интеллекта: систем анализа/синтеза естественного языка и изображений [Хахалин и др., 2008]. Связующим данные системы звеном является общая для них прикладная онтология, представленная на языке семантического гиперграфа. В качестве прикладной области выбрана «Планиметрия» область, изобилующая как изображениями (плоские фигуры и их комбинации), так и текстовыми описаниями объектов реальной среды. В данной работе рассматриваются некоторые особенности интегрируемых систем для предварительного выбора кандидатов на включение в комплекс и схемы взаимодействия систем при различных режимах работы. 1. Требования к компонентам комплекса Комплекс состоит из прикладной онтологии, двух систем анализа и двух систем синтеза. Системы анализа должны выдавать результаты своей работы на языке прикладной онтологии – на языке семантического гиперграфа, который описан в [Хахалин, 2009]. А для систем синтеза этот язык является входным, т.е. эти системы должны «понимать» язык семантического гиперграфа, на котором задаются описания синтезируемых ситуаций. Язык семантического гиперграфа является расширением семантических сетей, где естественным образом представляются n-арные отношения, которые позволяют задавать не только атрибуты объектов, но и представлять их структурные, «целостные» описания. На нем можно в зависимости от типов связей реализовывать классифицирующие, функциональные, ситуационные, структурные сети и сценарии. На наш взгляд этот язык наиболее адекватен для представления знаний в интегральной системе искусственного интеллекта. Следует сразу подчеркнуть, что каждая система внутри себя может обладать своими языками представления знаний и базами знаний, необходимыми им для внутренней работы. Например, системы анализа и синтеза ЕЯ-текста имеют морфологическую и синтаксическую модели, которые являются специфическими только для данных систем. Исходя из функциональной структуры комплекса, опишем некоторые особенности каждой из систем и возможности их выбора из реально существующих для включения в комплекс. При этом отметим, что на сегодняшний день нет систем, полностью отвечающих предъявляемым требованиям, которые можно было бы по технологии «plug and play» интегрировать в комплекс. Система концептуального анализа изображений. Сегментация изображения на отдельные фрагменты, а также интерпретация этих фрагментов осуществляются непосредственно в ходе анализа изображения (этапы предварительной сегментации и описания отсутствуют). Процесс анализа носит итеративный характер: выдвигается гипотеза о присутствии в определенном месте изображения представителя того или иного класса анализируемых объектов; проверяется выдвинутая гипотеза, т.е. осуществляется целенаправленный поиск непосредственно на входном изображении совокупности элементов, удовлетворяющих структурному описанию; и принимается решение о справедливости той или иной гипотезы. В качестве систем, обеспечивающих в разной степени «нижние и верхние» уровни анализа можно привести систему IcadGT (фирма recsoft Inc) [IcadGT] и программный продукт Raster Arts (фирмы CSoft) [CSoft]. А процедуры, организующие распознавание «непроизводных» объектов («отрезок прямой», «угол», «дуга» и т.п.), обеспечиваются с помощью машинного обучения [Naidenova, 2009]. Система концептуального синтеза изображений. Задача построения фигуры по имени, структуре и по означенным параметрам решается путем вычисления координат вершин и составления общепринятого в машинной графике описания. Система должна избегать возможных коллизий, т.е. реагировать на недостаток и противоречивость данных означивания, а, следовательно, невозможность однозначного вычисления экземпляра фигуры. При этом она выдает сообщение и список параметров, которые противоречат друг другу или системе не удается их вычислить. В качестве системы, обеспечивающей «нижний» уровень графического синтеза можно привести программный продукт Autodesk (фирмы CSoft) [CSoft]. А в качестве концептуальной надстройки над ним предполагается использовать наработки при создании экспериментальных систем ТЕКРИС (ВЦ РАН) и ПСИ [Власов и др., 1988]. Система лингвистического анализа естественного языка. Задача анализа текста заключается в построении по ЕЯ-тексту концептуальной структуры описания ситуации в терминах понятий и отношений прикладной онтологии. Такое построение трактуется как отображение, которое должно устранить неопределенности поверхностного уровня ЕЯ (многозначность, омонимию, омографию, неполноту, анафоричность, некорректность и другие), сводя их к однозначному семантическому представлению. Это осуществляется за счет реализации нескольких отображений: грамматический анализ, семантическая интерпретация и семантический анализ, которые в совокупности реализуют лингвистический анализ текста. Особенностью системы является отсутствие необходимости проводить полный и последовательный лингвистический анализ текста. Системой реализуется спектральность полноты и последовательности анализа, которая зависит от прикладной онтологии, тематической однородности и сложности самого текста (эллиптические, осложненные, сложные и анафорические предложения). Система анализа текста может быть выбрана на основе обзора [Найденова и др., 2008] и системы АДАЛИТ, принципы которого описаны в [Хахалин и др., 2006]. Система синтеза естественного языка. Задача синтеза текстов на ЕЯ заключается в генерировании текста по структурным описаниям онтологических представлений. Полный синтез фраз ЕЯ предполагает этапы семантического синтеза, синтаксических интерпретации и синтеза, морфологического синтеза и форматирования (графематический синтез). Синтаксический, морфологический синтез и форматирование достаточно разработанные процедуры (например, в системе ЭТАП-3), а вот семантический синтез и интерпретация в ограниченных пределах представлена только в системах ПОЭТ и АДАЛИТ. Поэтому при выборе системы синтеза текста для комплекса акцент будет сделан на них. 2. Режимы работы комплекса Рассмотрим последовательно разные взаимодействия систем, которые условно представлены на рис. 1. Каждое взаимодействие характеризуется названием, трассировкой этапов, иногда комментариями и по возможности иллюстрацией. 9 2 1 КАИ In 11 Ti АЕЯ 6 3 КСИ Mk 5 4 Прикладная онтология Mk {In} 12 {Ti} СЕЯ 7 8 10 Рис. 1. Схема взаимодействия подсистем КАИ – система концептуального анализа изображений; КСИ – система концептуального синтеза изображений; АЕЯ – система лингвистического анализа естественного языка; СЕЯ – система лингвистического синтеза естественного языка. In – (входное/выходное) изображение; {In} – множество изображений; Ti – текст на ЕЯ; {Ti} – множество текстов на ЕЯ (перефразировки); Mk – описание объекта или ситуации в прикладной онтологии на языке семантического гиперграфа. ЯПЗ – язык представление знаний (семантический гиперграф). 1. Анализ/понимание изображения {1, 2} – вход – изображение; в онтологии – имя класса объекта или ситуации; описание зрительной ситуации (всей или части) на ЯПЗ + означенная структура объекта или ситуации. F22 (S= l1*l2) Параллелограмм Площадь по_формуле имеет вид Прямоугольник имеет им_структуру Периметр F20 (P=2*(ав+вс)) соприк_к.т.В Сторона (вс) Сторона (ав) им_длину по_формуле соприк_к.т.А перпенд. Сторона (аd) lсоприк_к.т.С l 1 2 им_длину соприк_к.т.D перпенд. Сторона (сd) параллельны Рис. 2. Входное изображение и означенная структура объекта «Прямоугольник» в онтологии 2. Анализ изображения и проверка экспертом описаний геометрических ситуаций на ЯПЗ по синтезируемым геометрическим объектам {1, 2, 3} – вход – изображение; в онтологии – описание зрительной ситуации (всей или части) на ЯПЗ; выход – множество примеров изображений класса ситуаций (всего или части). Рис. 3. Синтез множества экземпляров понятия «равнобедренный треугольник» 3. Анализ изображения, проверка экспертом описаний (геометрических ситуаций) на ЯПЗ и проверка описаний самой системой анализа изображений при использовании обратной связи {1, 2, 3, 9, 1} – вход – изображение; в онтологии – описание зрительной ситуации (всей или части) на ЯПЗ; выход – множество примеров изображений класса ситуаций (всего или части); функция сравнения – проверка правильности анализа изображения самой системой. 4. Генерирование текста по рисунку {1, 4, 8} – вход – изображение; в онтологии – описание геометрической ситуации (всей или части) на ЯПЗ; выход – ЕЯ-текст, описывающий геометрическую ситуацию. А C B ЕЯ-тексты: Треугольник, две стороны которого равны 6 и 8, а медиана, заключенная между ними, равна 5. Треугольник со сторонами АВ=8, АС=6. Медиана, проведенная из вершины А, равна 5. Задан треугольник ABC. Сторона АС (равна 6) меньше стороны АВ (равна 8). Из вершины А к основанию CB опущена медиана AD (равна 5). Рис. 4. Входное изображение треугольника с медианой и выходные тексты Эквивалентность этих формулировок (перифраз) на «словесном» уровне не очень выражена. Но если при этом использовать рисунок и онтологическую структуру, то для эксперта сопоставление этих текстов не вызовет больших затруднений. Этот же режим используется тогда, когда системе анализа изображений недостаточно информации или она противоречива для понимания изображения. 5. Создание рисунка по тексту {6, 5, 3} – вход – ЕЯ-текст; в онтологии – семантическое описание текстовой ситуации на ЯПЗ; выход – множество изображений, описывающих текстовую ситуацию. Здесь существует два подрежима: один – выполнение команд над уже нарисованным объектом (команды: «сдвинуть», «повернуть» и т.д.); второй – генерирование рисунка по ЕЯ-тексту. Рис. 5. Сдвиг и поворот на плоскости с нарисованным на ней домиком ЕЯ-текст: В прямоугольном треугольнике ABC ( C = 90) с катетами 3 и 4 провели высоту CH. В получившиеся треугольники ACH и BCH вписали две окружности, которые касаются CH в точках K и L. Рис. 6. ЕЯ-текст и синтезированное графическое изображение 6. Понимание текста и проверка описаний экспертом текстовой ситуации на ЯПЗ {6, 7} – вход – ЕЯ-текст; в онтологии – семантическое описание текстовой ситуации на ЯПЗ. Входной текст: Треугольник Основание равнобедренного F7 (S=1/2вc*h) Площадь треугольника, равно 8. Длина вид имеет высоты, проведенная к по_формуле основанию треугольника, Равнобедр_Тре-к по_формуле имеет равна 3. им_структуру Периметр F6 (P=l2 + 2*l1) им_длину l1 Сторона (ас) А соприк. им_длину соприк_к.т.С Высота r1 r2 l3=3 Основание соприк_к.т.В (вс) им_длину Сторона (ав) l2=8 Рис. 7. Фрагмент означенной структуры понятия «Равнобедренный треугольник» (r1 – исходит_из; r2 – опущена_на) 7. Перефразирование входного текста (текстовой анализ/синтез) {6, 7, 8} – вход – ЕЯ-текст; в онтологии – семантическое описание текстовой ситуации на ЯПЗ; выход – множество ЕЯ-текстов, описывающих ситуацию (перефразировки). Входной текст: Постройте круг данного радиуса r, который включает точку с координатами X1 и Y1. Выходные тексты: - Задана точка с координатами X1 и Y1. Она находится внутри круга с радиусом r. Построить такой круг. - Построить круг с радиусом r, который включает точку с координатами X1 и Y1. - Внутри круга находится точка с координатами X1 и Y1. Постройте такой круг, радиус которого равен r. Выходной текст может быть представлен на языке, отличным от входного языка: - Build circle with radius r, which include point with coordinate X1 and Y1. 8. Понимание текста, проверка описаний экспертом текстовой ситуации на ЯПЗ и проверка описаний самой системой анализа текста при использовании обратной связи {6, 7, 8, 10, 6} – вход – ЕЯ-текст; в онтологии – семантическое описание текстовой ситуации на ЯПЗ; выход – множество ЕЯ-текстов, описывающих ситуацию (перефразировки); функция сравнения – проверка правильности лингвистического анализа текста. 9. Понимание текста, проверка описаний экспертом текстовой ситуации на ЯПЗ, синтез изображения по тексту и проверка описаний самой системой анализа изображений при использовании обратной связи {6, 5, 3, 9, 1} – вход – ЕЯ-текст; в онтологии – семантическое описание текстовой ситуации на ЯПЗ; изображение, описывающее текстовую ситуацию; анализ изображения. 10. Понимание изображения, проверка описаний экспертом зрительных ситуаций на ЯПЗ, текстовое описание рисунка и проверка описаний самой системой анализа текста при использовании обратной связи {1, 4, 8, 10, 6} – вход – изображение; в онтологии – описание зрительной ситуации (всей или части) на ЯПЗ; выход – множество ЕЯтекстов, описывающих ситуацию (перефразировки); функция сравнения – проверка правильности лингвистического анализа текста. 11. Одновременная подача на входы анализаторов изображения и текста текстового описания и рисунка, представляющих одну и ту же внешнюю ситуацию {1, 2; 6, 7} – вход – изображение; описание зрительной ситуации (всей или части) на ЯПЗ; – вход – ЕЯ-текст; семантическое описание текстовой ситуации на ЯПЗ; функция – сравнение описаний. Остальные взаимодействия относятся к тем случаям, когда сам текст представлен как фрагмент изображения. {1, 11} – вход – изображение, на котором кроме самого рисунка присутствует текст на ЕЯ (как изображение); выход – результат работы OCR-подсистемы (преобразование текста как изображения в символьный текст). {1, 11, 6} – вход – изображение, на котором кроме самого рисунка присутствует текст на ЕЯ (как изображение); промежуточный выход – результат работы OCR-системы (преобразование текста как изображения в символьный текст); лингвистический анализ текста. {12, 3} – символьный текст поступает на генерацию изображения в качестве изображения текста. {1, 11, 6, 7, 8} – вход – на изображении текст на ЕЯ (как изображение); описание текстовой ситуации на ЯПЗ; выход – ЕЯ-текст, описывающий ситуацию (перефразировки). Заключение Взаимодействия систем рассмотрены в предположении наличия исчерпывающей информации в прикладной онтологии. Очевидно, что заложить вручную все знания в онтологию даже для одной прикладной области практически невозможно. Комплекс должен быть обучаемым, а системы синтеза при этом выступают в качестве средств проверки накапливаемых знаний. Разработка методов обучения целостной системы должна производиться с учетом интегрирования разномодальных систем и с учетом неопределенностей, противоречий во входной информации и онтологии. При этом методы обучения должны носить как индуктивный, так и дедуктивный характер. Их сочленение – работа будущего. И если для индуктивной составляющей можно применять методы машинного обучения [Naidenova, 2009], то для дедуктивной (аналитической) составляющей предстоит адаптировать дидактические методы, используемые в педагогике. Некоторые возможности использования элементов аналогии и индуктивного вывода применительно к автоматизированному формированию базы знаний для задач планиметрии исследуются в [Курбатов, 2010]. Список литературы [CSoft] www. CSoft.ru [IcadGT] Система IcadGT, www.recsoft.com [Naidenova, 2009] Xenia Naidenova. Machine Learning Methods for Commonsense Reasoning Processes: Interactive Models. N.Y., USA: IGI Global. 2009. [Власов и др., 1988] Власов А.В., Аредова И.И. Экспериментальная система синтеза графических изображений по их описанию в терминах геометрических понятий. Материалы конференции "Развитие интеллектуальных возможностей современных и перспективных ЭВМ" - М., МДНТП, 1988. [Курбатов, 2010] Курбатов С.С. Высокоуровневые эвристики для автоматизированного формирования базы знаний (представлена на данной конференции). [Найденова и др., 2008] Найденова К.А., Невзорова О.А. Машинное обучение в задачах обработки естественного языка: обзор современного состояния исследований // Известия Казанского Университета, № 1, 2008. [Хахалин и др., 2006] Хахалин Г.К., Воскресенский А.Л. Контекстное фрагментирование в лингвистическом анализе // Труды Х национальной конференции по Искусственному Интеллекту с международным участием – КИИ-2006. М.: Физматлит, 2006. [Хахалин и др., 2008] Хахалин Г.К., Воскресенский А.Л. Мультизадачное использование прикладной онтологии. // Труды ХI национальной конференции по Искусственному Интеллекту с международным участием – КИИ-2008. М.: URSS, 2008. [Хахалин, 2009] Хахалин Г.К. Прикладная онтология на языке гиперграфов // Труды второй Всероссийской Конференции с международным участием "Знания-Онтологии-Теории" (ЗОНТ-09). Новосибирск, 20-22 октября 2009 г. – Новосибирск, 2009.