How to Prepare a Paper for IWIM 2007

реклама
Знания-Онтологии-Теории (ЗОНТ-07)
Проблемы установления родовидовых
отношений в лингвистических онтологиях
Н.В. Лукашевич
Научно-исследовательский вычислительный центр МГУ им. М.В.Ломоносова,
Ленинские горы, д.1, стр. 4, 119992, Москва, Россия
louk@mail.cir.ru
Аннотация. Статья посвящена описанию типовых проблем, возникающих при установлении
родовидовых отношений в онтологических ресурсах. Описываются способы обнаружения
проблемных родовидовых отношений. Рассмотрение базируется на опыте разработки
больших лингвистических онтологий тезауруса РуТез и онтологии по естественным наукам
ОЕНТ.
Ключевые слова
Онтология, тезаурус, обработка текстов на
естественном языке, родовидовые отношения
1 Введение
Во многих компьютерных ресурсах и приложениях таких как онтологии, системы
искусственного интеллекта, объектно-ориентированное программирование, информационнопоисковые тезаурусы и многие другие центральное место занимают отношения между классами
и подклассами понятий. Такие отношения обычно рассматриваются как иерархические,
транзитивные и обладающие свойством наследования: атрибуты, характеристики
вышестоящего понятия наследуются на нижестоящее понятие.
Отношение между классами и подклассами понятий может носить разное название в
зависимости от области использования ресурса: таксономическое отношение, родовидовое
отношение, IS-a отношение, отношение гипонимии и гиперонимии (в лексических ресурсах).
Далее в тексте статьи мы будем ссылаться на это отношение как «родовидовое отношение».
При установлении родовидовых отношений разработчики ресурсов явно или неявно
используют ставшие классическими диагностические высказывания. Например, если понятие
Х является видом понятие Y, то можно сказать, что «X – это Y», «Х, Z и другие Y», «к числу
Y относятся X».
Однако одни и те же выражения естественного языка могут с онтологической точки зрения
соответствовать значительно различающимся отношениям между сущностями внешнего мира,
в том числе обладающими совсем другими свойствами [4, 9]. Поэтому многие методические
руководства по разработке понятийных ресурсов рекомендуют осуществлять дополнительные
проверки для устанавливаемого родовидового отношения.
Наиболее распространенной рекомендацией для установления родовидовых отношений
является ответ на вопрос, если объект является экземпляром одного класса, будет ли он
обязательно (т.е. по определению) экземпляром некоторого другого класса:
Если класс А – надкласс класса В, то каждый экземпляр класса В также является
экземпляром А [13, 16].
Однако ситуации, в которых происходит смешение родовидовых отношений с отношениями
других типов, значительно более разнообразны и при разработке онтологий, других
понятийных ресурсов необходимо учитывать такого рода проблемы.
Особенно серьезно эти проблемы стоят перед разработчиками понятийных ресурсов для
автоматической обработки текстов, информационно-поисковых приложений в широких
предметных областях. В таких приложениях ресурсы, с одной стороны, должны в значительной
мере учитывать существующую понятийную систему языка (группы языков) - это особенность
отражается в специальном термине «лингвистические онтологии» [6]. С другой стороны, для
сохранения необходимых свойств моделируемых отношений эти отношения должны
устанавливаться на основе понятийного, онтологического анализа, а не только с
использованием языковых диагностических высказываний.
В то же время нужно подчеркнуть, что онтологии, создаваемые и для другого рода
компьютерных приложений, достаточно трудно отделить полностью от естественного языка.
Единицы онтологий часто носят языковые или мнемонические названия, тем самым
дополнительно «провоцируя» применение неоднозначных языковых тестов.
Так, Йорик Вилкс в [12] утверждает, что символы в языках представления фундаментально
базируются на естественном языке, что язык представления - это средство человеческой
коммуникации с присущими ему динамизмом, многозначностью и возможностью
расширенного толкования.
В любом случае, на наш взгляд, в «языковую ловушку» может попасть разработчик
понятийных ресурсов в самых различных областях и для различных компьютерных
приложений. Поэтому важно описать наиболее частые случаи проблемного установления
родовидовых отношений, а также возможные способы выявления таких неточностей в момент
описания. Кроме того, при использовании транзитивности родовидовых отношений локальная
неточность может перерасти в серьезное искажение в процессе многошагового логического
вывода.
Данная статья посвящена описанию типов проблемного установления родовидовых
отношений на примере разрабатываемых авторами лингвистических онтологий Тезауруса
русского языка РуТез [3] и онтологии в области естественных наук ОЕНТ [2].
2 Возможные критерии проверки правильности установления
родовидовых отношений
Критерии проверки правильности установления родовидовых отношений связаны с проверкой
выполнения свойств транзитивности и наследования.
На проверке транзитивности родовидового отношения основано следующее правило: и
нижестоящее понятие, и вышестоящее понятие должны относиться к одному и тому же
наиболее общему семантическому классу, такому как действие, свойство, объект и т.п.
Так, стандарты и методические руководства по разработке информационно-поисковых
тезаурусов рекомендуют использовать такой принцип для описания иерархических отношений
в тезаурусах [16].
В практике авторов статьи случалась следующая ситуация: при установлении отношений в
тезаурусе РуТез первоначально была установлена следующая цепочка отношений:
РЕКА – выше – ВОДОЕМ – выше – ВОДНЫЙ ОБЪЕКТ – выше – ВОДА – выше –
ВЕЩЕСТВО,
в результате чего получилось, что все конкретные реки относятся к семантическому классу
ВЕЩЕСТВО, что неправильно.
В этой цепочке наиболее проблематичным является отношение ВОДНЫЙ ОБЪЕКТ – выше –
ВОДА, изменение которого на другой тип отношения устранит возникшую проблему (см.
раздел 5).
Второй тип критериев проверки правильности установления родовидовых отношений связан
с проверкой свойства наследования.
Проверка может носить частный характер, быть связанной именно с конкретной парой
понятий.
Например, в словарях изюм определяется как «сушеные ягоды винограда» [1]. Следует ли из
этого определения, что нужно установить родовидовое отношение между понятиями ИЗЮМ и
ЯГОДА ВИНОГРАДА? С точки зрения наследования свойств ответ на этот вопрос должен быть
отрицательным, поскольку изюм не несет многих свойств ягод как плодов некоторого растения:
он не растет, не зреет, его не собирают.
Проверка свойств наследования может производиться и на основе общезначимых
формальных свойств понятий.
Так, для анализа правильности родовидовых отношений Н. Гуарино и К. Велти [10]
предлагают проверять наследование на видовые понятия такого свойства вышестоящего
понятия как «критерий идентичности» .
Суть критерия идентичности некоторого понятия заключаются в том, чтобы определить, что
означает, что две сущности, представляющие примеры одного и того же понятия, являются
одним и тем же, как может сущность меняться, сохраняя свою идентичность, какие свойства
существенны для сохранения своей идентичности и др. Можно говорить о достаточных
условиях идентичности, то есть какие условия используются, чтобы определить идентичность и
о необходимых условиях идентичности, то есть, что следует из того, что два объекта
идентичны.
Например, два человека должны быть признаны одним и тем же лицом, если они находились
в одном и том же месте в одно и то же время. Таким образом, условием идентичности
физических лиц является физическое совпадение нахождения по месту и времени.
Если предполагаемое родовое и видовое понятие имеют разные условия идентичности, то
это означает, что между ними не может быть установлено родовидовое отношение.
В дальнейших разделах будут рассмотрены конкретные типы ошибочного описания
родовидовых отношений и показано, какие именно критерии могут помочь не допустить такого
рода ошибки.
3 Смешение типов и ролей
Одной из частых проблем, встречающихся при описании родовидовых отношений, является
смешение типов и ролей в одной иерархии.
Например, отношения «тип-тип» (береза – это дерево) и отношения «тип-роль» (яблоко –
это пища) в равной степени могут быть выражено всеми диагностическими тестами,
применяемыми для установления родовидовых отношений. Различие заключается в том, что
береза остается деревом в каждый момент своего существования, а яблоко может быть
использовано в пищу, может быть использовано для других целей, может вообще никак не
использоваться.
Достаточно распространенной ошибкой при описании предметной области является
размещение понятий-ролей как родовых понятий над понятиями-типами. Например, поскольку
работодателем может быть человек или организация, то понятие РАБОТОДАТЕЛЬ
представляется как вышестоящее, родовое понятие, а понятия ЧЕЛОВЕК и ОРГАНИЗАЦИЯ
представляются как нижестоящие, видовые понятия [15]. Однако такое представление неточно
описывает свойства сущностей, поскольку не каждый человек является работодателем.
Во многих случаях анализ отношения может выявить нарушение основного принципа
установления родовидовых отношений о принадлежности всех примеров нижестоящего
понятия к классу вышестоящих понятий (см. введение), как это происходит при неправильном
установлении отношения ЧЕЛОВЕК – выше – РАБОТОДАТЕЛЬ. Для работы системы
логического вывода такая неточность приведет к тому, что система для каждого экземпляра
понятия ЧЕЛОВЕК будет делать вывод, что это экземпляр понятия РАБОТОДАТЕЛЬ, что в
общем случае неверно.
В других случаях проблема не столь очевидна. Например, при установлении отношения
ЯБЛОКО – ПИЩА разработчик онтологии может учитывать особенности моделируемой
предметной области, в которой все или подавляющее большинство яблок могут
рассматриваться как пища.
В следующих подразделах мы рассмотрим, как можно определить ролевые понятия, как
можно описать знание о основных ролях того или иного понятия, оставаясь в рамках простых
моделей представления знаний и не нарушая принципов установления родовидовых
отношений.
3.1 Определение ролей
Сова [14] определяет роль следующим образом: «Подтипы сущности могут быть двух видов:
натуральные типы и ролевые типы, которые являются подтипами натуральных типов в
конкретных образцах отношений (particular pattern of relationships). Человек, например, является
натуральным типом, а учитель – это подтип человека в ситуации обучения». Сова предлагает
простой тест для определения, является ли понятие ролью: r – является ролевым типом, если
сущность может быть охарактеризована как r только при рассмотрении другой сущности,
действия или состояния.
Н. Гуарино и К. Велти заменяют условие, сформулированное Совой, на условие так
называемой внешней онтологической зависимости:
Понятие С1 называется внешне зависимым от понятия С2, если для всех примеров С1
должен существовать пример С2, который не является частью или материалом
примера С1 [10].
Например, сын является внешне зависимым, поскольку существует только в рамках семьи
по отношению к своим родителям. С другой стороны, автомобиль не является внешне
зависимым, поскольку требует существования мотора, который является частью автомобиля.
Таким образом, данное условие формализует определение ролей, данной Совой.
Кроме того, вводится еще одно условие, которое вместе с условием внешней зависимости
дает лучшее определение понятию «роль».
Понятие С является семантически жестким (rigid), если любой пример понятия С
остается примером С в течение всего своего существования.
Например, щенок перестает быть щенком, все еще оставаясь собакой, поэтому собака и
животное – это жесткие сущности, а щенок не является жестким понятием.
Таким образом, понятие С называется ролью, если оно является внешне зависимым и
не является семантически жестким [10].
3.2 Причины смешения типов и ролей
Несмотря на то, что размещение ролей как родовых понятий для типов не подчиняется
одному из наиболее известных принципов описания родовидовых связей, который заключается
в том, что все примеры видового понятия должны всегда быть примерами родового понятия, но
эта проблема остается серьезной, поскольку «провоцируется» многими текстовыми
источниками.
Например, следующий фрагмент (http://www.giord.ru/0705211117391.php):
наиболее используемыми консервантами являются: поваренная соль, этиловый спирт,
уксусная, сернистая, сорбиновая, бензойная кислоты и некоторые их соли
может показаться хорошим источником информации для того, чтобы описать виды
консервантов: поваренная соль, этиловый спирт и т.п.
Определение электролита:
Электролит - проводник второго рода;
проводимостью. Электролитами являются:
вещество,
обладающие
ионной
- расплавы солей, оксидов или гидроксидов;
- растворы солей, кислот или оснований в полярных растворителях;
а также + твердые электролиты.
может показаться основанием, например, для установления отношения, что соль является
видом электролита.
Однако в таких случаях нужно помнить, что консервант и электролит являются ролями
веществ - вещество становится консервантом или электролитом только, если попадает в
некоторые условия. А поваренная соль и соль как химическое соединение являются типами
веществ.
Устанавливая родовидовую связь от типа к роли, мы сообщаем системе некорректное
знание, состоящее в том, что любое вещество, относящееся к классу солей, в любой момент
времени своего существования в любой ситуации, является электролитом, что далеко не так.
3.3 Описание ролей в Тезаурусе РуТез и Онтологии ОЕНТ
Возникает вопрос, можно ли отразить полученную из вышеприведенных фрагментов
информацию, не слишком усложняя модель представления знаний. В тезаурусе РуТез и
онтологии ОЕНТ мы обычно пытаемся применить несколько способов.
Во первых, если мы предполагаем, что в нашей предметной области большинство примеров
того или иного типа будут использованы в некоторой роли, то все-таки устанавливается
родовидовое отношение от типа как вида к роли как роду, которое снабжается пометкой В – что
означает « возможно по умолчанию».
Так, например, мы можем установить такое отношение между понятием СОРБИНОВАЯ
КИСЛОТА и КОНСЕРВАНТ, если посчитаем, что это основное применение сорбиновой
кислоты в нашей предметной области и вероятность встретить в текстах обсуждение
сорбиновой кислоты в других применениях (например, в органическом синтезе) в нашей
области не слишком велико:
СОРБИНОВАЯ КИСЛОТА
выше_В
КОНСЕРВАНТ
Однако не рекомендуется устанавливать такое отношение между понятиями ПОВАРЕННАЯ
СОЛЬ и КОНСЕРВАНТ, поскольку основное применение поваренной соли совсем другое. Даже
если бы мы установили такое отношение (ввели бы еще пометку для неосновных ролей), то
нужно учитывать, что для автоматической системы обработки текстов невозможно качественно
учитывать контекст употребления поваренной соли в тексте, чтобы разобраться можно
использовать это отношение или нет.
Таким образом, в некоторых случаях мы все-таки размещаем понятия-роли выше по
иерархии, чем понятия-типы, однако отмечаем такое отношение специальной пометкой. Для
каждого типа может быть описано максимум одно такое отношение, а описания многих
понятий-типов не включают такие отношения, поскольку могут выступать в самых разных
ролях.
На примере описания понятия ЭЛЕКТРОЛИТ может быть продемонстрирована еще одна
возможность описания отношений между ролями и типами в тезаурусе РуТез и онтологии
ОЕНТ.
Мы можем попытаться ввести дополнительное понятие для ситуации соли в роли
электролита. Если это важно для данной сферы, то это наше желание обычно поддерживается и
языком предметной области – для такого понятия существует одно или более употребительных
языковых выражений. И в нашем случае существует и активно употребляется такое
словосочетание как солевой электролит.
Таким образом, мы можем ввести понятие СОЛЕВОЙ ЭЛЕКТРОЛИТ и установить
следующие отношения:
СОЛЕВОЙ ЭЛЕКТРОЛИТ
выше
СОЛИ
выше
ЭЛЕКТРОЛИТЫ
Тем самым мы корректно отражаем знание, полученное нами из прочитанного определения.
Если рассмотреть такое решение для отражений отношение между понятиями
РАБОТОДАТЕЛЬ, ЧЕЛОВЕК и ОРГАНИЗАЦИЯ, то нужно ввести два дополнительных понятия,
например, РАБОТОДАТЕЛЬ-ФИЗИЧЕСКОЕ ЛИЦО и РАБОТОДАТЕЛЬ-ЮРИДИЧЕСКОЕ
ЛИЦО.
Тогда можно сделать следующие описания (Рис.1):
ЧЕЛОВЕК
РАБОТОДАТЕЛЬ
РАБОТОДАТЕЛЬФИЗИЧЕСКОЕ ЛИЦО
ОРГАНИЗАЦИЯ
РАБОТОДАТЕЛЬЮРИДИЧЕСКОЕ ЛИЦО
Рис.1. Описание отношений между понятиями
РАБОТОДАТЕЛЬ, ЧЕЛОВЕК, ОРГАНИЗАЦИЯ
РАБОТОДАТЕЛЬ-ФИЗИЧЕСКОЕ ЛИЦО
выше
РАБОТОДАТЕЛЬ
выше
ЧЕЛОВЕК
РАБОТОДАТЕЛЬ-ЮРИДИЧЕСКОЕ ЛИЦО
выше
РАБОТОДАТЕЛЬ
выше
ОРГАНИЗАЦИЯ
Поскольку введение дополнительных понятий может серьезно усложнять описание понятий
в ресурсе, такой способ используется лишь в тех случаях, когда такие дополнительные понятия
действительно используются в предметной области, как в случае понятия СОЛЕВОЙ
ЭЛЕКТРОЛИТ.
Интересно
отметить,
что
введенные
дополнительные
понятия
РАБОТОДАТЕЛЬ-ФИЗИЧЕСКОЕ ЛИЦО и РАБОТОДАТЕЛЬ-ЮРИДИЧЕСКОЕ ЛИЦО также
имеют реальное основание в правовой области, поскольку отношения разных типов
работодателей с работниками по-разному регулируются законодательством.
4 Смешение отношений класс-подкласс и класс-экземпляр
Современное онтологическое моделирование [5, 9, 13] достаточно четко отличает отношения
экземпляр-класс от родовидовых отношений. Это отношение связывает индивидуальные
сущности, например, такие как конкретный город – Москва и классы сущностей как ГОРОД.
Отношение экземпляр-класс характеризуется тем, что в отличие от родо-видовых отношений,
не является транзитивным отношением.
Многие руководства указывают, что экземпляры – это самые конкретные понятийные
единицы, представленные в базе знаний. Так, в [5] приводится пример, что, если в
моделируемой предметной области необходимо описать только подбор сочетаний вина и еды,
то нас не будут интересовать конкретные материальные бутылки вина. Поэтому такие термины
как Sterling Vineyards Merlot,
вероятно,
будут
самыми
конкретными
используемыми понятийными единицами. Следовательно, Sterling Vineyards
Merlot будет экземпляром в базе знаний и между этим вином и классом
вин должно быть установлено отношение экземпляр-класс.
Сложность, приводящая к смешению этих двух видов отношений, заключается в том, что
вопреки сложившемуся мнению отношение экземпляр-класс может встретиться на любом
иерархическом уровне понятийной системы, а не только на самых нижних уровнях.
Так, понятие СПАНИЕЛЬ связано родовидовым отношением с понятием СОБАКА и
отношением экземпляр-класс с понятием ПОРОДА СОБАК, понятие ШКОЛЬНЫЙ УЧИТЕЛЬ
связано родовидовым отношением с понятием ПЕДАГОГИЧЕСКИЙ РАБОТНИК, и
отношением экземпляр-класс с понятием ПРОФЕССИЯ. В таких случаях различать эти
отношения не всегда просто.
Для различение родовидовых отношений и отношений экземпляр-класс можно
воспользоваться принципом идентичности (см. раздел 2), которые утверждает, что у родового
понятия и видового понятия должны быть одни и те же критерии идентичности.
Если мы выполним анализ критерия идентичности, например, для понятий СПАНИЕЛЬ и
ПОРОДА СОБАК, то увидим, что критерии идентичности для спаниелей и породы животных
различаются. Породы собак идентифицируются с их позицией в некоторой классификации
собак. С другой стороны, примеры спаниелей могут, в простейшем случае, идентифицироваться
через расположение в пространстве/ времени их тел – два спаниеля различны, если они
находились в одно и то же время в разных местах. Поэтому ПОРОДА СОБАК не может являться
родовым понятием для понятия СПАНИЕЛЬ. Спаниель является не подвидом пород собак, а их
примером.
Точно также конкретный учитель идентифицируется своим физическим местоположением, а
профессии - некоторым набором характеристик: полученного образования, опыта работы,
необходимых умений. Поэтому понятие ШКОЛЬНЫЙ УЧИТЕЛЬ – это экземпляр понятия
ПРОФЕССИЯ, а не вид.
5 Смешение отношений класс-подкласс и часть-целое
Приведенный во втором разделе пример ошибочной цепочки отношений:
РЕКА – выше – ВОДОЕМ – выше – ВОДНЫЙ ОБЪЕКТ – выше – ВОДА – выше –
ВЕЩЕСТВО
также соответствует одному из распространенных типов проблем, возникающих при
описании родовидовых отношений.
Суть проблемы заключается в том, что некоторая сущность имеет существенную часть,
которая занимает значительную долю объема этой сущности, и тогда возникает желание
перенести на объемлющую сущность родовидовые отношения этой части.
Эта ошибка не распознается диагностическими тестами. Так, высказывания «река – это
вода», «река и другая вода» звучат нормально.
Кроме того, ошибка «провоцируется» толкованиями в словарях: «Река – естественный
значительный непрерывный водный поток…» [1]. Значит, можно из определения сделать
вывод, что река – это вода.
Определение понятия ВОДНЫЙ ОБЪЕКТ по Водному кодексу Российской Федерации
(Федеральный закон РФ № 167-ФЗ от 16.11.1995) таково:
Водный объект - сосредоточение вод на поверхности суши в формах ее рельефа либо в
недрах, имеющее границы, объем и черты водного режима. (ст. 1)
Из такого определения можно сделать вывод, что водный объект – это вода.
В таких случаях обычно помогает анализ наиболее абстрактных семантических классов для
видового понятия и для родового понятия – обычно происходит изменение такого
семантического класса.
Кроме того, неправильное отношение распознается анализом идентичности для видового и
родового понятия: разрушение реки не приводит к разрушению воды – вода просто уходит в
другое место.
Таким образом, более аккуратное описание отношений между понятиями РЕКА и ВОДА
может выглядеть следующим образом:
РЕКА
часть
РЕЧНАЯ ВОДА
РЕЧНАЯ ВОДА
целое
РЕКА
выше
ВОДА
Другим примером той же проблемы является, например, отношение между понятиями
КОМПАНИЯ и ГРУППА ЛЮДЕЙ.
6 Смешение отношения класс-подкласс и происхождения
Еще один вид смешения отношений, уже упоминавшийся во втором разделе, связан
ошибочным описанием отношения происхождения как родовидового отношения: ИЗЮМ –
ВИНОГРАД. Как и в предыдущем случае такая ошибка часто основывается на словарных
определениях. Так, янтарь определяется в словарях как «ископаемая смола хвойных деревьев»
(БСЭ), но неправильно описывать, что понятие ЯНТАРЬ – это вид понятия СМОЛА, янтарь
происходит от смолы.
Такую ошибку можно распознать за счет анализа свойств и отношений видового и родового
понятия. Видовое понятие, полученное смешением отношения происхождения, не наследует
многих свойств и отношений родового понятия, а также не наследует принадлежность к
классам понятий верхнего уровня (ЖИВОЕ – НЕЖИВОЕ) (см. раздел 2).
7 Смешение различных значений слова и родовидовые
отношения
С проблемой многозначности слов (лексической многозначностью) сталкиваются как
разработчики онтологических ресурсов для автоматической обработки текстов, так и
разработчики онтологий для других приложений.
В первом случае разработчики четко понимают, что выделение дополнительных значений в
описании ляжет дополнительным грузом на систему обработки, которая должна будет выбирать
между значениями.
Разработчики понятийных ресурсов, не связанных с обработкой текстов на естественном
языке, сталкиваются с проблемой многозначности в процессе анализа предметной области,
когда необходимо выделить необходимый набор понятий. Эта процедура как раз и может быть
затруднена лексической многозначностью, например, в таких случаях, когда значения слова
значительно связаны между собой.
Например, в толковом словаре [1] выделяются два значения слова продавец:
Продавец – 1. Работник магазина, отпускающий товар покупателю. Продавец
универмага.
2. Тот, кто продает что-то. Продавец цветов, Продавец на рынке.
Близость такого рода значений такова, что возникает желание сопоставить этим двум
значениям одну понятийную единицу.
Действительно, в качестве одной из серьезных причин, затрудняющих использование
большого тезауруса английского языка WordNet [11], обычно называется слишком подробный
набор значений, описанных в нем слов. Многие авторы исследовали вопрос, нельзя ли часть из
таких дробных значений WordNet объединить в кластеры близких значений [7].
Вместе с тем нужно отметить, что совмещение даже близких значений прежде всего
отражается в том, что у соответствующей понятийной единицы появляется два и более родовых
понятия. Причем такие родовидовые отношения могут быть релевантны одному контексту и
нерелевантны другому, например, продавец в первом значении может иметь такое родовое
понятие как ТОРГОВЫЙ РАБОТНИК, которое неправильно применять для такого
употребления слова продавец как фирма-продавец. Таким образом, если предполагается
использовать описанные отношения для логического вывода, необходимо будет сначала
определить, применимо ли это отношение для данного контекста, а это означает, что проблема
выбора значения многозначного слова просто сместилась на другой этап.
Характерной особенностью ситуации, что значения все-таки необходимо разделить, описать
разными понятийными единицами как раз и является появление родовидовых отношений,
зависимых от контекста, то есть нарушается основной принцип описания родовидовых
отношений, что все примеры видового понятия должны быть примерами родового понятия.
Правильнее в ситуации близких значений, различающихся родовыми отношениями, вводить
в ресурс две понятийные единицы и прописывать отношение между ними [8].
8 Заключение
Мы описали типовые проблемы, возникающие при установлении родовидовых отношений в
онтологических ресурсах. Мы показали, что следует с большой аккуратностью относиться к
применению лингвистических критериев и прямому следованию определений из словарей и
энциклопедий.
При установлении родовидовых отношений разработчик должен использовать набор
формальных критериев.
Особенности реализации реальной прикладной задачи могут приводить к необходимости
нарушений тех или иных формальных критериев при моделировании отношений. Однако
важно, чтобы такое нарушение критериев было осознанным выбором.
9 Благодарности
Данная работа частично поддержана грантом РФФИ № 05-07-90391.
Литература
[1] Большой толковый словарь русского языка. – Санкт-Петербург.: Норинт, 2000.
[2] Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н., Разработка лингвистической
онтологии для автоматического индексирования текстов по естественным наукам
// Электронные библиотеки: перспективные методы и технологии, электронные
коллекции. Труды Седьмой Всероссийской научной конференции (RCDL’2005)
г.Ярославль 4-6 октября 2005г. – Ярославль: ЯрГУ им.П.Г.Демидова, 2005. – С.70-79.
(http://rcdl.ru//papers/2005/sek3_1_paper.pdf)
[3] Лукашевич Н.В., Добров Б.В. Тезаурус русского языка для автоматической обработки
больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные
технологии: Труды Международного семинара Диалог’2002. М.: Наука, 2002. Т.2.
С.338-346.
[4] Cruse D. Lexical Semantics. Cambridge. University Press. 1986.
[5] Cyc Ontology Guide: Introduction. (http://www.cyc.com/cyc-2-1/intro-public.html).
[6] Gomez-Perez A., Fernandez-Lopez M., Corcho O. OntoWeb. Technical Roadmap. D.1.1.2. - IST
project
IST-2000-29243,
2001.
(http://www.aifb.uni-karlsruhe.de/WBS/ysu/publications/OntoWeb_Del_1-1-2.pdf)
[7] Gonzalo J. Chugur I., Verdejo F. Sense clustering for information retrieval: evidence from
Semcor and the EWN Interlingual Index // Proceedings of the ACL 2000 Workshop on Word
Senses and Multilinguality, 2000.
[8] Gonzalo J. Sense Proximity versus Sense Relations // Proceedings of International Wordnet
Conference (GWC – 2004). – 2004. – pp. 5-6.
[9] Guarino N. Some Ontological Principles for Designing Upper Level Lexical Resources.
// Proceedings of First International Conference on Language Resources and Evaluation.
Granada, Spain, 1998.
[10] Guarino N., Welty C. Evaluating ontological decisions with ONTOCLEAN // Communications
of the ACM, 45(2):61--65, February 2002.
[11] Miller G. Nouns in WordNet // WordNet – An Electronic Lexical Database / Ed. By Fellbaum, C.
The MIT Press, 1998. p.23-47.
[12] Nirenburg S., Wilks Y., What’s in a symbol: Ontology, representation, and language // Journal of
Experimental and Theoretical Artificial Intelligence, 2001, 13(1):9–23.
[13] Noy N.F., McGuinness D. Ontology Development 101: A Guide to Creating Your First
Ontology. Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford
Medical Informatics Technical Report SMI-2001-0880, March 2001. Рус. Перевод:
Разработка онтологий 101: руководство по созданию Вашей первой онтологии
(http://ifets.ieee.org/russian/depository/ontology101_rus.doc).
[14] Sowa J. Using a Lexicon of Canonical Graphs in a semantic interpreter // Relational models of
lexicon / M.Evens. Cambridge University press, 1988. p.113-137.
[15] Steinmann F. The representation of roles in object-oriented and conceptual modelling // Data and
Knowledge engineering. 2000. 35, 1. p. 83-106.
[16] Z39.19 – Guidelines for the Construction, Format and Management of Monolingual Thesauri. –
NISO, 1993.
Скачать