ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ДЛЯ СОЗДАНИЯ

реклама
ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ДЛЯ СОЗДАНИЯ СЕМАНИТЧЕСКИХ
МЕТООПИСАНИЙ ИНФОРМАЦИОННЫХ РЕСУРСОВ ВУЗА
Балова Т.Г, . Жомарткызы Г.
Восточно-Казахстанский государственный технический университет
им. Д. Серикбаев, Усть-Каменогорск, Казахстан, TBalova@ektu.kz, GZhomartkyzy@ektu.kz
Введение.
Сегодня пользователи получают доступ к огромному количеству информационных
ресурсов, значительная часть которых представлена на естественном языке (ЕЯ). Поскольку
большая часть информации содержится в текстовом виде, технологии интеллектуальной
обработки текстов помогают решать многие задачи на основе извлечения знаний из
текстовых коллекций, их структурирования и анализа. Решение проблемы связано с
переходом от хранения и обработки данных к накоплению и обработке знаний.
Одним из таких подходов является
семантическое аннотирование текстовых
документов, которое заключается в создании мета описания документа
на основе
существующего корпуса текстов и онтологии, отображающей структуру предметной
области (ПО). Semantic Web, базируется на использование метаданных для описания
семантики информационных ресурсов (ИР) и средств обработки этих метаописаний.
В приложениях автоматического анализа текста онтологий ПО используются для таких
задач, как автоматическая классификация, реферирование, семантическое аннотирование [1].
В данной работе предлагается обобщенная схема семантического аннотирования текстовых
документов.
Семантическое аннотирование текстов.
Существует набор стандартных решений, которые разработаны для описания
метаданных и формирования семантических аннотаций, как например, стандарт Dublin Core.
Однако набор заданных тегов для описания текстовых документов не отображает
информацию, которая может является актуальной для текущей онтологии предметной
области (ПО), а несет лишь общие сведения [2]. Поэтому актуальной задачей в системах
управления знаниями является разработка моделей и методов
семантического
аннотирования текстовых документов.
Семантическая аннотация – аннотация, которая написана на формальном языке с
хорошо определенной семантикой, и базирующаяся на онтологии.
При формировании семантической разметки нужно использовать не только знания ПО,
но и правила того конкретного естественного языка, на котором написан текст. Создание
такой разметки является нетривиальной и довольно трудоемкой задачей. Семантическая
разметка зависит и от того, какие именно средства используются для описания ПО.
Для семантической разметки ЕЯ-текстов необходимо разработать алгоритм, который
обеспечит выделение фрагментов ЕЯ-текста, связанных с определенными понятиями
выбранной пользователем ПО. Для этого предлагается анализировать ЕЯ-тексты
определенной ПО с учетом как морфологических и синтаксических свойств естественного
языка, так и структуры ПрО и знаний пользователя об этой ПО. Следует разработать
средства и методы, позволяющие с помощью семантической разметки осуществлять поиск
информации, релевантной персональным информационным потребностям конкретного
пользователя.
Для обработки семантической разметки различными модулями информационной
системы, целесообразно использовать технологии и стандарты, разработанные в рамках
проекта Semantic Web
Лингвистический анализ текста.
Лингвистически методы позволяют выделить в тексте слова, связанные с понятиями
(классами) ПО, и слова, являющиеся именами, т. е. связанные с экземплярами понятий
(классов) онтологии [3]. Обычно лингвистический анализ включает этапы
морфологического, синтаксического и семантического анализа [3].
Для выделения лексем в ЕЯ-тексте применяют морфологический анализ. Лексема с
грамматической точки зрения определяется как система словоформ, основы которых
тождественны по значению, а одноименные морфы основ, также тождественные по
значению. В одну лексему объединяются разные словоформы одного слова.
Синтаксический анализ заключает в распознавании синтаксической структуры
предложений на основе морфологической информации и синтаксических правил
объединений слов и словосочетаний данного языка. Синтаксическая структура – это связь
между словами предложения. Для единообразного описания синтаксических правил языка
используются формальные грамматики.
Семантическое метаописание документа.
Семантический анализ направлен на распознавание смысла текста. Способы описания
семантики текста и предложения, также алгоритмы построения такого описания
определяются целями анализа. Назначение семантического анализа – извлечь из ЕЯ-текста
содержащиеся в нем знания, и предоставить в форме, пригодной для автоматизации их
обработки [3-4].
Онтология – это явная спецификация концептуализации на уровне знаний. Онтология
обязательно включает словарь понятий ПО и указания о связях между ними, что задает
структуру ПО и ограничивает возможные интерпретации терминов. Представим
формальную модель онтологии следующим образом:
O = < 𝑃, 𝑅, 𝐹 >
где, 𝑃 – множество понятий ПО,
𝑅– множество связей между понятиями ПО,
𝐹 – множество аксиом и правил вывода ПО.
В задачах понимания смысла ЕЯ-текстов для использования онтологий необходимы
алгоритмы отображения синтаксических отношений, присутствующих в ЕЯ-текстах, на
отношения, имеющиеся в онтологиях. Для исходного ЕЯ-текста определяются формальные
характеристики
грамматики в категориях род, число, падеж, так же возможно
непосредственное определение семантических отношений из морфологической формы слов
[3].
Семантическая разметка ЕЯ-текстов для определенной ПО создается в два этапа: этап
накопления лингвистических сведений, этап автоматической семантической разметки.
На первом этапе используется алгоритм накопления лингвистических сведений о ПО.
На этапе обучения необходимо сформировать следующие множества:
 P – словоформы, связанные с понятиями онтологии ПО. Эта информация может
быль извлечена из различных словарей синонимов, а также явным образом вручную из
корпуса текстов;
 R - словоформы, связанные с отношениями онтологии ПО;
 I, отношения именования (ОИ), связывающие: поименованные сущности (ПС в
онтологии соответствуют экземпляры классов) и классы, классы и подклассы;
 Iw, словоформы, связанные с ОИ;
 шаблоны, связывающие ПС и имена их классов. Множество шаблонов может
расширяться для учета специфики ПО. Каждый шаблон представляет собой строку
символов, состоящую из имени предиката и модели управления. Каждый шаблон включает
слово из Iw и морфологическую информацию для связанных с ним слов в соответствии с
моделью управления. Синтаксическая структура терминов
предметной области в
большинстве случаев могут соответствовать следующим шаблонам: одиночные
существительные, прилагательные, сокращения; существительное + существительное в
родительном падеже; прилагательное + существительное; прилагательное + прилагательное
+ существительное; существительное + прилагательное + существительное в родительном
падеже [6].
В результате обучения системы каждому термину онтологии 𝑂 приписывается
несколько словоформ, соответствующих в исходном тексте данному понятию. Словоформы
извлекаются из обучающего множества текстов, отнесенных пользователем к определенной
ПО.
Алгоритм семантической разметки текста.
На вход алгоритма автоматической семантической разметки подается:
 словоформы, связанные с понятиями, отношениями онтологии ПрО (Pw, Rw);
 словоформы, связанные с ОИ (Iw);
 шаблоны, связывающие ПС и имена их классов;
 ЕЯ – тексты, для которых надо создать семантическую разметку.
На этапе анализа нового ЕЯ-текста необходимо выделить в тексте:
 словоформы, связанные с понятиями онтологии ПО;
 словоформы, связанные с отношениями онтологии ПО;
 слова, которые могут быть именами ПС.
Вначале в текстах обнаруживаются слова и словосочетания, которые могут являться
именами ПС. Затем к тексту нужно применить шаблоны, описывающие правила,
связывающие имена ПС с именами их классов.
Если ПС,
имя понятия и имя отношения именования ОИ занимают место в
предложении, соответствующие шаблону места (определение синтаксической структуры
предложения), то считать ПС относящейся к соответствующему классу.
Для записи семантических метаданных используется язык RDF. Язык RDF совместим с
языком описания онтологий OWL, так же его синтаксис позволяет делать высказывания
относительно триплетов. В результате работы этого алгоритма получаем множество
семантически размеченных по правилам языка RDF /XML текстов, пригодных для
автоматического анализа. В результате работы этого алгоритма получаем множество
семантически размеченных по правилам языка RDF/XML текстов, пригодных для
автоматического анализа.
Библиографический список:
1. Б.В. Добров, Н.В. Лукашевич, “Автоматизированная обработка научнотехнических текстов с помощью Онтологии по естественным наукам и технологиям” //
Труды XIV Всероссийской объединенной конференции «Интернет и современное общество»
(IMS-2011), Санкт-Петербург, Россия, октябрь 2011, – С. 53-57.
2. Dublin Core Metadata Initiative http://dublincore.org/
3. Лесько О. Н., Рогушина Ю. В. Использование онтологий для анализа семантики
естественно-языковых текстов. //Проблеми програмування, №3, 2009, – С. 59-66.
4. Н.В. Рябова, О.В. Шубкина, “Обобщенная модель семантического анотирования
текстовых документов в системах управления знаниями”// Системи обробки інформації, №9
(90), 2010, -С. 165-168.
5. Vineet R. Khare, Rahul Chougule Decision support for improved service effectiveness
using domain aware text mining // Knowledge-Based Systems №33, 2012, - С 29–40.
6. B. Dobrov, N. Loukachevitch, O. Nevzorova. The technology of new domains’
ontologies development // Proceedings of the X-th International Conference “KnowledgeDialogue-So lution” (KDS’2003).- Varna, Bulgaria.-2003.- pp.283-290.
Скачать