5.2. Онтологии товаров и услуг Онтология • Онтология это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории. Основные компоненты: – – – – – Классы или понятия Отношения Функции Аксиомы Примеры Таксономия публикаций • Publication • Article – Article in book – Conference paper –… • Book • Journal – IEEE expert Отношения в (КА) Employee Head-of-project Works-on-Project Affiliation Head-of-group Project Project Organization Research group Пример аксиомы • Работник, являющийся руководителем проекта, работает в проекте • Переменные Е, Р • Forall (E,P) Employee (E) and Head-OfProject (E,P) => Works-At-Project (E,P) Лингвистические онтологии -The main characteristic of this kind of ontologies is that they are bound to the semantics of grammatical units (words, nominal groups, etc) Основной источник понятий в онтологии – значения языковых единиц Лингвистические онтологии: WordNet, Mikrokosmos, Sensus, РуТез Задачи • Сбор информации о товарах • Представление информации о товаре • Классификация товаров – разделение по назначению • Поиск по товарам • Показ баннеров • Показ текстов (обзоров, новостей, форумов) по товарам Системы по товарам общего назначения • Froogle (www.froogle.com) • Яндекс. Маркет – Ручное занесение товара – Ручная классификация • Тындекс (www.tyndex.ru) – Автоматизированный поиск новых прайс-листов – Автоматический разбор прайсов – Автоматическая рубрикация Рубрикаторы продукции • Общероссийский классификатор продукции (ОКП) • Таможенная номенклатура внешнеэкономической деятельности (ТНВЭД) • United Nations Standard Products and Services Code (UNSPSC) Фрагмент классификатора продукции ООН • 42203700 Medical imaging processing equipment and supplies • 42203701 Medical x ray film daylight stampers or identification printers • 42203702 Medical imaging wet darkroom or daylight processors • 42203703 Medical x ray passthrough boxes • 42203704 Medical toners or developers • 42203705 Medical imaging dry laser printers or imagers Рубрикаторы. Особенности • Иерархическая структура (древоподобная) • Могут достигать значительной величины (20000 тысяч рубрик) • При делении по разным основаниям могут быть близкие по смыслу рубрики-листья • Невозможно автоматическая классификация на основе только формулировок рубрик – необходимо каждую рубрику снабдить списком выражений Рубрикаторы интернет-систем по товарам • Простые формулировки • 10-15 рубрик на каждом уровне • Величина небольшая • И сложные классификаторы, и экранные рубрикаторы – виды онтологий Автоматическая рубрикация по товарам (Tyndex) • Рубрикатор: набор категорий без иерархии • К каждой категории приписан список слов и последовательностей слов • Рубрика проставляется товару, если в начале строчки встречается элементы списка • Накопленные списки «типов товаров» можно дополнительно использовать для контекстной рекламы Назначение рубрик • Запрос слишком общий – уточнение запроса (Щипцы) • Запрос неоднозначный – выбор значения (масло, стремянка) • Возможность избавиться от побочных рубрик (велосипед – рубрика «Игрушки») Фрагмент описания рубрики «Автозапчасти» • Стремянка ГАЗ • • • • • • • • • стремянка зад Стремянка задней рессоры Стремянка задняя Стремянка КАМАЗ Стремянка МАЗ Стремянка передняя Стремянка пер.рес Стремянка рессоры стремянка УАЗ Фрагмент описания рубрики «Бытовые товары» • • • • • • • • • • • • • • • Стремянка БЕТТИ Стремянка бытовая Стремянка высотой Стремянка оцинк Стремянка стальная Стремянки "Elkop Стремянка 3-х ступ Стремянка 5 ступ Стремянка 6-ти ступ Стремянка 8 ступ Стремянка 8 ступеней Стремянка 9 ступеней Стремянка 10 ступеней Стремянка 11 ступ Стремянка 12 ступ Рубрикация на специализированном интернет-сайте • www.price.ru - цены на компьютеры, hitech, офисное оборудование • Сложный рубрикатор • Сложное описание товара • Поступление списков товаров. Много повторов. Товары с небольшими изменениями • Автоматизированная рубрикация OntoSeek - Content-Based Access to the Web Guarino N. Проект – 1996г. Статья – 1999г. Поиск товаров «по смыслу» использование таксономии • Обработка синонимов: – Запрос: Automobile – Описание услуги: Car repair • Обработка видов и конкретных марок – Запрос: Automobile – Описание услуги : Jeep repair Поиск товаров «по смыслу» семантический разбор запроса • Запрос: automobile retail • Описание услуги: – automobile radio and stereo retail store – Car repair and retail shop – Представление товара (услуги) как набор атрибут – значение_атрибута Проблемы Ontoseek • Нужна большая лингвистическая онтология товаров с подробными списками текстовых вариантов. Вместе это предполагается использовать лингвистическую онтологию общего назначения WordNet. • Такая онтология должна включать не только типы товаров, но и конкретные марки товаров • Каждому понятию онтологии должна быть приписана совокупность языковых выражений – в реальных прайсах много сокращений • Каждое понятие должно иметь внутреннюю структуру – набор (атрибут – значение атрибута) Проблемы Ontoseek-2 • Каждый товар в прайсах – нужно представить в формализованном виде • Многозначность слов в описаниях товаров и в запросах Вопросы к лекции 1. Что такое рубрикатор? 2. Использование рубрикаторов в интернет-системах по товарам и услугам 3. Система Ontoseek: какие проблемы пословного поиска и какими средствами предполагалось решать?