"Электронные библиотеки: перспективные методы и технологии, электронные коллекции", RCDL2005, 4-6 октября 2005г. Семантическое, информационное и знаковое кодирование патентных документов электронных библиотек • • • • • • И.М. Зацман (ИПИ РАН) Введение (технологии электронной подачи научных и патентных документов, мотивация семантического кодирования) Схема концептуального поиска Три интерфейса между тремя средами электронной библиотеки Пример технологии подачи патентных заявок Семантическое кодирование заявки автором Схема поиска и семантические коды 1.1. Технологии электронной подачи патентных документов (electronic filing) • В настоящее время международные заявки могут подаваться и обрабатываться в электронной форме как юридически значимые документы в соответствии с Административной инструкцией (Правило 89bis Инструкция к Договору о патентной кооперации - PCT); • Если приоритетный документ доступен из электронной библиотеки, заявитель может вместо представления приоритетного документа обратиться в Получающее ведомство с просьбой взять приоритетный документ из такой электронной библиотеки и переслать его в Международное Бюро (МБ) или обратиться в МБ с просьбой взять приоритетный документ из такой электронной библиотеки (Правило 17.1(b-bis) ). 1.2. Основная идея семантического кодирования Концепты Знаковая информация Коды Кодирование концептов заявителя кодами цифровой среды при условии доступности ему тезауруса электронной библиотеки • Концепты – ментальные единицы знаний заявителя, представимые в эксплицитной и конвенциональной форме; • Знаковая информация – формы вербальных и невербальных (образных) знаков, а также формы знаковых образований; • Коды – цифровое представление знаков, их форм и значений 1.3. Две границы между тремя средами электронной библиотеки Ментальные единицы знаний (концепты, понятия) Формы Знаков Формы знаков … ... Цифровой Цифровой Цифровой объект объект объект Электронная патентная заявка как сочетание цифровых кодов Ментальная среда Среда социальных коммуникаций Цифровая среда 1.4. Семантическое кодирование во время подготовки патентных заявок (мотивация) 1. Использование семантических кодов позволяет уменьшать многозначность фраз патентных заявок за счет включения автором ссылок на дескрипторы тезауруса. 2. Примерами семантических кодов могут быть идентификаторы синсетов (WordNet) или дескрипторы тезауруса электронной библиотеки. 3. В случае реализации семантического кодирования во время подготовки патентных заявок появляется возможность организации поиска документов в электронной библиотеке по семантическим кодам вербальных объектов (линейные тексты) и невербальных объектов (например, изображения). Авторские концепты Концепты соответствуют ? Пользовательские концепты 8. Интерпретация пользователем авторских информационных объектов Результат поиска 1. Создание авторских документов 2. Кодирование авторских документов (без участия автора) 2. Схема концептуального поиска… 7. Восстановление авторских информационных объектов Электронная библиотека документов 6. Концептуальный поиск 3. Тезаурус Ин- электрондексирова- ной бибние лиотеки 4. Формирование информационных объектов запросов 5. Кодирование поисковых запросов пользователем 2.1. …(три уровня и восемь процессов схемы) 3.1 Три интерфейса между тремя средами электронной библиотеки • Первый интерфейс Между планом содержания (ментальная среда) и средой социальных коммуникаций (информационный план выражения) • Второй интерфейс Между средой социальных коммуникаций (информационный план выражения) и цифровой средой (цифровой план выражения) • Третий интерфейс Между планом содержания (ментальная среда) и цифровой средой (цифровой план выражения) Ментальные единицы знаний (концепты, понятия) Понятие ЗНАК Форма Интерфейс 1 “план содержания – среда социальных коммуникаций” … Интерфейс 3 Формы Знаков Формы знаков Цифровой объект Формы знаков Формы знаков Формы знаков Интерфейс 2 Ментальная среда Среда социальных коммуникаций “среда социальных коммуникаций – цифровой план выражения” Цифровой объект ... Цифровой объект Электронная патентная заявка как сочетание цифровых кодов 3.2. Три интерфейса между тремя средами Цифровая среда 3.3. Знаки, формокоды и семокоды Авторские концепты Пользовательские концепты Знак Знак Значение знака Значение Знака Форма знака Форма знака Форма знака Код формы знака Форма знака Код формы знака Формокод Формокод Ментальная среда Концепт Код концепта Семокод Электронная библиотека документов Тезаурус электронной библиотеки Цифровая среда 3.4. Идентификаторы синсетов EuroWordNet в роли семантических кодов концептов Семантическим кодом для автомобиля является идентификатор синонимического ряда (синсета) с дефиницией в сером овале. {conveyance, transport} {vehicle} {doorlock} {armrest} {motor vehicle; automotive vehicle} {car; auto; automobile; {car door} {car window} {bumper} {car mirror} machine; motorcar} {cruiser; squad car; patrol car; police car; prowl car} {cab; taxi; hack; taxicab} Транспортное средство на колесах, которое перемещается, как правило, с помощью двигателя внутреннего сгорания 3.5. Идентификаторы алгоритмов в роли семантических кодов (в системах мониторинга) Показатель – родовое обозначение для индикатора, критерия и параметра Индикатор – количественный указатель любого из следующих двух видов: результативности бюджетных программ; косвенного количественного измерения результатов. Индикаторы косвенного количественного измерения результатов Критерий – признак программы, ее финансируемого направления, мероприятия или проекта, используемый в следующих ситуациях: отбор программ для бюджетного финансирования, преобразование программ. Параметр – численная величина или данные бюджета, программы, ее финансируемого направления, мероприятия или проекта, используемые для планирования (распределения) и контроля расходования ресурсов, в частности бюджетных расходов. Индикаторы результативности … Импакт-факторы журналов списка ВАК Импактфакторы SCI Импактфакторы SSCI (a, b, d, e) {x, y, z} [a+x, b+y, d+z, e] 4. Пример технологии подачи патентных заявок 5. Семантическое кодирование заявки автором Кодирование автором содержания патентной заявки с использованием дескрипторов тезауруса электронной библиотеки Юридически значимые патентные заявки Электронная библиотека документов Тезаурус электронной библиотеки 6. Схема поиска и семантические коды Aвторские концепты Концепты соответствуют ? 8. Интерпретация пользователем авторских информационных объектов и/или кодов авторских концептов Результаты поиска, включая коды авторских концептов 1. Создание авторских документов 2а. Кодирование концептов автором 2в. Кодирование знаков 2б. Кодирование форм знаков 7. Восстановление авторских информационных объектов (документов) Электронная библиотека научных документов 6. Концептуальный поиск Тезаурус электронной библиотеки 3. Индексирование Пользовательские концепты 4. Подготовка запросов 5б. Кодивание форм знаков 5а. Кодирование концептов запросов 5в. Кодирование знаков 7. Выводы 1.Кодирование описаний патентных заявок на этапе их подготовки автором возможно при наличии их электронных форм и он-лайновом доступе к тезаурусу электронной библиотеки. 2.При практическом использовании тезауруса в процессе поиска заявок необходимо учитывать динамику изменения тезауруса и способы фиксации динамики. 3.Одним из возможных способов учета динамики может быть явное указание даты и времени включения (изменения) каждого дескриптора и установления (изменения) каждой тезаурусной связи в семантических кодах.