Слайд 1 - Константа

реклама
Полнотекстовый поиск
в электронной библиотеке с большим
количеством многоязычных ресурсов
С.Х.Ляпин, А.В.Куковякин
ООО «Константа» (Россия)
Архангельский областной центр повышения квалификации
специалистов культуры (АОЦПК)
e-mail: cpk@atnet.ru; magicmagus@yandex.ru
Международная научная конференция
“Iнтранет/Екстранет-ресурси в наукових бiблiотеках”
(Киев, НБУВ, 9-10 октября 2007 года)
Содержание
• Информационная система T-Libra 6.x® : статус и
назначение
• Интернет / Интранет архитектура
• Базовая функциональность ИС T-Libra:
административный и пользовательский разделы
• Основные направления развития ИС T-Libra
• Организация программной среды для работы с
большими объемами многоязычной информации
– Концептуальная модель и программная организация
многоязычного электронного словаря словоформ.
– Новое в формировании «корзины ресурсов» для
организации эффективного полнотекстового поиска
Информационная система T-Libra 6.x®
Назначение ИС T-Libra 6.x® (1)
• Создание многофункциональных многоязычных
многоплатформенных электронных библиотек в
Интернет/Интранет-архитектуре с возможностями:
– автоматизированной подготовки, импорта и индексации
электронных полнотекстовых ресурсов различного вида и
формата;
– импорта библиографической информации в формате ISO
2709 из существующих MARC-ориентированных АБИС;
– автоматизированного пополнения и «ручного»
редактирования многоязычного электронного словаря
словоформ;
– поиска по интегрированному каталогу со встроенным
настраиваемым предметным мультирубрикатором (УДК, ББК,
ВАК, ГРНТИ и т.д.)
Назначение ИС T-Libra 6.x® (2)
• Создание многофункциональных многоязычных
многоплатформенных электронных библиотек в
Интернет/Интранет-архитектуре с возможностями:
– использования пополняемого файлового хранилища
(Депозитария) с файлами произвольного вида и формата и
собственным настраиваемым рубрикатором ресурсов
– гибкого тематизируемого многоязычного полнотекстового
поиска различного типа и вида с сортировкой и группировкой
его результатов
– мультимодального расширения (графика, аудио, видео), в
том числе для взаимодействия и интеграции с другими
информационными системами, модулями и оболочками
(электронными коллекциями, электронными экспозициями,
мультимедиа-энциклопедиями и т.д.)
ИС T-Libra 6.x: архитектура
Клиент
Сервер
(блок-схема)
Браузер
(MS IE 6 и выше)
HTTP
Веб-сервер
(Apache)
CGI
CGI-приложение
named pipe
Сервер приложения
(объектная среда,
бизнес-логика)
ODBC
РСУБД (MySQL)
ИС T-Libra 6.x:
Основные характеристики
•
•
Трехзвенная клиент-серверная Интернет/Интранет архитектура с
«внешней логикой», встроенной в объектно-ориентированный
сервер приложения: Web-browser / Web-server + Application Server /
Relational DBMS, с протоколами HTTP, CGI, PIPE API, ODBC.
Многоплатформенность как в плане независимости от конкретной
СУБД, так и от конкретной операционной системы (возможна
работа под управлением Windows и Linux).
– Примечание: работа в среде Linux планируется начиная с версии 7.x
•
•
Предметно-ориентированные объекты приложения (сервер
приложений) разработаны на объектно-ориентированном языке
C++.
Для полнотекстового поиска применяется новые структуры
прямого и инвертированного индекса, хранящегося в файлах, и
более эффективные алгоритмы работы с ним (по сравнению с
чистой SQL-версией). В результате существенно повышена
скорость поиска (на два порядка).
ИС T-Libra 6.x: функциональная структура
Информационная система T-Libra
Пользовательский раздел
Административный раздел
Каталог
Оператор ресурсов
поиск ресурсов по каталогу со
встроенным мультирубрикатором
пополнение ИС ресурсами
различного типа
Депозитарий
Оператор словаря
поиск и извлечение файловых
ресурсов по
специализированному
настраиваемому рубрикатору
пополнение и редактирование
многоязычного словаря
словоформ
Полнотекстовый поиск
Администратор
гибкий параметризируемый поиск
по полнотекстовым ресурсам
управление пользователями,
назначение прав доступа к
ресурсам ИС, настройки ИС
Пользовательский раздел
Форма запроса по каталогу
Пользовательский раздел
Каталог
•
•
•
•
•
Поиск по библиографической информации осуществляется с учетом
лексико-грамматической парадигматики естественного языка по 8-ми
полям: “Автор”, “Заглавие”, “Ключевые слова”, “Аннотация”, “Год
издания”, “Предметная область”, “Библиотечные фонды”, “Носитель
информации”.
Пополняется с помощью программ импорта из любых электронных
каталогов, поддерживающих стандарты семейства MARC, или из
библиографических файлов-описаний, создаваемых пользователем.
Имеется полная и краткая форма поиска (в последней поля “Заглавие”,
“Ключевые слова”, “Аннотация” объединены логическим сложением).
Булева алгебра (операции логического сложения, умножения,
отрицания) включена в функционал соответствующих полей и
структуру формы поиска.
Поле “Предметная область” представляет собой настраиваемый
мультирубрикатор, включающий набор стандартных классификаторов
(УДК, ББК, ВАК, ГРНТИ), а также рубрикатор “Депозитарий”,
создаваемый с учетом интересов конкретного корпоративного
пользователя.
Пользовательский раздел
Депозитарий
• Подсистема представляет собой универсальное файловое
хранилище информации ИС T-Libra, и содержит файловые
ресурсы любого вида и формата.
• Имеет собственный настраиваемый рубрикатор ресурсов и
позволяет получить сначала описания ресурсов (метаданные), а
затем и сами электронные ресурсы: полные тексты
произведений (статей, сборников статей, учебников,
справочников, монографий и т.п.), архивные документы в
текстовом и/или графическом формате, аудио, видео и т.д.
• Подсистема связана в обе стороны с другими подсистемами
пользовательского раздела T-Libra («Каталог» и
«Полнотекстовый поиск»), а также с мультимодальными
расширениями ИС T-Libra (электронными коллекциями и т.п.).
Пользовательский раздел
Полнотекстовый поиск
Типы запросов
– Абзацно-ориентированный: в произведениях,
включенных пользователем в поисковую область
(«корзина ресурсов»), находит множество абзацев,
удовлетворяющих условиям запроса.
– Частотно-ориентированный: создает частотноранжированный список терминов (имен
существительных) из произведения /
произведений на заданную пользователем глубину
ранжирования с указанием абсолютной и
относительной частоты встречаемости термина.
Пользовательский раздел
Полнотекстовый поиск
Виды абзацно-ориентированных запросов
(запросы 1 и 2 ведутся с учетом лексико-грамматической парадигмы слова
и булевой алгебры, встроенной в поля формы запроса).
1. Простой («однослойный») терминологический.
Производится по одному или нескольким терминам.
Результат: совокупность релевантных абзацев (включая абзацы сносок и примечаний) из
выбранной пользователем «корзины ресурсов».
2. Многослойный терминологический.
Производится по нескольким терминам, которые одновременно:
– а) принадлежат разным тематическим «слоям» терминов, определяемых пользователем,
при этом количество слоев варьируется,
– б) находятся на определенном «расстоянии» между собой в пределах авторского абзаца.
Результатом запроса является совокупность релевантных абзацев из выбранного произведения,
содержащих указанную многослойную терминологическую структуру.
3. Конкорданс (поиск по словосочетанию)
Производится по синтагматической структуре (произвольному словосочетанию).
Результатом запроса являются авторские абзацы, содержащие именно это словосочетание
(выделенное красным цветом в составе предложения, которое в целом выделено синим
цветом в составе абзаца).
Пользовательский раздел, подсистема «Полнотекстовый
поиск», запрос «Многослойный терминологический»
Форма запроса («корзина ресурсов», параметры)
Пользовательский раздел, подсистема «Полнотекстовый
поиск», запрос «Многослойный терминологический»
Форма запроса («корзина ресурсов», параметры)
Описание предыдущего слайда:
• Сформирована «корзина ресурсов» для последующего поиска
по ней. В поисковой области содержится 132 произведения; есть
возможность их добавить/удалить; развернуть или свернуть
окно, в котором видна лишь часть актуализированных ресурсов.
• Определены 2 тематических «слоя» пользовательского
запроса (из возможных 7, поле «Добавить слой»), в каждом
слое введены соответствующие термины («лікування» и
«шизофренія»).
• Определены дополнительные условия запроса
– минимально необходимое количество слоев, учитываемых при
поиске = 2;
– расстояние между терминами, принадлежащими к разным слоям,
не более 10 «слов» (к которым относятся и знаки препинания).
Запрос «Многослойный терминологический»
Результат запроса (презентация одного из абзацев)
Пользовательский раздел, подсистема «Полнотекстовый
поиск», запрос «Многослойный терминологический»
Результат запроса (презентация одного из абзацев)
•
•
•
•
Описание предыдущего слайда:
Найден удовлетворяющий условиям запроса абзац из
произведения Кутько І.І., Фролова В.М., Рачкаускаса Г.С..
Вверху слайда указано это произведение, имеется возможность
его репрезентации в виде файла (из Депозитария).
Поля «Оценка абзаца» и «Комментарий» заполняются
пользователем для последующей генерации итогового
суммарного файла с выбранными абзацами.
Возможен выбор выделения терминов либо только цветом
шрифта (синим – всех тех, которые были введены
пользователем в форму запроса, красным – тех, которые
удовлетворяют дополнительным условиям поиска), либо
дополнительно еще и цветом фона.
Пользовательский раздел, подсистема
«Полнотекстовый поиск», запрос «Конкорданс»
Результат запроса (словосочетание «ценность личности»)
Пользовательский раздел, подсистема
«Полнотекстовый поиск», запрос «Абсолютный частотный»
Форма и результат запроса по «корзине» ресурсов
Пользовательский раздел, подсистема
«Полнотекстовый поиск», запрос «Относительный частотный»
Форма и результат запроса по «корзине» ресурсов
(относительно термина «терапия»)
Административный раздел, подсистема «Оператор ресурсов»
Меню подсистемы
Административный раздел, подсистема «Оператор ресурсов»
Схема импорта ресурсов
Каталог
Подготовка
ресурсов
Папки с
файлами
Импорт
ресурсов
Депозитарий
Полнотекстовый
поиск
Автоматизированная
или ручная подготовка
ресурсов
Автоматический
импорт в подсистемы
T-Libra
Словарь
Административный раздел, подсистема «Оператор словаря»
Форма генерирования/редактирования парадигмы
Административный раздел, подсистема «Администратор»
Назначение прав доступа пользователей к ресурсам
Функциональное расширение ИС T-Libra
(семейство информационных систем T-System)
• ИС T-Libra – общая функциональная и технологическая основа
семейства интегрированных информационных систем T-System.
• Использование архитектуры и функционала T-Libra:
–
–
–
–
основных модулей административного раздела;
поиска по интегрированному многофункциональному Каталогу;
ресурсов и рубрикатора Депозитария;
результатов Полнотекстового поиска
–
–
–
–
–
–
–
–
учетно-фондовой системе (библиотечной, музейной, …);
электронном архиве;
электронной тематической коллекции;
электронной интерактивной экспозиции;
виртуальном музее;
мультимедийной энциклопедии;
исследовательской лаборатории;
образовательной информационной среде.
в других специализированных модулях и программных оболочках
семейства T-System:
Организация программной среды ИС T-Libra
(словарь словоформ)
Концептуальная модель
•
•
Многоязычность: ориентация на использование электронных
словарей основных европейских языков
Многоплановое использование одного и того же словаря:
– для обычного библиотечного поиска,
– для лингвистических и текстологических исследований,
– и т.д.
•
•
•
Генерация словоизменительной парадигмы, управляемая
правилами грамматики (с возможностью изменения этих правил
пользователем);
Автоматическое пополнение словаря (при импорте текстов) +
«ручное» редактирование с рабочего места Оператора словаря
Unicode:
– поддержка Unicode при импорте текстов (при создании словаря
словоформ);
– использование Unicode при экспорте текстов (отображении в окне
браузере);
Организация словаря
Блок-схема организации словаря
Словарь
русского
языка
Словарь
украинского
языка
Словарь
Словарь
немецкого
языка
Словарь
…………
языка
Правила
«Слова»
Словоформы
Схема пополнения словаря
Правила
Генерация
парадигм,
выбор
лучшей
Новые
словоформы
Оператор
Парадигма
Корректировка
парадигмы
«Слова» и
словоформы
Организация программной среды
(«корзина ресурсов»)
Требования к формированию «корзины ресурсов»
для организации полнотекстового поиска
• Возможность выбора ресурсов для
полнотекстового поиска по каталогу
• Сохранение критериев выбора для повторного
использования
• Возможность просмотра списка выбранных
ресурсов с различными группировками и
сортировками
• Возможность поиска по всем ресурсам
Организация программной среды
(«корзина ресурсов»)
Выбор ресурсов для поиска: шаг 1
Организация программной среды
(«корзина ресурсов»)
Выбор ресурсов для поиска: шаг 2
Организация программной среды
(«корзина ресурсов»)
Выбор ресурсов для поиска: шаг 3
Публикации
•С.Х.Ляпин, А.В.Куковякин. Концепт-ориентированный поиск в электронной полнотекстовой
библиотеке с мультимодальным расширением // Труды 6-й Всеросс. науч. конф. RCDL’2004,
Пущино, 29 сент. - 1 окт. 2004 г. - С. 127-134, http://www.impb.ru/~rcdl2004.
• Ляпин С.Х., Куковякин А.В. Методология и технология создания многоцелевой
информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым
поиском // Труды Седьмой Всероссийской научной конференции "Электронные библиотеки:
перспективные методы и технологии, электронные коллекции", RCDL'2005, Ярославль, 4-6 окт.
2005 г. – Ярославль: Изд-во ЯрГУ, 2005,
http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf; см. также в:
www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin
• С.Х.Ляпин. Интеллектуализация многофункциональной электронной библиотеки: концепция,
методология, технология // Международная научная конференция «Интеллектуальные
информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев,
Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании),
http://www.nbuv.gov.ua/new/05_kiev/plenar.html
•Ляпин С.Х., Куковякин А.В. Гибкий поиск и его модификации в многофункциональной
информационной среде T-System // Материалы международной конференции «EVA-2005,
Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека
иностранной литературы им. М.И.Рудомино,
http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc.
Поисковая система Yandex по запросу «T-Libra» выдает
(на октябрь 2007 года) около 20 релевантных ссылок
Контакты
• ООО «Константа»:
Россия, 163000, г. Архангельск, а/я 80
E-mail: cpk@atnet.ru; magicmagus@yandex.ru
• Представитель на Украине:
ООО «Специализированный центр БАЛИ»,
Украина, 03150, г. Киев, ул. Боженко, д 83
E-mail: olejnik@ukr.net
Скачать