СИСТЕМА АВТОРИТЕТНЫХ ФАЙЛОВ И НОРМАЛИЗАЦИЯ ПОЛНОТЕКСТОВЫХ РЕСУРСОВ Е. В. Стрелкова XV Конференция РБА Томск, 16-21 мая 2010 г. Поиск, доступ, использование • Каталог • Каталог – – поиск поиск и управление доступом • Полнотекстовые ресурсы поиск и управление доступом Нормализация/эффективность Нормализация данных • Атомарность значений • Нормализация при составных ключах • «Расщепление» связей… ЭФФЕКТИВНОСТЬ? Метаданные Данные Источники Информация ДОСТУП? Термин Нормализация данных – одна из характеристик качества ИС Нормализация – эффективность доступа Типы нормальных форм: • • • • 1НФ – неразложимость значений или «атомарность» элементов; 2НФ – нормализация при составных ключах (1НФ + зависимость каждого значения целиком и полностью от ключа); 3НФ – «расщепление» структуры информационного объекта (2НФ + взаимная независимость значений); НФ Бойса-Кодда (НФБК); 4НФ; 5НФ. В целях повышения эффективности доступа ИС могут обрабатывать данные без нормализации Лента новостей Электронная коллекция Критерии эффективности Противоречивость источников в фондах библиотеки и объективная избыточность Интеллектуальная обработка (обеспечение заданного уровня нормализации) КРИТЕРИЙ 1 Собственные электронные ресурсы библиотеки (оптимизация состава и структуры данных в электронной среде) Предоставление данных и документов в электронной среде (повышение точности и полноты поиска) КРИТЕРИЙ 2 Authorities Авторитетные источники – архивные документы библиотечного хранения Приведение к принятой норме – вариативность форм Нормализация – система АФ кодированная информация справочники КРИТЕРИЙ 1 Терминологический контроль • Требование FRBR – нормализация базовой библиографической записи на уровне национального авторитетного/нормативного файла хотя бы в одной точке доступа (IADN – поле 015 в АЗ – FRAR) • Возможность универсального использования лингвистического обеспечения электронных ресурсов в ходе решения профессиональных задач Нормализация электронных ресурсов ФБ СПбГПУ: • библиографические БД (АЗ) • полнотекстовые БД (метаданные) БЗ – полный текст БЗ – поля АЗ – сетевое библиотечное издание БЗ – метаданные для электронной коллекции – полный текст АЗ – метаданные для электронной коллекции – полный текст БЗ – АЗ – сетевое издание ФБ СПбГПУ Проектная деятельность • • • • VIAF Система национальных АФ Межрегиональные проекты Корпоративное взаимоиспользование ресурсов • Генерация электронных ресурсов локального доступа ФБ СПбГПУ Предметные рубрики 14500 Справочник «Персоналии» 2500 Авторы (РИНЦ, НТВ) 3700 Сетевые ресурсы в составе фонда Библиотечные фонды Гибридность ресурсов Сетевые ресурсы (собственные? приобретенные?) Библиографические БД, Издания, Электронные библиотеки Электронные ресурсы без сепаратных носителей – сетевые Задача: эффективное управление распределенными сетевыми ресурсами локального и удаленного доступа Сетевой доступ Сетевые ресурсы библиотеки, отнесенные к ее интеллектуальной собственности, • имеют высокую себестоимость, • требуют постоянного мониторинга востребованности, • нуждаются в критериях оценки результатов для обоснования расходов. Ресурсам библиотеки (созданным в соответствии со статусом и назначением ее деятельности) могут быть противопоставлены - параллельно создаваемые ресурсы других библиотек; - аналогичные ресурсы в смежной отрасли; - ресурсы, созданные энтузиастами сетевого распространения информации. Необходимость гармонизации Институт горного дела СО РАН В 1939 г. стал директором Томского индустриального института. Возглавив крупнейшее в Сибири высшее учебное заведение, добился заметного развития ТПИ и особенно много сделал для подготовки инженерных и научных кадров. Во главе ведущих ученых Института активно участвовал в организации Западно-Сибирского филиала АН СССР. • Профессор Шмаргунов К.Н. Директор ТИИ 1939-1944 гг. • 1925-1930 гг. - Сибирский технологический институт им. Ф.Э. Дзержинского (СТИ) 1930-1934 гг. - Сибирский механико-машиностроительный институт (СММИ) 1934-1944 гг. - Томский индустриальный институт им. С.М. Кирова (ТИИ) 1944-1991 гг. - Томский политехнический институт им. С.М. Кирова (ТПИ) с 1991 г. - Томский политехнический университет (ТПУ) • • • • Шмаргунов Константин Николаевич (1902-1953) Электротехник. В 1946-1951 гг. - директор Политехнического института. Родился в мае 1902 г. в селе Малевка Богородицкого уезда Тульской губернии. Окончил Сибирский механикомашиностроительный институт (г. Томск) в 1930 г. со званием «инженер-механик по электротехнической специальности», ассистент. С 1934 г. - в Томском индустриальном институте: доцент (1938), профессор по кафедре «Горная электротехника» (1940); декан, начальник НИСа, директор (с 1939 г.). В 1944-1946 гг. первый заместитель председателя президиума ЗападноСибирского филиала АН СССР в г. Новосибирске. В 19461951 гг. - директор Ленинградского политехнического института имени М.И.Калинина (25.06.1946-07.05.1951). Профессор кафедры "Общая электротехника”. С 1951 г. - в Академии наук СССР. Скончался 17 апреля 1953 г. в Ленинграде. Гармонизация электронных ресурсов – Форматы представления ЭР – Правила каталогизации и методики индексирования – Авторитетные файлы Формирование нормализованных метаданных для полнотекстового поиска • FRANAR – совместное использование авторитетных данных на международном уровне и вне пределов библиотечной среды Актуальность информации Локальный уровень создания авторитетных данных: – исследовательская работа; – краеведческая работа; – защита данных (текст, графика, мультимедиа). Текстовые объекты 1.Текст (гладкий, размеченный, html) 2.Многочастный объект (смешанный, альтернативный, параллельный, многоцелевой) Нетекстовые объекты 1.Изображение (gif, jpeg, tiff) 2. Аудио (wav) 3.Видео (mpeg, quick, raw) 4.Приложения (pdf, ppt, doc) Нормализация элементов сетевого издания АЗ – 200 АЗ – 300 (1) АЗ – 300 (2) + Элементы графики Гиперссылки: • Биография • Источники • Сочинения • Иконография От сайта к порталу? Характерные признаки портала: наличие разноплановых информационных массивов (полнотекстовые коллекции, каталог ссылок на другие сетевые ресурсы, встроенные системы поиска по порталу, сервисы форумов, опросов, интернетконференций). РНБ А.Г.Беглик Интеграция внешних интерфейсов с оформлением страниц сайта (динамические страницы) – признак портального решения в управлении правами. СПбГПУ М.Л.Бурчик Нормализация полнотекстовых баз данных • • • Идентичность содержания и разнообразие поисковых сервисов Сводный каталог как справочный корпоративный ресурс межведомственного и межотраслевого уровня Объектно-ориентированные структуры организации хранения и извлечения данных с различной семиотикой КРИТЕРИЙ 2 Нормализация полнотекстовых баз данных – DC Таблица соответствия – конвертирование с учетом АЗ 1.RUSMARC 2. Лингваоператор – DC Включение нормализованных данных в текст 3. Semantic Web Взаимодействие Человек – Машина Машина – Машина Надстройка над www-средой Автоматизированный поиск информации Таксономия – словарь – Тезаурус Связывание словаря терминов с контентом Маркировка Нормализация библиографических баз