Загрузил vashe.obrazovanie

Sistemy i standarty metadannyh Dublin Core Marc Onix 1709196844

реклама
Лекция «СИСТЕМЫ И СТАНДАРТЫ МЕТАДАННЫХ:
DUBLIN CORE, MARC, ONIX»
Системы метаданных: основные понятия и требования
В современной электронной среде накоплены огромные разнородные информационные ресурсы, хранящиеся под
управлением СУБД, имеющих различное функциональное назначение и расположенных на разных информационных
серверах. Это библиографические, реферативные и полнотекстовые базы данных, музейные коллекции, фото-, аудио-,
видео коллекции и др. Как правило, взаимосвязи между такими информационными ресурсами и представлениями данных
отсутствуют, а это существенно усложняет организацию эффективного поиска. Поэтому возникает задача разработки
технологий построения распределенных информационных систем и обеспечения доступа к распределенным
информационным ресурсам (коллекциям, базам данных и т. п.). Решение этой задачи невозможно без использования
метаданных.
Термин «метаданные» находится в ряду сложных слов, первой составной частью которых является греческое слово
«Meta», буквально означающее «после, за, через, вслед». Приставка «мета» имеет два значения: 1) уровень описания
какого-нибудь объекта или системы (как правило, также описания), высшего по отношению к предыдущему описанию;
«описание описания». Например, металингвистика, металогика, метаматематика, метаобозначение, метаописание,
метатекст, метатеория, метаязык и т. д.; 2) выход за пределы чего-либо: метагалактика, метафизика.
Метаданные — это данные о других данных. Это одно из основных определений, которое широко используется в
настоящее время. Например, метаданными являются такие данные о данных, как каталоги, справочники, реестры. Базы
метаданных содержат сведения о составе данных, их содержании, статусе, происхождении, местонахождении, качестве,
форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и
смежных с ними правах на данные и др.
ГОСТ 7.702003 СИБИД «Описание баз данных и машиночитаемых информационных массивов. Состав и
обозначение характеристик» вносит уточнение в понятийный аппарат систем метаданных. Метаданные (метаописание)
электронного информационного ресурса — это формализованное описание электронного информационного ресурса,
используемое для его идентификации и категоризации информационного ресурса при работе с большими совокупностями
информационных ресурсов. Система метаданных электронных информационных ресурсов — это система правил,
позволяющая сопоставить любому информационному ресурсу его метаописание (метаданные). В соответствии с этим
ГОСТом метаданные используются в составе форматов представления их пользователям в режиме теледоступа, в
частности, в сети Интернет. При регистрации информационных ресурсов регистрирующий орган записывает метаданные
в каталог зарегистрированных ресурсов.
Различие между данными и метаданными зависит от контекста. Например, библиографические записи в
электронном каталоге — это метаданные по отношению к электронным документам в электронной библиотеке, но в самой
библиографической базе данных электронного каталога они рассматриваются в качестве данных. Распространённые
категории метаданных — описательные, структурные и административные. В электронных библиотеках описательные
метаданные обеспечивают библиографическую обработку и поиск. Библиографическая база данных электронного
каталога, по сути, представляет собой массив описательных метаданных для полнотекстовых ресурсов. В свою очередь,
нормативные/авторитетные записи для имён лиц, наименований коллективов, унифицированных заглавий — это
описательные метаданные для конкретных составляющих (определённых полей) библиографических записей (данных).
Информационно-поисковые тезаурусы или библиографические классификации можно интерпретировать как описательные
метаданные по отношению к данным о смысловом содержании документов, зафиксированном в виде индексов, ключевых
слов, предметных рубрик в библиографической записи. В то же время индексы классификации, ключевые слова,
предметные рубрики — это метаданные, описывающие смысловое содержание документов, составленных на естественном
языке. Таким образом, каталогизация, систематизация, индексирование — это процессы формирования метаданных.
Классическим примером системы метаданных в библиотеках является библиотечный каталог (традиционный или
электронный), содержащий набор записей метаданных с элементами, которые описывают книгу либо другую единицу
хранения: автор, заглавие, дата создания или публикации, шифры и номера хранения, определяющие местонахождение
единицы на полке и др.
Как отмечает А. Б. Антопольский, если понятие метаданных рассматривать в аспекте истории информатики, то
оно является модернизацией и интеграцией таких традиционных понятий, принятых в 1970-1980-х гг., как форматы
представления данных, языки описания данных, языки библиографических данных и др. Термин «метаданные» — это не
просто новый ярлык для давно известных понятий, прежде всего, для языка библиографических описаний. Главное отличие
понятия метаданных от перечисленных понятий заключается в более общем характере понятия метаданных, подобно тому,
как «цифровой объект» (информационный ресурс) является более широким понятием по сравнению с понятием
«документ» или «единица хранения» предыдущих поколений информационных систем. По его мнению, именно
библиотечно-библиографический опыт является наиболее значительным для проектирования систем метаданных в
электронных библиотеках. Поэтому язык библиографических данных представляет собой наиболее продвинутый тип
систем метаданных.
Вместе с тем, метаданные — понятие исключительно широкое и емкое, не сводимое только библиотечнобиблиографической деятельности. Метаданные об информационных ресурсах формируются и используются в различных
сферах: электронных библиотеках; web-сайтах; книжных интернет-магазинах и многих других электронных хранилищах
информационных ресурсов.
К числу основных требований, предъявляемых к системе метаданных, относятся:
 универсальность в рамках установленного понимания информационных ресурсов как объекта систематизации;
 структурированность и формализованность метаданных, необходимые для их автоматической обработки;
 достаточная выразительность для обеспечения решения задач, требующих наличия метаданных;
 совместимость с международными стандартами и протоколами в области метаданных и информационного
поиска, создание условий для интероперабельности (англ. interoperability — способность к взаимодействию);
 возможность задания ограничений целостности, отражающих взаимосвязи полей описания информационных
ресурсов;
 обеспечение возможности хранения метаданных как совместно с информационным ресурсом, так и отдельно от
него;
 возможность представления в метаданных сведений о создателях, правообладателях, распространителях
информационных ресурсов и отношений между ИР.
Связь между записью метаданных и информационным ресурсом (цифровым объектом), который она описывает,
может осуществляться двумя способами:1) элементы могут содержаться в записи, хранящейся отдельно от описываемой
единицы, как это происходит в библиотечных каталогах. В этом случае метаданные предпочтительно хранить и передавать
в формате, реализованном на базе XML. Обмен метаданными сводится к пересылке XML-файлов или ссылок на эти файлы.
2) метаданные могут храниться непосредственно в «теле» ресурса. В этом случае они включаются непосредственно в
информационный ресурс, например, в HTML-страницу с помощью тегов <МЕТА>.
Назначение и виды метаданных
Назначение систем метаданных для информационных ресурсов заключается в обеспечении навигации в
информационном пространстве; поиске отдельных цифровых объектов или их совокупностей; вводе, обработке и
организации хранения цифровых объектов, а также их исключении; управлении правами доступа к информации, включая
защиту авторских прав, организация платы за доступ и пр.
Метаданные об электронных информационных ресурсах позволяют вести управлении жизненным циклом
информационных ресурсов (процессами создания, использования, хранения цифровых документов); дают возможность
более точного и полного обнаружения необходимых ресурсов; обеспечивают гибкие и разнообразные механизмы отбора и
представления информации в соответствии с поисковыми запросами пользователей.
Выделяют следующие виды метаданных:
 описательные, содержащие библиографические описания информационных ресурсов, либо их характеристику
в форме рефератов и аннотаций;
 структурные, включающие сведения о формате, объеме, структуре и других формальных свойствах
информационных ресурсов;
 административные, характеризующие сведения о правах на доступ, на коррекцию данных, данные о
пользователе, данные для систем оплаты, технологические данные. Первая, основная группа административных
метаданных предназначена для того, чтобы проводить владельцу ресурса четкую и гибкую политику в отношении
информационного ресурса, которая включает авторизацию, аутентификацию, управление авторскими правами, доступом,
а также служит для идентификации и категоризации ресурсов в рамках специальной коллекции или организации. Другая
группа административных метаданных может представлять собой схемы хранения данных в базах данных, схемы
распределенных баз данных и др. Третья группа административных метаданных может использоваться для
позиционирования данного информационного ресурса в контексте группы подобных документов, информационнопоисковой системы, предметной области и т. п.;
 идентифицирующие, служащие для однозначного представления описываемых цифровых объектов для
внешнего мира и различных приложений.
В настоящее время в мире создано множество систем метаданных, обладающих разным статусом (международные,
национальные и отраслевые стандарты, корпоративные спецификации, спецификации международных консорциумов и
др.). С точки зрения ориентации на виды информационных ресурсов и сферы использования различают универсальные и
специализированные системы метаданных. Наибольшую известность в мире получила универсальная система метаданных,
известная как «Дублинское ядро».
Дублинское ядро метаданных (Dublin Core)
Дублинское ядро метаданных (Dublin Core Metadata Element Set, Dublin Core — DC) — это модель описания
электронных ресурсов, принятая в марте 1995 г. в г. Дублине (США, штат Огайо), где расположена штаб-квартира OCLC
и где состоялась первая рабочая встреча 52 ученых и специалистов в области библиотечного дела, информатики и смежных
дисциплин. Их объединило желание создать простой набор элементов метаданных для неподготовленных пользователей,
которые публикуют свои электронные документы в сетях и должны некоторым образом описать данные о них для
обеспечения поиска.
Дублинское ядро — это набор метаданных, использование которых должно облегчать поиск электронных
ресурсов и, прежде всего, сетевых. Наибольшую заинтересованность в его развитии в настоящее время проявляют
библиотеки, научные и культурные организации, правительственные агентства, а также коммерческие фирмы. Цель
Дублинского ядра — создание такого механизма, который при минимальных затратах на описание позволял бы искать и
находить данные вне зависимости от языковой принадлежности, тематики и места их нахождения.
Основные задачи, которые ставились при создании Дублинского ядра, заключались в обеспечении простоты
формирования и поддержки метаданных, включая легко понимаемую (как человеком, так и компьютером) семантику;
возможности представления метаданных на разных естественных языках; расширяемости системы метаданных.
Формат Дублинского ядра — перечень полей и правил их заполнения, с помощью которых создается описание
информационных ресурсов (цифровых объектов). Он может рассматриваться как искусственный язык для создания
метаданных, который должен быть доступен для понимания человеком и для машинной интерпретации. Набор элементов
метаданных «Дублинское ядро» регламентируется ГОСТ Р 7.0.102019.
Для поиска и функционирования в компьютерной сети метаданные вместе с документами (данными) или отдельно
от них должны быть преобразованы, то есть переведены на язык, доступный для читающего Интернет-документы
устройства — браузера. Таким образом, формат Дублинского ядра определяет семантические области, которые надлежит
отразить в описаниях информационных ресурсов. Описание в формате Дублинского ядра есть набор конкретносемантических элементов, а Интернет-проекция этого описания представляет собой тот же набор, но уже оформленный с
помощью языка разметки, например, HTML, SGML и др.
Дублинское ядро» включает два уровня: простое Дублинское ядро (Simple Dublin Core) и Дублинское ядро с
квалификаторами (Qualified Dublin Core).
В состав простого Дублинского ядра входит 15 элементов данных, образующих три группы: содержание
информационных ресурсов (Content), интеллектуальная собственность (Intellectual Property); характеристики данного
экземпляра информационных ресурсов (Instantiation). Характеристика состава элементов простого Дублинского ядра
приводится в таблице 1.
Таблица 1
Состав элементов простого Дублинского ядра
Содержание
информационных
ресурсов (Content)
Title (Заголовок)  название,
присвоенное ресурсу создателем
или издателем.
Subject (Предмет)  тема ресурса.
Обычно выражается в ключевых
словах или фразе, описывающей
предмет или содержание ресурса.
Приветствуется
использование
контролируемых
словарей
и
формальных схем классификации
Description
(Описание)

текстовое описание содержания
ресурса, включая реферат в случае
документов
или
описание
содержания в случае визуального
ресурса.
Туре (Тип)  категория ресурса например, домашняя страничка,
роман, поэма, статья, препринт,
технический отчет, эссе, словарь.
Source (Источник)  информация
о вторичном источнике, из
Группа элементов
Интеллектуальная собственность
(Intellectual Property)
Creator (Автор)  человек или
организация,
изначально
ответственная
за
интеллектуальное
содержание
ресурса (в случае рукописного
документа  это авторы; в случае
визуальных ресурсов  это
исполнители, фотографы или
иллюстраторы
Publisher
(Издатель)

организация, ответственная за
создание ресурса в его нынешней
форме - например, издательский
дом,
университетский
департамент или корпорация
Contributor (Участник создания
материала)  человек или
организация, которые не являются
авторами (не обозначены в
элементе «автор»), но внесли
значительный интеллектуальный
вклад в ресурс, но чей вклад
вторичен по отношению к любому
человеку
или
организации,
указанной в числе авторов.
Например, редактор, переводчик,
иллюстратор.
Rights (Права)  утверждение об
авторских правах и управление
ими; идентификатор, связанный с
таким
утверждением;
идентификатор,
связанный
с
сервисом,
представляющим
информацию
об
управлении
правами на данный ресурс.
Характеристики
данного
экземпляра
информационных
ресурсов (Instantiation)
Date — Дата
Format (Формат)  формат
представления данных ресурса
(обычно
указывается
тип
программного обеспечения и возможно - тип компьютера,
которые могут быть необходимы
для отображения и работы с
ресурсом)
Identifier (Идентификатор) 
набор букв или цифр, который
обычно
используется
для
уникальной
идентификации
ресурса. В случае сетевых
ресурсов примерами являются
URL и URN.
Language (Язык)  язык, на
котором
изложено
интеллектуальное
содержание
ресурса
которого был получен настоящий
ресурс.
Relation (Связь)  идентификатор
вторичного ресурса и его связь с
настоящим
ресурсом.
Этот
элемент позволяет связывать
между собой близкие ресурсы, а
также описания ресурса, которые
необходимо показать. Например,
издание книги и глава книги.
Coverage
(Охват)

характеристики местонахождения
и временной продолжительности
ресурса.
Состав элементов простого «Дублинского ядра» определен в стандарте ISO 15836:2003. Information and
documentation — The Dublin Core metadata element set.
На втором уровне к 15 элементам добавлены два дополнительных элемента: Audience (целевая аудитория,
категория пользователей) и Rights Holder (правообладатель). Кроме того, для повышения детальности и выразительности
описаний на этом уровне вводятся и используются квалификаторы, уточняющие семантику элементов данных и
уточняющие источники и способы представления их значений.
Основное преимущество Дублинского ядра заключается в том, что если традиционные методы каталогизации
требуют профессиональной подготовки для эффективного использования, то Дублинское ядро использовать относительно
просто. Однако простота противоречит требованию точности отражения данных. Пятнадцати элементов явно недостаточно
для информационных систем типа электронных библиотек. Для того, чтобы сохранить совместимость с простейшим
описанием из 15 элементов и, в то же время, увеличить детализацию и сложность описаний, делаются попытки расширения,
вводятся дополнительные квалификаторы для базовых элементов. Кроме того, не прекращаются споры относительно
ценности этой системы метаданных. Основной тезис противников Дублинского ядра - это невозможность создания
универсальной системы метаданных, равно пригодной для решения различных функциональных задач. Особенно
критикуется Дублинское ядро за слабое отражение аспектов, связанных с управлением правами на цифровые объекты.
Поэтому чаще всего критикуют Дублинское ядро специалисты, занятые электронной торговлей цифровыми объектами и
специалисты по защите прав на эти объекты.
MARC (Machine Readable Catalogue- машиночитаемый каталог)
Если Дублинское ядро разработано для описания электронных документов в электронной среде, то MARC-формат
был разработан для описания традиционных документов в электронной среде.
Формат (в широком смысле) — это форма представления каких-либо данных, представляющая собой совокупность
правил их записи и отражения в памяти компьютера, в базе данных, на экране монитора или на внешнем носителе (в том
числе и человеко-читаемом). Автоматизация библиотечно-информационной технологии и, прежде всего каталогизации,
развитие электронных каталогов обусловили появление форматов представления данных в машиночитаемой форме или
машиночитаемых библиографических форматов. Они представляют собой совокупность взаимосвязанных элементов
данных, которая служит для создания и обмена библиографическими записями в машиночитаемой форме.
Машиночитаемые библиографические записи — это записи, которые могут быть прочитаны и интерпретированы
компьютером; содержат библиографические данные, традиционно представляемые на каталожной карточке. Они
составляют основу электронного каталога так как могут быть прочитаны и интерпретированы компьютером; и содержат
библиографические данные, традиционно представляемые на каталожной карточке.
Для того, чтобы создать электронный каталог, недостаточно просто ввести в компьютер информацию, которая
традиционно содержится на каталожной карточке. На карточке элементы библиографического описания располагаются по
определенным правилам: в установленном порядке (заголовок, основное заглавие, параллельное заглавие и т. д.) и
отделяются друг от друга знаками пунктуации, регламентируются стандартами и правилами каталогизации. Однако если
человек (каталогизатор) легко находит в составе библиографического описания имя автора, заглавие, выходные данные и
т. п., то для компьютера нужны дополнительные сведения. Компьютеру для интерпретации данных необходимы четкие,
формализованные инструкции. Эту задачу и решает машиночитаемый формат. Формат позволяет компьютеру
структурировать библиографическую информацию, обеспечивает более компактное хранение информации, а также
позволяет библиотекам осуществлять обмен информацией.
В самом лаконичном виде история становления и развития машиночитаемых библиографических форматов может
быть представлена следующим образом:
 1965-1966 гг. — разработка формата MARC (от англ. Machine-Readable Catalogue or Cataloguing —
машиночитаемый каталог) в Библиотеке Конгресса США;
 1970-е гг. — появление более 20 версий форматов, ориентированных на национальные правила каталогизации,
например, UKMARC, INTERMARC, USMARC, AUSMARC, CANMARC, DanMARC, LCMARC, Nor-MARC, SwaMARC и др.;
 1970-е — начало 1990-х гг. разработка и использование международного коммуникативного формата MECOF,
служившего для информационного обмена библиографической информацией в социалистических странах (странах-членах
Совета Экономической Взаимопомощи);
 1977г. — создание Международной федерацией библиотечных и информационных ассоциаций (ИФЛА)
«Универсального формата MARC» — UNIMARC (от англ. Universal MARC Format). Цель UNIMARC — преодоление
несовместимости существующих форматов и содействие международному обмену данными в машиночитаемой форме
между национальными библиографическими службами;
 1995 г. — начало работ в рамках программы ЛИБНЕТ по адаптации UNIMARC в качестве российского
обменного формата;
 1998 г. признание формата RUSMARC (приказ Министерства культуры РФ от 27.01.98 № 24) в качестве
обязательного при организации обмена данными для подведомственных Министерству культуры России библиотек.
В настоящее время формат RUSMARC — это система взаимосвязанных форматов, в которую входят:
 Российский коммуникативный формат представления библиографических сведений. Он является, прежде всего,
форматом обмена. Его назначение — способствовать передаче данных, создаваемых библиотеками и системами,
использующими различные форматы;
 Российский коммуникативный формат представления авторитетных записей. Его основное назначение —
обеспечение обмена авторитетными/нормативными, а также ссылочными и справочными записями между
библиографирующими учреждениями России;
 Российский формат машиночитаемой каталогизации (формат перевода в машиночитаемую форму данных об
объекте каталогизации);
 Российский коммуникативный формат для представления классификационных данных.
Семейство стандартов ONIX
ONIX (Online Information eXchange) — это международная система метаданных, представляющая собой стандарт
(формат) описания широкого круга товаров книжной индустрии (книги, периодика, электронные издания, компактные
диски, аудио и видео кассеты и др.) в системе электронной торговли. Его разработку и поддержку осуществляет
специальная рабочая группа по книготорговле в составе Международной организации EDItEUR, занимающейся
координацией разработки и продвижения международных стандартов для электронной книжной коммерции. В эту
организацию входят более 100 членов из 23 стран, включая Австралию, Канаду, Японию, США и большинство европейских
стран. Посредником между EDItEUR и Национальной группой ONIX в России и СНГ выступает некоммерческое
партнерство «Гильдия Книжников».
Появившись в 2000 г. как версия «ONIX для книг» (ONIX for Books), в настоящее время ONIX представляет собой
семейство международных стандартов, основанных на языке XML. Кроме «ONIX для книг» в него входят «ONIX для
электронных книг» (ONIX for eBooks), «ONIX для сериальных изданий» (ONIX for Serials) и «ONIX для издательских
лицензий» (ONIX for Publications Licenses, (ONIX-PL). ONIX-PL ориентирован на лицензии, в соответствии с которыми
библиотеки и другие учреждения используют цифровые ресурсы, включая электронные журналы.
Семейство международных стандартов ONIX предназначено для поддержки взаимодействия между всеми
сторонами, вовлеченными в создание, распространение, лицензирование интеллектуальной собственности, независимо от
формы доступа к ней — реального, физического или виртуального, электронного. В стандартах ONIX нашли логическое
развитие идеи электронного обмена данными. Поскольку все стандарты ONIX базируются на языке XML, им присущи
преимущества, обусловленные возможностями этого динамически развивающегося языка.
Стандарты ONIX предназначены для обеспечения сокращения издержек на различных стадиях продвижения
товара в книжной индустрии. Так как для принятия решения о покупке товара необходима определенная информация об
этом товаре, то возникает потребность в создании массива информации, сформированного из стандартных описаний и
пополняющийся за счет издателей. Для обеспечения оперативности получения информации о готовящихся изданиях всеми
заинтересованными сторонами, издатель должен не просто сообщить, что собирается выпустить какие-то книги. Для
потенциальных покупателей требуется представить некий набор стандартных данных о книгах, которые должны быть
переданы на рынок. Эту возможность унифицированного описания как книжной продукции, так и электронных изданий, а
также серийных, периодических изданий предоставляют стандарты ONIX, базирующиеся на языке XML.
Их задача - представить книжную продукцию виртуально, то есть тогда, когда нет возможности реально
познакомиться с книгой, полистать ее. Данные о книге поступают на компьютер, и их достаточно для того, чтобы понять,
стоит покупать книгу или нет. ONIX позволяет передать не только библиографическое описание книги, но и, например,
аннотацию, списки публикаций автора, фотографию, и так далее. Стандарты ONIX ориентированы преимущественно на
товаропроводящие сети. По структуре полей они совместимы с семейством MARC, но не предназначены исключительно
для библиотек.
Семейство форматов ONIX является наиболее быстро и динамично развивающейся системой. Перспективы
развития ONIX, объявленные разработчиками, позволяют говорить о том, что на базе именно этого стандарта будет
делаться попытка объединения всех наиболее используемых сегодня национальных форматах электронного обмена
данными.
Резюме
Среди множества систем метаданных, обладающих разным статусом (международные, национальные и
отраслевые стандарты, корпоративные спецификации, спецификации международных консорциумов и др.), наибольшую
известность в мире получила универсальная система метаданных «Дублинское ядро».
В отличие от Дублинского ядра, разработанного для описания электронных документов в электронной среде,
MARC-формат был разработан для описания традиционных документов в электронной среде. Их создание обеспечило
компьютерное структурирование и обмен машиночитаемой библиографической информацией между библиотеками
разных стран мира.
В России в качестве обязательного при организации обмена данными для подведомственных Министерству
культуры России библиотек используется единая система взаимосвязанных форматов RUSMARC.
Одновременно с развитием систем метаданных и машиночитаемых форматов, предназначенных для
использования в библиотеках, получила развитие международная система метаданных (формат) ONIX, предназначенная
для описания широкого круга товаров книжной индустрии (книги, периодика, электронные издания, компактные диски,
аудио и видео кассеты и др.) в системе электронной торговли.
Вопросы для самоконтроля:
1)
2)
3)
4)
Какие требования предъявляются к системам метаданных?
С какой целью было создано Дублинское ядро метаданных?
Каков состав система взаимосвязанных форматов RUSMARC?
Каково назначение семейства стандартов ONIX?
Скачать