ТЕХНОЛОГИИ СОЗДАНИЯ КОЛЛЕКЦИЙ ЦИФРОВЫХ ДОКУМЕНТОВ TECHNOLOGIES OF THE DIGITAL COLLECTIONS DEVELOPMENT Д.А.Каплунов, И.Г.Лисьих, К.Э.Ловцкий Уральский государственный университет им. А.М.Горького, Екатеринбург Тел.: (3432) 55-24-73, факс: (3432) 55-24-73, e-mail: Igor.Lissikh@usu.ru Важнейшим фактором, определяющим эффективность учебного процесса и научной работы, является система информационного обеспечения образования и исследований. Одной из основных составляющих такой системы являются библиотеки. Традиционные библиотеки, как хранилища печатных учебно-научных материалов, в нынешних условиях уже не могут в полной мере удовлетворить все возрастающие потребности пользователей. Современный уровень развития информационных и телекоммуникационных технологий позволяет организовать информационное обеспечение учебной и научной деятельности на новом, качественно более высоком уровне. Первые шаги в этом направлении уже делаются: многие библиотеки переходят или уже перешли на систему электронных каталогов, развивается система электронной доставки документов, формируются фонды информационных материалов на нетрадиционных носителях. На очереди создание цифровых коллекций, ориентированных на удаленный сетевой доступ, прежде всего – полнотекстовых информационных собраний. В докладе предлагаются методология и технологии построения информационных систем создания и поддержания цифровых коллекций, апробированные в Уральском государственном университете в ходе реализации проекта корпоративной сети библиотек Урала "Consensus omnium" (при поддержке Института "Открытое общество"). Модель документа Ключевым элементом создания цифровых коллекций является определение модели документа (RIM – reference information model) и выбор эффективного формата хранения. В качестве основных принципов эффективного решения этой задачи предлагаются: – объединение в модели "документа" содержательной (данные) и описательной (метаданные) частей; – универсальный подход к разметке документов, обеспечивающий унифицированный формат хранения и возможности трансформации представлений документа; – мобильность документа (возможность обработки и представления документов в основных программноаппаратных средах); – использование открытых стандартов. Объединение схем разметки данных (содержательной части документа) и метаданных (описательной части). Набор данных становится коллекцией цифровых документов – инструментом образовательной и исследовательской деятельности – только тогда, когда данные описаны, классифицированы и каталогизированы. Область метаданных содержит информацию, необходимую для автоматического формирования библиографической записи в электронном каталоге и выполнения поисковых запросов, и ее следует рассматривать как неотъемлемую часть модели документа. Соответственно, необходимо использовать единые форматы разметки и единый инструментарий обработки перечисленных составляющих документа. Единая форма хранения документов, многообразие форм представления. Документы коллекции формируются в едином стандарте разметки содержания. Пользователю предоставляется возможность выбора наиболее подходящего для него формата доставки, ориентированного на то или иное устройство вывода. Документ может быть предоставлен пользователю либо целиком как он есть, либо после серии трансформаций в модифицированном виде. Программно-аппаратная независимость и переносимость. Формат хранения документа должен обеспечивать максимальную программно-аппаратную независимость и переносимость документов, а также гарантировать наличие развитого инструментария манипулирования данными для основных платформ и классов устройств. Модель доступа Информационные системы работы с цифровыми коллекциями документов проектируются и создаются в условиях распределенной информационной среды. Для обеспечения доступности и мобильности документов логика обработки документов должна быть независима от особенностей систем хранения данных и типов агентов пользователей (вариантов систем визуализации документов). Предлагаемая модель доступа к цифровым коллекциям опирается на концепцию midlware – многоуровневую архитектуру доставки и обработки документов, предполагающую наличие "посредника" между хранилищами данных и клиентской частью. Роль такого посредника играет сервер приложений, который осуществляет прием запросов от клиентов, реализует диалог с сервером баз данных, выполняет необходимую трансформацию документов и доставку информации клиенту. Такая схема не только обеспечивает независимость клиентской части от системы хранения информации, а также возможность использования одного хранилища данных разными информационными системами. Технологические решения Проектирование программных комплексов для управления сложным набором модулей и подсистем различной функциональности, таких как библиотечные информационные системы, требует разработки и применения моделей информационных систем высокого уровня абстракции и эффективных схем организации межмодульного взаимодействия. Представляется естественным рассматривать такую информационную систему как многокомпонентную систему. Наиболее перспективным в этом плане выглядит использование технологий XML в сочетании с объектноориентированными средствами разработки приложений и объектно-ориентированными СУБД. 1 Применение языка XML, как основного средства разметки документов, обеспечивает не только программноаппаратную независимость, но и позволяет абстрагироваться от типа устройств вывода (визуальных, звуковых, тактильных и пр.). Использование XML-ориентированной технологии позволяет интегрировать содержательную часть (данные) и описание (метаданные) цифровых документов, что, с одной стороны, создает основу для организации эффективной службы поиска/доставки, с другой – позволяет максимально автоматизировать процесс формирования библиографических записей и каталогизации. Появление цикла сопутствующих спецификаций (XSL, XSLT, XLink и пр.), а также поддерживающих их агентов пользователя, снимает препятствия широкому использованию языка XML. Переносимость, расширяемость и модульность языка Java. Являясь мощным объектно-ориентированным языком, Java позволяет создавать платформо-независимые, расширяемые приложения. Ориентация разработчиков Oracle на Java, как на второй базовый язык разработки приложений (наряду с PL/SQL). Oracle предоставляет широкий инструментарий, предназначенный для доставки данных через Интернет и ориентированный на использование Java (например, Oracle Application Server). Библиотеки связи с СУБД для Java (Oracle JDBC) обеспечивают комфортную работу с базой данных. Существует аппарат обработки XML на стороне Oracle (XML-SQL утилиты). 2