Электронные библиотеки

реклама
EVA’99-Москва
А.Б.Антопольский ~ К.В.Вигурский
Электронные библиотеки
А.Б. Антопольский
К.В. Вигурский
Научно-технический центр «Информрегистр» Государственного комитета Российской Федерации по телекоммуникациям
Адрес: 107553, Москва, ул. Б.Черкизовская, 103/105
Телефон: +7 (095)160 9762
Факс: +7 (095) 160 9348
E-mail: iregistr@mail.sitek.ru
Http://www.inforeg.org.ru
Одной из важнейших задач, практически всегда стоявшей перед человечеством, является
сохранение информации с целью ее передачи во времени и/или пространстве. После возникновения книгопечатания основной формой фиксации и распространения информации являются печатные издания, а главным средствами хранения и доступа к информации стали
библиотеки.
Сохранение и использование рукописных и печатных документов достаточно хорошо
освоено, здесь имеется богатый опыт и результаты исследовательской и практической работы многих поколений специалистов. Но очевидно, что объемы информации, хранящейся в
традиционной форме, делают все более затруднительной работу с ней - хранение, распространение, поиски, учет и т.п.
Развитие вычислительной техники позволило сохранять и распространять информацию
в электронной форме, что играет революционную роль в истории человечества, аналогичную
изобретению книгопечатания. Эта форма позволяет на сегодня хранить информацию наиболее надежно и компактно, распространять ее намного оперативнее и шире и кроме того,
предоставляет возможности манипулирования с ней, которых не могло быть при иных формах. В связи с этим за последние годы во всем мире интенсивно увеличивается количество
электронных публикаций.
Значительное количество различных документов уже сейчас существует в электронной
форме. По ряду оценок1 на середину 1998 г. в Интернет их было около 300 млн. и это число
постоянно растет. В больших масштабах ведется преобразование в электронную форму печатных документов. Так в США осуществляется проект Пентагона по преобразованию в
электронную форму 20 млн. документов. В Японии в рамках проекта по созданию Национальной электронной библиотеки переведено в электронную форму около 10 млн. страниц
текстовой информации. Подготовка традиционных печатных изданий все чаще осуществляется в электронной форме.
Аналогичные тенденции, правда в меньших масштабах, имеют место и в России. Так, в
информационных системах ряда организаций формируются электронные массивы, например, по полным текстам российских газет
(Интегрум-Техно), по справочноэнциклопедической информации (R-Style), по музейным экспозициям (ЗАО Интернет) и др.
В Российской государственной библиотеке в рамках программы “Память России” осуществляется преобразование в электронную форму первопечатных русских книг. С 1997 г. Институтом мировой литературы им. А.М. Горького РАН и НТЦ “Информрегистр” при участии
ряда других организаций ведется создание электронного фонда “А.С. Пушкин и классическая русская литература”. В настоящее время этот фонд уже включает в себя значительные
объемы информации в электронной форме, посвященной жизни и творчеству Пушкина, Грибоедова, Лермонтова. Есенина. В России существует целый ряд электронных журналов, до1
По данным NEC Research Institute - 320 млн., по данным SRC Digital - 275 млн.
1~7~1
EVA’99-Москва
А.Б.Антопольский ~ К.В.Вигурский
ступных через Интернет: “Русский журнал”, “Вечерний Интернет”, Zhurnal”, “Исследовано в
России” и др. Все большее число отечественных традиционных издательств выполняют подготовку оригинал-макетов в электронной форме.
Естественно, что такое стремительное развитие электронной издательской деятельности
и рост количества электронных публикаций приводит к весьма серьезным проблемам. Перечислим наиболее важные.
1. При подготовке электронной информации, прежде всего полнотекстовой, очень часто
игнорируются или учитываются не в полной мере опыт, правила и нормы, существующие в
сфере производства и распространения печатной информации, что приводит не только к
нарушению сложившихся традиций, но и усложняет коммуникативные процессы. Это относится к шрифтовому оформлению, к организации и структурированию информации, к атрибутированию произведений и т.п.
2. Современные информационные технологии предоставляют эффективные средства
надежного сохранения электронной информации. Однако, на практике процесс накопления и
сохранения электронной информации носит случайный характер. Например, создаваемые в
рамках традиционной издательской деятельности электронные оригинал-макеты часто просто уничтожаются. Известны случаи, когда выполнялись дорогостоящие операции преобразования в электронную форму книг, электронные оригинал-макеты которых были
уничтожены. Число таких примеров можно значительно увеличить. Решение проблемы сохранения электронной информации нуждается в организационных, методических и технологических проработках.
3. Особую проблему представляет инвентаризация электронной информации, включающая в себя определение самостоятельных единиц электронной информации, их адекватное и
унифицированное описание. Сюда же входят вопросы учета и каталогизации.
4. Сохраняемая электронная информация должна эффективно использоваться. Здесь сразу же встают вопросы совместимости программного обеспечения и форматов, вопросы реализации разнообразных функциональных возможностей, предусматриваемых создателями
электронных документов.
На решение указанных и ряда других проблем направлена деятельность по созданию
электронных библиотек. Эта область деятельности является достаточно новой и поэтому еще
не имеет устойчивой терминологии. (Безусловно, не следует отождествлять эту область деятельности с автоматизацией традиционных библиотечных процессов, хотя провести между
ними точную границу вряд ли возможно.) Кажется впервые этот вопрос рассматривал Ф.
Ланкастер в начале 80-х годов2 . Однако, его работы имели в определенной степени футорологический характер.
Существенное развитие работы по электронным библиотекам получили на рубеже 90-х
годов, когда появились адекватные средства вычислительной техники и информационные
технологии, обеспечивающие надежное сохранение, оперативную обработку и эффективное
использование больших массивов разнородной информации, прежде всего текстовой. Именно в это время в ряде стран стали подготавливаться проекты электронных библиотек. Некоторые из них легли в основу соответствующих национальных и международных программ.
В процессе этих работ стало конкретизироваться понятие "электронная библиотека",
стали определяться и уточняться ее цели, задачи и функции, что однако, не привело еще к
однозначной трактовке проблемы. Так в качестве синонимов для понятия "электронная библиотека" можно встретить такие словосочетания как "цифровая библиотека" (digital library) и
"виртуальная библиотека" (virtual library). Сложность определений в этой области и разнообразие мнений показал и Российско-американский семинар "Электронные библиотеки", прошедший 16-17 апреля 1998 г. в Москве.
2
Lancaster F.W. Libraries and librarians in the age of electronics. - Washington, D. C., Information Resources Press,
1982
1~7~2
EVA’99-Москва
А.Б.Антопольский ~ К.В.Вигурский
Мы остановимся на следующем определении, основанном на анализе отечественного и
зарубежного опыта работы в данной области.
Электронная библиотека (ЭБ) - информационная система, позволяющая надежно сохранять и эффективно использовать разнообразные коллекции электронных документов
(текстовых, изобразительных, звуковых, видео и др.), локализованных в самой системе, а
также доступных ей через телекоммуникационные сети.
Основные задачи ЭБ - интеграция информационных ресурсов и эффективная навигация
в них.
Под интеграцией информационных ресурсов понимается их объединение с целью использования (с помощью удобных и унифицированных пользовательских интерфейсов, желательно одного) различной информации с сохранением ее свойств, особенностей
представления и пользовательских возможностей манипулирования с ней. При этом объединение ресурсов не обязательно должно осуществляться физически, оно может быть виртуальным, главное - оно должно обеспечивать пользователю восприятие доступной
информации как единого информационного пространства. В частности предполагается, что
ЭБ должны обеспечивать работу с гетерогенными БД или системами БД, обеспечивая пользователю эффективность информационных поисков независимо от особенностей конкретных
информационных систем, к которым осуществляется доступ.
Эффективная навигация в ЭБ понимается как возможность пользователя находить интересующую его информацию с наибольшей полнотой и точностью при наименьших затратах
усилий во всем доступном информационном пространстве. При таком подходе, хорошо известные информационные поиски, используемые в информационных системах и базах данных, являются частными случаями навигационных средств.
Далее, к основным особенностям ЭБ также следует отнести:
 профильность хранимой информации, т.е. наличие определенной концепции формирования информационного пространства, доступного пользователю, и политики
ее реализации;
 инвентаризация, в частности каталогизация (в самом широком смысле) объектов и
различных их объединений, образующих это информационное пространство.
На концепцию ЭБ, а также на их программное обеспечение существенное влияние оказывают требования, связанные с представлением и возможностью использования информации.
Все информационное пространство ЭБ, доступное пользователю. должно быть представлено в виде совокупности самостоятельных объектов. В качестве таковых во многих случаях
могут выступать информационные объекты (электронные документы). Под информационным объектом будем понимать законченное произведение имеющее автора, допускающее
однозначную идентификацию и не теряющего своего информационного значения вне конкретной информационной системы.. Информационные объекты могут представлять собой
текстовые произведения, изображения, фонограммы, базы данных или их фрагменты и т.д.
Организация информационного пространства как совокупности объектов и однозначная
идентификация последних необходимы для обеспечения эффективной навигации и выполнения некоторых видов информационных поисков. В качестве инструмента такой идентификации для информационных объектов, допускающих стандартную библиографическую
обработку, может выступать библиографическое описание. Для информационных объектов
других типов могут, очевидно, применяться другие способы идентификации. Общая система
идентификации информационных объектов и, следовательно, система навигации в ЭБ, по
нашему мнению должна быть основана на международном стандарте Dublin Core Metadata, в
последнее время завоевывающего все большую популярность.
1~7~3
EVA’99-Москва
А.Б.Антопольский ~ К.В.Вигурский
ЭБ должна реализовываться в виде полнотекстовой информационной системы, , обеспечивающей поддержку и использование информационных объектов (например, текстовых
документов) с разнообразной возможно достаточно развитой структурой. Она должна поддерживать аппарат связей между объектами и между элементами этих объектов, в частности
систему гипертекстовых и гипермедийных связей. Рассматриваемая информационная система должна отображать пользователю информацию в виде максимально соответствующим
исходному, должна иметь достаточно мощный механизм поиска, позволяющий работать с
лексикой естественных языков с учетом их грамматики. Часть из перечисленных требований
предполагает, что такая информационная система работает с информацией, размеченной с
помощью SGML-подобных языков, что в свою очередь, задает определенные условия для
технологии обработки информации.
К основным функциональным возможностям, которые должны обеспечивать информационные системы этого класса, следует отнести:
 навигация во всем доступном информационном пространстве - наглядное предоставление пользователю логической структуры информационного пространства, например дерева, организующей все информационные объекты системы, и средств работы с ней
(частичное или полное раскрытие структуры, сокращение ее до заданных элементов и
т.п.);
 лексический поиск - информационный поиск по свободной лексике русского языка и
языков, использующих латинский алфавит. При этом, поиск по лексике русского языка
должен проводиться с учетом его грамматических особенностей. При составлении поисковых предписаний должно допускаться применение логических операторов И, ИЛИ, ИНЕ и операторов контекстного расстояния, учитывающих порядок следования операндов;
 cимвольный поиск - разновидность лексического поиска, где в качестве лексической
единицы выступает определенная последовательность допустимых символов, например
даты.
 атрибутный поиск - информационный поиск объектов по значениям их характеристик.
Для текстовых объектов к таким характеристикам могут относиться "автор", "название",
"место издания", "дата издания" и т.п. Атрибутный поиск должен допускать использование логических операторов И, ИЛИ, И-НЕ, а также возможность проведения поиска по
значениям двух и более характеристик одновременно;
 просмотр содержания информационного объекта и его структуры:: последовательный
(например, страница за страницей) и выборочный (переход на любую заданную страницу
или на любой элемент, отраженный в структуре);
 многооконный режим работы, позволяющий пользователю одновременно видеть на
экране два окна (как минимум) с разным содержанием.
 одновременный вывод на экран (в разных окнах) текстов двух разных произведений или
двух экземпляров одного произведения.
 манипулирование со структурой информационного объекта аналогичное работе со
структурой всего информационного пространства;
 поддержка аппарата гипертекстовых и гипермедийных связей, обеспечивающего пользователю оперативный переход от объекта или некоторого его элемента к другому взаимосвязанному с ним объекту или его элементу. При этом, допускается существование
связей типа "один-к-одному" и "один-ко-многим";
 протоколирование сеанса работы пользователя с системой с возможностью перехода в
любое из ранее существовавших состояний системы;
 выполнение пользователем настройки системы (задание определенной конфигурации
окон, размеров шрифтов и др.);
1~7~4
EVA’99-Москва
А.Б.Антопольский ~ К.В.Вигурский
 установка закладок в тексте информационных объектов и возможность оперативного перехода на них;
В той или иной форме идея ЭБ уже работает во многих университетах и крупных библиотеках ведущих стран мира. Несколько лет назад Библиотека Конгресса США начала реализацию национальной программы ЭБ; примерно в это же время по инициативе
NSF/DARPA/NASA была развернута исследовательская программа DLI по ЭБ. В последние
годы отдельные разрозненные проекты стали превращаться как в национальные программы
создания ЭБ (США, Япония, Австралия и др.), так и в международные программы. Под эгидой Совета Европы осуществляется проект создания ЭБ для стран G-7 и др.
Впечатляющий пример национальной программы создания ЭБ дает Япония, где в 1989
было начато проектирование электронной “библиотеки 21 века”. Общая стоимость проекта
оценивается в 500 млн. долл. К его реализации привлечен ряд крупных фирм, в том числе
NEC, Mitsubisi, Fugitsu.
Еще один проект национальной ЭБ дает программа Gloal-Info, выполняемая в Германии
с 1995 г. У истоков этой программы стояли 16 университетов и четыре научных общества. К
июлю 1997 г. был подготовлен пилотный проект, принятый к реализации с начала 1998 г.
Проект рассчитан на шесть лет и оценивается в 60 млн. DM. Проект финансируется на 60%
из федерального бюджета и на 40% за счет бюджетов Земель и средств участников. Основная
цель проекта - обеспечение эффективного доступа с персональных компьютеров всех заинтересованных лиц к национальным и международным информационным ресурсам, включающим полные тексты, справочные и фактографические данные, программное обеспечение.
Основным языком разметки электронных публикаций является HTML.
Успех России в области создания ЭБ значительно скромнее в виду целого ряда объективных трудностей и, прежде всего, сложного экономического положения. Отечественные
работы в этой области ведутся на протяжении последних 4-5 лет и находятся еще в начальной фазе.
В 1998 г. Российским фондом фундаментальных исследований и Российским фондом
технологического развития был объявлен конкурс по работам в области ЭБ, что должно,
несомненно, сыграть роль сильного стимула и дать практические результаты в этой области.
В начале да нной статьи был указан ряд, далеко неполный, отдельных отечественных проектов, имеющих прямое отношение к ЭБ.
Вместе с тем, следует признать, что указанные усилия, несмотря на достигнутые результаты, не носят общесистемного характера в масштабах страны и не решают многих задач
правового, организационного и технологического характера, необходимых для реализации в
целом проблемы ЭБ в России. Поэтому с января 1999 г. по заданию правительства развернута подготовка полномасштабной межведомственной программы “Электронные библиотеки
России” (ЭБР), которая должна стать естественным дополнением к уже имеющимся проектам и программам в этой сфере и решить проблемы отечественной инфраструктуры, обеспечивающей накопление, сохранение и эффективного использования электронных
информационных ресурсов. В подготовке программы принимают участие РАН, Минобразования, Минкультуры, Гостелеком, Росархив, Госкомпечати и Роспатент. Возглавляет работы
Миннауки.
В пояснительной записке, подготовленной рабочей группой, определены следующие цели программы:
1. Создание электронных информационных ресурсов в сфере науки, техники, культуры, образования и здравоохранения и обеспечение доступа к ним российских и иностранных граждан с использованием средств современной информационной технологии;
1~7~5
EVA’99-Москва
А.Б.Антопольский ~ К.В.Вигурский
2. Повышение эффективности деятельности органов государственной власти и организаций отраслей народного хозяйства страны за счет формирования качественно новой информационной среды;
3. Увеличение роли России на мировом информационном рынке;
4. Расширение сферы применения русского языка в мировом информационном
пространстве и удовлетворение информационных потребностей русскоязычной диаспоры
в СНГ и дальнем зарубежье;
5. Привлечение отечественных и зарубежных инвестиций в развитие информационной инфраструктуры и информационных ресурсов России;
6. Распространение сведений о научно-технических достижениях российских исследователей;
7. Сохранение особо ценных коллекций и фондов путем создания их электронных
копий и обеспечение удаленного доступа к ним.
При этом в рамках программы ЭБР предполагается решение следующих задач:
1. Предоставление для массового использования фондов (коллекций) ЭБ, имеющих особую социальную значимость;
2. Анализ, учет и оценка информационных ресурсов России для включения их в
ЭБ и разработки рекомендаций по созданию новых ресурсов;
3. Создание системы координации межведомственных, ведомственных и региональных программ и проектов развития ЭБР;
4. Определение общесистемных правовых, организационных и технологических
принципов построения ЭБР а также разработка средств обеспечения функционирования
ЭБР;
5. Разработка требований к среде поддержки ЭБ;
6. Создание первой очереди ЭБ для апробации разработанных принципов и
средств.
В настоящее время предполагается, что работы по программе ЭБР будут проводиться в
течение пяти лет (2000-2004 гг.) по трем основным направлениям:



общесистемное проектирование, включающее разработку концептуального проекта, определение состава и роли участников работ, решение юридических и экономических вопросов, а так же определение видового и тематического состава ЭБ,
разработку системы метаданных и другие вопросы;
создание телекоммуникационного, программного, технологического и лингвистического обеспечения;
формирование электронного информационного ресурса и создание частных ЭБ как
составляющих ЭБР.
Антопольский Александр Борисович, Директор НТЦ “Информрегистр”
Вигурский Константин Борисович, зам. директора НТЦ “Информрегистр”
Научно-технический центр «Информрегистр» Государственного комитета Российской Федерации по телекоммуникациям (НТЦ «Информрегистр») был создан в декабре
1992 г. как специализированная государственная организация по учету информационных
ресурсов.
За время существования НТЦ «Информрегистр» его сотрудниками были выполнены следующие основные работы:
 сформирован и ведется электронный каталог баз и банков данных России, на основе
которого подготовлены и изданы шесть (ежегодно) выпусков печатного каталога;
1~7~6
EVA’99-Москва
А.Б.Антопольский ~ К.В.Вигурский





подготовлены и изданы типографским способом два выпуска каталога «Российские
электронные издания», третий выпуск готовится к печати;
разработан ряд государственных и отраслевых стандартов в области информатики;
проводились аналитические исследования российских информационных ресурсов,
подготовлены и опубликованы два выпуска Национального доклада «Информационные ресурсы России»;
подготовлены и выпущены электронные научные издания на CD-ROM «Классификационные системы» и «Информ-Норматив» (нормативные документы в области
информатики, библиотечного дела и вычислительной техники);
завершается комплекс работ по созданию универсальной информационной системы
для электронных изданий, посвященных русской классической литературе.
1~7~7
Скачать