Электронные коллекции и проблемы биоразнообразия Коропачинский И.Ю., Шокин Ю.И., Шумный В.К., Байков К.С., Ермаков Н.Б., Федотов А.М., Колчанов Н.А. Центральный сибирский ботанический сад СО РАН Институт вычислительных технологий СО РАН Институт цитологии и генетики СО РАН Электронные коллекции Доклад посвящен описанию работ, проводимых в Сибирском отделении РАН по программе “Электронная библиотека Сибирского отделения РАН” в рамках междисциплинарного проекта Отделения 66 “Фундаментальные проблемы биоразнообразия и динамики экосистем” и проекта РФФИ “Электронный атлас Биоразнообразие животного и растительного мира Сибири”. Проекты связаны с построением универсальной информационной системы, для поддержки работ в области изучения биоразнообразия и динамики природных экосистем и создания электронных коллекций. Электронные коллекции Мировая практика показывает, что для разработки теоретической базы по сохранению биоразнообразия необходимо решение нескольких принципиальных задач: экспериментальное и теоретическое изучение собственно биоразнообразия природных экосистем как природного явления; накопление и поддержка получаемой информации о природных объектах в информационных хранилищах и базах данных; разносторонний информационнокомпьютерный анализ этих данных. Электронные коллекции В информационном аспекте биоразнообразие характеризуется как иерархическая система понятий, тесно связанная с уровнями организации живой материи в целом. Основным элементом информации на каждом уровне этой иерархической системы выступает конкретный биологический объект (конкретный организм или его генотип, популяция, таксономическая единица, сообщество, биохора и т.д.), который наблюдается в природе и описывается по определенным “правилам”'. Поэтому любые теоретические или прикладные задачи по сохранению биоразнообразия начинаются с его инвентаризации. Разнообразные биологические коллекции (гербарии, коллекции животных, документированные описания растительных и животных сообществ, флор, ареалогические данные и т.п.) составляют элементы инвентаризации биоразнообразия. Электронные коллекции За многие годы исследований в Институтах биологического профиля СО РАН накоплены огромные объемы данных по природным экосистемам и биоразнообразию растительного и животного мира Сибири. Коллекции оригинальных данных отражают определенные стороны организации и динамики биоразнообразия не подвержены моральному устареванию. Однако существующие коллекции как правило замкнуты на решении частных проблем и не образуют единую систему знаний о биоразнообразии обширного региона Сибири. Большая часть этой информации хранится в лабораторных журналах исследователей, практически недоступна для всестороннего информационного анализа, к тому же фактически может быть безвозвратно утеряна в самое ближайшее время, если не будут приняты меры по ее сохранению. Зачастую жизненный путь коллекции заканчивается с “уходом” ее создателя. Электронные публикации Электронная публикация биологических данных или биологической коллекции представляет собой новую форму хранения, обмена информацией и накопления знаний о биологическом разнообразии планеты. Для нее характерны прежде всего динамичность (возможность обновления или актуализации) и глобальный доступ (через компьютерные сети). На сегодняшний день электронные публикации не преобладают в общем объеме опубликованных информационных ресурсов, но их доля непрерывно возрастает. В ближайшем будущем электронные публикации должны стать доминирующими в мировом информационном пространстве. Основные цели Создание банков данных и электронных коллекций описания биоразнообразия и динамики экосистем; Создание онтологии биоразнообразия животного и растительно мира и динамики экосистем; Создание банка по информационному и компьютеномому моделированию биоразнообразия и динамики экосистем (модели, алгоритмы, методы и т.д.); Создание распределенной информационной системы “Биоразнообразие и динамика экосистем”. Электронный атлас Электронный атлас Электронный атлас В настоящий момент разрабатываютя общие подходы по систематизации и сохранению разнородной ботанической и экологической информации, а так же вопросы интегрирации этой информации в Геоинформационную систему (ГИС) и организации доступа через сеть Internet к массивам данных материалов и коллекций. Электронный атлас Основные источники информации -- данные собранные исследователями в течении нескольких десятилетний в биологических институтах отделения, научные журналы, монографии, учебники, материалы, хранящиеся в зоологических музеях и гербариях, а также результаты экспериментальных исследований и полевые журналы экспедиций. В рамках библиотеки создаются базы данных со средствами поиска по важнейшим группам растений и растительных сообществ. В частности, баз данных Флора Сибири, Редкие виды растений Сибири, Охраняемые природные территории, Определители таксономической принадлежности, Лекарственные растения, Природно очаговые болезни, Генофонд с/х растений и животных и др. Уровни информации: Уровень индивидуального живого организма (индивид, генотип индивидуума). Элементарной базовой информационной единицей о биологическом разнообразии является документальное описание реально существующих биологических объектов и их поведения в природе. Сбор этой информации осуществляется путем дневниковых записей полевых (или лабораторных) наблюдений и измерений, фотографирования, а также и путем составления собственно коллекций растений (гербария) и животных. На данном информационном уровне особую роль играют эталоны растительного и животного мира (типовые экземпляры таксономических единиц, типичные особи для региона, экосистемы и т.д.). Уровни информации: Популяционный уровень (ценопопуляция, генетическая популяция, географическая популяция). В основе данного уровня лежит демографическое понятие - популяция. Существует несколько типов популяций (ценопопуляции, географические популяции, экотопические популяции, генетические популяции и т.д.), однако в информационном плане популяция есть первый уровень обобщенной информации о совокупности биологических индивидуумов, объединенных в группу по тем или иным признакам. Уровни информации: Видовой уровень. Видовой уровень биоразнообразия является основным наряду с экосистемным уровнем для оценки (и прежде всего инвентаризации) биоразнообразия в целом. В центре данного уровня находится понятие вида как важнейшей биологической единицы. Информационные систем (базы данных) всех уровней содержат в качестве уникальной основы списки видов для той или иной территории. Данный уровень имеет тесную связь с двумя предыдущими уровнями (в том числе и непосредственную с каждым уровнем отдельно). Уровни информации: Экосистемный уровень - биологических сообществ. Важнейшим элементом организации данных, например, о растительном покрове является оценка уровней геоботанической информации. Выявляется два таких основных уровня: Уровень информации о конкретном растительном сообществе. Основной элемент -- полное описание однородной растительности на определенном участке земной поверхности (документ растительности). Уровень информации о типологических категориях растительности, полученных в результате типизации (классификация) элементов первого уровня (описаний растительности). Основной элемент -- стандартная характеристика синтаксона. Уровни информации: На каждом из информационном уровней решается ряд как научных задач, так и прикладных. Среди последних особо выделяются: оценка глобальных изменений биоты (мониторинг), оценка ресурсного потенциала растительности и сохранение биоразнообразия. Структура электронного атласа разработана таким образом, чтобы максимально охватить все три информационных уровня и отразить особенность потоков информации между ними. Наука о растительном и животном мире тесно связана с географией, потому что ее основной объект, например, растительное сообщество -- реально существующая часть поверхности Земли. Поэтому разработка электронного атласа на всех информационных уровнях поддерживается связью с геоинформационными системами. Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас Электронный атлас В настоящий момент на этих БД отрабатываются основные технологические подходы для создания электронного атласа и создания автоматически актуализируемых баз данных биологических видов на основе системы классификаторов, а также поддержка распределенной работы и кооперации исследователей, находящихся в разных регионах. Составляющими электронного атласа являются тематические связанные базы данных (БД), содержащие информацию уникальных коллекций и фондовых материалов, литературные данные по биоразнообразию растительного и животного мира Сибири. Основные разделы электронной библиотеки содержат эталонные названия таксонов, информацию о видовом разнообразии и разнообразии сообществ, данные о видах, имеющих ресурсную ценность (ресурсное разнообразие), информацию по природоохранной тематике и интродукции видов. Электронный атлас Основой атласа являются уникальные коллекции и массивы данных по биоразнообразию растительного мира Сибири. Так, в гербариях ЦСБС хранится около 310 тыс. образцов высших сосудистых растений, собранных на территории Сибири, в числе которых и уникальные типовые образцы. Имеются коллекции мхов, грибов, лишайников, низших растений. В фитоценотеке хранятся материалы более чем 10 тыс. описаний разнообразных растительных сообществ. Собрание древесных растений ЦСБС насчитывает около 800 видов, гибридов и форм, что в 2.5 раза превышает количество видов дендрофлоры Сибири. Уникальна информация по интродукционным испытаниям более 2000 видов, гибридов и форм, из которых 136 рекомендовано к использованию в Южной Сибири. Ценные данные содержат полевые дневники исследователей. Проблемы электронных публикаций Публикация биологических данных в электронном виде принципиально не отличается от электронной публикации других данных, но имеет некоторые особенности: большой объем текстовой и графической информации, географическая привязка данных к местности, слабая формализация описательных данных, зависимость системы сбора информации от конкретного исследователя и ряд других. Несмотря на кажущуюся очевидность преимуществ электронный публикации над обычной -- широкое применение электронных публикаций биологических данных имеет некоторые проблемы, которые зависят от ряда причин. Проблемы электронных публикаций Прежде всего, традиционно сложившаяся схема исследований, ориентированная на бумажные носители информации, а также профессиональные трудности в освоении вычислительной техники и недостаток технических средств. Существует пока непреодолимая боязнь потери данных на магнитных носителях, с одной стороны, и боязнь потери контроля над данным, с другой стороны -- Все данные и описания в биологии имеют авторство. Негативную роль играет недостаточное знание современных информационных технологий и методов представления и анализа информации. Проблемы электронных публикаций Необходимо: Осознание биологами новых возможностей представления данных, доступа к данным и обмена данными, возникающих при их опубликовании в электронном виде: цветные иллюстрации, многовходовый доступ, развитая поисковая система, оформление перекрестных ссылок, географическая привязка данных с использованием геоинформационных систем, обеспечение связи с другими информационными ресурсами по данной тематике и др. Осознание авторами крупных проектов, таких как коллективные "Флоры" и "Фауны", принципиально новых возможностей создания коллективных монографий в режиме удаленного доступа. Проблемы электронных публикаций Необходимо: Представление о том, что по завершении работы готовый продукт автоматически становится валидной публикацией, которую можно включать в список опубликованных работ и делать на нее ссылки. Разработка новых, более эффективных программных средств организации и хранения разнородной биологической информации, удобного и быстрого доступа к ней (дружественный интерфейс), автоматизация поиска и анализа информации, создание экспертных систем, помогающих исправлять ошибки и генерировать новую информацию по имеющимся данным. Проблемы электронных публикаций Необходимо: Администрирование баз данных с оформлением прав доступа к информации по схеме пользователь (только чтение), автор (изменение и дополнение информации), администратор (изменение структуры данных), системный администратор (создание и изменение таблиц), защита данных от несанкционированного доступа, документирование работы каждого пользователя. Привлечение к совместной работе широкого круга специалистов из других городов и стран. Структура системы Информационная система спроектирована как централизованно-распределенное хранилище данных. Основной единицей хранения в системе является коллекция. Ядром системы является центральный диспетчер и сервер метаданных, который хранит всю информацию о структуре электронных коллекций, пользователях и представляет пользователю основные интерфейсные модули. Содержательная (фактографическая) информация может хранится на любом сервере в сети Интернет под управлением СУБД. Для ``больших объектов'' (иллюстрации или таблицы с метрологической информацией предусмотрена возможнось их хранения в файловой системе HTTP или FTP сервера. Доступ к фактографической информации осуществляется либо напрямую через TCP/IP порт при помощи SQL запросов, либо через сервер Z39.50. В дальнейшем предусматривается возможность хранения информации в файловой системе на основе технологии LDAP. Основной принцип построения информационной системы заключается в организации доступа к информации через WWW сервис Internet. Web Сервер Хранилище данных СУБД Сервер данных Internet/Intranet Сервер метаданных Web клиент Web клиент Web клиент Web клиент Информационная система СО РАН Хранилище данных (центральный диспетчер) Сервер обработки запросов SQL для доверительных БД Сервер Z39.50 Серверы метаданных Серверы каталогов HTTP(FTP)-SQL шлюз БД БД SQL-БД SQL-БД ODBC Локальные БД HTTP БД Стуктура ядра системы Центральный диспетчер База данных пользователей Библиотека интерфейсных модулей Сервер мета данных Сервер баз данных Библиотека исполняемых модулей Структура системы Публичный доступ предоставляется любому пользователю Интернет. При этом типе доступа пользователь имеет возможность просматривать документы, открытых для просмотра коллекций, осуществлять простой или квалифицированный поиск документов в отдельных коллекциях. Служебный доступ предоставляется пользователю при условии обязательной регистрации в системе (базе данных пользователей) и подразделяется на два уровня: простой и эксперт. Простой - дополнительно позволяет пользователю создавать (путем выбора) и просматривать таблицы с метрологическими данными, экспортировать их на свою машину в виде CSV или DBF файлов, а также посматривать документы, закрытые для публичного просмотра, и запускать программы анализа данных из библиотеки исполняемых модулей. Эксперт - позволяет дополнительно организовывать выборки из нескольких коллекций. Структура системы Административный доступ - предоставляется пользователю при условии обязательной регистрации в базе данных пользователей и регистрации в системе машины с которой он работает. Данный тип доступа подразделяется на уровня: администратор системы, администратор группы коллекций, администратор коллекции и простой. Простой доступ - позволяет пользователю создавать новые документы и редактировать ранее созданные им же документы. Администратор коллекции дополнительно может менять метаописание и структуру своих коллекций и документов в своих коллекциях, а также права простых пользователей на отдельные документы и свои коллекции. Администратор группы коллекций дополнительно может завести в системе новую коллекцию, а также права пользователей нижних уровней на документы и свои коллекции. Администратор системы дополнительно может зарегистрировать новую СУБД или сменить ее метаописание. Электронная библиотека Электронный атлас Технологические решения Для заполнения информационных полей в атласе реализована связь с вспомогательными таблицами, часть из которых интегрированна в общую информационную среду Электронной библиотеки Сибирского отделения РАН: Авторы (научные сотрудники) Организации и институты Эталонные списки видов Словари основных понятий и т.д. Электронный атлас Электронный атлас Технологические решения В основу технологии создания электронных коллекций биологических документов положена Интернеттехнология и разрабатываемая система Динамического формирования документов. В основу создания электронных коллекций положена концепция динамических документов, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками или описаниями, как его использовать, и атрибутами (наподобие тому, как это принято в объектных языках программирования). Технологические решения При этом выделяются три основных типа объектов, характеризующих документ: объект-заголовок (HEADER, FOOTER), описывающий внешний вид документа, при выдаче его пользователю; информационный-объект, содержащий фактическую информацию (текст, список, таблица, графика, измерения и т.п.) вместе с ее описанием; навигационный-объект, описывающий гипертекстовые связи между отдельными документами или объектами. Каждый документ это набор (список) объетов, отметим, что в качестве объекта может выступать документ или ссылка на документ (объект). Технологические решения Информационные объекты подразделяются на простые объекты (объекты, которые не имеют связей с другими коллекциями документов или с другими документами) и сложные объекты (объекты, которые такие связи имеют). Создание любой электронной коллекции основывается на информационной структуре данной коллекции документов. Поэтому каждый информационный объект должен в своем описании нести "полную характеристику" как его "использовать". Для занесения в электронную коллекцию фактографической информации, последняя подлежит паспортизации - формальному описанию структуры объектов, составляющих документы. Динамическая система формирования документов Объектная модель документа Поиск информации Формирование документа SGML HTML PS(PDF) TeX PTF Документ Объект Список объектов: Объект -> Типы объектов: простые type сложные meta Простой объект: echo строка link текст таблица Сложный объект: объект документ ссылка Технологические решения Технологические решения Разработанная технология позволяет оперативно управлять и актуализировать информацию, хранящуюся в разнородных и распределенных по сети базах данных, организовать гибкий поиск, что самое главное создать достаточно удобный интерфейс для ее наполнения. Технологические решения Коллекция: метаинформация, стиль Документ: метаинформация, стиль Система имеет трехуровневую структуру описаний: ОБЪЕКТ: метаинформация Технологические решения Электронная коллекция в нашем понимании - это набор документов, которые содержат фактографическую информацию имеющую одинаковое формальное описание структуры. Работа с любой электронной коллекцией разделяется на две части: работа с описаниями коллекции и документов (работа с метаинформацией) и работа с содержательной частью коллекции (работа с фактографической информацией). Коллекция: набор однотипных документов -- характеризуется своим описанием и стилем коллекции, а также описанием структуры, входящих в нее документов. Документ: характеризуется своим описанием и стилем документа, а также описанием характеристик (атрибутов, свойств и функций) объектов его составляющих. Объект: определяется заданием типа объекта и описанием его атрибутов, свойств и функций. Технологические решения Структура информационного объекта представлена в следующей таблице: атрибут Тип Значение Свойства Функции назначение тип объекта информационная (фактографическая) часть объекта метаописание объекта характеристика определяет способ работы с объектом может отсутствовать название, способ выдачи, и т.п (см. ниже) использование исполняемых способ поиска, навигация, модулей связи, статистика и т.п. Технологические решения Метаобъекты NULL - разделитель или метаинформация в документе (в нотации XML); FUNCTION: функция (шаблон) от значений одного или нескольких объектов в данном документе. LINK: описание ссылки на объект или документ. TABLE: данный объект по существу является ссылкой с обратной связью (в отличие от типа NULL) на другую таблицу документов, что позволяется создавать в системе иерархические структуры, функции данного объекта зависят от значений других объектов; Стандартные типы -- поддерживаемые СУБД: STRING: значение -- формализованный (строго структурированный) текст; TEXT: значение -- неструктурированный текст; DATE: значение -- дата. Технологические решения Полустандартные типы: SELECT: выбор из списка, значение -- формализованный (строго структурированный) текст; MULTSELECT: выбор из таблицы или из другой коллекции; NUMBER: числовой тип, значение -- число с фиксированной точкой. ARIAL: пространственная информация (координаты точек или описания контуров). Нестандартные типы: PHOTO: иллюстрации (gif или jpeg), иллюстрации хранятся в файловой системе сервера, а в системе хранится только описание иллюстрации и ее свойства, значение -подпись к рисунку; LIST: список или простая таблица, значение -- CSV или DBF файл, может хранится как в базе данных, так и в файловой системе; Технологические решения Функции объектов Функции объекта, определяются клиентом, и связаны с включения информационной части в поиск (контекстный или специальный), в навигацию (индексацию), экспорта и импорта информации. Функции специального (квалифицированного) поиска информации позволяют: оперативно составлять списки типов сообществ необходимые для инвентаризации биоразнообразия определенных территорий; получать карты распространения (точечные и контурные) типов сообществ различного ранга на любые территории; получать списки видов (с весовыми характеристиками каждого вида) определенных экосистем; Технологические решения Функции объектов оценивать ресурсную значимость определенных типов экосистем; получать списки и ареалы редких и находящихся под угрозой исчезновения сообществ на любой территории; получать разностороннюю информацию об экологических условиях, фитосреде и распространении редких, исчезающих, декоративных, ценных ресурсных видов (по поиску их в составе определенных типах экосистем).