электронных библиотек

реклама
ВИЗУАЛЬНО-МОТИВИРОВАННОЕ
ПРЕДСТАВЛЕНИЕ ЗНАНИЙ В
ЭЛЕКТРОННЫХ БИБЛИОТЕКАХ
НАУЧНЫХ ДОКУМЕНТОВ
И.М. Зацман (ИПИ РАН)
• Введение (концептуальный поиск в
электронных библиотеках)
• Образные знаки электронной библиотеки (и
изображений в ее документах)
• Дескрипторы вербально-образного тезауруса
электронной библиотеки
• Индексирование изображений в научных
документах электронной библиотеки
• Цветовая палитра объектов поиска
1.1 Концептуальный поиск информационных объектов в электронных библиотеках
Licklider в 1962 году сформулировал идею
перехода от соответствия слов к соответствию
концептов, которыми мог бы оперировать
пользователь библиотеки будущего при поиске
необходимых ему сведений, тем концептам,
которые выражены в эксплицитной форме в виде
информационных объектов этой библиотеки.
Концептуальный поиск, то есть поиск на основе
соответствия концептов, является в настоящее
время актуальной и, в общем случае, нерешенной
проблемой и для электронных библиотек, и для
информационных ресурсов WWW.
1.2 Поиск по соответствию слов в ЭБ
Слова
соответствуют?
Документы
Цифровая
форма
научных
документов
Результаты поиска
Электронная библиотека
научных
документов
Запрос
Цифровая
форма
поискового
запроса
1.3 Поиск по соответствию концептов
Концепты
соответствуют?
Документы
Цифровая
форма
научных
документов
Результаты поиска
Электронная библиотека
научных
документов
Цифровая
форма
поискового
запроса
1.4 Три уровня соответствия концептов
Макроконцепты
Мезоконцепты
Пример на слайде 1.5
Знаковые концепты
Три
знака
TOP
OX
COP
Три
знака
РУССКИЙ АНГЛИЙСКИЙ
1.5 Пример семантического тождества
ЕЯ- и образной форм мезоконцепта
Из трех пачек свиты для расматриваемого разреза
приведем вербальное описание второй пачки, состоящей из
нескольких слоев (мощность каждого слоя указана в
метрах).
1. Углисто-кремнисто-глинистые сланцы
- 60м.
2. Алюмофосфаты желтовато-бурые
- 2м.
3. Углисто-кремнисто-глинистые сланцы
- 20м.
4. Углисто-кремнистые
сланцы
темно-серые,
грубоплитчатые с редкими и маломощными прослоями
серых пиритоносных серицитовых сланцев
- 50-75м.
5. Углисто-кремнисто-глинистые сланцы - 30-50м.
Порядок вербального описания: от более древних слоев к
молодым." (Зайцев Ю.А., Хераскова Т.Н., 1979г.).
Визуальные примитивы, используемые на рисунке:
А)
Б)
В)
Г)
А) углисто-кремнисто-глинистые сланцы;
Б) алюмофосфаты; В) углисто-кремнистые сланцы;
Г) пиритоносные серицитовые сланцы.
2.1 Понятие «знака» в семиотике (как
единства его формы и содержания)
1. В семиотике различаются вербальные
(лингвистические) и невербальные знаки.
2. Дорожные информационные
пиктограммы, структурные химические
формулы и картографическая символика,
например, сочетания горизонталей в
топокартах, являются примерами
невербальных знаков.
3. Из всех возможных видов невербальных
знаков в докладе рассматриваются, в
основном, образные (визуальные знаки).
2.2 Понятие «образного знака»
1. В семиотике само понятие “образный знак“
является предметом современных исследований. Их
основная цель заключается в том, чтобы попытаться
определить
единицы
образные
визуальных
знаки
как
форм
элементарные
представления
знаний. При этом часто используется аналогия с
вербальными языками и их базовыми элементарными
единицами в виде вербальных знаков.
2. Под определением, как правило, понимается
определение
образных
знаков
как
составных
элементов визуальных форм представления знаний.
2.3 Элементарные единицы и составные элементы
визуальных форм представления знаний
При использовании понятия «образный знак»
иногда предполагается, что можно определить
систему
знаков
как
элементарные
единицы
(elementary units of pictorial meanings) некоторого
визуального языка, которые являются составными
элементами изображений, а следующие фразы
часто рассматриваются как близкие по смыслу:
элементарные единицы визуальных
форм представления знаний;
составные
элементы
визуальных
форм представления знаний.
2.4 Знаки визуальных языков и образные
знаки изображений в документах
электронных библиотек
В общем случае, то есть для всех
возможных изображений, в семиотике к
концу
прошлого
века
стали
доминировать те концепции, в которых
утверждается то, что невозможно
определить системы образных знаков
изображений также, как определяются
вербальные знаки для построения
текстов на естественных языках.
2.5 Иерархия между процессами
определения и использования образных
знаков изображений в документах
Предлагается в электронных библиотеках
установить отношение иерархии между:
определения
набора
 процессом
образных знаков для изображений в
документах электронной библиотеки;
 процессом вычленения образных знаков
как семантических единиц изображений;
 построением изображений из образных
знаков того набора, который определен в
рамках первого процесса.
2.6 Образные знаки электронной библиотеки (и изображений в ее документах)
Определение Образным
знаком
электронной библиотеки называется
образный дескриптор ее вербальнообразного тезауруса.
Предполагается,
что
документы
электронных библиотек могут включать
изображения, содержание которых может
быть
отражено
образными
знаками
электронной библиотеки полностью или
частично, но эти знаки невозможно
вычленить в этих изображениях и из них
нельзя сконструировать эти изображения.
3.1 Исходные положения для построения систем
образных (визуальных) знаков для индексирования
1. Системы образных знаков специфицируются
для
определенных
тематических
классов
изображений
в
документах
конкретной
электронной библиотеки научных документов.
2. В общем случае, образные знаки как
элементарные единицы визуальных форм
в
электронной
представления
знаний
библиотеке
специфицируются
в
виде
присоединенных, а не составных элементов
изображений в научных документах.
3. В качестве конвенциональной основы для
построения образных знаков электронной
библиотеки
предлагается
использовать
системы научных классификаций объектов и
явлений.
3.2 Образные знаки как дескрипторы вербальнообразного тезауруса электронной библиотеки
1. Образные знаки трактуются как
синонимы
образных
дескрипторов
вербально-образного (ВО) тезауруса
электронной библиотеки.
2. Только
после
включения
в
тезаурус
образных
дескрипторов
появляется
возможность
индексирования и поиска изображений в
научных документах, так как в процессе
индексирования используются только
дескрипторы ВО тезауруса.
3.3 Дескрипторы вербально-образного тезауруса
предлагается строить на основе следующих
положений
тезауруса могут быть и
 образные дескрипторы
мотивированными, и немотивированными;
 дескрипторы имеют одно значение в системе
отношений тезауруса;
 значения образных дескрипторов в электронной
библиотеке научных документов определяются на
основе
систем
семантических
отношений
конвенциональных
научных
классификаций
объектов и явлений;
между
дескрипторами
тезауруса
 отношения
включают
традиционные
для
вербальных
тезаурусов системы связей (предпочтительные,
иерархические, ассоциативные);
 отношения между дескрипторами могут также
включать дополнительные системы связей, которые в
вербальных тезаурусах не встречаются (например,
отношения
генерализации
и
семиотической
4.1 Индексирование изображений как установление
соотношения между ним и дескрипторами ВОТ:
1) Содержательные аспекты изображений в
научных документах должны быть выражены
отобранными дескрипторами и семантическими
отношениями между ними полностью или
частично;
2) Если
отобранный
дескриптор
является
образным, то он может не совпадать с
фрагментами индексируемого изображения;
3) Изображение может включать фрагменты,
содержательные аспекты которых не выражены
отобранными дескрипторами;
4) Отношения
между
отобранными
дескрипторами могут не отражать всю полноту
семантических отношений в изображении.
4.2 Пример индексирования фрагмента карты одним
образным дескриптором ВО тезауруса
(индексирование в примерах выполнено И.В. Земляновым)
Дескриптор (пиктограмма) из системы классификации устьев рек,
приведенной на слайдах
в приложении к докладу.
Образный дескриптор
вербально-образного тезауруса
4.3 Пример индексирования фрагмента карты
тремя образными дескрипторами ВО тезауруса
Идентификатор 1-го дескриптора - IIа
Отношение между отобранными
дескрипторами:
INC («Белое море», IIа, IV, I).
Идентификатор 2-го дескриптора - IV
Идентификатор 3-го дескриптора – I
5 Цветовая палитра объектов поиска
6 Выводы
1. В знаковую систему электронной библиотеки научных
документов предлагается включать следующие наборы
знаков:
вербальные знаки естественных языков,

структурные знаки (математика, химия),

образные (визуальные) знаки,

системы неоднородных знаков.

2. Образные знаки для индексирования и поиска
изображений в документах электронной библиотеки
определяются как дескрипторы вербально-образного
тезауруса на основе конвенциональных научных
классификаций объектов и явлений.
3. Неоднородные знаки предлагается строить как суперпозицию вербальных, структурных и/или образных знаков.
А.1 Адресуемость и отделимость вербальных и
образных знаков компонентов документов
Методы
организации
вербального
поиска
основаны на линейной адресуемости слов в тексте
и их детерминированной отделимости.
Пример 1. В словосочетании "вершина холма"
слова "вершина" и "холм" сохраняют свойство их
детерминированной
отделимости
в
словосочетании и линейно адресуемы.
Пример 2 (из W3C GML). Графические знаки
полигонов, размеченных с использованием GML,
являются
пространственно
адресуемыми
и
детерминированно отделимыми в карте.
А.2 Пример компонента научного документа без
однозначной отделимости его составных элементов
Б.1 Формы представления знаний (в компонентах
научных документов и в общем случае)
В общем случае можно говорить о трех
основных формах и сферах представления
знаний [Eco U., 1976.]:
вербальные знания, которые не могут быть
адекватно переведены в невербальную форму (I
сфера),
невербальные знания, которые не могут быть
представлены в вербальной форме (II сфера),
и та часть знаний, которые могут быть достаточно
адекватно представлены и в вербальной, и в
невербальной
формах
[knowledge
that
is
adequately represented both in verbal form and in
non-verbal form] (сфера синонимии IsII).
Б.2 Пример из сферы синонимии IsII для
невербальной (структурной) и вербальной форм
представления знаний о химическом соединении
Б.3 Типология форм представления знаний в
научных документах (вербально-невербальное и
вербально-структурно-графическое деление)
(a)
I
IsII
II
(b)
I – вербальные формы
IsII
IsIII
IsIIsIII
II - IIsIII III – графические
структурные
формы
формы
Графическая метафора форм представления знаний в
научных документах
(а) вербально-невербальное деление;
(б) вербально-структурно-графическое деление
[отражены 3 вида форм из 7 возможных, т.е на рисунке
нет 4 неоднородных форм представления знаний].
Б.4 Формы представления знаний и вербальнообразный (ВО) тезаурус электронной библиотеки
ImIImIII
I –вербальные формы
ImII
IsIII
IsII
IsIIsIII
II
ImIII
III – графические формы
IIsIII
ImIImIII IImIII - структурно-графические формы
1. Литера "m" в нотациях ImII, ImIII и т.д. от слова
miscellaneous (смешанный) для неоднородных
форм представления знаний в научных документах.
2. 11 сфер представления знаний в электронной
библиотеке и 7 видов дескрипторов ВО-тезауруса.
В.1 Пример образной формы нелинейного
вербализуемого мезоконцепта
Схема сопоставления разрезов (Зайцев Ю.А., Хераскова Т.Н., 1979г.).
В.2 Пример трудно вербализуемого изображения
Schlichtmann H.:
(1982г.)

графические
высказывания как
сочетания
образных знаков
могут быть и
дискретными, и
непрерывными;

отсутствует
линейная
организация в
сочетаниях знаков,
которые не всегда
являются
детерминированно
разделяемыми.
Геологическая схема (Зайцев Ю.А., Хераскова Т.Н., 1979г.).
Г.1 Сравнение процесса индексирования
коммуникативных компонентов научных
документов электронной библиотеки и процесса
отбора ключевых слов научного документа
Характеристики Модальность
Включение
сравнения:
дескрипторов дескриптора как
тезауруса и
части компонента
ключевых
научного документа
слов статьи
(вхождение
ключевого слова в
вокабуляр статьи)
Дескрипторы
Любая
Малая вероятность
вербальносовпадения для
образного
графических
тезауруса
дескрипторов
Ключевые
слова статей
Вербальная
Формы
представления
знаний в
электронной
библиотеке
Вербальные и все
невербальные
формы
Как правило,
Вербальные формы
ключевые слова
и невербальные
входят в вокабуляр формы из области
статьи
семиотической
синонимии
Д.1 Фрагмент системы классификации устьев рек
(Михайлов В.Н. Устья рек России и сопредельных
стран: прошлое, настоящее и будущее. - М.,1997)
I
Простая
IIа
Эстуарная
IIб
IIIа
Эстуарнодельтовая (с
дельтой
выполнения)
IIIб
IV
Дельтовая
без блокирующей
косы
без блокирующей
косы
с блокирующей
косой
без блокирующей
косы
с блокирующей
косой
с дельтой
выдвижения
Д.2 Фрагмент системы классификации устьев
Рис. 1. I - Простая устьевая область без блокирующей косы
Рис. 2. IIа – Эстуарная устьевая область без блокирующей косы
Рис. 3. IIб – Эстуарная устьевая область с блокирующей косой
Д.3 Фрагмент системы классификации устьев
Рис. 4. IIIа – Эстуарно-дельтовая устьевая область без блокирующей косы
Рис. 5. IIIб – Эстуарно-дельтовая устьевая область с блокирующей косой
Рис. 6. IV – Дельтовая (с дельтой выдвижения) устьевая область
Скачать