Лекция 7. Корпусный менеджер как поисковая система В.П. Захаров Санкт-Петербургский государственный университет Лингвистические поисковые системы: корпусные менеджеры и конкордансеры Лекция 7 поиск конкретных словоформ и вывод результатов в виде конкорданса; поиск словоформ по леммам; поиск группы словоформ в виде разрывной или неразрывной синтагмы; поиск словоформ по набору морфологических признаков; отображение информации о происхождении, типе текста и т.п.; вывод результатов поиска с указанием контекста заданной длины; получение различных лексико-грамматических статистических данных; сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др. Корпусная лингвистика 2 Конкорданс Конкорданс – список контекстов, где искомая единица представлена в ее лексическом окружении и характеризуется набором статистических данных. В простейшем случае представляет собой алфавитный список слов в тексте с теми контекстами, в которых они встречались. Пример конкорданса (KWIC – Key Word In Context) для слова “poor”: taste it is that such poor cattle always have in their mouths of sparing the poor child the inheritance of any part of small property of my poor father, whom I never saw--so long desolate, while your poor heart pined away, weep for it Miss, if the poor lady had suffered so intensely the love of my poor mother hid his torture from me Лекция 7 Корпусная лингвистика 3 Программы-конкордансеры Concordance; MicroConcord; MonoCorc; TACT (Text Analysis Computing Tools); TACTWeb; SARA Лекция 7 Корпусная лингвистика 4 MicroConcord (http://www1.oup.co.uk/oup/elt/software) MicroConcord может строить лишь KWIC, но довольно быстро. DOS-интерфейс. Пользователь определят КС (строка запроса), текстовые файлы, в которых должен производиться запрос, положение слова в предложении. Программа отображает имя каждого обработанного файла, количество вхождений КС. Существует возможность просмотра конкорданса в режиме прокрутки (scrolling), несколько режимов сортировки выдаваемого материала, просмотр полного текста для каждого вхождения КС в отдельном окне, сохранение в файл и печать результатов. MicroConcord поддерживает европейские языки. Ограничения: невозможно запросить полный конкорданс; число выдаваемых строк ограничено (1662 на компьютере исследователя). Лекция 7 Корпусная лингвистика 5 Concordance (http://www.rjcw.freeserve.co.uk/) Лекция 7 Обладает высокой скоростью поиска. Возможен вывод результатов на печать. Существует поддержка большинства европейских языков. Может преобразовывать полный конкорданс в html-файл. Корпусная лингвистика 6 Concordance (2) Лекция 7 Корпусная лингвистика 7 MonoConс (http://www.camsoftpartners.co.uk/) Способен создавать KWIC и полные конкордансы; сортировать полученные списки по правому и левому контексту; работать с аннотированными корпусами (форматы html и xml); создавать сложные запросы по шаблонам (часть слова, позиция слова в предложении, поиск внутри тэгов и т.д.); просматривать контекст КС в отдельной области окна программы, получать частотные данные. Лекция 7 Корпусная лингвистика 8 MonoConс Лекция 7 Корпусная лингвистика 9 От конкордансеров к корпусным менеджерам Простой конкордансер может построить конкорданс отдельных слов, словосочетаний, частей слов, знаков пунктуации и т.д. в контекстном окружении. Но более сложные программы способны строить полные конкордансы, включающие в себя не только слова, но и другие элементы корпуса. Это лемма и морфологические характеристики слова; позиция слова в предложении и в структуре размеченного текста (HTML, XML); библиографические и типологические признаки документа, из которого выбран контекст (автор, название, источник, год издания, тип текста и т.д.); статистические данные и многое другое. Программы такого рода получили название ‘corpus manager’. Лекция 7 Корпусная лингвистика 10 Корпусные менеджеры Корпусным менеджером (или корпусменеджером) (англ. corpus manager) называют специализированную поисковую систему управления текстовыми и лингвистическими данными, которая включает программные средства для поиска в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. • • • • • • Лекция 7 Bonito; CQP; DDC; WebCorp; Xaira ... Корпусная лингвистика 11 Корпусный менеджер как поисковая система Формальная релевантность Информационно-поисковый язык фактографического типа НО: умение работать с лексемами и словоформами. Операции над запросами. Сравнение с архитектурой поисковых систем в сети Интернет: роботы, программы загрузки индексов, собственно поисковые системы, с которыми работают пользователи. Их автономность (распределенность) и взаимосвязь. Аналогичная картина в корпусах. Лекция 7 Корпусная лингвистика 12