Лекция 11. Поисковые системы Интернет как корпусные менеджеры. Специализированные корпусные интерфейсы к индексам глобальных поисковых систем. В. П. Захаров Проблемы создания корпусов Отбор и подготовка текстов Репрезентативность Хронологические рамки Разметка Разные задачи разные типы корпусов Трудоёмкость Специализированное программное обеспечение (corpus managers) Лекция 2 Корпусная лингвистика 2 Web как корпус Интернет – огромный справочник, всемирная библиотека, всемирный архив текстовой информации ► Объем: более 15 млрд. страниц ? ► Удваивается каждые 10 – 12 мес. ► Любые типы текстов ► Разные языки ► Динамика Но: ► Проблема метаинформации ► Проблема поисковых средств Лекция 2 Корпусная лингвистика 3 Поисковые системы как корпус-менеджеры Лекция 2 Корпусная лингвистика 4 Поисковые системы как инструмент лингвистического анализа Наиболее важными с точки зрения лингвистического анализа текстового материала представляются следующие особенности ИПС: работа со словоформами (лемматизация, «узнавание» точной формы); поиск слов с заданным или произвольным усечением, как правым, так и левым; индексирование полных текстов в полном объеме без исключения; работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования; различение больших и малых букв. Лекция 2 Корпусная лингвистика 5 Возможности поисковых систем для получения лингвостатистических данных о частоте Лекция 2 Корпусная лингвистика 6 Примеры лингвистических "изысканий" "броузер" или "браузер" "Яндекс": статистика слов: броузер: 472847, браузер: 997666; запросов за месяц: броузер: 2150, браузер: 5335. "офсайд" или "оффсайд" "Яндекс": "офсайд": 27168 словоупотреблений "оффсайд": 9867 словоупотреблений Лекция 2 Корпусная лингвистика 7 Еще примеры: Частота употребления отдельных лексем в Интернете Лекция 2 Корпусная лингвистика 8 Яндекс Лекция 2 Корпусная лингвистика 9 Языки запросов Яндекс: "изучение языка« Результат поиска: страниц — 61986, сайтов — не менее 1601 Запросов за месяц: изучение — 44683, языка — 504379. Всё для изучения языка программирования Турбо Паскаль "изучение языков Результат поиска: страниц — 179618, сайтов — не менее 1620 Запросов за месяц: изучение — 44683, языков — 505059. Изучение языков в Интернете: лучшие методики и пособия изучение /1 языка Результат поиска: страниц — 373814, сайтов — не менее 1479 Запросов за месяц: изучение — 44683, языка — 504379. Лекция 2 Изучение языков в Интернете: лучшие методики и пособия Всё для изучения языков программирования изучение /2 языка Изучение английского языка … Изучение иностранных языков в Интернете: лучшие методики и пособия Корпусная лингвистика 10 Языки запросов Google Результаты 1 - 10 из примерно 383 000 для изучение языка. Результаты 1 - 10 из примерно 177 000 для изучение языков. Результаты 1 - 10 из примерно 30 900 для "изучение языка". Результаты 1 - 10 из примерно 20 400 для "изучение языков". Результаты 1 - 10 из примерно 93 800 для "изучение * языка". Результаты 1 - 10 из примерно 28 600 для "изучение * языков". Лекция 2 Корпусная лингвистика 11 Дальнейшие возможности Грамматический поиск по образцам Ограничение области поиска определенными формальными признаками: Лекция 2 вид информации страна язык время домен и др. Корпусная лингвистика 12 Выводы: В случае отсутствия подходящего корпуса определенные лингвистические данные можно получить из Интернета. И в ряде случаев результаты будут даже более представительны, чем на базе специализированных корпусов. Лекция 2 Корпусная лингвистика 13 WebCorp Лекция 2 Корпусная лингвистика 14 WebCorp – входной интерфейс(1) Лекция 2 Корпусная лингвистика 15 WebCorp – входной интерфейс(2) Лекция 2 Корпусная лингвистика 16 WebCorp – входной интерфейс(3) Лекция 2 Корпусная лингвистика 17 Google: изучение … языка Лекция 2 Корпусная лингвистика 18 WebCorp: изучение … языка WebCorp output for search term “изучение * языка” Producing output... http://lib.sportedu.ru/press/tpfk/2003n5/p57-60.htm Document Dated: 2004/04/23 15:50:34 (server header) Plain Text Word List 2241 tokens, 1186 types информационного обеспечения в отрасли, углубленное изучение иностранного языка, расширение перечня изучаемых прикладных управленческих http://sokhnut.narod.ru/NAALE/Naale.htm Document Dated: 2002/08/06 15:16:51 (server header) Plain Text Word List 219 tokens, 169 types владеть же ивритом и продолжить изучение английского языка вам помогут специальные молодежные программы http://omzg.sscc.ru/www.citforum.ru/win/programming/prg96/94.shtml Document Dated: 1997/12/30 03:03:00 (server header) Plain Text Word List 5214 tokens, 2299 types путей создания тестов является глубокое изучение стандарта языка С++, в ходе которого выявляются Statistics: Using the Google search engine WebCorp accessed 20 web pages, 3 of which returned errors. 5 concordances were generated. Лекция 2 Корпусная лингвистика 19 WebCorp: изучение … … языка WebCorp output for search term “изучение * * языка” Producing output... http://195.50.4.30/~littc/html/confer/publ/97/lang_97/part3.htm Document Dated: 1999/12/28 11:40:15 (server header) Plain Text Word List 2170 tokens, 1132 types изучаемого языка, б) долгосрочная — изучение и использование языка в общении. Язык является отражением http://www.ukrbiz.net/eng/pr/7146/ Document Dated: 2005/05/31 13:23:58 (server header) Plain Text Word List 527 tokens, 373 types Кроме того, институт предлагает студентам изучение второго иностранного языка. СТАЖИРОВКИ. Летние школы в зарубежных Sort Options Alphabetise concordance lines on :Position:Case Sensitive? : Sort by Date: Statistics Using the Google search engine WebCorp accessed 7 web pages, 2 of which returned errors. 2 concordances were generated. Лекция 2 Корпусная лингвистика 20 WebCorp: [run] WebCorp output for search term “r[u|a]n[ning|s|]” http://www.imdb.com/title/tt0130827/ Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 980 tokens, 607 types kann. (more) Plot Outline: Lola runs. To save her boyfriend's life his immediate death. Lola starts running immediately thinking of a million in her life and she runs and runs..... The quality of life and she runs and runs..... The quality of cuts and http://www.chirunning.com/ Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 582 tokens, 331 types matters 'crucial to improving my running' I knew I had stumbled revolutionary book to hit the running community this decade. It will is revolutionizing the sport of running. Success Stories Hi I Now a 12 mile trail run is fun! Keep up the Лекция 2 Корпусная лингвистика 21 The Linguist's Search Engine Use the Linguist's Search Engine Log in to the Linguist's Search Engine You can use login: guest password: guest if you do not wish to register. Register to use the Linguist's Search Engine You should register for an account if you want to build your own collections User's Guide Also available in PDF format. Project Information Information on the Linguist's Search Engine. Includes a Getting Started Guide. Лекция 2 Корпусная лингвистика 22 Developing Linguistic Corpora: a Guide to Good Practice /Edited by Martin Wynne Preface Martin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK) Chapter 1 Corpus and Text: Basic Principles John Sinclair (Tuscan Word Centre) Chapter 2 Adding Linguistic Annotation Geoffrey Leech (Lancaster University) Chapter 3 Metadata for Corpus Work Lou Burnard (University of Oxford) Chapter 4 Character Encoding in Corpus Construction Anthony McEnery and Richard Xiao (Lancaster University) Chapter 5 Spoken Language Corpora Paul Thompson (University of Reading) Chapter 6 Archiving, Distribution and Preservation Martin Wynne (University of Oxford) Appendix to chapter one: How to make a corpus John Sinclair (Tuscan Word Centre) Корпусная лингвистика Лекция 2 Bibliography 23