Воронежский государственный университет Факультет компьютерных наук Кафедра информационных систем Введение. Проблема информационного поиска Информационно-поисковые системы. Сычев А.В. 2006 г. 1 Проект “How Much Information” http://www2.sims.berkeley.edu/research/project s/how-much-info-2003/) Цель проекта: оценка объемов производимой в мире информации в год. Информационно-поисковые системы. Сычев А.В. 2006 г. 2 Проект “How Much Information. 2003”. Объемы производимой информации Носители информации 2002 г., верхняя оценка, в ТБ 2002 г., нижняя оценка, в ТБ Бумажные 1634 327 1200 240 36 Пленочные 420254 76690 431690 58209 -3 Магнитные 4999230 3416230 2779760 2073760 80 Оптические 103 51 81 29 28 ВСЕГО: 5421221 3416281 3212731 2132238 69 1999-2000 гг., верхняя оценка, в ТБ 1999-2000 гг., нижняя оценка, в ТБ Информационно-поисковые системы. Сычев А.В. 2006 г. Изменение верхней оценки, в % 3 Проект “How Much Information”. Суммарное годовое потребление информации жителями США 1992 г., часов Раздел 2000 г., часов 2000 г., МБайт Изменение, % Телевидение 1510 1571 3142000 4 Радио 1150 1056 57800 -8 Музыкальные записи 233 269 13450 15 Газеты 172 154 11 -10 Книги 100 96 7 -4 Журналы 85 80 6 -6 Домашнее видео 42 55 110000 30 Видео игры 19 43 21500 126 Интернет 2 43 9 2050 ВСЕГО: 3324 3380 3344783 Информационно-поисковые системы. Сычев А.В. 2006 г. 1.7 4 Выводы Ежегодный мировой объем производимой информации увеличивается экспоненциально. Доля информации на цифровых носителях с каждым годом увеличивается по сравнению с аналоговыми носителями. Суммарное годовое потребление информации пользователями остается постоянной величиной. Информационно-поисковые системы. Сычев А.В. 2006 г. 5 Проблема Ежегодно увеличивается экспоненциальный разрыв между объемом производимой информации и её потреблением конечными пользователями Информационно-поисковые системы. Сычев А.В. 2006 г. 6 Подходы Автоматизация средств поиска нужной конечному пользователю информации. Разработка средств адресной доставки потенциально востребованной информации конечным пользователям. Информационно-поисковые системы. Сычев А.В. 2006 г. 7 Жизненный цикл информационного ресурса Становление ресурса Каталогизация Автоматическое индексирование Канонизация поисковых сервисов Угасание ресурса Информационно-поисковые системы. Сычев А.В. 2006 г. 8 Средства навигации для текстовой информации: этапы становления Ранняя • • • история Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для составления конкорданса ключевых слов к Библии Журнальные индексы (Королевское научное общество, 1600-е) Информационно-поисковые системы. Сычев А.В. 2006 г. 9 Библиотечные поисковые системы Применение информационного поиска в библиотеках Первый этап • Автоматизация традиционных технологий (карточных каталогов) • Поиск по автору и названию Второй этап: • Тематический поиск, ключевые слова В настоящее время: • Развитый графический интерфейс • Электронные формы • Гипертекст • Открытая архитектура Информационно-поисковые системы. Сычев А.В. 2006 г. 10 Информационный поиск: этапы становления Термин “Information Retrieval” (информационный поиск) был введен в употребление Кельвином Муерсом (Calvin Mooers) в 1952 г. Информационно-поисковые системы. Сычев А.В. 2006 г. 11 Информационный поиск: этапы становления 1958 1960 1961 1965 1968 1972 1976 1980 1981 Исследование статистических свойств языка (Luhn) Вероятностное индексирование (Maron & Kuhns) Ассоциирование терминов и кластеризация (Doyle) Модель векторного пространства (Salton) Расширение запросов (Roccio, Salton) Статистическое взвешивание (Sparck-Jones) Взвешивание по релевантности (Robertson, Sparck Jones) Нечеткие множества (Bookstein) Вероятности без обучения (Croft) Информационно-поисковые системы. Сычев А.В. 2006 г. 12 Информационный поиск: этапы становления 1983 1983 1985 1987 1990 1991 1992 1992 1994 1998 Линейная регрессия (Fox) Вероятностные завсисмости (Salton, Yu) Модель обобщенного векторного пространства (Wong, Rhagavan) Нечеткая логика и РУБРИКА/ТЕМА (Tong, и др.) Латентное семантическое индексирование (Dumais, Deerwester) Полиномиальная и логистическая регрессия (Cooper, Gey, Fuhr) TREC (Harman) Сети вывода (Turtle, Croft) Нейронные сети (Kwok) Языковые модели (Ponte, Croft) Информационно-поисковые системы. Сычев А.В. 2006 г. 13 Исторические исследовательские документально-поисковые системы Вероятностное индексирование (Maron, Kuhns 1960) SMART – Г.Сэлтон (Gerard Salton) – Модель векторного пространства, 1970-е годы. • • http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613salton.pdf ftp://ftp.cs.cornell.edu/pub/smart/ I3R – Крофт. Cheshire I (1990) TREC – 1992. Inquery - http://citeseer.ist.psu.edu/update/26307 Cheshire II (1994) - http://cheshire.berkeley.edu/ MG - Managing Gigabytes (1995) - http://www.cs.mu.oz.au/mg/oldversions/ Lemur (2000) - http://www.lemurproject.org/ Информационно-поисковые системы. Сычев А.В. 2006 г. 14 Литература Проект “How Much Information” (http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/) Larson R. “Principles of Information Retrieval”. Слайды (http://www.sims.berkeley.edu/academics/courses/is240/s06/) Талантов М. Профессиональный поиск в Интернете: полнота, достоверность, скорость. - Компьютер-Пресс. 1999, № 7. (http://compress.ru/Archive/CP/1999/7/13/ ) Информационно-поисковые системы. Сычев А.В. 2006 г. 15