Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр. 12225 Предпосылки появления Количество данных в электронном виде очень быстро растет Но большая часть информации не несет какой-либо практической пользы Возникает проблема извлечения полезной информации из большого объема «сырых» данных История появления Область Data Mining началась с семинара, проведенного Григорием Пятецким-Шапиро в 1989 году Тогда же было предложено 2 термина – Data Mining и Knowledge Discovery In Data 1994 г. – создан один из первых сайтов по Data Mining Интеллектуальный анализ данных (Data mining) Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Пояснение определения Знания должны быть: Ранее неизвестными Нетривиальными Практически полезными Доступными для интерпретации Постановка задачи У нас есть достаточно крупная база данных В ней есть некие «скрытые» знания Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных Паттерны Паттерн – извлеченное знание Для отсева малополезных паттернов вводится функция полезности Важные характеристики «интересного» знания: Неожиданность Применимость Этапы решения задачи Изучение предметной области Сбор данных Предварительная обработка данных Очистка данных от противоречий и шумов Интеграция данных Преобразование данных Анализ данных Интерпретация найденных паттернов Использование новых знаний Представление данных Информация об измерениях представлена в виде таблиц «объект-свойство» Ученик Средняя успеваемость Возраст Средний заработок в семье Иванов 4.6 18 20000 Шкалы Шкала, формально говоря, это тройка <E, N, g> из следующих элементов: 1) Эмпирическая система E = {A, R}, где A – множество объектов, а R – множество отношений между ними 2) Символьная система N = {M, P}, где M – множество символов, а P – множество отношений между ними 3) g – это функция из E в N. Указывает по какому правилу сопоставлять символы объектам Виды шкал Абсолютная. Пример – количество чего-либо Шкала отношений. Пример – вес в килограммах и граммах Шкала интервалов. Пример – температура в шкалах Цельсия, Кельвина и др. Шкала порядка. Отношения порядка. Пример – номера людей при упорядочивании по росту Шкала наименований (номинальная). Есть только 2 отношения – «равно» и «не равно». Пример – имена людей Классификация задач По расположению предсказываемых элементов: В одной строке В одном столбце Иначе По количеству предсказываемых элементов Один Часть Все По шкалам (Н)аименований (П)орядка (К)оличественные (абсолютная, отношений и интервальная) (Р)азнотипные Классификация задач Семейство задач Предсказание элементов столбца/строки Предсказание элементов таблицы Классы задач 1.1 1 эл-т 1.3 Все 2.1 Не вся 2.2 Вся Т и п ы Распознавание образов (классов) Таксономия П Вставка в упорядоч. последовательность Упорядочивание К Прогнозирование Оценка З а п о л н е н и е Г е н е р а ц и я з а д а ч Н ш к а л ы Р 1.2 Не все - - - п р о б е л о в т а б л и ц Практическое применение Data Mining Банковское дело анализ кредитных рисков сегментация клиентов привлечение и удержание клиентов управление ресурсами Страховые компании анализ рисков Торговля анализ деятельности торговых точек построение профиля покупателя управление ресурсами Биржевые трейдеры выработка оптимальной торговой стратегии контроль рисков Практическое применение Data Mining Генетика и генная инженерия изучение генов разработка новых лекарств Медицина построение диагностических системы выбор лечебных воздействий Геология и геофизика оценка запасов степень извлекаемости полезных ископаемых Интернет-технологии персонализация посетителей Web-сайтов Web Mining Системы Data mining Предметно-ориентированные аналитические системы “Технический анализ” Статистические пакеты Нейронные сети Системы Data mining Системы рассуждений на основе аналогичных случаев Деревья решений Системы Data mining Генетические алгоритмы Алгоритмы ограниченного перебора Data mining в геофизике Data mining в геофизике Спасибо за внимание!