Intellektualny_analiz_dannykh

реклама
Интеллектуальный анализ
данных
Бердов Валерий
Мокшин Павел
Гр. 12225
Предпосылки появления
 Количество данных в электронном виде очень
быстро растет
 Но большая часть информации не несет какой-либо
практической пользы
 Возникает проблема извлечения полезной
информации из большого объема «сырых» данных
История появления
 Область Data Mining началась с семинара,
проведенного Григорием Пятецким-Шапиро в 1989
году
 Тогда же было предложено 2 термина – Data
Mining и Knowledge Discovery In Data
 1994 г. – создан один из первых сайтов по Data
Mining
Интеллектуальный анализ данных
(Data mining)
 Data Mining — это процесс обнаружения в сырых
данных ранее неизвестных, нетривиальных,
практически полезных, доступных интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Пояснение определения
 Знания должны быть:




Ранее неизвестными
Нетривиальными
Практически полезными
Доступными для интерпретации
Постановка задачи
 У нас есть достаточно крупная база данных
 В ней есть некие «скрытые» знания
 Необходимо разработать методы обнаружения
знаний, скрытых в больших объёмах исходных
«сырых» данных
Паттерны
 Паттерн – извлеченное знание
 Для отсева малополезных паттернов вводится
функция полезности
 Важные характеристики «интересного» знания:
 Неожиданность
 Применимость
Этапы решения задачи
 Изучение предметной области
 Сбор данных
 Предварительная обработка данных
 Очистка данных от противоречий и шумов
 Интеграция данных
 Преобразование данных
 Анализ данных
 Интерпретация найденных паттернов
 Использование новых знаний
Представление данных
 Информация об измерениях представлена в виде
таблиц «объект-свойство»
Ученик
Средняя
успеваемость
Возраст
Средний
заработок в
семье
Иванов
4.6
18
20000
Шкалы
 Шкала, формально говоря, это тройка <E, N, g> из
следующих элементов:
 1) Эмпирическая система E = {A, R}, где A –
множество объектов, а R – множество отношений
между ними
 2) Символьная система N = {M, P}, где M –
множество символов, а P – множество отношений
между ними
 3) g – это функция из E в N. Указывает по какому
правилу сопоставлять символы объектам
Виды шкал
 Абсолютная. Пример – количество чего-либо
 Шкала отношений. Пример – вес в килограммах и
граммах
 Шкала интервалов. Пример – температура в
шкалах Цельсия, Кельвина и др.
 Шкала порядка. Отношения порядка. Пример –
номера людей при упорядочивании по росту
 Шкала наименований (номинальная). Есть только 2
отношения – «равно» и «не равно». Пример – имена
людей
Классификация задач
 По расположению
предсказываемых элементов:
 В одной строке
 В одном столбце
 Иначе
 По количеству
предсказываемых элементов
 Один
 Часть
 Все
 По шкалам
 (Н)аименований
 (П)орядка
 (К)оличественные
(абсолютная, отношений и
интервальная)
 (Р)азнотипные
Классификация задач
Семейство
задач
Предсказание элементов
столбца/строки
Предсказание
элементов
таблицы
Классы задач
1.1
1 эл-т
1.3
Все
2.1
Не вся
2.2
Вся
Т
и
п
ы
Распознавание
образов (классов)
Таксономия
П
Вставка в упорядоч.
последовательность
Упорядочивание
К
Прогнозирование
Оценка
З
а
п
о
л
н
е
н
и
е
Г
е
н
е
р
а
ц
и
я
з
а
д
а
ч
Н
ш
к
а
л
ы
Р
1.2
Не все
-
-
-
п
р
о
б
е
л
о
в
т
а
б
л
и
ц
Практическое применение Data
Mining
 Банковское дело




анализ кредитных рисков
сегментация клиентов
привлечение и удержание клиентов
управление ресурсами
 Страховые компании
 анализ рисков
 Торговля
 анализ деятельности торговых точек
 построение профиля покупателя
 управление ресурсами
 Биржевые трейдеры
 выработка оптимальной торговой стратегии
 контроль рисков
Практическое применение Data
Mining
 Генетика и генная инженерия
 изучение генов
 разработка новых лекарств
 Медицина
 построение диагностических системы
 выбор лечебных воздействий
 Геология и геофизика
 оценка запасов
 степень извлекаемости полезных ископаемых
 Интернет-технологии
 персонализация посетителей Web-сайтов
 Web Mining
Системы Data mining
 Предметно-ориентированные аналитические
системы
 “Технический анализ”
 Статистические пакеты
 Нейронные сети
Системы Data mining
 Системы рассуждений на основе аналогичных
случаев
 Деревья решений
Системы Data mining
 Генетические алгоритмы
 Алгоритмы ограниченного
перебора
Data mining в геофизике
Data mining в геофизике
Спасибо за внимание!
Скачать