регламент курса - Кафедра анализа данных и исследования

реклама
Регламент научного семинара "Интеллектуальный анализ данных" для
студентов 2 курса магистратуры "Прикладная математика и информатика",
профиль "Математическое и информационное обеспечение
экономической деятельности", 3 семестр
Изучение курса состоит в:
1)
- посещении занятий,
- слушании докладов,
- участии в обсуждении; (30 баллов)
2)
- самостоятельном изучении одной из предложенных тем,
- подготовке презентации и
- проведении доклада по этой теме для всей группы; (20 баллов)
3)
- практическом исследовании одной из реальных задач по выбранной тематике.
(50 баллов).
Методические рекомендации для выполнения индивидуального проекта
Индивидуальный проект предполагает проведение исследования какой-либо
практической проблемы Data mining.
Используемые программные средства
Для выполнения практического этапа исследования можно использовать любые из
следующих технологий:


SQL Server 2008 и надстройки интеллектуального анализа данных для Microsoft
Office
Deductor Studio Academic

Пакет Statistica

Пакет R

Самостоятельная реализация выбранных алгоритмов в любом языке
программирования.
Этапы проекта:
Формулирование проблемы. Предварительное описание постановки задачи.
Получение данных. Данные можно взять как из открытых источников, так и путем сбора
(этот путь в данном случае очень трудоемкий). Также можно сгенерировать данные по
выбранным заранее законам для исследования поведения методов Data mining. На этом
этапе следует подробно описать все данные – семантику, тип, область определения.
Оценка качества данных. Обратите, в том числе, внимание на корреляцию предикторов.
Если какие-то предикторы сильно коррелируют, это может в дальнейшем отрицательно
повлиять на качество модели. Используйте для лучшего понимания данных
визуализацию.
Очистка данных. Более подробно об очистке данных можно узнать из источников,
описывающих процесс ETL- extract, transform, load.
Преобразование данных. Модификация данных для лучшего соответствия модели.
Типичные примеры преобразования: квантование, нормализация.
Применение методов Data mining. На этом этапе предполагается применение нескольких
методов Data mining к исследуемой проблеме.
Выводы. Следует подробно описать полученные результаты. Используйте, по
возможности, визуализацию.
При исследовании задачи часто возникает необходимость вернуться к предыдущим
этапам, этот процесс может включать в себя несколько итераций.
Оформление результатов исследования. Отчет должен содержать подробное
документирование всех этапов исследования.
Основные изучаемые темы для докладов и презентаций:
Системы поддержки принятия решений
Задачи систем поддержки принятия решений
Базы данных — основа СППР
Неэффективность использования OLTP-систем для анализа данных
Хранилище данных
Концепция хранилища данных
Организация ХД
Очистка данных
Концепция хранилища данных и анализ
OLAP-системы
Многомерная модель данных
Определение OLAP-систем
Концептуальное многомерное представление
Двенадцать правил Кодда
Дополнительные правила Кодда
Тест FASMI
Архитектура OLAP-систем
MOLAP
ROLAP
HOLAP
Интеллектуальный анализ данных
Добыча данных — Data Mining
Задачи Data Mining
Классификация задач Data Mining
Задача классификации и регрессии
Задача поиска ассоциативных правил
Задача кластеризации
Практическое применение Data Mining^
Интернет-технологии
Торговля
Телекоммуникации
Промышленное производство
Медицина
Банковское дело
Страховой бизнес
Другие области применения
Модели Data Mining
Предсказательные модели
Описательные модели
Методы Data Mining
Базовые методы
Нечеткая логика
Генетические алгоритмы
Нейронные сети
Процесс обнаружения знаний
Основные этапы анализа
Подготовка исходных данных
Управление знаниями (Knowledge Management)
Средства Data Mining
Классификация и регрессия
Постановка задачи
Представление результатов
Правила классификации
Деревья решений
Математические функции
Методы построения правил классификации
Алгоритм построения 1-правил
Метод Naive Bayes
Методы построения деревьев решений
Методика "разделяй и властвуй"
Алгоритм покрытия
Методы построения математических функций
Общий вид
Линейные методы. Метод наименьших квадратов
Нелинейные методы
Support Vector Machines (SVM)
Регуляризационные сети (Regularization Networks)
Дискретизации и редкие сетки
Прогнозирование временных рядов
Постановка задачи
Методы прогнозирования временных рядов
Поиск ассоциативных правил
Постановка задачи
Формальная постановка задачи
Секвенциальный анализ
Разновидности задачи поиска ассоциативных правил
Представление результатов
Алгоритмы
Алгоритм Apriori
Разновидности алгоритма Apriori
Кластеризация
Постановка задачи кластеризации
Формальная постановка задачи
Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации . Представление
результатов
Базовые алгоритмы кластеризации
Классификация алгоритмов
Иерархические алгоритмы
Неиерархические алгоритмы
Адаптивные методы кластеризации
Выбор наилучшего решения и качество кластеризации
Использование формальных критериев качества в адаптивной кластеризации
Пример адаптивной кластеризации
Анализ текстовой информации — Text Mining
Задача анализа текстов
Этапы анализа текстов
Предварительная обработка текста
Задачи Text Mining
Извлечение ключевых понятий из текста
Общее описание процесса извлечения понятий из текста
Стадия локального анализа
Стадия интеграции и вывода понятий
Классификация текстовых документов
Описание задачи классификации текстов
Методы классификации текстовых документов
Методы кластеризации текстовых документов
Представление текстовых документов
Иерархические методы кластеризации текстов
Бинарные методы кластеризации текстов
Задача аннотирования текстов
Выполнение аннотирования текстов
Методы извлечения фрагментов для аннотации
Средства анализа текстовой информации
Средства Oracle — Oracle Text
Средства от IBM — Intelligent Miner for Text
Средства SAS Institute — Text Miner
Средства Мегапьютер Интеллидженс — TextAnalyst
Распределенный анализ данных
Системы мобильных агентов
Основные понятия
Стандарты многоагентных систем
Системы мобильных агентов
Система мобильных агентов JADE
Использование мобильных агентов для анализа данных
Проблемы распределенного анализа данных
Агенты-аналитики
Варианты анализа распределенных данных
Система анализа распределенных данных
Общий подход к реализации системы
Агент для сбора информации о базе данных
Агент для сбора статистической информации о данных
Агент для решения одной задачи интеллектуального анализа данных
Агент для решения интегрированной задачи интеллектуального анализа данных
Data Mining в реальном времени (Real-Time Data Mining)
Идея Data Mining в реальном времени
Адаптация системы к общей концепции
Адаптивная добыча данных
Статический Data Mining и Data Mining в реальном времени
Применение Data Mining в реальном времени
Рекомендательные машины
Классификация рекомендательных машин
Подход на основе содержания
Совместное фильтрование
Анализ рыночной корзины и секвенциальный анализ
Усиление обучения и агенты
Инструменты Data Mining в реальном времени
Инструмент Amazon.com — механизм рекомендаций
Инструмент Prudsys — рекомендательная машина Prudsys
Приложение с открытым кодом — SpamAssassin
Извлечение знаний из Web — Web Mining
Web Mining
Проблемы анализа информации из Web
Этапы Web Mining
Web Mining и другие интернет-технологии
Категории Web Mining
Методы извлечения Web-контента
Извлечение Web-контента в процессе информационного поиска
Извлечение Web-контента для формирования баз данных
Извлечение Web-структур
Представление Web-структур
Оценка важности Web-структур
Поиск Web-документов с учетом гиперссылок
Кластеризация Web-структур
Исследование использования Web-ресурсов
Исследуемая информация
Этап препроцессинга
Этап извлечения шаблонов
Этап анализа шаблонов и их применение
Изучение языка R
Скачать