Регламент научного семинара "Интеллектуальный анализ данных" для студентов 2 курса магистратуры "Прикладная математика и информатика", профиль "Математическое и информационное обеспечение экономической деятельности", 3 семестр Изучение курса состоит в: 1) - посещении занятий, - слушании докладов, - участии в обсуждении; (30 баллов) 2) - самостоятельном изучении одной из предложенных тем, - подготовке презентации и - проведении доклада по этой теме для всей группы; (20 баллов) 3) - практическом исследовании одной из реальных задач по выбранной тематике. (50 баллов). Методические рекомендации для выполнения индивидуального проекта Индивидуальный проект предполагает проведение исследования какой-либо практической проблемы Data mining. Используемые программные средства Для выполнения практического этапа исследования можно использовать любые из следующих технологий: SQL Server 2008 и надстройки интеллектуального анализа данных для Microsoft Office Deductor Studio Academic Пакет Statistica Пакет R Самостоятельная реализация выбранных алгоритмов в любом языке программирования. Этапы проекта: Формулирование проблемы. Предварительное описание постановки задачи. Получение данных. Данные можно взять как из открытых источников, так и путем сбора (этот путь в данном случае очень трудоемкий). Также можно сгенерировать данные по выбранным заранее законам для исследования поведения методов Data mining. На этом этапе следует подробно описать все данные – семантику, тип, область определения. Оценка качества данных. Обратите, в том числе, внимание на корреляцию предикторов. Если какие-то предикторы сильно коррелируют, это может в дальнейшем отрицательно повлиять на качество модели. Используйте для лучшего понимания данных визуализацию. Очистка данных. Более подробно об очистке данных можно узнать из источников, описывающих процесс ETL- extract, transform, load. Преобразование данных. Модификация данных для лучшего соответствия модели. Типичные примеры преобразования: квантование, нормализация. Применение методов Data mining. На этом этапе предполагается применение нескольких методов Data mining к исследуемой проблеме. Выводы. Следует подробно описать полученные результаты. Используйте, по возможности, визуализацию. При исследовании задачи часто возникает необходимость вернуться к предыдущим этапам, этот процесс может включать в себя несколько итераций. Оформление результатов исследования. Отчет должен содержать подробное документирование всех этапов исследования. Основные изучаемые темы для докладов и презентаций: Системы поддержки принятия решений Задачи систем поддержки принятия решений Базы данных — основа СППР Неэффективность использования OLTP-систем для анализа данных Хранилище данных Концепция хранилища данных Организация ХД Очистка данных Концепция хранилища данных и анализ OLAP-системы Многомерная модель данных Определение OLAP-систем Концептуальное многомерное представление Двенадцать правил Кодда Дополнительные правила Кодда Тест FASMI Архитектура OLAP-систем MOLAP ROLAP HOLAP Интеллектуальный анализ данных Добыча данных — Data Mining Задачи Data Mining Классификация задач Data Mining Задача классификации и регрессии Задача поиска ассоциативных правил Задача кластеризации Практическое применение Data Mining^ Интернет-технологии Торговля Телекоммуникации Промышленное производство Медицина Банковское дело Страховой бизнес Другие области применения Модели Data Mining Предсказательные модели Описательные модели Методы Data Mining Базовые методы Нечеткая логика Генетические алгоритмы Нейронные сети Процесс обнаружения знаний Основные этапы анализа Подготовка исходных данных Управление знаниями (Knowledge Management) Средства Data Mining Классификация и регрессия Постановка задачи Представление результатов Правила классификации Деревья решений Математические функции Методы построения правил классификации Алгоритм построения 1-правил Метод Naive Bayes Методы построения деревьев решений Методика "разделяй и властвуй" Алгоритм покрытия Методы построения математических функций Общий вид Линейные методы. Метод наименьших квадратов Нелинейные методы Support Vector Machines (SVM) Регуляризационные сети (Regularization Networks) Дискретизации и редкие сетки Прогнозирование временных рядов Постановка задачи Методы прогнозирования временных рядов Поиск ассоциативных правил Постановка задачи Формальная постановка задачи Секвенциальный анализ Разновидности задачи поиска ассоциативных правил Представление результатов Алгоритмы Алгоритм Apriori Разновидности алгоритма Apriori Кластеризация Постановка задачи кластеризации Формальная постановка задачи Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации . Представление результатов Базовые алгоритмы кластеризации Классификация алгоритмов Иерархические алгоритмы Неиерархические алгоритмы Адаптивные методы кластеризации Выбор наилучшего решения и качество кластеризации Использование формальных критериев качества в адаптивной кластеризации Пример адаптивной кластеризации Анализ текстовой информации — Text Mining Задача анализа текстов Этапы анализа текстов Предварительная обработка текста Задачи Text Mining Извлечение ключевых понятий из текста Общее описание процесса извлечения понятий из текста Стадия локального анализа Стадия интеграции и вывода понятий Классификация текстовых документов Описание задачи классификации текстов Методы классификации текстовых документов Методы кластеризации текстовых документов Представление текстовых документов Иерархические методы кластеризации текстов Бинарные методы кластеризации текстов Задача аннотирования текстов Выполнение аннотирования текстов Методы извлечения фрагментов для аннотации Средства анализа текстовой информации Средства Oracle — Oracle Text Средства от IBM — Intelligent Miner for Text Средства SAS Institute — Text Miner Средства Мегапьютер Интеллидженс — TextAnalyst Распределенный анализ данных Системы мобильных агентов Основные понятия Стандарты многоагентных систем Системы мобильных агентов Система мобильных агентов JADE Использование мобильных агентов для анализа данных Проблемы распределенного анализа данных Агенты-аналитики Варианты анализа распределенных данных Система анализа распределенных данных Общий подход к реализации системы Агент для сбора информации о базе данных Агент для сбора статистической информации о данных Агент для решения одной задачи интеллектуального анализа данных Агент для решения интегрированной задачи интеллектуального анализа данных Data Mining в реальном времени (Real-Time Data Mining) Идея Data Mining в реальном времени Адаптация системы к общей концепции Адаптивная добыча данных Статический Data Mining и Data Mining в реальном времени Применение Data Mining в реальном времени Рекомендательные машины Классификация рекомендательных машин Подход на основе содержания Совместное фильтрование Анализ рыночной корзины и секвенциальный анализ Усиление обучения и агенты Инструменты Data Mining в реальном времени Инструмент Amazon.com — механизм рекомендаций Инструмент Prudsys — рекомендательная машина Prudsys Приложение с открытым кодом — SpamAssassin Извлечение знаний из Web — Web Mining Web Mining Проблемы анализа информации из Web Этапы Web Mining Web Mining и другие интернет-технологии Категории Web Mining Методы извлечения Web-контента Извлечение Web-контента в процессе информационного поиска Извлечение Web-контента для формирования баз данных Извлечение Web-структур Представление Web-структур Оценка важности Web-структур Поиск Web-документов с учетом гиперссылок Кластеризация Web-структур Исследование использования Web-ресурсов Исследуемая информация Этап препроцессинга Этап извлечения шаблонов Этап анализа шаблонов и их применение Изучение языка R