Goncharov — Data Mining

9:30 Приветственный кофе 10:00 Ключевой доклад 11:45 Аппаратные решения HP для платформы Microsoft BI Microsoft Excel как OLAP клиент. Преодоление ограничений Обед 12:45 13:30 Методика построения хранилищ данных на FastTrack DW и PDW Анализ «что-если» в Excel 2010 и OLAP write-back в планировании продаж 14:45 Реляционное моделирование для больших хранилищ данных Прогнозирование навигации на сайте (Data Mining) Кофе-брейк 16:30 17:00 Анализ вторичных продаж на базе SQL Server 2008 R2 SQL-клиника Некоторые сценарии практического использования DAX в PowerPivot 18:00 Закрытие конференции 18:15 Кофе-брейк 18:30 Лабораторные работы Не забудьте начать запись доклада! Прогнозирование навигации на сайте Максим Гончаров Microsoft Максим Гончаров Microsoft Специалист по платформе приложений E-mail: maxgon@microsoft.com http://www.businessdataanalytics.ru/ Содержание  Задачи Data Mining  Описательный анализ  Предиктивный анализ  Web Mining – кратко  Web Usage Mining  Кластеризация цепочек последовательностей Microsoft  Пример проекта – калькулятор переходов Задачи Data Mining Описательный анализ  Какая структура клиентской базы? Какой профиль идеального клиента?  Какие есть взаимосвязи между характеристиками клиентов?  Какие события происходят одновременно? Какие услуги приобретаются вместе?  Какие события наступают последовательно? Откажется ли клиент от сотрудничества при данном шаблоне взаимодействия? Предиктивный анализ  Откликнется ли клиент на данную маркетинговую кампанию?  Какова ценность клиента с данными характеристиками?  Какой размер прибыли будет в следующем месяце?  Какие из потенциальных клиентов вероятно совершат приобретение услуги в следующем месяце? Кластерный анализ Сегментация – обнаружение структуры данных  На какие группы можно разбить клиентов?  Какая структура продаж?  Какие характеристики у мошеннических транзакций? Разбиение постоянных клиентов книжного интернет-магазина по интересам. Анализ путей влияния Байесовские сети – обнаружение путей влияния факторов  Как связаны образование, доход и регион проживания?  Как влияет семейное положение на покупку товара? Цепочки влияния характеристик клиента Деревья решений – факторы влияния Что влияет на приобретение банковского продукта Деревья решений – классификация  Откликнется ли клиент с данными характеристиками на наше предложение?  Что характерно для клиента, собирающегося отказаться от услуг нашей компании?  Скоринг, приоритезация лидов. Дерево решения: что влияет на размер заказа продажи? Прогнозирование временных рядов  Прогноз продаж по товарным категориям и группам клиентов.  Прогноз обращений в колл-центр.  Прогноз движения на складе. Прогноз продаж банковских услуг по категориям Ассоциативные правила  Какие события происходят вместе?  Какие товары и услуги продаются совместно?  Cross-sales, up-sales. Книги, покупаемые совместно Анализ цепочек последовательностей  Приобретение каких продуктов следует ожидать в следующем месяце от человека, открывшего в этом месяце счет и получившего дебетовую карту?  С какой вероятностью от нас уйдет клиент при данной последовательности действий? Временные шаблоны покупок велосипедных аксессуаров Web Mining – кратко Web Mining - кратко  Поиск информации – применение математической лингвистики и обработки естественных языков.  Анализ структуры сегментов сети –    хабы - из такой страницы ссылки идут на наиболее значимые ресурсы; авторитеты - страницы, на которые ссылаются большое количеством авторов по данной Выявление знаний из веб-ресурсов – обработка с точки зрения автоматической классификации, составления оглавлений, выявления ключевых слов и общих тем.  Персонализация информации – адаптация навигации, контента, баннеров и т.д. под пользователя. Web Usage Mining Web Usage Mining Поиск шаблонов в поведении пользователей – поиск закономерностей в шаблонах взаимодействия пользователя с веб-ресурсом с целью прогнозирования его последующих действий. С точки зрения применения алгоритмов интеллектуального анализа данных при поиске шаблонов пользовательского поведения чаще всего используются следующие методики:  Кластеризация - поиск групп похожих посетителей, сайтов, страниц и т.д.  Ассоциации - поиск совместно запрашиваемых страниц, заказываемых товаров.  Анализ последовательностей - поиск последовательностей действий. Наиболее часто применяется вариант алгоритма apriori, разработанного для анализа частых наборов, но модифицированного для выявления частых фрагментов последовательностей и переходов. Анализ последовательностей действий Microsoft Sequential Clustering Модель предполагает, что все последовательности разбиты на некоторое количество групп (кластеров). В каждой группе последовательности представляют собой Марковскую цепь, т.е. вероятность перехода в следующее состояние в группе определяется только текущим состоянием и не зависит от более ранних состояний. Таким образом, алгоритм разбивает последовательности на похожие группы и вычисляет в каждой группе условные вероятности переходов. Это позволяет не только прогнозировать следующее значение состояния на основании его прошлых состояний, но и получить описание существующих шаблонов переходов. Демо-проект по прогнозированию навигации на сайте Описание проекта Источник посещений – http://www.sitebuilder.ru         HTTP модуль на IIS, регистрирующий серверные переменные запросов в БД Access Хранилище SQL Server’а, хранит всю историю навигаций по сессиям Пакет Integration Services, загружающий Access файл в БД SQL, дополняющий данные (географией запроса и т.п.) Куб Analysis Services – анализ по требованию всех показателей навигации и запросов. Модели Data Mining для анализа закономерностей навигации Сборки .NET – расширение запросов к моделям Фиксированные отчеты по навигации Веб-приложения, например калькулятор навигации. Структура данных Куб Куб Модель Data Mining Фиксированные отчеты Прогнозирование Стандартная реализация – двухходовка: 1. На основании истории кликов определить какому кластеру принадлежит пользователь. 2. Прогноз следующего клика – наиболее вероятный переход в данном кластере. На самом деле есть еще такой подход: вычислить наиболее вероятный переход с учетом принадлежности пользователя ко всем кластерам с учетом вероятности принадлежности. Калькулятор прогнозирования следующего шага Запрос на прогнозирование SELECT FLATTENED ( SELECT [Page Name] AS [Prediction], PredictProbability([Page Name]) AS [PredictProbability], ( SELECT [Page Name] AS [PageName], $PROBABILITY AS [Probability] FROM PredictHistogram([Page Name]) WHERE $PROBABILITY >= 0.01 ) AS h FROM PredictSequence([Pages Visited], 1) ) AS d FROM [Pages Visit Order Model] NATURAL PREDICTION JOIN ( SELECT ( SELECT 0 AS [Row Num], 'Портал в компании Адидас' AS [Page Name] UNION SELECT 1 AS [Row Num], 'Портал компании BBK' AS [Page Name] ) AS [Pages Visited] ) AS t Ответы на вопросы Спасибо за внимание! <Имя, Фамилия> <Компания> E-mail: <…@...> 9:30 Приветственный кофе 10:00 Ключевой доклад 11:45 Аппаратные решения HP для платформы Microsoft BI Microsoft Excel как OLAP клиент. Преодоление ограничений Обед 12:45 13:30 Методика построения хранилищ данных на FastTrack DW и PDW Анализ «что-если» в Excel 2010 и OLAP write-back в планировании продаж 14:45 Реляционное моделирование для больших хранилищ данных Прогнозирование навигации на сайте (Data Mining) Кофе-брейк 16:30 17:00 Анализ вторичных продаж на базе SQL Server 2008 R2 SQL-клиника Некоторые сценарии практического использования DAX в PowerPivot 18:00 Закрытие конференции 18:15 Кофе-брейк 18:30 Лабораторные работы

Goncharov — Data Mining

Похожие документы

Разделы

Поддержка

Goncharov — Data Mining

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib