9:30 Приветственный кофе 10:00 Ключевой доклад 11:45 Аппаратные решения HP для платформы Microsoft BI Microsoft Excel как OLAP клиент. Преодоление ограничений Обед 12:45 13:30 Методика построения хранилищ данных на FastTrack DW и PDW Анализ «что-если» в Excel 2010 и OLAP write-back в планировании продаж 14:45 Реляционное моделирование для больших хранилищ данных Прогнозирование навигации на сайте (Data Mining) Кофе-брейк 16:30 17:00 Анализ вторичных продаж на базе SQL Server 2008 R2 SQL-клиника Некоторые сценарии практического использования DAX в PowerPivot 18:00 Закрытие конференции 18:15 Кофе-брейк 18:30 Лабораторные работы Не забудьте начать запись доклада! Прогнозирование навигации на сайте Максим Гончаров Microsoft Максим Гончаров Microsoft Специалист по платформе приложений E-mail: maxgon@microsoft.com http://www.businessdataanalytics.ru/ Содержание Задачи Data Mining Описательный анализ Предиктивный анализ Web Mining – кратко Web Usage Mining Кластеризация цепочек последовательностей Microsoft Пример проекта – калькулятор переходов Задачи Data Mining Описательный анализ Какая структура клиентской базы? Какой профиль идеального клиента? Какие есть взаимосвязи между характеристиками клиентов? Какие события происходят одновременно? Какие услуги приобретаются вместе? Какие события наступают последовательно? Откажется ли клиент от сотрудничества при данном шаблоне взаимодействия? Предиктивный анализ Откликнется ли клиент на данную маркетинговую кампанию? Какова ценность клиента с данными характеристиками? Какой размер прибыли будет в следующем месяце? Какие из потенциальных клиентов вероятно совершат приобретение услуги в следующем месяце? Кластерный анализ Сегментация – обнаружение структуры данных На какие группы можно разбить клиентов? Какая структура продаж? Какие характеристики у мошеннических транзакций? Разбиение постоянных клиентов книжного интернет-магазина по интересам. Анализ путей влияния Байесовские сети – обнаружение путей влияния факторов Как связаны образование, доход и регион проживания? Как влияет семейное положение на покупку товара? Цепочки влияния характеристик клиента Деревья решений – факторы влияния Что влияет на приобретение банковского продукта Деревья решений – классификация Откликнется ли клиент с данными характеристиками на наше предложение? Что характерно для клиента, собирающегося отказаться от услуг нашей компании? Скоринг, приоритезация лидов. Дерево решения: что влияет на размер заказа продажи? Прогнозирование временных рядов Прогноз продаж по товарным категориям и группам клиентов. Прогноз обращений в колл-центр. Прогноз движения на складе. Прогноз продаж банковских услуг по категориям Ассоциативные правила Какие события происходят вместе? Какие товары и услуги продаются совместно? Cross-sales, up-sales. Книги, покупаемые совместно Анализ цепочек последовательностей Приобретение каких продуктов следует ожидать в следующем месяце от человека, открывшего в этом месяце счет и получившего дебетовую карту? С какой вероятностью от нас уйдет клиент при данной последовательности действий? Временные шаблоны покупок велосипедных аксессуаров Web Mining – кратко Web Mining - кратко Поиск информации – применение математической лингвистики и обработки естественных языков. Анализ структуры сегментов сети – хабы - из такой страницы ссылки идут на наиболее значимые ресурсы; авторитеты - страницы, на которые ссылаются большое количеством авторов по данной Выявление знаний из веб-ресурсов – обработка с точки зрения автоматической классификации, составления оглавлений, выявления ключевых слов и общих тем. Персонализация информации – адаптация навигации, контента, баннеров и т.д. под пользователя. Web Usage Mining Web Usage Mining Поиск шаблонов в поведении пользователей – поиск закономерностей в шаблонах взаимодействия пользователя с веб-ресурсом с целью прогнозирования его последующих действий. С точки зрения применения алгоритмов интеллектуального анализа данных при поиске шаблонов пользовательского поведения чаще всего используются следующие методики: Кластеризация - поиск групп похожих посетителей, сайтов, страниц и т.д. Ассоциации - поиск совместно запрашиваемых страниц, заказываемых товаров. Анализ последовательностей - поиск последовательностей действий. Наиболее часто применяется вариант алгоритма apriori, разработанного для анализа частых наборов, но модифицированного для выявления частых фрагментов последовательностей и переходов. Анализ последовательностей действий Microsoft Sequential Clustering Модель предполагает, что все последовательности разбиты на некоторое количество групп (кластеров). В каждой группе последовательности представляют собой Марковскую цепь, т.е. вероятность перехода в следующее состояние в группе определяется только текущим состоянием и не зависит от более ранних состояний. Таким образом, алгоритм разбивает последовательности на похожие группы и вычисляет в каждой группе условные вероятности переходов. Это позволяет не только прогнозировать следующее значение состояния на основании его прошлых состояний, но и получить описание существующих шаблонов переходов. Демо-проект по прогнозированию навигации на сайте Описание проекта Источник посещений – http://www.sitebuilder.ru HTTP модуль на IIS, регистрирующий серверные переменные запросов в БД Access Хранилище SQL Server’а, хранит всю историю навигаций по сессиям Пакет Integration Services, загружающий Access файл в БД SQL, дополняющий данные (географией запроса и т.п.) Куб Analysis Services – анализ по требованию всех показателей навигации и запросов. Модели Data Mining для анализа закономерностей навигации Сборки .NET – расширение запросов к моделям Фиксированные отчеты по навигации Веб-приложения, например калькулятор навигации. Структура данных Куб Куб Модель Data Mining Фиксированные отчеты Прогнозирование Стандартная реализация – двухходовка: 1. На основании истории кликов определить какому кластеру принадлежит пользователь. 2. Прогноз следующего клика – наиболее вероятный переход в данном кластере. На самом деле есть еще такой подход: вычислить наиболее вероятный переход с учетом принадлежности пользователя ко всем кластерам с учетом вероятности принадлежности. Калькулятор прогнозирования следующего шага Запрос на прогнозирование SELECT FLATTENED ( SELECT [Page Name] AS [Prediction], PredictProbability([Page Name]) AS [PredictProbability], ( SELECT [Page Name] AS [PageName], $PROBABILITY AS [Probability] FROM PredictHistogram([Page Name]) WHERE $PROBABILITY >= 0.01 ) AS h FROM PredictSequence([Pages Visited], 1) ) AS d FROM [Pages Visit Order Model] NATURAL PREDICTION JOIN ( SELECT ( SELECT 0 AS [Row Num], 'Портал в компании Адидас' AS [Page Name] UNION SELECT 1 AS [Row Num], 'Портал компании BBK' AS [Page Name] ) AS [Pages Visited] ) AS t Ответы на вопросы Спасибо за внимание! <Имя, Фамилия> <Компания> E-mail: <…@...> 9:30 Приветственный кофе 10:00 Ключевой доклад 11:45 Аппаратные решения HP для платформы Microsoft BI Microsoft Excel как OLAP клиент. Преодоление ограничений Обед 12:45 13:30 Методика построения хранилищ данных на FastTrack DW и PDW Анализ «что-если» в Excel 2010 и OLAP write-back в планировании продаж 14:45 Реляционное моделирование для больших хранилищ данных Прогнозирование навигации на сайте (Data Mining) Кофе-брейк 16:30 17:00 Анализ вторичных продаж на базе SQL Server 2008 R2 SQL-клиника Некоторые сценарии практического использования DAX в PowerPivot 18:00 Закрытие конференции 18:15 Кофе-брейк 18:30 Лабораторные работы