XII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям АНАЛИЗ ДАННЫХ ТРАФИКА НАУЧНОГО УЧРЕЖДЕНИЯ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Рыговский И.А. Научный руководитель: д.т.н., проф. Родионов А. С. г. Новосибирск, 04 октября 2011 г. Анализ трафика. Гипотезы IP трафик ИВМиМГ СО РАН, 2006-2010 г., Детализация – 5 мин, час, день. • Выявление и анализ паттернов поведения пользователей – поиск норма поведения, отклонение от нормы – для различных интервалах времени • Поиск кластеров пользователей – относительно активности пользователей – относительно количества потребляемого трафика – для различных типов трафика • Поиск сходств и различий между известными группами пользователей Подготовка данных 1) Индикаторный ряд – {0, 1}, где 0 – отсутствие активности, 1 – пользователь активен (с учётом порога активности). 2) Индивидуально для каждого пользователя - преобразование трафика к числовой последовательности из{0..N} уровней; с учётом «выбросов», удовлетворяющим неравенству Маркова: , где x – количество интервалов, K – трафик, E – мат. ожидание Анализ • Sum, Avg, Sqr, Max, Min и т.д. • Анализ последовательностей Преобразование ряда: {1110001} {101} • Кластеризация, многомерный анализ 120 100 80 60 40 20 1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 0 Индикаторный ряд Отношение между уровнями Предварительный анализ. TCP трафик. Пользователи. Индикаторный ряд Многомерное шкалирование Индикаторный ряд. Дни. Иерархические методы Дни (2006 - 2010). Метод Уорда. Анализ поведения Количество трафика: 1) Различное ПО 2) Различная частота пользования 3) Различная скорость канала 4) Различные незначимые для поведения предпочтения 5) ………. Одинаковое поведение - «выбросы» - общая норма поведения - вес наиболее отличным атрибутам Предварительный анализ. TCP трафик. Пользователи. Цвет – реальный трафик. Метрики Между объектами: Евклидово расстояние Между кластерами: • Расстояние между ближайшими/далёкими соседями (объектами кластера) • Среднее расстояние между кластерами – Между центрами кластеров (среднее между центрами) – С учётом объёмов кластеров (между центрами с учётом размеров) – С учётом всех объектов (используя координаты между всеми парами точек) • Метод Уорда (прирост суммы квадратов расстояний объектов до центров кластера) Vk = ∑i∑j(xij - xjl)2 Параллельные вычисления • • • • Sum, Avg, Sqr, Max, Min Евклидово расстояние K-means Иерархическая кластеризация S Ускорение линейное K=20 K=5 N Message Passing • Single Link (метод ближайшего соседа) A[N][(N/p] - расстояний между кластерами; B[N] – соседний объект каждого кластера. • Centroid, median (геометрические метрики) С[N] - центры кластеров. Расчёт расстояний до них , для каждой итерации • Ward (метод Уорда) M[N][N] на каждой итерации • Многомерное шкалирование M[N][2] - точки в 2d пространство Вычислительные ресурсы • Центр параллельных вычислительных технологий ГОУ ВПО “СибГУТИ” 1,44 TFLOPS Спасибо за внимание!