Применение метода логистической регрессии к задаче классификации пользователей виртуальных магазинов Д.Г. Ждан Моделирование случайных величин Для моделирования поведения пользователей в Интернете использовались случайные величины, распределенные по следующим законам: Экспоненциальное распределение. . Экспоненциальное распределение может быть получено из непрерывного равномерного распределения методом обратного преобразования. Пусть . Тогда Нормальное распределение. Гауссовская нормальная случайная величина может быть смоделирована при помощи преобразования Бокса — Мюллера. Пусть и — независимые случайные величины, равномерно распределённые на интервале (0, 1]. Вычислим и по формулам Тогда и будут независимы и распределены нормально с математическим ожиданием 0 и дисперсией 1. После получения стандартной нормальной случайной величины , можно легко перейти к величине распределённой нормально с математическим ожиданием и стандартным отклонением по формуле Это уже не является частью преобразования Бокса-Мюллера, но позволяет завершить генерацию нормальной случайной величины. Для решения задачи классификации пользователей в Интернете в работе был применен метод логистической регрессии. Постановка задачи логистической регрессии Задана выборка - множество пар ( ) , в которых описание -го элемента значения зависимой переменной . ,и Принята модель логистической регрессии, согласно переменные и зависимая переменная связаны зависимостью которой свободные , где . Примем обозначения , вектор . Для удобства дальнейшего изложения обозначим выборку свободных переменных как Требуется найти такое значение вектора параметров норме вектора невязок , которое бы доставляло минимум Алгоритм отыскания оптимальных параметров Оптимальные параметры отыскиваются последовательно с помощью итерационного метода наименьших квадратов с использованием взвешивания элементов выборки. В начале работы алгоритма задаются параметры начального приближения: скаляр , где - среднее значение выборки зависимой переменной и значения для . Далее итеративно повторяется следующая процедура. С использованием вектора параметров вычисляется переменная Вычисляется восстановленное значение выборки зависимой переменной Вычисляется вектор значений зависимой переменной для текущего шага линейной регрессии , где - вектор весов значений зависимой переменной. Решается задача наименьших квадратов с взвешиванием элементов выборки. При этом больший вес приобретают те элементы, которые имеют большую невязку , где диагональная матрица весов . Процедура останавливается после того, как норма разности векторов параметров на каждой итерации не будет превышать заданную константу: . Моделирование метода и обработка данных Использование логистической регрессии возможно при помощи стандартных средств пакета Mathematica. Таким образом, было смоделировано поведение двух классов пользователей: 100 «хороших» (те пользователи, у которых зависимая переменная , отклик, принимает значение равное единице) и 100 «плохих» ( отклик принимает значение равное нулю). Пользователи характеризовались при помощи трех признаков ( ). В первом эксперименте поведение «хороших» пользователей моделировалось при помощи гауссовского нормального распределении с матожиданием равным 1, 2 и 3 и с дисперсией 1 соответственно для признаков . Поведение же «плохих» пользователей моделировалось при помощи гауссовского нормального распределении с матожиданием равным 20, 21 и 22 и дисперсией 1. Получен устойчивый результат: 57% пользователей отнесены к 1-му классу, 43%- ко второму (в то время как идеальный результат- 50% на 50%). Порог принят равным 0.5. При измененнии матожидания «плохих» пользователей в меньшую сторону, результат стабильно ухудшался: матожидание 15,16,17, результат 58% к 42%, матожидание 10,11,12 , результат 61% к 39%, матожидание 6,7,8 , результат 63% к 37%, матожидание 4,5,6 , результат 68% к 32%. если взять пересекающиеся множества матожиданий, т.е. для первого класса пользователей 1, 2, 3, а для второго 2,3,4, то результаты, естественно, ухудшаются еще больше: 72% к 28%. Во втором эксперименте поведение «хороших» пользователей моделировалось при помощи экспоненциального распределении с матожиданием равным 1, 2 и 3 соответственно для признаков . Поведение «плохих» пользователей моделировалось при помощи экспоненциального распределении с матожиданием равным 10, 11 и 12. Порог в 0.5 не дает никаких результатов (0% принадлежат к первому классу). А вот если порог взять 0.65, то результат очень хороший: 51% к 49%. Но при измененнии матожидания для «плохих» пользователей в меньшую сторону результат ухудшается более стремительно, чем в случае нормального распределения: если взять пересекающиеся матожидания, т.е. для первого класса пользователей 1, 2, 3, а для второго 2,3,4, то результаты 81% к 19%. Рассмотрим третий случай: данные для пользователей первого класса будут распределены нормально, а для пользователей второго- экспоненциально. Как и во втором эксперименте, порог 0.5 не оптимален(14%), а вот 0.65 опять дает очень хороший результат – 49.8%. Ждан Дарья Геннадьевна, 4 курс Научный руководитель: Чехменок С.Л.