Байесовская классификация с использованием копул Введение Моделирование многомерных не Гауссовских распределений с помощью копул все больше и больше находит свое применение в разных прикладных областях. Данная работа посвящена обзору применения копул в машинном обучении. В качестве основы была взята теория обучения с учителем (Supervised Learning), а именно, вероятностная байесовская классификация (Bayesian Classifier), и рассмотрены несколько вариантов применения алгоритмов классификации, в которые были интегрированы копулы. Методология Основная формула Байесовского классификатора: 𝐴(𝑥) = 𝑎𝑟𝑔𝑚𝑎𝑥 (𝑃𝑦 ∗ 𝑝𝑦 (𝑥)) ( 𝑦∈𝑌 1) Здесь, классификатор 𝑎(𝑥) определяет принадлежность к конкретному классу из множества 𝑌, максимизируя апостериорную вероятность получения события 𝑥. 𝑃𝑦 – вероятность класса 𝑦, 𝑝𝑦 (𝑥) = 𝑝(𝑥|𝑦) - функция правдоподобия для класса 𝑦. По теореме Скляра, копула может разложить моделирование совместного распределения на моделирование частных распределений и функции связки (копулы) следующим образом: 𝑑 𝑓(𝑥1 , … , 𝑥𝑑 ) = 𝑐(𝑓 −1 (𝑥1 ), … , 𝑓 −1 (𝑥𝑑 )) ∗ ∏ 𝑓𝑖 (𝑥𝑖 ) 𝑖=1 ( 2) Где 𝑓(𝑥1 , … , 𝑥𝑑 ) является плотностью многомерного распределения, 𝑐(𝑥1 , … , 𝑥𝑑 ) плотностью копулы, 𝑓𝑖 (𝑥𝑖 ) - плотностью 𝑖 распределения. Интегрируя эти две формулы можно расширить понятие классификации. Для этого справедливо будет предположить, что различные классы будут располагаться, в пространстве поразному. Следовательно, для каждого класса 𝑦 ∈ 𝑌, будет однозначно определяться 𝑓 [𝑦] (𝑥1 , … , 𝑥𝑑 ) – вероятность нахождения объекта 𝑥 в классе 𝑦. Следуя [Sathe 2006], производиться замена 𝑝𝑦 (𝑥) = 𝑓 𝑦 (𝑥1 , … , 𝑥𝑑 ). Далее официально параметризируются маржинальные распределения, тогда классификатор 𝑎(𝑥) можно переписать как: 𝑑 𝐴(𝑥) = 𝑎𝑟𝑔𝑚𝑎𝑥 (𝑃𝑦 ∗ 𝑐 𝑦 (𝑓 −1 (𝑥1 ), … , 𝑓 −1 𝑦 𝑖=1 ( 𝑦 (𝑥𝑑 )) ∗ ∏ 𝑓𝑖 (𝑥𝑖 |𝜃𝑖 )) 𝑦 ∈ 𝑌 3) Здесь уже вероятность получения нового объекта 𝑥 является произведением маржинальных распределений класса 𝑦, плотности копулы класса 𝑦, и апостериорной вероятности класса 𝑦. Для удобства функция может быть прологарифмирована: 𝑑 𝑎(𝑥) = 𝑎𝑟𝑔𝑚𝑎𝑥 (ln(𝑃𝑦 ) + ln(𝑐 𝑦 (𝑓 −1 (𝑥1 ), … , 𝑓 −1 𝑦 𝑖=1 ( 𝑦 (𝑥𝑑 ))) + ∑ ln(𝑓𝑖 (𝑥𝑖 |𝜃𝑖 ))) 𝑦 ∈ 𝑌 4) Теперь стоит отметить несколько важных моментов. Во-первых, основной мотив для использования копул это ненормальность распределений в исходном пространстве данных. Вовторых, от класса к классу зависимость детерминант классификации может меняться. В-третьих, модель с включением копул так же оставляет возможность для модификации, т.е., в качестве оценки маржинальных распределений можно взять смесь распределений: 𝑘 𝑦 𝑦 𝑓𝑖 (𝑥𝑖 |𝜃𝑖 ) 𝑦 𝑦 = ∑ 𝑓𝑖 𝑗 (𝑥𝑖 |𝜃𝑖 ) ∗ 𝑤𝑗 𝑦∈𝑌 𝑗=1 ( 5) 𝑘 ∑ 𝑤𝑗 = 1 𝑤𝑗 ≥ 0 ∀ 𝑗 ∈ 1, … , 𝑘 𝑗=1 ( 6) Где 𝑤𝑗 – веса для нормировки. Тогда можно получить более близкую к истиной модель, но размерность для оптимизации возрастает почти в 𝑘 раз. Обзор литературы Стоит рассмотреть следующие работы, которые используют методы классификации с использованием копул. Первая работа по такому роду классификации была сделана [Sathe 2006]. В ней автор приводит решение проблемы «проклятия размерности» или по-другому «Феномен Хьюза» - то есть уменьшение качества/прироста качества прогноза при повышении размерности обучающей выборки. В качестве копулы берутся Гауссовская копула и копула Стьюдента, а в качестве оптимизации автор сравнивает два стандартных метода оптимизации: канонический и прямой. В качестве параметра копулы используется корреляция, одна на каждый класс. В качестве данных генерируются выборки из различного рода распределений, и берется комбинации этих распределений. В итоге во всех случаях классификатор с использованием копул работает точнее, чем нормальный Байесовский дискриминант, который не так точно определил классы для не Гауссовских распределений. Работы [Крылов 2010], [Крылов 2013] посвящены классификации изображений с радара. Классификация идет по следующим классам: вода, сухая земля, сырая земля. В качестве размерности берутся различные слои изображения разного спектра, в том числе и стандартной фото съемки. В качестве копул берутся три наиболее распространенных: Гумбеля, Клейтона, АлиМикаэля-Хака. Так же, во всех случаях классификация с использованием копул более точно определяет отнесение к классу. В работе [Han, Zhao, Liu 2013], рассматривается Гауссовская копула как способ преобразование данных, с которыми в дальнейшем идет работа. Главной особенностью является то, что авторы включили несколько вариантов регулизации, т.е. свертки размерности, и ее редукции – отброс признаков. Кроме того тестирование алгоритма классификации проходило как на искусственно сгенерированных, так и на реальных данных. В качестве реальных данных были использованы данные о раковых клетках и о результатах сканирования мозга. Так же во всех случаях с использованием копулы результаты классификации были более точные, чем без их использования. Заключение Таким образом, использование копул улучшает степень качества классификации, практически вне зависимости от области применения. Основной эффект прироста качества ожидается от использования такой классификации в пространстве данных которые распределены не нормальным образом, то есть практически во всех прикладных областях. В работе был описан механизм учета копул в процедуре классификации при наличии обучения; были даны примеры успешного применения. Перспективность направления исследования ярко проявляется в финансовой сфере, когда строятся модели вероятности дефолта, которые на основе имеющихся данных классифицируют новых заемщиков на проблемных и иных. В результате проведенного исследования можно выделить следующие направления развития применения копул в задачах классификации и кластеризации. 1) Интеграция копул в другие виды классификации, такие как метрические меры классификации и метод опорных векторов. 2) Использование иерархических копул и vine копул. 3) Использование смеси распределений для маржинальных распределений. Библиография - Han F., Zhao T., Liu H., CODA: High Dimensional Copula Discriminant Analysis// Journal of Machine Learning Research; Jan. 2013, Vol. 14 Issue 1, p629. - Sathe S., A Novel Bayesian Classifier using Copula Functions // arXiv. - Krilov V., Voisin A., Moser G., Serpico S., Zerubia J., Supervised Classification of Multi-sensor and Multi-resolution Remote Sensing Images with a Hierarchical Copula-based Approach // IEEE Transactions on Geoscience and Remote Sensing. Vol. 52, Issue 7, 2013. - Крылов В., Моделирование и классификация многоканальных дистанционных изображений с использованием копул// Информатика и ее применение, том 4, выпуск 4, год 2010, стр. 33-38.