Функция конкурентного сходства и компактность Загоруйко Н.Г. Борисова И.А., Дюбанов В.В., Кутненко О.А., Леванов Д.А. Институт математики СО РАН zag@math.nsc.ru Онтология Data Mining PRIA, 2007. Vol. 17, No.3 Цель анализа данных – приведение информации к виду, удобному для восприятия. Главное средство достижения этой цели повышение компактности описания наблюдений. Главный элемент технологии анализа данных – мера сходство между объектами Алгоритмы АД на базе FRiS-функции. Примеры решения задач . Обилие методов – не мускулы, а раковая опухоль. Человек постоянно решает задачи классификации, распознавания, выбора признаков, прогнозирования и т.д. и не меняет свои методы от задачи к задаче • Базовая психофизиологическая функция, которую человек использует при решении этих задач, состоит в оценке сходства Меры сходства 1) FS1 ( a, b) 1 n a b 2 ( x x i i i) , i 1 n 2) FS 2 ( a, b) 1 i | xia xib | i 1 3) FS3 ( a, b) 1 max | x x |, a i b i min( xia , xib ) 4) FS 4 ( a, b) i , a b max( xi , xi ) i 1 n 5) FS ( a, b) 1 e n i 1 ( xia xib ) 2 ,.... (a, b): близки или далеки? b похож на а или нет? a b (a, b): близки или далеки? b похож на а или нет? a b a b c Сходство – относительная категория (a, b): близки или далеки? b похож на а или нет? a b a b a c d b По сравнению с чем? . Загоруйко Н.Г., Кутненко О.А. Функция конкурентного сходства (FRiS-функция) 2001 r ( z , b) r ( z , a ) F ( z , a | b) r ( z , a ) r ( z , b) b a r(z,a) r(z,b) z . RELIEF K. Kira, L. Rendell., 1992 r ( z , b) r ( z , a ) W ( z , a | b) rmax rmin b a r(z,a) r(z,b) z . Rousseeuw, P.J. Withd Silhouettes 1987 r ( z , b) r ( z , a ) WS ( z, a | b) max[ r ( z, a), r ( z, b)] b a r(z,a) r(z,b) z Профили функций сходства 1 WS FRiS b a -1 10.75556 FRiS 11.88889 WS Эталоны для описания и для распознавания Распознавание Описание Выбор эталонных объектов (столпов) FRiS-Stolp r2 r1 i r1 r2 r 2 r1 Fi ,.......Fi max r 2 r1 FRiS и таксономия FRiS-Tax Выборка М объектов k=2,3,…,kmax, r*- порог сходства r1 r* r1 r* F*(aj, ai|r*)=[r*-min(r*,r1)] /[r*+min(r*,r1)] j=1,2,3…М Примеры применения FRiS-Tax k=5 K=2 k=10 K=3 k=10 k=10 K=2 K=2 Сравнение FRiS-Class с другими алгоритмами таксономии 0,9 0,8 0,7 FRiS-Cluster Kmeans 0,6 Forel Scat 0,5 FRiS-Tax 0,4 K 0,3 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Универсальная классификация FRiS-UC A X B Поиск столпов для (А,Х) и В A,X B Поиск столпов для А и (В,Х) A B,X Поиск столпов для А и (В,Х) A B,X Гипотеза компактности Фишер для норм. распр.: F=|m1-m2|/(d1+d2) Аркадьев А.Г., Браверман Э.М. Простому образу соответствует компактное множество точек, если • 1) число граничных точек мало по сравнению с их общим числом; • 2) почти каждая внутренняя точка образа имеет в достаточно обширной окрестности только точки этого же множества. • Простыми или компактными называются такие образы, которые отделяются друг от друга «не слишком вычурными» границами. Компактность и сложность границ B B A B A A B A Оценка компактности 1 CA MA MA 1 MB Fi ...............CB Fi M B i 1 i 1 1 K C C j K j 1 B A r1 r2 C = -1, …0…+1 Роль компактности Все виды формальных преобразований делаются для приведения исходной информации к виду, удобному для восприятия человеком. В задачах анализа данных – путем повышения компактности (7) Применение FRiS-функции в задачах выбора информативных признаков Движок GRAD и Критерий K C (1 / k ) K Ci i 1 Сокращение перебора Гранулы n<<N GRAD- Granulated AdDel • Addition-Deletion Количество, состав и вес признаков определяется автоматически T=С*(N+n3/6)*M3 Сравнение критериев информативности (Errors FRiS) 1,05 1 0,95 0,9 Fs 0,85 U 0,8 Fs 0,75 U 0,7 0,65 0,6 0,05 0,1 0,15 0,2 0,25 0,3 Guyon I., Weston J., Barnhill S., Vapnik V: Gene Selection for Cancer Classification using Support Vector Machines. Machine Learnin, 2002, 46 (1-3): 389-422. N=7129, K=2, Mo = 38, Mk =34 Pentium T=15 sec Pentium T=3 hours Training set 38 Test set 34 N g Vsuc Vext Vmed Tsuc Text Tmed P 7129 0,95 0,01 0,42 0,85 -0,05 0,42 29 4096 0,82 -0,67 0,30 0,71 -0,77 0,34 24 2048 0,97 0,00 0,51 0,85 -0,21 0,41 29 1024 1,00 0,41 0,66 0,94 -0,02 0,47 32 512 0,97 0,20 0,79 0,88 0,01 0,51 30 256 1,00 0,59 0,79 0,94 0,07 0,62 32 128 1,00 0,56 0,80 0,97 -0,03 0,46 33 64 1,00 0,45 0,76 0,94 0,11 0,51 32 32 1,00 0,45 0,65 0,97 0,00 0,39 33 16 1,00 0,25 0,66 1,00 0,03 0,38 34 8 1,00 0,21 0,66 1,00 0,05 0,49 34 4 0,97 0,01 0,49 0,91 -0,08 0,45 31 2 0,97 -0,02 0,42 0,88 -0,23 0,44 30 1 0,92 -0,19 0,45 0,79 -0,27 0,23 27 I.Guyon, J.Weston, S.Barnhill, V.Vapnik FRE FRiS 0,72656 0,71373 0,71208 0,71077 0,70993 0,70973 0,70711 0,70574 0,70532 0,70243 Decision Rules 537/1 , 1833/1 , 2641/2 , 4049/2 1454/1 , 2641/1 , 4049/1 2641/1 , 3264/1 , 4049/1 435/1 , 2641/2 , 4049/2 , 6800/1 2266/1 , 2641/2 , 4049/2 2266/1 , 2641/2 , 2724/1 , 4049/2 2266/1 , 2641/2 , 3264/1 , 4049/2 2641/2 , 3264/1 , 4049/2 , 4446/1 435/1 , 2641/2 , 2895/1 , 4049/2 2641/2 , 2724/1 , 3862/1 , 4049/2 P 34 34 34 34 34 34 34 34 34 34 Name of gene Weight 2641/1 , 4049/1 2641/1 33 32 Zagoruiko N., Borisova I., Dyubanov V., Kutnenko O. Best features SVM FRiS 803,4846 30(88%) 33(97%) 27(79%) 30(88%) 4846 Jeffery I., Higgins D., Culhane A.: Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data, BMC Bioinformatics, 2006, 7:359. (http://www.biomedcentral.com/1471-2[9]5/7/359) 10 методов выбора * 4 типа реш. правил • • • • • • • • • • • Задача ALL1 ALL2 ALL3 ALL4 Prostate Myeloma ALL/AML DLBCL Colon ……. 40 решений 9 задач N0 m1/m2 max of 40 12625 95/33 100.0 12625 24/101 78.2 12625 65/35 59.1 12625 26/67 82.1 12625 50/53 90.2 12625 36/137 82.9 7129 47/25 95.9 7129 58/19 94.3 2000 22/40 88.6 average 85.7 GRAD 100.0 80.8 73.8 83.9 93.1 81.4 100.0 93.5 89.5 88.4 Jeffery I., Higgins D., Culhane A.: Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data, BMC Bioinformatics, 2006, 7:359. (http://www.biomedcentral.com/1471-2[9]5/7/359) 10 методов выбора * 4 типа реш. правил • • • • • • • • • • • Задача ALL1 ALL2 ALL3 ALL4 Prostate Myeloma ALL/AML DLBCL Colon ……. 40 решений 9 задач N0 m1/m2 max of 40 GRAD New 12625 95/33 100.0 100.0 99.8 12625 24/101 78.2 80.8 86.6 12625 65/35 59.1 73.8 81.9 12625 26/67 82.1 83.9 87.4 12625 50/53 90.2 93.1 92.6 12625 36/137 82.9 81.4 86.8 7129 47/25 95.9 100.0 98.5 7129 58/19 94.3 93.5 95.7 2000 22/40 88.6 89.5 90.4 average 85.7 88.4 91.1 Рейтинг методов выбора Methods of feature selection Rating Fold change Between group analysis Analysis of variance (ANOVA) Significance analysis of microarrays Rank products Welch t-statistic Template matching Area under the ROC curve maxT Empirical Bayes t-statistic FRiS-GRAD 47 43 43 42 42 39 38 37 37 32 12 Рейтинг решающих правил Решающее правило Рейтинг Between group analysis (BGA) 35 K-nearest neighbours (kNN) 32 Naïve bayes classification (NBC) 25 Support vector machines (SVM) 19 FRiS-Stolp 12 Цензурирование выборки FRiS-Censor 1.Строятся столпы. Оценивается компактность С0 2.Выбираются кандидаты на исключение (m<4). 3. Кластеры исключаются по одному и вычеркивается тот, без которого C* max M C1 *C 2 H 4.Оценивается результат M 5. Цикл пп 3-4 6. Остановка в точке перегиба Н Цензурирование выборки k=27 k=6 D=12.7% Надежность Р распознавания до цензурирования – 1, и после -2 1000 эксп. Ошибок: 8.4% 4.1% Заключение FRiS-функция: Унифицирует подходы и методы CDA Позволяет количественно оценивать относительную меру сходства, компактность и информативность Обеспечивает инвариантность к параметрам задач (законам распределения, отношению M:N) Обеспечивает прозрачность процесса решения и результатов Качество решений не уступает качеству, получаемому другими методами http://math.nsc.ru/~wwwzag/ • Загоруйко Н.Г. Когнитивный анализ данных. Академическое издание ГЕО, Новосибирск, 2013 г. Спасибо! • Вопросы, please? Программа FRiS-GRAD • OOO Экспософт • expasoft.ru • Дюбанов Владимир Владимирович Заполнение пробелов FRiS-ZET j i bij … k bik … l m n j i … k bij bik blj blk … blj blk l m n Прогноз книжной торговли 1, 2…. 1856 Обуч 2394 Контр 2418 1,2 ...8 19152 19344 ? 618 команд из 42 стран № 1 2 3 4 5 6 7 8 9 Teams Uni Karlsruhe TH_ II TU Dortmund TU Dresden Novosibirsk State University KTH Royal Institute of Technol. University of Southampton University of Central Florida Indian Institute of Technology University of Edinburgh 231 решение Score 17260 17912 18163 18353 21195 25694 26254 28517 45096