Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè â çàäà÷å ïðîãíîçèðîâàíèÿ ïîñëåîïåðàöèîííûõ êàðäèîëîãè÷åñêèõ îñëîæíåíèé Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñàíêò-Ïåòåðáóðãñêèé ãîñóäàðñòâåííûé óíèâåðñèòåò Ìàòåìàòèêî-ìåõàíè÷åñêèé ôàêóëüòåò Êàôåäðà ñòàòèñòè÷åñêîãî ìîäåëèðîâàíèÿ Íàó÷íûé ðóêîâîäèòåëü: ê.ô.-ì.í., äîö. Àëåêñååâà Í.Ï. Ðåöåíçåíò: ê.ô.-ì.í., äîö. Êîðîáåéíèêîâ À.È. 1/14 Ñàíêò-Ïåòåðáóðã Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Ïðîáëåìà àíàëèçà êàðäèîëîãè÷åñêèõ äàííûõ Ñíèæåíèå ðèñêà âîçíèêíîâåíèÿ îñëîæíåíèé ïîñëå îïåðàöèè ÀÊØ (Àîðòî-êîðîíàðíîå øóíòèðîâàíèå) 112 èíäèâèäîâ â ðàííåì ïîñëåîïåðàöèîííîì ïåðèîäå 11 êîëè÷åñòâåííûõ è 43 êàòåãîðèàëüíûå ïðèçíàêà, õàðàêòåðèçóþùèå ïðåäîïåðàöèîííûé è èíòðàîïåðàöèîííûé ïåðèîä Ìåõàíèçì âîçíèêíîâåíèÿ ÑÌ òðóäíî ïðåäñêàçóåì ñ êëèíè÷åñêîé òî÷êè çðåíèÿ Öåëü Êëàññèôèêàöèÿ èíäèâèäîâ è ïðîãíîçèðîâàíèå ïîñëåîïåðàöèîííîãî îñëîæíåíèÿ ÑÌ (Ñèíäðîì Ìàëîãî ñåðäå÷íîãî Âûáðîñà) 2/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Áàéåñîâñêàÿ ïðîöåäóðà êëàññèôèêàöèè â ñëó÷àå äâóõ ïîïóëÿöèé ðåàëèçàöèÿ ñëó÷àéíîãî âåêòîðà ïðèçíàêîâ, , àïðèîðíûå âåðîÿòíîñòè ïîïóëÿöèé W1 , W2 , , âåêòîðà ñðåäíèõ, êîâàðèàöèîííûå ìàòðèöû, êîýôôèöèåíòû äèñêðèìèíàíòíîé ôóíêöèè . Ïðàâèëî êëàññèôèêàöèè: x ∈ W1 , åñëè x = (x1 , . . . , xp ) q1 q2 µ1 µ2 Σ̂ = Σ̂1 = Σ̂2 β = Σ̂−1 (µ1 − µ2 ) f (x) = xT β q1 β T µ1 − β T µ2 + ln( ) 6 xT β. 2 q2 Îãðàíè÷åíèÿ ìåòîäà: Σ̂ = Σ̂1 = Σ̂2 Ïðîáëåìà âêëþ÷åíèÿ â àíàëèç êàòåãîðèàëüíûõ ïðèçíàêîâ Ñëîæíîñòü èíòåðïðåòàöèè äèñêðèìèíàíòíûõ ôóíêöèé â ñëó÷àå áîëüøîãî êîëè÷åñòâà ïðèçíàêîâ 3/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Äðóãèå ìåòîäû êëàññèôèêàöèè Ìåòîäû Îñíîâíûå ïðåèìóùåñòâà Ïîøàãîâûé äèñêðèìèíàíòíûé àíàëèç Ðåãóëÿðèçîâàííûé äèñêðèìèíàíòíûé p >> n àíàëèç (RDA) [Ôðèäìàí, 1989] Äèñêðèìèíàíòíûé àíàëèç ñ ðàçðåæåíèåì (SDA) [L.Clemmensen, 2011] p >> n Ìåòîä îïîðíûõ âåêòîðîâ (SVM) [Âàïíèê, 1963] Ñëó÷àéíûé ëåñ (Random Forest) [Breiman, 2001] Ñòðàòèôèêàöèîííûé äèñêðèìèíàíòíûé àíàëèç [Àëåêñååâà, 2012] Ðåäóêöèÿ ðàçìåðíîñòè Ðåäóêöèÿ ðàçìåðíîñòè, Íåëèíåéíîñòü Ðåéòèíãîâûé ïîäõîä, ñëó÷àéíîå äåðåâî Ðåéòèíãîâûé ïîäõîä, ðàçäåëÿåìûå ïîäâûáîðêè Ìåòîäû ìîæíî èñïîëüçîâàòü êàê èçîëèðîâàííî, òàê è â ñî÷åòàíèè. 4/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Àëãîðèòì ñòðàòèôèêàöèîííîãî äèñêðèìèíàíòíîãî àíàëèçà â ñëó÷àå ïîïóëÿöèé W0 , W1 Ïåðåìåííûå: êëàññèôèöèðóþùèå X = (X1 , . . . , Xp ), ðàññëàèâàþùèå áèíàðíûå Y = (Y1 , . . . , Yk ). Èòîãîâàÿ õàðàêòåðèñòèêà Z = −1, åñëè X ∈ W0 , Z = 1, åñëè X ∈ W1 . Nc ïîðîãîâîå çíà÷åíèå îáúåìîâ ïîäâûáîðîê, Pc ãðàíèöà ïðàâèëüíîé êëàññèôèêàöèè, c ãðàíè÷íîå çíà÷åíèå àïîñòåðèîðíîé âåðîÿòíîñòè èëè äèñêðèìèíàíòíîé ôóíêöèè Ðàññëîåíèå ïîïóëÿöèé íà (W0i0 , W1i0 ) ïðè Yi = 0 è (W0i1 , W1i1 ) ïðè Yi = 1, i = 1, . . . , k . Îáúåìû âûáîðîê nil0 , nil1 . Ïðèìåíåíèå LDA(SLDA, RDA, SDA) ñ ïåðåìåííûìè X = (X1 , . . . , Xp ) äëÿ (W0il , W1il ), l = 0, 1, i = 1, . . . , k ïðè óñëîâèè nil0 ≥ Nc , nil1 ≥ Nc . 5/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Âûõîäíûå äàííûå àëãîðèòìà LDAwS Âåðîÿòíîñòü ïðàâèëüíîé êëàññèôèêàöèè Pil (X). Àïîñòåðèîðíàÿ âåðîÿòíîñòü èëè äèñêðèìèíàíòíàÿ ôóíêöèÿ dil (X). Ñòðàòèôèöèðóþùåå ìíîæåñòâî ïîäâûáîðîê il L(X) = {(i, l)| nil 0 ≥ Nc , n1 ≥ Nc , Pil (X) > Pc } Ñðåäíÿÿ äèñêðèìèíàíòíàÿ ôóíêöèÿ P dm (X) = dil (X) (i,l)∈L Míîæåñòâî ïðàâèëüíî êëàññèôèöèðóþùèõ ïîäâûáîðîê L∗ (X) = {(i, l)| (i, l) ∈ L(X), sgn(dil − c)Z = 1} Èíäåêñ êëàññèôèêàöèè I(X) = 6/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 card(L∗ (X)) . card(L(X)) Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Ðàñøèðåíèå ìíîæåñòâà äèõîòîìè÷åñêèõ ïðèçíàêîâ Êîíå÷íî-ëèíåéíàÿ ñòðàòèôèêàöèÿ. Îïðåäåëåíèå Ïóñòü X = (X1 , . . . , Xm )T âåêòîð äèõîòîìè÷åñêèõ ïðèçíàêîâ ñ êîìïîíåíòàìè, ïðèíèìàþùèìè çíà÷åíèÿ 0 è 1, τ = (t1 , . . . , tk ) ∈ (1, 2, . . . , m). Ñèìïòîì k ðàíãà ëèíåéíàÿ êîìáèíàöèÿ âèäà Xτ = Aτ X( mod 2), ãäå Aτ = (a1 , . . . , am ) âåêòîð-ñòðîêà c êîìïîíåíòàìè ( 1, aj = 0, j∈τ j∈ / τ.  çàäà÷å ïðîãíîçèðîâàíèÿ ÑÌ äîñòàòî÷íî èñïîëüçîâàíèå ñèìïòîìîâ ðàíãà k = 2, 3 ïî m = 43 áèíàðíûì ïðèçíàêàì. 7/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Äèñêðèìèíàíòíûé àíàëèç ñ ðàçðåæåíèåì (SDA) Ïóñòü X ìàòðèöà íàáëþäåíèé, Y n × K ìàòðèöà ôèêòèâíûõ ïåðåìåííûõ äëÿ K êëàññîâ, θk K -âåêòîð êîððåêòèðóþùèõ êîýôôèöèåíòîâ äëÿ êëàññîâ, λ, γ íåîòðèöàòåëüíûå ïàðàìåòðû, Ω ïîëîæèòåëüíî îïðåäåëåííàÿ ìàòðèöà. Ïàðàìåòðû (θk , βk ) ÿâëÿþòñÿ ðåøåíèåì çàäà÷è: min ||Y θk − Xβk ||2 + γβk T Ωβk + λ||βk ||1 , βk ,θk 1 T T θk Y Y θk = 1, n θk T Y T Y θl = 0 ∀l < k. 8/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Ñîîòíîøåíèå ìåæäó êîýôôèöèåíòàìè SDA è LDA â ñëó÷àå äâóõ êëàññîâ Óòâåðæäåíèå (1) Åñëè X T X = I , òî êîýôôèöèåíòû β̂SDA èìåþò âèä: 1 β̂SDA = |(I + γΩ)X T Y θ| − λ/2 + sgn (I + γΩ)X T Y θ , ãäå z+ = z, åñëè z > 0, èíà÷å z+ = 0.  ñëó÷àå öåíòðèðîâàííûõ äàííûõ β̂LDA è β̂SDA ñîîòíîñÿòñÿ êàê: β̂SDA 2 √ n q1 q2 n − 2 −1 = β̂LDA + Σ̂b (µˆ2 − µˆ1 ) − λ/2 + (n − 2) n n − 2 −1 sgn β̂LDA + Σ̂b (µˆ2 − µˆ1 ) . n Åñëè X T X 6= I è λ = 0, òî β̂SDA è β̂LDA ñîîòíîñÿòñÿ êàê: β̂SDA = 9/14 √ n q1 q2 n − 2 −1 β̂LDA + Σ̂b (µˆ2 − µˆ1 ) (n − 2) n Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Ðåãóëÿðèçîâàííûé äèñêðèìèíàíòíûé àíàëèç Âî-ïåðâûõ ñ ïîìîùüþ ïàðàìåòðà ðåãóëÿðèçàöèè α, ãäå 0 < α < 1, âû÷èñëÿåòñÿ êîìáèíàöèÿ: Σ̂i (α) = (1 − α)Σ̂i + αΣ̂. Çàòåì, èñïîëüçóÿ ïàðàìåòð ðåãóëÿðèçàöèè γ , ãäå 0 < γ < 1, ñòðîèòñÿ ñëåäóþùàÿ îöåíêà: 1 Σ̂i (α, γ) = (1 − γ)Σ̂i (α) + γ tr[Σ̂i (α)]I, d ãäå d1 tr[Σ̂i (α)] ñðåäíåå çíà÷åíèå äèàãîíàëüíûõ ýëåìåíòîâ ìàòðèöû Σ̂i (α), Σ̂i êîâàðèàöèîííûå ìàòðèöû äëÿ êàæäîãî êëàññà, Σ̂ îáùàÿ êîâàðèàöèîííàÿ ìàòðèöà. 10/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Ñðàâíåíèå ìåòîäîâ íà äàííûõ ïî Ñèíäðîìó Ìàëîãî Âûáðîñà (ÑÌÂ) Òàáëèöà 1: Äîëè ïðàâèëüíîé êëàññèôèêàöèè Ìåòîä Îáó÷àþùàÿ Êîíòðîëüíàÿ Âñÿ âûáîðêà âûáîðêà âûáîðêà LDA 0.611 0.636 0.616 RDA 0.64 0.545 0.625 SDA 0.644 0.5 0.616 LDA Greedy Wilks 0.622 0.682 0.553 SVM 1 0.636 0.928 Random Forest 1 0.545 0.911 LDAwS 0.9 0.91 0.955 RDAwS 0.9 0.86 0.973 SDAwS 0.9 0.91 0.955 11/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè 0.4 0.6 0.8 1.0 Индекс классификации Ðåçóëüòàòû LDAwS 0.4 0.6 0.8 1.0 Индекс классификации Ðèñ. 2: 1.2 Ðåçóëüòàòû RDAwS -1.0 -0.5 ДФ2 0.0 Средняя ДФ -0.5 0.0 0.5 0.5 1.0 Ðèñ. 1: 1.2 -1.0 -2 Средняя ДФ -1 0 1 Средняя ДФ -0.5 0.0 0.5 2 3 1.0 LDAwS, RDAwS, SDAwS íà âñåõ äàííûõ 0.0 0.2 Ðèñ. 3: 12/14 0.4 0.6 0.8 Индекс классификации 1.0 1.2 Ðåçóëüòàòû SDAwS Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 -2 -1 Ðèñ. 4: 0 1 ДФ1 2 3 Áåç ñòðàòèôèêàöèè Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè 0.2 0.4 0.6 0.8 Индекс классификации Ðåçóëüòàòû LDAwS 0.2 Ðèñ. 6: 0.4 0.6 0.8 Индекс классификации 1.0 Ðåçóëüòàòû RDAwS 0.2 0.4 0.6 0.8 Индекс классификации Ðèñ. 7: 13/14 1.0 Ðåçóëüòàòû SDAwS Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 -3 -1.0 -2 -1 ДФ2 0 1 2 Средняя ДФ -0.5 0.0 0.5 3 4 1.0 Ðèñ. 5: 1.0 -1.0 -3 -2 Средняя ДФ -1 0 1 2 Средняя ДФ -0.5 0.0 0.5 3 4 1.0 LDAwS, RDAwS, SDAwS ñ îáó÷åíèåì -3 -2 Ðèñ. 8: -1 0 ДФ1 1 2 3 4 Áåç ñòðàòèôèêàöèè Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè Îñíîâíûå ðåçóëüòàòû Àëãîðèòìû LDAwS, RDAwS, SDAwS ðåàëèçîâàíû â âèäå ïðîãðàììíîãî êîäà íà ÿçûêå R. Äëÿ ïðîãíîçèðîâàíèÿ ÑÌ èñïîëüçîâàëèñü ðàçíîîáðàçíûå ìåòîäû êëàññèôèêàöèè ñ ðàçáèåíèåì âûáîðêè íà îáó÷àþùóþ è êîíòðîëüíóþ. Íàèëó÷øèé ðåçóëüòàò ïîêàçûâàþò ìåòîäû RDAwS è SDAwS, 86-92% ïðàâèëüíîé êëàññèôèêàöèè. Ñòðàòèôèêàöèîííûé äèñêðèìèíàíòíûé àíàëèç ïîçâîëÿåò îòäåëèòü ëþäåé ñ íàèáîëåå âåðîÿòíûì âîçíèêíîâåíèåì ïîñëåîïåðàöèîííîãî îñëîæíåíèÿ ñ íåáîëüøîé ïåðåñòðàõîâêîé. Äëÿ áîëüíûõ áåç îñëîæíåíèé õàðàêòåðåí áîëåå âûñîêèé èíäåêñ ïðàâèëüíîé êëàññèôèêàöèè. 14/14 Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522 Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè