Статистические методы улучшения классификации в задаче

реклама
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ
êëàññèôèêàöèè â çàäà÷å ïðîãíîçèðîâàíèÿ
ïîñëåîïåðàöèîííûõ êàðäèîëîãè÷åñêèõ
îñëîæíåíèé
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñàíêò-Ïåòåðáóðãñêèé ãîñóäàðñòâåííûé óíèâåðñèòåò
Ìàòåìàòèêî-ìåõàíè÷åñêèé ôàêóëüòåò
Êàôåäðà ñòàòèñòè÷åñêîãî ìîäåëèðîâàíèÿ
Íàó÷íûé ðóêîâîäèòåëü: ê.ô.-ì.í., äîö. Àëåêñååâà Í.Ï.
Ðåöåíçåíò: ê.ô.-ì.í., äîö. Êîðîáåéíèêîâ À.È.
1/14
Ñàíêò-Ïåòåðáóðã
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð.
522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Ïðîáëåìà àíàëèçà êàðäèîëîãè÷åñêèõ äàííûõ
Ñíèæåíèå ðèñêà âîçíèêíîâåíèÿ îñëîæíåíèé ïîñëå îïåðàöèè
ÀÊØ (Àîðòî-êîðîíàðíîå øóíòèðîâàíèå)
112 èíäèâèäîâ â ðàííåì ïîñëåîïåðàöèîííîì ïåðèîäå
11 êîëè÷åñòâåííûõ è 43 êàòåãîðèàëüíûå ïðèçíàêà,
õàðàêòåðèçóþùèå ïðåäîïåðàöèîííûé è èíòðàîïåðàöèîííûé
ïåðèîä
Ìåõàíèçì âîçíèêíîâåíèÿ ÑÌÂ òðóäíî ïðåäñêàçóåì ñ
êëèíè÷åñêîé òî÷êè çðåíèÿ
Öåëü Êëàññèôèêàöèÿ èíäèâèäîâ è ïðîãíîçèðîâàíèå
ïîñëåîïåðàöèîííîãî îñëîæíåíèÿ ÑÌ (Ñèíäðîì Ìàëîãî ñåðäå÷íîãî
Âûáðîñà)
2/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Áàéåñîâñêàÿ ïðîöåäóðà êëàññèôèêàöèè â ñëó÷àå äâóõ
ïîïóëÿöèé
ðåàëèçàöèÿ ñëó÷àéíîãî âåêòîðà ïðèçíàêîâ,
, àïðèîðíûå âåðîÿòíîñòè ïîïóëÿöèé W1 , W2 ,
, âåêòîðà ñðåäíèõ,
êîâàðèàöèîííûå ìàòðèöû,
êîýôôèöèåíòû äèñêðèìèíàíòíîé ôóíêöèè
.
Ïðàâèëî êëàññèôèêàöèè: x ∈ W1 , åñëè
x = (x1 , . . . , xp )
q1 q2
µ1 µ2
Σ̂ = Σ̂1 = Σ̂2
β = Σ̂−1 (µ1 − µ2 )
f (x) = xT β
q1
β T µ1 − β T µ2
+ ln( ) 6 xT β.
2
q2
Îãðàíè÷åíèÿ ìåòîäà:
Σ̂ = Σ̂1 = Σ̂2
Ïðîáëåìà âêëþ÷åíèÿ â àíàëèç êàòåãîðèàëüíûõ ïðèçíàêîâ
Ñëîæíîñòü èíòåðïðåòàöèè äèñêðèìèíàíòíûõ ôóíêöèé â ñëó÷àå
áîëüøîãî êîëè÷åñòâà ïðèçíàêîâ
3/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Äðóãèå ìåòîäû êëàññèôèêàöèè
Ìåòîäû
Îñíîâíûå ïðåèìóùåñòâà
Ïîøàãîâûé äèñêðèìèíàíòíûé àíàëèç
Ðåãóëÿðèçîâàííûé äèñêðèìèíàíòíûé
p >> n
àíàëèç (RDA) [Ôðèäìàí, 1989]
Äèñêðèìèíàíòíûé àíàëèç ñ ðàçðåæåíèåì
(SDA) [L.Clemmensen, 2011]
p >> n
Ìåòîä îïîðíûõ âåêòîðîâ
(SVM) [Âàïíèê, 1963]
Ñëó÷àéíûé ëåñ
(Random Forest) [Breiman, 2001]
Ñòðàòèôèêàöèîííûé äèñêðèìèíàíòíûé
àíàëèç [Àëåêñååâà, 2012]
Ðåäóêöèÿ ðàçìåðíîñòè
Ðåäóêöèÿ ðàçìåðíîñòè,
Íåëèíåéíîñòü
Ðåéòèíãîâûé ïîäõîä,
ñëó÷àéíîå äåðåâî
Ðåéòèíãîâûé ïîäõîä,
ðàçäåëÿåìûå ïîäâûáîðêè
Ìåòîäû ìîæíî èñïîëüçîâàòü êàê èçîëèðîâàííî, òàê è â ñî÷åòàíèè.
4/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Àëãîðèòì ñòðàòèôèêàöèîííîãî äèñêðèìèíàíòíîãî
àíàëèçà â ñëó÷àå ïîïóëÿöèé
W0 , W1
Ïåðåìåííûå: êëàññèôèöèðóþùèå X = (X1 , . . . , Xp ),
ðàññëàèâàþùèå áèíàðíûå Y = (Y1 , . . . , Yk ). Èòîãîâàÿ
õàðàêòåðèñòèêà Z = −1, åñëè X ∈ W0 , Z = 1, åñëè X ∈ W1 .
Nc ïîðîãîâîå çíà÷åíèå îáúåìîâ ïîäâûáîðîê, Pc ãðàíèöà
ïðàâèëüíîé êëàññèôèêàöèè, c ãðàíè÷íîå çíà÷åíèå
àïîñòåðèîðíîé âåðîÿòíîñòè èëè äèñêðèìèíàíòíîé ôóíêöèè
Ðàññëîåíèå ïîïóëÿöèé íà (W0i0 , W1i0 ) ïðè Yi = 0 è (W0i1 , W1i1 )
ïðè Yi = 1, i = 1, . . . , k . Îáúåìû âûáîðîê nil0 , nil1 .
Ïðèìåíåíèå LDA(SLDA, RDA, SDA) ñ ïåðåìåííûìè
X = (X1 , . . . , Xp ) äëÿ (W0il , W1il ), l = 0, 1, i = 1, . . . , k ïðè
óñëîâèè nil0 ≥ Nc , nil1 ≥ Nc .
5/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Âûõîäíûå äàííûå àëãîðèòìà
LDAwS
Âåðîÿòíîñòü ïðàâèëüíîé êëàññèôèêàöèè Pil (X). Àïîñòåðèîðíàÿ
âåðîÿòíîñòü èëè äèñêðèìèíàíòíàÿ ôóíêöèÿ dil (X).
Ñòðàòèôèöèðóþùåå ìíîæåñòâî ïîäâûáîðîê
il
L(X) = {(i, l)| nil
0 ≥ Nc , n1 ≥ Nc , Pil (X) > Pc }
Ñðåäíÿÿ äèñêðèìèíàíòíàÿ
ôóíêöèÿ
P
dm (X) =
dil (X)
(i,l)∈L
Míîæåñòâî ïðàâèëüíî êëàññèôèöèðóþùèõ ïîäâûáîðîê
L∗ (X) = {(i, l)| (i, l) ∈ L(X), sgn(dil − c)Z = 1}
Èíäåêñ êëàññèôèêàöèè
I(X) =
6/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
card(L∗ (X))
.
card(L(X))
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Ðàñøèðåíèå ìíîæåñòâà äèõîòîìè÷åñêèõ ïðèçíàêîâ
Êîíå÷íî-ëèíåéíàÿ ñòðàòèôèêàöèÿ.
Îïðåäåëåíèå
Ïóñòü X = (X1 , . . . , Xm )T âåêòîð äèõîòîìè÷åñêèõ ïðèçíàêîâ ñ
êîìïîíåíòàìè, ïðèíèìàþùèìè çíà÷åíèÿ 0 è 1,
τ = (t1 , . . . , tk ) ∈ (1, 2, . . . , m). Ñèìïòîì k ðàíãà ëèíåéíàÿ
êîìáèíàöèÿ âèäà Xτ = Aτ X( mod 2), ãäå Aτ = (a1 , . . . , am ) âåêòîð-ñòðîêà c êîìïîíåíòàìè
(
1,
aj =
0,
j∈τ
j∈
/ τ.
 çàäà÷å ïðîãíîçèðîâàíèÿ ÑÌ äîñòàòî÷íî èñïîëüçîâàíèå
ñèìïòîìîâ ðàíãà k = 2, 3 ïî m = 43 áèíàðíûì ïðèçíàêàì.
7/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Äèñêðèìèíàíòíûé àíàëèç ñ ðàçðåæåíèåì (SDA)
Ïóñòü X ìàòðèöà íàáëþäåíèé,
Y n × K ìàòðèöà ôèêòèâíûõ ïåðåìåííûõ äëÿ K êëàññîâ,
θk K -âåêòîð êîððåêòèðóþùèõ êîýôôèöèåíòîâ äëÿ êëàññîâ,
λ, γ íåîòðèöàòåëüíûå ïàðàìåòðû,
Ω ïîëîæèòåëüíî îïðåäåëåííàÿ ìàòðèöà.
Ïàðàìåòðû (θk , βk ) ÿâëÿþòñÿ ðåøåíèåì çàäà÷è:
min ||Y θk − Xβk ||2 + γβk T Ωβk + λ||βk ||1 ,
βk ,θk
1 T T
θk Y Y θk = 1,
n
θk T Y T Y θl = 0 ∀l < k.
8/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Ñîîòíîøåíèå ìåæäó êîýôôèöèåíòàìè SDA è LDA â
ñëó÷àå äâóõ êëàññîâ
Óòâåðæäåíèå (1)
Åñëè X T X = I , òî êîýôôèöèåíòû β̂SDA èìåþò âèä:
1
β̂SDA = |(I + γΩ)X T Y θ| − λ/2
+
sgn (I + γΩ)X T Y θ ,
ãäå z+ = z, åñëè z > 0, èíà÷å z+ = 0.
 ñëó÷àå öåíòðèðîâàííûõ äàííûõ β̂LDA è β̂SDA ñîîòíîñÿòñÿ êàê:
β̂SDA
2
√
n q1 q2
n − 2 −1
=
β̂LDA +
Σ̂b (µˆ2 − µˆ1 ) − λ/2 +
(n − 2)
n
n − 2 −1
sgn β̂LDA +
Σ̂b (µˆ2 − µˆ1 ) .
n
Åñëè X T X 6= I è λ = 0, òî β̂SDA è β̂LDA ñîîòíîñÿòñÿ êàê:
β̂SDA =
9/14
√
n q1 q2
n − 2 −1
β̂LDA +
Σ̂b (µˆ2 − µˆ1 )
(n − 2)
n
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Ðåãóëÿðèçîâàííûé äèñêðèìèíàíòíûé àíàëèç
Âî-ïåðâûõ ñ ïîìîùüþ ïàðàìåòðà ðåãóëÿðèçàöèè α, ãäå 0 < α < 1,
âû÷èñëÿåòñÿ êîìáèíàöèÿ:
Σ̂i (α) = (1 − α)Σ̂i + αΣ̂.
Çàòåì, èñïîëüçóÿ ïàðàìåòð ðåãóëÿðèçàöèè γ , ãäå 0 < γ < 1, ñòðîèòñÿ
ñëåäóþùàÿ îöåíêà:
1
Σ̂i (α, γ) = (1 − γ)Σ̂i (α) + γ tr[Σ̂i (α)]I,
d
ãäå d1 tr[Σ̂i (α)] ñðåäíåå çíà÷åíèå äèàãîíàëüíûõ ýëåìåíòîâ
ìàòðèöû Σ̂i (α),
Σ̂i êîâàðèàöèîííûå ìàòðèöû äëÿ êàæäîãî êëàññà,
Σ̂ îáùàÿ êîâàðèàöèîííàÿ ìàòðèöà.
10/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Ñðàâíåíèå ìåòîäîâ íà äàííûõ ïî Ñèíäðîìó Ìàëîãî
Âûáðîñà (ÑÌÂ)
Òàáëèöà 1:
Äîëè ïðàâèëüíîé êëàññèôèêàöèè
Ìåòîä
Îáó÷àþùàÿ Êîíòðîëüíàÿ Âñÿ
âûáîðêà
âûáîðêà âûáîðêà
LDA
0.611
0.636
0.616
RDA
0.64
0.545
0.625
SDA
0.644
0.5
0.616
LDA Greedy Wilks
0.622
0.682
0.553
SVM
1
0.636
0.928
Random Forest
1
0.545
0.911
LDAwS
0.9
0.91
0.955
RDAwS
0.9
0.86
0.973
SDAwS
0.9
0.91
0.955
11/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
0.4
0.6
0.8
1.0
Индекс классификации
Ðåçóëüòàòû LDAwS
0.4
0.6
0.8
1.0
Индекс классификации
Ðèñ. 2:
1.2
Ðåçóëüòàòû RDAwS
-1.0
-0.5
ДФ2
0.0
Средняя ДФ
-0.5
0.0
0.5
0.5
1.0
Ðèñ. 1:
1.2
-1.0
-2
Средняя ДФ
-1
0
1
Средняя ДФ
-0.5
0.0
0.5
2
3
1.0
LDAwS, RDAwS, SDAwS íà âñåõ äàííûõ
0.0
0.2
Ðèñ. 3:
12/14
0.4
0.6
0.8
Индекс классификации
1.0
1.2
Ðåçóëüòàòû SDAwS
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
-2
-1
Ðèñ. 4:
0
1
ДФ1
2
3
Áåç ñòðàòèôèêàöèè
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
0.2
0.4
0.6
0.8
Индекс классификации
Ðåçóëüòàòû LDAwS
0.2
Ðèñ. 6:
0.4
0.6
0.8
Индекс классификации
1.0
Ðåçóëüòàòû RDAwS
0.2
0.4
0.6
0.8
Индекс классификации
Ðèñ. 7:
13/14
1.0
Ðåçóëüòàòû SDAwS
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
-3
-1.0
-2
-1
ДФ2
0 1
2
Средняя ДФ
-0.5
0.0
0.5
3
4
1.0
Ðèñ. 5:
1.0
-1.0
-3
-2
Средняя ДФ
-1 0 1 2
Средняя ДФ
-0.5
0.0
0.5
3
4
1.0
LDAwS, RDAwS, SDAwS ñ îáó÷åíèåì
-3
-2
Ðèñ. 8:
-1
0
ДФ1
1
2
3
4
Áåç ñòðàòèôèêàöèè
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Îñíîâíûå ðåçóëüòàòû
Àëãîðèòìû LDAwS, RDAwS, SDAwS ðåàëèçîâàíû â âèäå
ïðîãðàììíîãî êîäà íà ÿçûêå R.
Äëÿ ïðîãíîçèðîâàíèÿ ÑÌÂ èñïîëüçîâàëèñü ðàçíîîáðàçíûå
ìåòîäû êëàññèôèêàöèè ñ ðàçáèåíèåì âûáîðêè íà îáó÷àþùóþ è
êîíòðîëüíóþ.
Íàèëó÷øèé ðåçóëüòàò ïîêàçûâàþò ìåòîäû RDAwS è SDAwS,
86-92% ïðàâèëüíîé êëàññèôèêàöèè.
Ñòðàòèôèêàöèîííûé äèñêðèìèíàíòíûé àíàëèç ïîçâîëÿåò
îòäåëèòü ëþäåé ñ íàèáîëåå âåðîÿòíûì âîçíèêíîâåíèåì
ïîñëåîïåðàöèîííîãî îñëîæíåíèÿ ñ íåáîëüøîé ïåðåñòðàõîâêîé.
Äëÿ áîëüíûõ áåç îñëîæíåíèé õàðàêòåðåí áîëåå âûñîêèé èíäåêñ
ïðàâèëüíîé êëàññèôèêàöèè.
14/14
Êîìëåâà Äàðüÿ Ìèõàéëîâíà, ãð. 522
Ñòàòèñòè÷åñêèå ìåòîäû óëó÷øåíèÿ êëàññèôèêàöèè
Скачать