Распознавание образов Распознавание образов – это определение принадлежности данного объекта к одному из заранее выделенных классов объектов. Образ – это совокупность однородных эталонных объектов с набором свойств. образ (матрица свойств) рудных объектов образ безрудных объектов (k свойств, m объектов) (k свойств, n объектов) х11 x21 Х рудн xn1 х12 x22 xn 2 х1k x2 k xnk Y безр У всех объектов должны быть измерены одни и те же свойства ? образ испытуемых объектов (к свойств, l объектов z11 z12 z1k Z исп z 21 z 22 z 2 k z l1 zl 2 zlk у11 у12 у1k y21 y22 y2k ym1 ym 2 ymk Отбор информативных свойств. Распознаванию образов предшествует отбор информативных свойств, чтобы исключить из рассмотрения неинформативные свойства и сократить объем вычислений. Избыток неинформативных свойств ухудшает результаты распознавания образов. Методы определения информативности свойств. качественные признаки оценка частот сочетаний качественных свойств количественные признаки анализ расстояний между облаками точек в признаковом пространстве. Отбор информативных свойств, измеренных в номинальной или порядковой шкалах. Оценка частот сочетаний качественных свойств. 1 J k n 1 k N ij 2 0 1 1 1 1 1 1 0 0 1 k i1 X руд n – число объектов (наблюдений, образцов и т.д.); k – число свойств; Nij – частота совместного появления свойства i и свойства j. 1 1 1 1 1 0 1 0 0 1 0 1 0 1 1 1 0 0 0 1 Первое свойство проявляется в 3х объектах Второе свойство совместно с первым проявляется в 2х обектах (2 и 3) J1 Третье свойство совместно с первым проявляется в одном объекте ( 3 ) 1 1 (3 2 1 1 3 ) 0,365 . 2 2 2 2 6 5 Четвёртое свойство совместно с первым проявляется в одном объекте ( 3 ) Пятое свойство совместно с первым проявляется в трёх объектах (2, 3 и 6) 2 2 5 1 0.37 2 0.61 ? 2 3 5 Отбор информативных свойств, измеренных в номинальной или порядковой шкалах. Оценка частот сочетаний качественных свойств. 1 0.37 2 0.61 3 0.31 4 0.41 5 0.59 аналогичным образом рассчитывается информативность каждого свойства Расположив свойства в порядке информативности, можно найти суммарную информативность m свойств: Ji Jm m Jj j 1 Jm Jm integr% 2 0.61 0.61 57.61 5 0.59 0.85 80.14 4 0.41 0.92 89.01 1 0.37 1.01 96.62 3 0.31 1.06 100.00 Информативность 2,5 и 4 свойств в сумме составляет 89 %. 1 и 3 свойства могут быть исключены из анализа. 2 Информативность количественных свойств оценивают путем анализа расстояний между облаками точек рудных и безрудных объектов в признаковом пространстве. Информативность свойства j характеризуется квадратом нормированного расстояния между проекциями центров облаков на ось j признакового пространства: Jj xi yi 2j ( x j y j )2 2j - средние значения свойства j рудных и безруднных объектов 12j n1 22 j n2 - дисперсия свойства j (дисперсия разности средних) 2 12 j 2 j дисперсии свойства j рудных и безрудных объектов n1 и n2 – количество рудных и безрудных объектов Чем больше значение Jj, тем более информативным является данное свойство. Пример определения информативности количественных свойств Рудные 0 1 1 0 1 {x} 0 0 1 1 0 2,15 1,46 4,16 0,44 3,17 5,10 2,44 1,38 3,51 2,12 12 9 15 9 11 12 16 10 15 8 Безрудные ; 0,46 0,23 0,21 0,25 0,71 0,32 0,05 0,21 0,53 0,06 2 1 2 3 1 2 2 1 3 2 { y} 1 2,16 25 1 3,14 0 0 0,35 15 1,76 44 0,18 3 0,55 3 1 0,10 11 0 0,05 3 0,36 2 0,37 1 1 1,20 8 0,00 2 0 2,22 16 0,48 2 1 0 0,48 6 1,15 14 0,12 1 0,15 3 0 0,11 0,12 1 31 0,40 3 5 0,44 1 1 1,65 18 0,35 2 1 3,00 35 0,20 3 1 2,20 26 0,06 2 {x} 0,500 2,58 11,70 0,034 1,900 { y} 0,571 1,38 18,36 0,191 2,071 х2 0,250 1,800 7,21 0,1296 0,490 2у 0,245 1,127 140,1 0,0633 0,638 2j 12j n1 22 j n2 2 0,0425 0,261 10,73 0,01748 1.средние значения свойств 2. дисперсии свойств 3. дисперсии разности средних 4. нормированные квадраты расстояний Jj ( x j y j )2 2j Ji =0,12 5,52 4,13 1,41 0,31 0.,0946 Наиболее информативными являются второе и третье свойства. J 2 3 5,52 4,13 0.12 1.41 0.31 84% Методы распознавания образов. Дискриминантный анализ - разделение признакового пространства на области, в которых преобладают объекты одного типа путем проведения плоскостей (гиперплоскостей) между облаками точек, отвечающих объектам. k a x b 0 - уравнение плоскости i 1 i i ai – коэффициенты, определяющие ориентировку плоскости по отношению к осям координат признакового пространства и вычисляемые путем решения системы уравнений: 2 11 Cov2 1 Covk 1 Cov1k Cov2 k kk2 Cov1 2 2 22 Covk 2 * a1 x1 y1 a2 x2 y 2 ... am = ... xm y m Cov- ковариации свойств эталонных объектов X и Y Covij Covijрудн nрудн Covijбезр nбезр Covij _ рудн k D ai xi b - дискриминант точки i 1 b коэффициент вычисляется из уравнения: 2 2 b p1 n b p2 n 2 ln 1 2 ln 2 1 2 2 1 1 рi nk nk a x i 1 i i ni – количество наблюдений в i-ом объекте k – количество свойств xi , yi - средние значения i-го свойства объектов X и Y 1 n ( xim xim )( x jm x jm ) n m 1 V1 Гр.2 Гр.2 ? Гр.1 V2 Гр.1 Гр.1 ? Гр.2 V1 c1v1+c2v2 a1v1+a2v2-b=0 v1=b-v2а2/а1 V2 Пример вычислений для 2-х групп. Безрудный объект Рудный объект { X }рудн 2,15 12 1,46 9 4,16 15 0,44 9 3,17 11 5,10 2,44 1,28 3,51 2,12 12 16 10 15 8 ; {Y }безр 2,16 3,24 0,35 1,76 0,10 0,05 1,20 2,22 0,48 1,15 0,11 1,65 3,00 2,20 25 31 15 44 11 3 8 . 16 6 14 5 18 35 26 Уравнение плоскости K=2 - количество cвойств n1=10 – количество наблюдений в рудном объекте n2=14 – количество наблюдений в безрудном объекте Коэффициенты a Коэффициент b 12 Cov21 k a x b 0 i 1 i i Cov12 aa x1 y1 * 2 a2 x2 y2 2 2 2 b p1 n b p2 n 2 ln 1 2 ln 2 1 2 2 1 k рi ai xi i 1 Безрудный объект Рудный объект { X }рудн 2,15 12 1,46 9 4,16 15 0,44 9 3,17 11 5,10 2,44 1,28 3,51 2,12 12 Cov21 Covij 12 16 10 15 8 ; {Y }безр 2,16 3,24 0,35 1,76 0,10 0,05 1,20 2,22 0,48 1,15 0,11 1,65 3,00 2,20 25 31 15 44 11 3 8 . 16 6 14 5 18 35 26 Cov12 aa x1 y1 * 2 a2 x2 y2 2 k 1 ( xim x jm )( x jm x jm ) n m1 Covij Covijрудн nрудн Covijбезр nбезр ai Вычисление коэффициентов x1 Средние y1 2,58 11,70 ; Дисперсии x2 2 x1 1 1,8 7,23 ; Дисперсии разности средних Ковариации Средневзвешенная ковариация 1,38 18,36 y2 2 x2 y2 y2 2 1,15 140,09 xy2 xy2 1 2 0,262 10,727 cov x12 cov y12 2,061 9,88 cov x12 0,905 a 0,262 0,905 2,58 1,38 * a a2 11,7 18,36 0,905 10,73 0,2605 a1 0,905 а2 2,58 1,38; 0,905 а1 10,73а2 11,70 18,36. а1 9,57 а2 1,143 k a x b 0 Вычисление коэффициента b i 1 i i 2 { p}рудн 3,84 1,13 18,41 8,63 14,69 31,68 0,52 2,02 12,19 8,87 pрудн 8,02, 2 рудн. 123,30 { p}безр 15,00 14,19 18,06 45,94 14,74 4,76 0,07 . 1,59 3,97 8,97 8,19 9,90 21,24 16,05 pбезр 13,04, 2 безрудн. 121,30 2 b p1 n b p2 n 2 ln 1 2 ln 2 1 2 2 1 k р ai xi а1 9,57 i 1 b 0,56 а2 1,143 плоскость k ai xi b 0 i 1 9,57 x1 1,143x2 0,56 0 x2 8,372 x1 0,4899 дискриминанты точек D k D ai xi b i 1 а1 9,57 а2 1,143 b 0,56 1 6.2995 1 3.1252 1 22.1062 1 -6.6362 1 17.2039 1 34.531 1 4.5028 1 0.2596 1 15.8857 1 10.5844 2 -8.4638 2 -4.9862 2 -14.3555 2 -34.0088 2 -12.176 2 -4.4675 2 1.78 2 2.3974 2 -2.8244 2 -5.5565 2 -7.3277 2 -5.3435 2 -11.855 2 -9.224 Если имеется только 2 группы, то дискриминацию можно провести с помощью множественной регрессии, используя код группы в качестве зависимой переменной: cod 1,573267 0,239222 * v1 0.02957 * v2 1.4100237 1 1 1.48731588 1 1 1.01695848 1 1 1.73132232 2 1 1.13676026 1 1 0.7043188 1 1 1.45767732 1 1 1.55963284 2 1 1.17245278 1 1 1.30017236 1 1 1.78797248 2 2 1.70515472 2 2 Предположения. Нормальное распределение. Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Пренебрежение условием нормальности обычно не является "фатальным" в том смысле, что результирующие критерии значимости, и т.д. все еще заслуживают доверия. Однородность дисперсий/ковариаций. Предполагается, что матрицы дисперсий/ковариаций переменных однородны. Малые отклонения не фатальны. Отсутствие корреляции между средними и дисперсиями. Отсутствие выбросов. Переменные, используемые для дискриминации между совокупностями, не являются полностью избыточными. Пример выполнения дискриминантного анализа в STATISTICA 6.01 Выбор анализа Выбор признаков Выбор групп Выбор способа отбора информативных признаков Проверка выполнения предположений Анализ результатов. Информативные свойства Неинформативные свойства Для качественных признаков используется частотный анализ. При частотном анализе исходные свойства выражаются нулями и единицами перебираются все двойные и тройные комбинации свойств, которые характерны для одного образа и отсутствуют у другого. Найденные комбинации свойств называются сложными признаками. Для каждого испытуемого объекта определяется количество сложных признаков каждого образа. Количество признаков объектов Вывод о принадлежности испытуемых объектов Номер испытуемого объекта рудных безрудных 1 5 0 Рудный 2 0 6 Безрудный 3 1 3 Безрудный