Национальный Исследовательский Томский Политехнический Университет Институт природных ресурсов Кафедра химической технологии топлива и химической кибернетики СТАТИСТИЧЕСКИЕ МОДЕЛИ ОБЪЕКТОВ НА ОСНОВЕ ПАССИВНОГО ЭКСПЕРИМЕНТА. Активный эксперимент Активный эксперимент ставится по заранее составленному плану и обрабатывается по некоторому оптимальному алгоритму с целью составления математической модели или нелинейного полинома. Пассивный эксперимент исследователь собирает некоторый объем экспериментальной информации, т.е. значений факторов xi и выходного параметра yi. Причем происходит это в режиме нормальной эксплуатации объекта. Данные (выборка) берутся из каких–либо журналов (например, оператора установки, регламента). Для получения статистических моделей в виде полиномов на основе данных используют методы корреляционного и регрессионного анализа. ЭТАПЫ ПОСТРОЕНИЯ СТАТИСТИЧЕСКОЙ МОДЕЛИ 1. Записывается уравнение модели в виде полинома n–ой степени. 2. Рассчитываются коэффициенты этого полинома. 3. Оценивается наличие линейной связи между факторами, т.е. рассчитывается коэффициент парной корреляции. 4. Оценивается значимость коэффициентов полинома по t – критерию. 5. Устанавливается адекватность процессу (по критерию Фишера). уравнения регрессии реальному МЕТОДЫ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА Методы корреляционного применяются для описания и регрессионного зависимостей анализа между величинами по экспериментальным данным и базируются широко случайными на теории вероятности и математической статистики. Корреляционный анализ основывается на предпосылке о том, что переменные величины y (выходной параметр) и xi (факторы) являются случайными величинами и между ними может существовать так называемая корреляционная связь, при которой с изменением одной величины изменяется распределение другой. Для колличественной оценки тесноты связи служит выборочный коэффициент корреляции. ВИДЫ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ: Простой коэффициент корреляции или коэффициент парной корреляции определяет величину (тесноту) зависимости между двумя переменными x или y. Коэффициент частной корреляции измеряет линейную зависимость между двумя переменными после устранения части зависимости, обусловленный зависимостью этих переменных с другими переменными. Множественный коэффициент корреляции зависимости одной переменной от нескольких. определяет величину n xi x yi y Коэффициент парной корреляции: r i 1 xy n 1 S x S y Коэффициент частной корреляции: Частный коэффициент корреляции оценивает степень влияния фактора x1 на y при условии, что влияние x2 на y исключено. При исследовании зависимости y от x1 и x2 наличие корреляции между x1 и x2 и между y и x2 будет влиять на корреляцию между y и x1. Для того чтобы устранить влияние x2 необходимо измерить корреляцию между y и x1, при x2=const. r r r r r r yx1 yx2 x2 x1 ryx x 1 1 1 2 2 2 2 1 r 2 1 ryx x x 2 1 2 yx 2 yx x x 1 2 1 r yx x 1 1 2 1 2 1 r 2 2 1 r 2 yx x x 1 1 2 Частный коэффициент оценивает степень влияния фактора x1 на y при условии, что влияние x2 на y исключено. РЕГРЕССИОННЫЙ АНАЛИЗ – предполагает связь между зависимой (случайной) величиной Y и независимыми (неслучайными) переменными переменными x1,….xi. и Эта связь представляется с помощью математической модели, т.е. уравнения, которое связывает зависимую и независимые переменные. Предпосылки анализа: 1. Результаты наблюдений y1,y2,…,yn представляют собой независимые нормально распределенные случайные величины; 2. Факторы x1,…,xn – независимы и ошибка в измерении этих факторов пренебрежительно мала по сравнению с ошибкой при измерении y. Sx<<Sy 3. Выборочные дисперсии S1,…Sn значения выходного параметра у, полученных при одинаковых условиях (в параллельных опытах) должны быть однородны. ЗАДАЧА ставится следующим образом (постановка задачи): По данной выборке объема n найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку. Эта задача решается методами корреляционного и регрессионного анализа. yˆ f ( x) Т.е. нужно найти По сгущениям точек можно найти определенную зависимость, т.е. получить вид уравнения регрессии. При значительном разбросе точек регрессии не будет Вид уравнения регрессии зависит от выбираемого метода приближения. Обычно используется метод наименьших квадратов. n F y f (x ) i i i 1 2 min или 2 n F y yˆ min i i i 1 ЛИНЕЙНАЯ РЕГРЕССИОННАЯ МОДЕЛЬ При моделировании ХТП во многих случаях связь между X и Y можно описать линейной зависимостью yˆ b b x; 0 1 Связь между входными (x) и выходными (y) параметрами: Для нахождения коэффициентов уравнения регрессии b0 и b1 применим метод наименьших квадратов n F yi b0 b1xi 2 min i 1 Необходимым условием min функции является равенство нулю частных производных функции по искомым величинам (коэффициентам). n F 2 yi b0 b1xi 1 0; b0 i 1 n F 2 y b b x x 0 i 0 1 i i b i 1 1 yi b0 b1xi 0; y b b x x 0; i 0 1 i i nb0 b1 xi yi 2 b0 xi b1 xi xi yi (2) формулы для вычисления коэффициентов b0 и b1 b 0 yi xi yi n xi xi 2 x i xi 2 xi 2 yi xi xi yi xi b ; 0 N x2 x 2 i i y i xi xi yi b 1 n x i 2 x x i i n n n N x y x y i i i i i 1 i 1 b ; 2 1 N x2 x i i СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ 1. Для оценки тесноты линейной зависимости между факторами рассчитывают N коэффициенты парной корреляции r по формуле: xi x1 yi y r i 1 ; yx N 1 S x S y -1r1; 2. Проверка однородности дисперсий. 1) Определяется среднее по результатам параллельных опытов (если есть m параллельные опыты): y yi u 1 m iu ; i 1,... N m – число параллельных опытов N – количество опытов в выборке m yiu yi 2 2) Определяются выборочные дисперсии: S2 u 1 ; i 1, N i N 2 m 1 Si ; 3) Суммируются дисперсии i 1 4) Выбирается максимальная дисперсия, составляется отношение: - максимальное значение выборочной дисперсии. S2 max S2 G max ; N 2 Si i 1 Проверяется однородность дисперсий по критерию Кохрена (при одинаковом количестве параллельных опытов). Если , то дисперсии однородны. GG ( q, f , f ) табл. 1 2 число степеней свободы f1=m-1; f2=N; 5) Определяется дисперсия воспроизводимости -для одинакового числа опытов: N 2 Si S2 i 1 воспр. N (m 1) f= (N(m-1)). 3. Оценивается значимость коэффициентов полинома по критерию Стьюдента (предпосылка – отсутствие корреляции между факторами) b t i , b i Sb i где bi – i-ый коэффициент уравнения регрессии; S b - среднеквадратичное отклонение i-го коэффициента i Для случая линейного полинома y=b0+b1x1 следующим формулам S b 0 N S2 x воспр. i i 1 N N N x2 i i i 1 i 1 S 2 S2 b 0 b 1 и S2 b 1 вычисляются по S2 N воспр. N 2 N N x x i i i 1 i 1 2 t t (q, f ), Если то коэффициент b1 значим (значимо отличается от 0). В b табл. 1 противном случае – незначим (0) и из уравнения может быть исключен. 4. Проверка модели на адекватность осуществляется по критерию Фишера. Если S2 ост F q, f , f F T 1 2 2 S воспр. , то модель адекватна (т.е. линейное уравнение регрессии адекватно описывает исследуемый объект). для одинакового числа параллельных опытов m1=m2=…mn. если опыты проведены без параллельных. N m y yˆ 2 i i 2 i 1 S ост N l N f1 и f2 – число степеней свободы (f1 – для числителя, yi yˆi 2 f2 – для знаменателя). f1=N-l; (числ. ); S2 i 1 ост N l l=n+1 – число членов аппроксимирующего полинома (число коэффициентов регрессии, включая свободный член). f2=N(m-1), (знамен. ). N – общее количество опытов. n – количество факторов (x1,x2…) Если не было параллельных опытов, то вместо проверки модели на адекватность выполняется оценка качества аппроксимации достигается сравнением остаточной дисперсии S 2 с дисперсией относительно среднего S 2 y ост. y – экспериментальное значение выходного параметра. N yi y 2 S2 i 1 y N l i y 1 N y N i 1 i - среднее значение выходного параметра. Уравнение регрессии будет иметь смысл, если дисперсия относительно среднего существенно больше, чем т.е. эти дисперсии должны отличаться значимо. Критерий Фишера в этом случае будет иметь вид: S2 y F 1; 2 S ост и в этом случае, чем F>Fтабл(q,f1,f2), тем уравнение регрессии эффективнее. f1=N-1; f2=N-1; для выбранного q. СТАТИСТИЧЕСКИЕ МОДЕЛИ В ВИДЕ НЕЛИНЕЙНЫХ ПОЛИНОМОВ метод регрессионного анализа для составления статистической модели в виде полинома второй (или более высокой) степени: n yˆ b b x b x x b x 2 ...,... 0 i i ij i j ij i i 1 i j Коэффициенты регрессии определяют также по МНК, решая систему линейных уравнений. 2 ˆ Пусть дано уравнение y b0 b1x b2 x , требуется определить b0,b1,b2. F y ŷ 2 min 2 N F y b b x b x 2 min i 0 1i 2 i i 1 F 2 y b b x b x 2 1 0; i 0 1i 2 i b0 F 2 y b b x b x 2 x 0; i 0 1i 2 i i b0 F 2 y b b x b x 2 x 2 0; i 0 1i 2 i i b0 nb b x b x 2 y 0 1 i 2 i i 2 3 b0 xi b1 xi b2 xi xi yi 2 3 4 2 b0 xi b2 xi b2 xi yi xi Решая систему уравнений, вычисляем коэффициенты b0,b1,b2. ЗАКЛЮЧЕНИЕ Пассивные методы сбора экспериментальной информации имеют определенные преимущества, которые заключаются в том, что информация собирается в режиме нормальной эксплуатации объекта. Однако, полученные на базе пассивного эксперимента модели во многих случаях оказываются неэффективными. Причиной является невыполнение основных предпосылок регрессионного анализа: факторы измеряются с большими ошибками, т.е. в пассивном эксперименте, как правило, ошибка при измерении x соизмерима, а то и больше ошибки при измерении y. Иногда ошибка измерения превышает даже интервал измерения самих факторов. Кроме того факторы (xi) или коэффициенты bi имеют между собой корреляционную связь. интерпретацию результатов. Это затрудняет статистический анализ и СТАТИСТИЧЕСКИЕ МОДЕЛИ НА ОСНОВЕ АКТИВНОГО ЭКСПЕРИМЕНТА Активный эксперимент ставится по заранее составленному плану и обрабатывается по некоторому оптимальному алгоритму с целью составления математической модели или нелинейного полинома. Одним из основных методов теории активного эксперимента является статистическое планирование эксперимента. План эксперимента показывает расположение опытных точек в n-мерном факторном пространстве. ПЛАНЫ ПЕРВОГО ПОРЯДКА Полный факторный эксперимент При планировании по схеме полного факторного эксперимента (ПФЭ) реализуются все возможные комбинации факторов на всех выбранных для исследования уровнях. Суть факторного эксперимента: 1. Одновременное варьирование всех факторов при проведении эксперимента по определенному плану. 2. Представление математической модели (функции отклика) в виде линейного полинома. 3. Исследование полученного полинома методами математической статистики. Необходимое количество опытов N при ПФЭ определяется по формуле: N=ln N – число факторов; l – число уровней, на которых варьируются факторы. Уровни факторов – это границы исследуемой области по данному технологическому параметру. В основном (обычно) применяется планирование на двух уровнях, т.е. l=2, тогда при n=2, N=22=4. Нулевой (основной) уровень (центр плана эксперимента) – это некоторое начальное значение фактора при составлении математической модели. Это точка с координатами Интервал варьирования – часть области определения фактора, симметричная относительно его нулевого уровня. Пример. Объект исследования – реактор, в котором выход продукта y зависит от двух факторов: температуры в реакторе (x1) и давления (x2). Известно априори, что Т=100- 200; Р=10-20а, тогда 100 и 200, 10 и 20 – это два уровня, на которых варьируются факторы. Верхний – 2000 и 20а Нижний – 1000 и 10а Основной нулевой уровень:150 Основной уровень: 15 max x max x 1 x0 1 1 2 Интервалы варьирования: x max x min 200 100 1 X 1 50; 1 2 2 x max x min 20 10 2 X 2 5; 2 2 2 x min x max 0 21 ; x 2 2 2 В координатах на плоскости это можно представить следующим образом: X2 План X2 max 3 20 1 эксперимента расположение указывает n – мерном пространстве опытных точек независимых переменных x0 2 150 или А условия всех опытов, которые необходимо провести X2 min 10 4 X1 min 150 100 2 X1 200 X1 ma x При ПФЭ эксперимент ставится только на границе области, т.А – центр области. В большинстве случаев эксперимент задается в виде матрицы планирования – это план (таблица), каждая строчка который представляет собой условия опыта, а каждый столбец матрицы соответствует значениям переменных в различных опытах. Составим матрицу планирования для предыдущего примера. X1-T=100-2000C имеем два фактора, X2-P=10-20а, следовательно N=2n=4. Это ПФЭ типа 22: N X1 X2 y 1 100 min 10 min Y1 2 100 min 20 max Y2 3 200 max 10 min Y3 4 200 max 20 max Y4 Матрица планирования для ПФЭ 22 – все возможные комбинации факторов на двух уровнях. Это матрица планирования в натуральном масштабе. Матрица планирования составляется для того, чтобы эксперимент провести по определенному плану, определить значения выходного параметра в каждом опыте и построить статистическую модель. При планировании первого порядка получают математическую модель вида: yˆ b b x b x ... b x 0 11 2 2 n n - Линейное уравнение КОДИРОВАНИЕ ПЕРЕМЕННЫХ. Для удобства расчетов, перейдем от натуральных координат (натуральных единиц измерения) к безразмерным. Формула перехода или кодирования имеет вид: x x0 i , X i i x i xi – значения (верхний или нижний уровень) натуральной переменной. x 0 - основной уровень натуральной переменной. i x - интервал варьирования натуральной переменной. i Xi – кодированное значение i-го фактора (на верхнем или на нижнем уровне). T=100-2000C P=10-20a Перейдем от натуральных переменных к кодированным: Для температуры 200 150 1; 50 100 150 X1н 1; 50 X1в Для давления 20 15 1; 5 10 15 X 2н 1; 5 X 2в Фактически мы обозначили значения факторов на верхнем уровне +1, (200,20), а на нижнем (100, 10) - -1; Это матрица планирования в безразмерном масштабе. x0 – фиктивная переменная (+1), необходимое для вычисления свободного члена полинома. N x0 x1 x2 1 +1 +1 +1 2 +1 +1 -1 3 +1 -1 +1 4 +1 -1 -1 или N x0 x1 x2 1 + + + 2 + + - 3 + - + 4 + - - Расположение опытных точек в факторном пространстве будет следующим: X2 (-1,1) +1 (-1,1,1) (1,1,1) X2 (1,1) X3 (-1,1,-1) X1 -1 (-1,-1) +1 -1 (1,0,0) X1 (-1,1,1) (1,-1) (-1-1,-1) (1-1,-1) СВОЙСТВА МАТРИЦЫ ПЛАНИРОВАНИЯ Матрица планирования (таблица выше) обладает следующими свойствами: 1. N uj; xui x ji 0; i 1 u,j=1,…n, n – факторы i =1 ,…,N (N- количество опытов) Равенство нулю скалярных произведений всех векторов-столбцов – это свойство называется свойством ортогональности. 2. N xiu 0 u=1,…,n i 1 3. N 2 N x iu i 1 Все столбцы матрицы и план в целом ортогональны. N 1 2 3 4 x1 + + - x2 + + - x1x2 + + u=1,…,n 4. Свойство ротатабельности: дисперсия предсказанного значения выходного параметра в любой точке факторного пространства при ПФЭ минимальна. Это означает, что ошибка определения коэффициентов регрессии в любой точке от центра плана одинакова и минимальна. РАСЧЕТ КОЭФФИЦИЕНТОВ РЕГРЕССИИ. После того, как составлен план, проводят эксперименты и на основании результатов рассчитываю коэффициенты в уравнении регрессии по формулам: 1 N b x y ; 0 N 0i i i 1 1 N 1 N b x y ; b x x y; i N iu i ij N iu ij i i 1 i 1 u=1,…, n (факторы) Эти простые формулы получены благодаря свойству ортогональности, также на основании метода наименьших квадратов. b 0 2 yi x1i x1i yi xi N x2 x 2 1i ii yˆ b b x b x b x x 0 11 2 2 12 1 2 yi N 0 xi yi yi ; 2 N N 0 N x y x y N x y 0 y xi yi 1 i i 1 i i i i i b ; 1 2 2 2 N N x x N 0 ii 1i b ij - коэффициенты регрессии, характеризующие взаимодействие факторов. Пример: N 1 2 3 4 x0 +1 +1 +1 +1 b 0 x1 1 1 -1 -1 x2 1 -1 -1 -1 Y 85 66 56 50 85 66 56 50 64.25 4 b 1 85 66 56 50 11.25 4 b 2 85 66 56 50 6.25 4 b 12 x1x2 1 -1 -1 1 85 66 56 50 3.25 4 yˆ 64.25 11.25 x 6.25 x 3.25 x x 1 2 1 2 После вычисления коэффициентов регрессии приступают к статистическому анализу уравнения регрессии ПОРЯДОК СОСТАВЛЕНИЯ ПЛАНА 1.Выбирают центр плана (т.е. центр исследуемой области), в него переносится начало координат (это точка с координатами x0 , x0 ,...x0 1 2 n ). 2. Выбирают интервал варьирования – это расстояние от центра плана по данным оси на основе предварительного известных данных о процессе. Требования к xi: а) xi не должен быть слишком мал, т.к. в этом случае уровни факторов становятся x0 i неразличимы. Н.у. В.у. б) xi не должен быть слишком большим , т.к. можно перешагнуть через оптимальное x0 i значение х (xmax или xmin.) xmin xmax Первичная информация обычно представляется в виде таблицы. N X1 x0 i x0 1 x i В.у.( x 0 x i i ) Н.у.( xi0 xi ) x 1 x 1 x 1 … X2 x0 2 … x 2 x 2 x0 n x n … … x 2 xn … x n x n 3. Производят кодирование переменных для упрощения расчетов и строят матрицу планирования.