ТПУ, ИГНД, 2009-2010. ЧАСТЬ1.

реклама
ТПУ, ИГНД, 2009-2010. ЧАСТЬ1.
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ
1. Башкатов Д.Н. Планирование экспериментов
в разведочном бурении.- М.: Недра, 1985 .181 с.
2. Ганджумян Р.А. Математическая статистика
в разведочном бурении. Справочное
пособие.- М.: Недра, 1990.- 218 с.
3. Нейштетер И.А., Чубик П.С. Методы
планирования экспериментов при поиске
оптимальных условий в разведочном
бурении. Учебное пособие.- Томск, ТПУ,2000. - с.
ВВЕДЕНИЕ
Математическая
статистика – раздел
математики, посвящённый
математическим методам
систематизации, обработки и
использования статистических
данных для научных и
практических выводов.
Статистическими данными мы
называем сведения о числе объектов в
какой-либо более или менее обширной
совокупности, обладающих теми или
иными признаками.
Метод
исследования,
опирающийся на
рассмотрение
статистических
данных о тех или
иных
совокупностях
объектов,
называется
статистическим.
1
Где мы можем использовать планирование
эксперимента и для чего нам это надо?
•При осуществлении поиска оптимальных рецептур
многокомпонентных
систем и параметров режима
бурения;
•При прогнозировании параметров;
•При поиске эффективных технико-технологических
решений (управляющие воздействия);
•При обеспечении перехода на автоматизированное
управление процессом;
•При обеспечении надежности и достоверности
результатов исследований;
•Для повышения эффективности труда ИТР, сокращении
сроков и затрат на исследования.
2
Обработка результатов пассивных экспериментов
Первичный статистический анализ
Понятие о генеральной совокупности и выборке
Генеральной
совокупностью
называется
полный набор
всех значений,
которые
принимает или
может принять
случайная
величина
Часть генеральной
совокупности из n
значений случайных
величин,
выделенных из этой
совокупности,
называется
выборкой
Выборки объемом
до 30 значений
случайных величин
(СВ) условно
принято считать
малыми, а свыше 30
– большими
Число значений СВ,
входящих в выборку,
называется ее объемом
При определении
объема выборки
следует помнить, что
ошибка выводов
уменьшается в n раз
n  100
100  10
3
Требования к выделению выборки
1) В выборку можно включать только данные,
относящиеся к исследуемой генеральной
совокупности;
2) Все значения СВ, принадлежащие к исследуемой
генеральной совокупности, должны иметь
одинаковую возможность быть включенными с
выборку;
3) Выборка должна быть репрезентативной
(представительной), т.е. она должна включать в себя
достаточное число значений случайной величины для
представления об особенностях генеральной
совокупности
4
СТАТИСТИЧЕСКИЙ АНАЛИЗ БОЛЬШИХ ВЫБОРОК
1. Составление вариационного ряда (в порядке возрастания)
x1min   x2  x3    xn max 
2. Определение размаха вариационного ряда
1
R  xn  x1 или R  xmax  xmin
3. Выбор числа интервалов разбиения k вариационного ряда
k
3
n;
2
k  1  3,32 lg n
2 

4. Определение длины интервала разбиения (шага)
h
R
k
3
h0  xm in  0,5h 4
Нижняя граница
первого интервала
5
5. Составляют интервальный (группированный)
вариационный рад в виде таблицы 1.
Частость - это относительная частота попадания СВ в i-й
интервал (число значений СВ в определенном интервале,
отнесенное к общему объему выборки).
6. Строят в масштабе гистограмму
Гистограмма – ступенчатая фигура, состоящая из
прямоугольников с основанием в виде отрезков,
соответствующих длинам интервалов, и высотами,
соответствующими частостям.
7. Определяют закон распределения случайной величины
Закон распределения СВ – это соотношение,
устанавливающее связь между возможными значениями
6
СВ и соответствующими им вероятностями.
Интервальный вариационный ряд
№№
интервала
1
Границы интервала
h0  h0  h

Частота
(число
вариантов в
i-ом интервале
mi
2
h0  h   h0  2h 
(Xmin + h) ÷( Xmin + 2h)
Частость
mi
i 
n
m1
1
m2
2
Xmin ÷( Xmin + h)
3
h0  2h   h0  3h 
m3
3
…
………………
………….
…….
mk
r
k
xmin  k  1 h  xmax
Таблица 1
 m i  n  i
1
7
Р
X
k
12
xi
Рис. 2. Кривая распределения
Рис.1. Гистограмма
Понятие «частость» (i) для генеральной совокупности
заменяется на понятие «вероятность» (i). При n   i = i .
С ростом числа интервалов, будет уменьшаться их длина и
ломаная линия гистограммы превратится в плавную кривую
(рис. 2). При этом, относящееся к выборке понятие частость
(ωi) для генеральной совокупности, заменяется на понятие
вероятность (ρi): n → ∞
ωi = ρi.
8
Нормальный закон распределения Гаусса
1). Количество вариантов (значений СВ), превышающих
среднее значение, равно количеству вариантов, которые
меньше его (примерная симметричность диаграммы).
2). Частота вариантов тем больше, чем ближе к среднему
значению
они
расположены
(гистограмма
имеет
наибольшие ординаты в центре и наименьшие – у краев).
1.
Хорошо изучен, методика проста и
отработана;
2.
При увеличении объёма выборки,
целый ряд других законов стремятся
превратиться в НЗ
Вывод: если результаты измерений
Рис.3. Графическое представление
нормального распределения
вызывают сомнение в
применимости НЗ, увеличьте
объём выборки!
9
По своему виду кривые нормального распределения
могут быть:
 нормальновершинными;
 туповершинными;
 островершинными (рис. 4);
 иметь положительную асимметрию (рис.5а);
 иметь отрицательную асимметрию (рис.5б).
Рис. 4. Кривые нормального
распределения
Рис. 5. Кривые нормального
распределения с положительной и
отрицательной асимметрией
10
АСИММЕТРИЧНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ
Логарифмически-нормальный
закон ЛНЗ (умеренная
асимметрия)
Экспоненциальный закон
(резко асимметричная кривая
распределения)
В крепких и монолитных
породах, (выход керна 100%),
распределение асимметричное,
сдвинуто в сторону больших
значений (рис.6,а). В рыхлых
нецементированных
породах,
(выход керна  0, асимметрия
распределения правосторонняя
(рис.6,b).
Рис.6. Логарифмически-нормальное распределение
ЛНЗ (имеет место, когда значения случайной величины ограничены
некоторыми пределами) обладает умеренно асимметричной кривой
распределения; экспоненциальный закон (период надёжности и
долговечности работы оборудования) имеет резко асимметричную кривую
распределения
11
8). Находят точечные оценки параметров нормального
распределения СВ.
Правила определения оценок для параметров нормального
распределения по совокупности независимых измерений СВ
регламентируются ГОСТ 11.004 - 74.
СТАТИСТИЧЕСКИЕ ВЕЛИЧИНЫ И ПАРАМЕТРЫ
Среднее
Среднее
арифметическое
арифметическое
(все
имеют
(всеварианты
варианты имеют
одну
частоту,
однуии ту
ту же
же частоту,
равную
равную единице
единице) )
Характерно
для
Характерно
малых выборок
для малых
выборок
Среднее
взвешенное
Наиболее достоверная
оценка измеряемой
СВ

  xk mk
x  x1 m1 x2 m2
;
m1  m2   mk
(5)
Характерно для
больших выборок
12
МЕДИАНА (m0,5) – это
значение случайной
величины, которое делит
вариационный ряд или
площадь, ограниченную
кривой распределения,
на две равные части.
При нечётном объёме
выборки медиана равна:
МОДОЙ (m0) называют
варианту,
имеющую
наибольшую частоту,
соответствующую вершине
распределения (наиболее
вероятное значение СВ)
m
m  mm 1
m0  h  h
2mm  mm 1  mm 1
н
m0
0
0
m0,5  xm 6
При чётном:

x
m  xm1
7
m0,5 
2
8
0
0
0
Для нормального
симметричного распределения
x  m 0.5  m 0
9
не визуальная, а расчётная проверка
на нормальность
13
СТЕПЕНЬ РАЗБРОСА (РАССЕИВАНИЯ) ОТДЕЛЬНЫХ ЧАСТЕЙ
СВ ОТНОСИТЕЛЬНО ЕЕ СРЕДНЕГО ЗНАЧЕНИЯ
РАЗМАХОМ (R) называется разность между
наибольшим (xmax) и наименьшим (xmin) вариантами
ДИСПЕРСИЕЙ (D)
называется среднее
арифметическое значение
квадратов отклонений
отдельных вариант от их
средней арифметической
Среднее
квадратичное
отклонение (δ) – это
значение корня
квадратного из
дисперсии
  D 11

1 k
2
D
 xi  x   mi
n  1 i 1

10
Коэффициент вариации () –
это отношение среднего
квадратичного отклонения к
среднему значению СВ,
выраженное в процентах

   100,% 12
x
14
Более информативной оценкой среднего взвешенного
значения является интервальная оценка,
заключающаяся в установлении некоторого интервала,
внутри которого с определенной вероятностью и
находится истинное значение, т. е. генеральная средняя
исследуемой СВ.
Если среднее взвешенное значение x , найденное по
результатам анализа выборки объемом n, является
точечной оценкой математического ожидания а, то чем
меньше разность (а  x), тем точнее оценка
Величина Δ, являющаяся пределом, который с
определенной вероятностью не превосходит разность,
называется предельной ошибкой выборки
15
Величина Δ в выражении a  x   13 являющаяся
пределом, который с определенной вероятностью не
превосходит разность, называется предельной ошибкой
выборки
Вероятность того, что действительное значение
измеряемой величины лежит в пределах x   ; x   
представляет собой доверительную вероятность
P x      x     1   14 
где:
Р - доверительная вероятность
(статистическая надежность);
  уровень значимости.
1   Р
16
В технике, в большинстве случаев надежность P
принимается равной 0,9÷0,95 (90  95%). Надежности
равной 0,8; 0,9; 0,95, соответствуют уровни значимости
α, равные соответственно 0,2 (20%); 0,1 (10%); 0,05 (5%).
Для нормального распределения СВ это означает, что
вероятность выхода за границу составляет
соответственно в 20, 10 и 5% случаев.
Интервал,
Зная предельную ошибку
выборки Δ, можно определить
доверительный интервал, в
котором заключена
генеральная средняя
x      x   
t
 ,m  
15

n
x   ; x   
который с заданной
доверительной вероятностью
или надежностью Р
покрывает оцениваемый
параметр, называется
доверительным интервалом
Предельную ошибку
выборки определяют
по формуле Госсеша
(Стьюдента)
17
Статистический анализ малых выборок (n<30)
I. Проверка принадлежности имеющихся данных нормальному
закону распределения с помощью критерия Шапиро-Уилка (W)
1). Упорядочиваем выборку
(составляем вариационный ряд)
x1min   x2  x3  xnmax 
3). Определяем
вспомогательную величину
b   an i 1 xn i 1  xi 
L
i 1
20
L= n/2 –
чётный объём
выборки
2). Вычисляем сумму
квадратов отклонений
- S2 (x):
 x
 i 
n
2

2
 i 1 
S x    xi  
n
 i 1 
19
n
L = (n-1)/2
нечётный
2
4). Находим расчетное
значение критерия
2
21
W b
2
S x 
18
5). Находим табличное значение критерия Шапиро - Уилка – Wt
при заданном (выбранном) уровне значимости α по следующим
формулам:
6).Сравниваем расчетное значение критерия Шапиро - Уилка с
табличными:
при W > Wt можно считать, что распределение СВ
подчиняется нормальному закону;
Если соотношение не выполняется, то необходимо
увеличить объём выборки или осторожно отнестись к
выводам, особенно к величине доверительного интервала
809,58  10 3
3

292
,
56

10
ln
n


5
,
3124

10
n
WT0,05
n
3
3
902
,
86

10
3
 6,9979 10 3 n
WT0.1  314,89  10 ln n 
n
Например, при n = 10 WТ(0.05) = 0.838; n = 25 WТ(0.1) = 0.935
22
23
19
II. Рассчитаем среднее арифметическое значение СВ:
24
1 n
x   xi
n i 1
III. Оценим
характеристики степени разброса экспериментальных
данных относительно среднего арифметического значения
Дисперсию D
1 n
2


D
 xi  x 25
n  1 i 1
Среднее
квадратичное
отклонение 

D
IV. Зададимся величиной уровня значимости α и
рассчитаем предельную ошибку выборки – Δ
V. Находим
доверительный интервал для
математического ожидания (генеральной средней)
Коэффициент
вариации 

   100%
x

t 
 ,m
n
,
xa x
20
Отбраковка резко выделяющихся результатов (промахов)
Значения, которые весьма существенно отличаются от других и
появляются, как правило, вследствие грубых ошибок
субъективного происхождения, называются ПРОМАХАМИ
ПРОМАХИ ОБУСЛОВЛЕНЫ
неправильным
использованием
измерительной
техники
ошибками в
отчетах по
измерительным
приборам
ошибками в записях
экспериментальных
данных
ошибками в
вычислениях при
обработке
результатов
измерений
21
ПРАВИЛА И КРИТЕРИИ ВЫБРАКОВКИ ПРОМАХОВ
Правило трёх сигм (используется при объёме выборки n > 50)
«Вероятность попадания СВ в интервал от x  3 до x  3
равна 0,997 (99,7 %)»
Если такая надежность приемлема, то все значения случайной
величины, отклоняющиеся от среднего взвешенного или
среднеарифметического больше, чем на 3δ, отбрасываются, как
маловероятные
Задача
x  0,754;   0,042;
xmi n  0,67
xmax  0,85.
0,754  3  0,042  xi  0,754  3  0,042
0,628  xi  0,880
Вывод: в данной выборке резко выделяющихся замеров нет.
А если бы были, что делать? Продолжаем заниматься
«стрельбой» без «промахов»…
22
ПРАВИЛА И КРИТЕРИИ ВЫБРАКОВКИ ПРОМАХОВ
Метод С.В. Башинского ( при объёме выборки n <
50 и для малых выборок n < 30 )
Определяются предельно возможные максимальные (lim xmax) и
минимальные (lim xmin) значения случайной величины в выборке по
следующим формулам:
lim xmax  x  K Б xmax  xmi n ,
26
lim xmi n  x  K Б xmax  xmi n , 27
КБ- критерий С.В. Башинского, который определяется по формуле
KБ 
6,7107
 277,32  10 3
n
28
Задача: Проверить наличие грубых промахов
методом С.В. Башинского для исходных данных
Формула
справедлива
для 5 < n < 69
n  9; x  14,966; xm ax  20,1; xm i n  9,82; K Б  1.01
23
ПРАВИЛА И КРИТЕРИИ ВЫБРАКОВКИ ПРОМАХОВ
МЕТОД ГРЕББСА - СМИРНОВА
исключение резко выделяющихся замеров
производится с помощью безразмерных статистических
критериев ξmax и ξmin
xmax  x
max 
,

29
x  xmin
30
min 

1,78

3
3 

exp
78
,
998

10
ln
n


876
,
91

10
00 , 05


n


0  0 ,1  
2,1027ln n 
3,2522
 752,13  10 3
n
32
31
4 < n < 150
Например, при n = 30 0(ф.31) = 2.96, 0(ф.32) = 2.79
Если расчетные значения статистического критерия ξmax (ξmin) > ξ0,
то xmax > (xmin) отбрасываются, как содержащие грубую ошибку
24
Определение минимально необходимого числа
замеров (объема выборки)
Объем выборки должен быть минимально необходимым и
вполне достаточным для получения результатов с желаемой
точностью и надежностью.
Точность и надежность, в значительной мере определяются
изменчивостью изучаемого свойства или показателя, которая
оценивается среднеквадратичным отклонением  или
коэффициентом вариации ν (для разнородных величин)
Значения  или ν могут быть рассчитаны только по результатам уже
проведённых измерений. Однако, необходимое количество измерений
нужно знать до начала экспериментов.
До проведения основной серии экспериментов проводится
ОЦЕНОЧНАЯ серия, в ходе которой определяют точечные
оценки (среднее квадратичное отклонение, коэффициент
вариации и т.д.). Окончательное число замеров определяется
по специальным методикам.
25
МЕТОДИКА ПРИБЛИЖЁННОГО РАСЧЁТА ОБЪЁМА ВЫБОРКИ
Определяем значение
коэффициента вариации ν
Определяем значение
допустимой погрешности
(Кдоп) в процентах от
среднего арифметического
(например, Кдоп ≤ 10%)
Рассчитываем
величину
отношения (Кдоп / ν)
0 .4 
k доп
 1.4

По приведенной
формуле с надежностью
Р = 0,95 (95%)
определяем
необходимое число
замеров, округлив
полученный результат
в большую сторону
11

nm i nnmin 260,16  103  /  2 2
Кдоп
 3  К доп 
260,16  10 

  
33
26
Методика В.И. Романовского (применима, когда случайная
величина подчиняется нормальному закону)
НЕОБХОДИМЫЙ ОБЪЁМ СТАТИСТИЧЕСКОЙ
ИНФОРМАЦИИ:
среднеквадратическое отклонение ;
среднее арифметическое x;
допустимая погрешность (Кдоп) в процентах
от среднего арифметического;
заданная статистическая надежность Р.
x  К доп
q
  100
34
27
34
x  К доп
q
  100
34
По известным значениям x ,  и Кдоп по формуле (34)
рассчитывают параметр q (критерий В.И. Романовского)
По формулам (35)-(36), задавшись уровнем значимости ,
для найденного значения числа q рассчитывают
соответствующее ему минимально необходимое число
замеров (опытов)
 3.1988
325 .97  10 3 

nmin 0.1  exp 
,
 exp q  

q


nmin 0.05   exp  1.8431 ln q  1.6438 
(35) справедлива для
0.2 <q <1.18
(36) справедлива для
0.24 <q <1.05
35 
36 
28
ГРАФИЧЕСКАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЙ
Графическое изображение позволяет:
 дать наиболее наглядное представление о результатах
эксперимента;
 лучше понять физическую сущность исследуемого
объекта (процесса);
 выявить общий характер зависимости между изучаемыми
факторами и параметрами;
 установить наличие максимума или минимума функции и
т.д.
Особенности построения первичных
графиков
1). Наносят ВСЕ экспериментальные точки;
2). Точки никогда не обозначают точками;
Графики
бывают
первичные и
чистовые
3). Координаты графиков начинаются с нуля
29
ГРАФИЧЕСКАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЙ
Рис.7.
Назначение первичных
графиков
1). Предназначены для
обнаружения скачков или
закономерных колебаний
условий измерения, которые
из табличных данных не
улавливаются;
2). Оценка состояния (стоит
ли этот экспериментальный
материал обрабатывать или
рассеяние, и выбросы
лишают его всякого смысла)
Если вместо четкого
графика получается “облако
точек”, это не значит, что он
бесполезный. По форме
облака можно обнаружить
косвенные связи и скрытые
закономерности
30
Особенности построения чистовых графиков
Y
X
Рис. 9. Нанесение
доверительных интервалов
Рис. 8. Нанесение средних
значений
Рис. 10. Нанесение всех
точек при аномалиях
31
Выбор масштаба графика


а)
b)
c)
Рис. 11, а). Форма графика плоская ; b). Форма графика вытянутая; с). Форма графика нормальная.
32
Построение координатных сеток
y
lg x
Рис. 13. Полулогарифмическая
координатная сетка
Рис. 12. Равномерная
координатная сетка
lg y
lg x
Рис. 14. Логарифмическая
координатная сетка
33
Равномерная координатная сетка ординаты и абсциссы имеют
равномерную шкалу ( длина отрезков, откладываемых
единичных по каждой из осей ОДИНАКОВА)
Полулогарифмическая координатная сетка имеет РАВНОМЕРНУЮ
ОРДИНАТУ и ЛОГАРИФМИЧЕСКУЮ АБСЦИССУ. Используют как
временную координатную ось, когда время изучаемого процесса
отличается на порядки (от секунд до часов).
У логарифмической координатной сетки ОБЕ ОСИ
ЛОГАРИФМИЧЕСКИЕ. Удобно использовать, когда
в логарифмических координатах ожидается
линейная зависимость. При этом любое
отклонение от линейной модели сразу
проявляется. Например, степенной многочлен в
логарифмических координатах представляет
собой прямую линию.
   
n
34
Проведение кривой через экспериментальные точки
Нанесённые Вами точки отражают
экспериментальные
факты,
а
кривая на графике – мнение
экспериментатора об этих фактах.
Постарайтесь, чтобы Ваше мнение
не противоречило фактам!
Ваши кривые должны
быть простейшими из
возможных в пределах
доверительного
интервала. Иногда они
могут
быть
и
многомерными
Соединяйте
точки
плавными линиями,
так как функции в
своём большинстве
имеют
плавный
характер.
Y
X
Рис. 15. Кривые на графиках должны быть
простейшими из возможных в пределах
доверительного интервала
35
Способы изображения многомерных зависимостей
1. Способ разделения переменных (семейство кривых на
плоскости)
Одной
из
переменных,
например (z), задают несколько
последовательных значений в
пределах
интервала
её
измерения (z1 - zn), а для другой
переменной, например х, строят
графики функций y = f (x) при
z = const.
В
результате
на
графике
получают семейство кривых y =
f (x) для различных значений z.
y  f , (x )
,
Рис. 16. Способ разделения переменных
36
2. Способ горизонталей (изображение кривых в пространстве или
«вид сверху»)
При
изображении
«вида
сверху» на плоскость (x, z)
наносят все точки и, подписав
значение у около каждой из
них, выделяют разные уровни
у.
После этого проводят систему
горизонталей у = const между
точками, указывая, как у
топографов, высоту уровня в
разрывах горизонталей.
Рис. 17. Способ горизонталей
37
Корреляционно - регрессионный анализ
Керно
отбор
Одномерно –
одномерная (а)
ТР
ТК
Многомерно –
одномерная (б)
Разрушение
горных
пород
Одномерно –
многомерная (с)
В случае одномерно - одномерного объекта исследований (а)
при наличии статистически достоверной связи между x и y может
быть получено уравнение y = f (x), описывающее эту связь.
Такое уравнение, называемое уравнением однофакторной
регрессии или просто регрессии, дает возможность рассчитывать
(прогнозировать) значения выходного параметра y по известным
значениям входного фактора x, не прибегая к помощи каких - либо
расчетных графиков.
38
Корреляционно - регрессионный анализ
В случае одномерно - многомерного объекта
исследований (б) статистически достоверная связь между
какими либо выходными параметрами yi позволяет
сократить их число, и тем самым, сократить затраты
времени и средств на исследовательский процесс.
Так, например, при наличии статистически достоверной
связи между y1 и y2, можно определять (измерять)
только один из этих параметров.
Как правило, оставляют тот из параметров, который
проще и точнее измеряется.
39
Корреляционно - регрессионный анализ
В случае многомерно - одномерного объекта исследований (в),
при наличии связи между входными факторами, например, между x1
и x2, появляется возможность одновременного контроля того
и другого фактора по одному из них.
Наличие связи между выходным параметром y и всеми входными
факторами xi дает возможность получить многофакторное
уравнение регрессии (математическую модель процесса),
позволяющее оптимизировать процесс и прогнозировать
значения выходного параметра при любых сочетаниях значений
входных факторов.
Наличие, форма и сила связи между случайными
величинами, имеющими нормальное распределение,
устанавливаются с помощью корреляционного анализа.
Различают парную корреляцию (связь между двумя СВ) и
множественную (связь между тремя и большим числом СВ).
40
Корреляционно - регрессионный анализ
Предварительная
характеристика связи
между случайной
величиной х и у
может быть получена
построением
корреляционного поля.
Корреляционное поле –
это график зависимости
y = f(x)
с нанесением на него всех
экспериментальных точек
Рис. 19. Корреляционные поля различной формы
41
О наличии связи между двумя СВ можно судить по тесноте
группирования точек на корреляционном поле вокруг условной
прямой или кривой линии.
По форме корреляционного
поля можно судить о
возможной форме связи
между двумя случайными
величинами, которая может
быть:
•линейной (рис.19, а, б);
• нелинейной (рис.19,г);
•прямой (рис.19,а);
Степень разбросанности точек на
корреляционном поле
свидетельствует о силе связи между х
иу.
Для данных (рис. 19,а) связь между х
и у слабая, для данных (рис.19, в и г)
–достаточно сильная.
•обратной (рис, 19,в)
Сила связи между двумя случайными
величинами оценивается величиной
коэффициента парной корреляции или
просто коэффициента корреляции
42
Коэффициент парной корреляции
Где:
n – число пар наблюдений
n
1
rух 
 y i  y xi  x
n  1x  y i 1
(измерений);
σх, σу –
среднеквадратические
отклонения х и у
–1 ≤ rух ≤ +1
Чем ближе абсолютное значение
Тесноту связи между х и у
обычно считают:
rух
• удовлетворительной
к 1, тем сильнее значения
одной
случайной
величины
зависят от того, какие значения
принимает
другая,
т.е.
тем
сильнее связь между ними.
rух ≥ |0,5|;
• хорошей
rух = |0,8 ÷ 0,85|.
rух является случайной величиной, т.е. может принимать различные
значения при повторных измерениях;
rух зависит от числа пар наблюдений. С уменьшением и достоверность
выводов, формируемых после определения rух, снижается.
43
• При rух = ± 1 две СВ связаны линейной функциональной связью;
• При rух = 0
СВ называют некоррелированными (независимыми).
Достоверность коэффициента
корреляции оценивают
критерием надежности:
r ух
Qr 
r
(39)
r 
1  r2
ух
n
(40)
При Qr > 2,6 с доверительной вероятностью равной 0,95 можно
утверждать о значимости найденного коэффициента корреляции
rух, то есть, о существовании между х и у линейной связи.
yˆ  ax  b
(41)
у
a  r ух
х
(42)
b  y  ax
(43)

ó

1
ó
yi
n
1
2
ˆ


y

y
 i i
n  1 i 1
(44)
- значение выходного
параметра в i- м опыте,
рассчитанное по найденной
нелинейной модели
Корреляционное отношение у характеризует силу
(степень тесноты) связи между двумя случайными
величинами при отсутствии между ними линейной
зависимости, т.е. связанными нелинейно.
44
0 ≤ у ≤ 1
• для некоррелированных (независимых) случайных величин у = 0;
• в случае функциональной зависимости между ними у = 1
Если связь между двумя случайными величинами линейна,
то корреляционное отношение равно абсолютному значению
коэффициента корреляции
у = │ rух │.
ОБРАТИТЕ ВНИМАНИЕ:
Значимое различие значений у и rух проявляется только при
достаточно большом числе пар измерений.
45
Достоверность корреляционного
отношения оценивается по критерию
его надежности.
Qr 
у  n
2
1  у
(45)
ПРИ Qr > 2,6 С ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ РАВНОЙ 0,95
МОЖНО УТВЕРЖДАТЬ, ЧТО
НАЙДЕННОЕ КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ ЗНАЧИМО
По известным у и rух оценивают степень нелинейности:
n0 
2
2

r
у yx
(46)
Если n20 < (12/n),
• переход к нелинейной модели не улучшит связи между х и у,
• в противном случае – может привести к лучшим результатам.
46
ТИПИЧНЫЕ АППРОКСИМАЦИОННЫЕ ЗАВИСИМОСТИ
1). Линейная
y  ax  b
2). Логарифмическая
y  a ln x  b
3). Экспоненциальная (показательная)
y  axb
4). Степенная
5). Дробно - линейная
6). Гиперболическая
7). Дробно - рациональная
y  bе ax
yx
ax  b
y  a b
x
y  1
ax  b
8). Квадратичная (параболическая)
y  ax2  bx  c
47
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
y  ax  b
Вид зависимости и значения ее коэффициентов должны обеспечивать
минимальную сумму квадратов отклонений (S) ординат
экспериментальных точек от ординат этой зависимости:
n
2
S    yi  yˆ   min
(47)
Для линейного уравнения
это требование перепишется
следующим образом
i 1
S   y i  ax i  b   min
n
2
i 1
Чтобы определить минимум S необходимо приравнять к 0
частные производные этой суммы по коэффициентам b и а
n
S
  y i  axi  b   0
b i  1
n
S
  y i  axi  b  xi 
a i  1




0


(48)
Из этой системы
получим систему
линейных уравнений
для определения
коэффициентов a и b
48

bn  a  xi   y i


i 1
i 1

n
b  xi  a  xi2   y i xi 


i 1
n
n
1



y
y
 xi i
 xi  i 
n
a
,
1
2

2



 xi
 xi

n

1

b   ( y i  a  xi )


n
Аналогичным образом, с
помощью этого метода
можно получить формулы
для расчета коэффициентов
нелинейных зависимостей
(49)
(50)
Решение
системы уравнений
относительно a и b
даёт следующие
формулы для их
расчёта
Метод нахождения
коэффициентов,
названный
способом
наименьших
квадратов, был
предложен Гауссом
49
МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ
В буровой практике часто возникает потребность в установлении
связи между одним входным параметром У и многими выходными
факторами xi. Изучаемый процесс в этом случае описывается
многофакторным уравнением регрессии, которое по результатам
корреляционного анализа может быть представлено полиномом
первой степени:
yˆ  a0  a1 x1  a2 x2    ak xk ,
(59)
где: k - число переменных факторов;
а0, а1,а2,…,аk - коэффициенты уравнения регрессии
50
ПРИМЕР
Даны результаты оценки показателя
фильтрации (у, см3/30 мин) бурового
раствора при различной концентрации (%
мас. на сухое вещество) метаса (х1),
окзила (х2), Na2CO3 (х3) и NaCl (х4).
1. Вычисляют значения коэффициентов корреляции между
всеми возможными парами входных факторов, а также между
всеми факторами и выходным параметром.
В качестве примера рассмотрим процедуру вычисления
коэффициента корреляции между показателем фильтрации
бурового раствора (у) и концентрацией в нем NaCl (х4), т.е.
процедуру расчета rух4.
Знаки при коэффициентах корреляции свидетельствуют о том, что при
увеличении концентрации метаса, окзила и Na2CO3 показатель
фильтрации бурового раствора снижается, а при увеличении
концентрации NaCl – растет.
При этом наибольшее и прямо противоположное влияние на величину
показателя фильтрации оказывают концентрация метаса и NaCl.
51
1
0  5  10  20  15    20  10
25
1
15,0  26,6  31,0  47,0  68,0    7,2  24,7
y
25
2
2
2
2
2
1 0  10  5  10  10  10  20  10  15  10  

  52,1
Dx4 
25  1     20  102

2
2
2
2
1 15  24,7   26,6  24,7   31  24,7   47  24,7   

  389,2
Dy 
25  1   68  24,7 2    7,2  24,7 2

x4 
x  52,1  7,22
4
y  389,2  19,73
r ух
4
0  1015  24,7   5  1026,6  24,7  

1
  0,51

   10  1031  24,7   20  1047  24,7  

25  1  7,22  19,73
  15  1068  24,7     20  107,2  24,7 
1  0,51
0,148
к ух 4 
25
0,51
3,446
3,446  2,6
Qr ух 4 
0,148
2
Следовательно, ryx4 –
значим
52
Аналогичным образом вычисляются коэффициенты корреляции:
r ух , r ух , r ух , r x х , r x х , r x х , r x х , r x х , r x х
1
2
3
1 2
1 3
1 4
2 3
3 4
2 4
а также их критерии надежности. Результаты расчетов сводятся в
нормированную корреляционную матрицу.
Параметры
и факторы
Значения коэффициентов корреляции
у
у
х1
х2
х3
х4
1
х1
х2
х3
Среднее
значение
Среднее
квадратич.
отклонение
х4
- 0.61*
- 0.27
- 0.08
0.51*
24.7
19.73
1
0
0
0
0.60
0.42
1
0
0
0.60
0.42
1
0
0.40
0.28
1
10.0
7.22
53
При наличии нормированной корреляционной матрицы расчет
коэффициентов многофакторного линейного уравнения
регрессии производится путем решения следующей системы
уравнений:
 y r ух  a1 x  a2 r х х  x  a3 r х х  x    ak r х х  x 

 y r ух  a1 r х х  x  a2 x  a3 r х х  x    ak r х х  x 
1
1
2
1 2
1 2
1
2
1 3
2
2 3
3
3
1 k
2 k

 y r ухk  a1 r х1хk  x1  a2 r х2хk  x2    ak  xk
k
k




(60)
Далее приводится процедура определения коэффициентов
уравнения регрессии, описывающего связь между показателем
фильтрации у и факторами х1, х2, х3, х4.
Вид
искомого
уравнения
y  a0  a1 x1  a2 x2  a3 x3  a4 x4
54
Значение свободного члена (а0)
многофакторного уравнения
регрессии определяется по
следующей формуле:
k
a0  y   ai x i
i 1
(61)
xi - среднее
где
значение i – го фактора.
Для принятого вида уравнения регрессии по данным нормированной
корреляционной матрицы составляется система из 4–х линейных
уравнений:
19.73   0.61  a1  0.42  a 2  0  0.42  a 3  0  0.28  a 4  0  7.22
19.73   0.27   a  0  0.42  a  0.42  a  0  0.28  a  0  7.22

1
2
3
4

19.73   0.08   a1  0  0.42  a 2  0  0.42  a 3  0.28  a 4  0  7.22

19.73  0.51  a1  0  0.42  a 2  0  0.42  a 3  0  0.28  a 4  7.22
a1  28,66; a2  12,68; a3  5,64; a4  1,39;
a0  24,7   28,66  0,6  12,68  0,6  5,64  0,4  1,39  10   37,86
yˆ  37,86  28,66 x1  12,68 x 2  5,64 x3  1,39 x 4
(62)
55
Коэффициент
детерминации – мера
идентичности,
критерий оценки силы
(тесноты) связи
выходного параметра
не с одним, а с
несколькими входными
факторами
1
Q
n
1
  yˆ i
 yi 
  yˆ
 y
i 1
n
i 1
,
2
(63)
2
i
y
среднее значение выходного параметра;
ŷi
значение выходного параметра в i – ом
опыте, рассчитанное по найденному
многофакторному уравнению регрессии
Коэффициент детерминации равный 0.7 показывает, что
изменение величины у, объясняемое вариацией
рассматриваемых факторов (х1, х2, х3, х4), составляет 70%
(на 70% обусловлено изменением х1, х2, х3, х4).
Значения Q изменяются от 0 до 1.
56
R Q
(64)
Коэффициент множественной корреляции является мерой силы
линейной связи между параметром у и факторами хi. 0 < R < 1
Если R = 1, то между у и хi существует функциональная линейная
связь.
Если R = 0, то у не имеет линейной связи с хi, но возможна
нелинейная связь.
1
1 n
у 
 ŷ i  y i
y n  1 i 1
После получения многофакторной
линейной модели изучаемого процесса
следует оценить возможность ее
улучшения путем перехода к нелинейной
модели. Для этого вычисляют:
величину корреляционного отношения;
критерий надежности;
у  n
Qr 
2
1  у
степень нелинейности полученной
модели.
2



n0
R
y
2
(65)
57
Скачать