Загрузил Yuliia Verbovska

Лекція 1 ТЕ МОЕД

реклама
ЛЕКЦІЯ1
ВСТУП
Експеримент… З ним зв'язана будь-яка людська діяльність. Людина
експериментує завжди й скрізь. Шкільні досвіди в маленькій лабораторії,
грандіозні експерименти в космосі, польові досвіди по вирощуванню рослин,
пошук нових матеріалів, ліків, реактивів, вибір методів навчання, тренувань
способів лікування хвороб, оптимізація алгоритмів функціонування
інформаційно-пошукових систем – усе це пов'язане з експериментом.
Природнім є бажання проводити експеримент у найбільш короткий строк, з
найменшими витратами, одержуючи при цьому достовірну й повну
інформацію.
Але як це зробити?
Раніше експериментатори могли собі дозволити вивчати тільки порівняно
прості об'єкти, та й способи проведення експерименту були досить прості.
Об'єкти характеризувалися невеликим числом змінних, і це допускало
проведення однофакторного експерименту. «Змінюй тільки один фактор, а всі
інші тримай постійними» – такий був девіз експериментатора. Тільки так
розумів науковий експеримент, наприклад, Ле-Шателье. Ніяких взаємодій
факторів, ніяких відхилень, що обурюють! Досвід повинен бути «чистим», усі
сторонні впливи -виключені. Повна відтворюваність, ясна вистава про те, які
саме фактори впливають на об'єкт, причому число цих факторів завжди
невелике.
Таке розуміння наукового експерименту з'явилося прямим наслідком
логічної концепції виявлення причинно-наслідкових зв'язків Бекона – Гершеля
– Милля, заснованої на досить сильних абстракціях і спрощеннях. До
досліджуваного об'єкта підходили як до окремого ізольованого явища,
відволікаючись від зворотних зв'язків і важливих взаємин.
З тих пор змінилися об'єкти дослідження, змінилося поняття про
експеримент і способах його проведення. Зараз усе більше доводиться мати
справа зі складними системами. А це означає й безліч елементів, велика
кількість зв'язків між ними вплив, що й обурює, середовища. На такі системи
діє велике число взаємодіючих один з одним факторів, різних по своїй природі
й по силі дії. Від дослідження простих, добре організованих систем наука
перейшла до вивчення погано організованих або дифузійних систем. Це
з'явилося однієї із причин того, що підхід до експерименту не міг залишитися
колишнім, однофакторним. З'явилася потреба до оптимізації досліджень, у
найкращому проведенні експерименту. Експеримент став об'єктом
дослідження, і, треба сказати, об'єктом дуже складним. Нині експеримент – це
часто грандіозний захід у якому бере участь великий колектив різних фахівців.
Висока технічна оснащеність і швидке впровадження результатів – от що
характеризує експеримент сьогоднішнього дня. Його підготовка й проведення
вимагає більших асигнувань.
Науковці визначили, що вартість наукових досліджень зростає
пропорційно п2 де п – число всіх учених, що брав участь у дослідженні, а
кількість видаваного ними «наукового продукту» росте лише пропорційно √ п.
Темпи росту асигнувань не можуть залишатися постійними – вони знижуються.
Значить необхідне підвищення ефективності досліджень, необхідна оптимізація
експерименту. От чому зародилася наука про планування оптимального
експерименту – математична теорія експерименту. Про це, про минуле й
майбутнє плануванні експерименту й піде мова на сторінках брошури.
Деякі приклади.
Перш ніж говорити про розвиток ідей і методів теорії експерименту,
розглянемо деякі конкретні приклади, що показують доцільність планування
експерименту.
Звернемося до галузі науки, успіхи якої всім нам близькі й дороги, - до
медицини. Нехай потрібно за допомогою експерименту на тварин оцінити
ефективність комплексної дії декількох лікувальних препаратів. Залежна змінна
– відсоток видужалих особин. Очевидно, ефект лікування буде визначатися не
тільки дозами ліків і часом їх уведення, але також і порядком застосування
препаратів. Спробуйте-ка в традиційному однофакторному експерименті
оцінити вплив кожного з факторів, порядок їх введення й взаємодії. Це було б
довгостроково, дорого й малоефективне. Планування експерименту дозволяє
розв'язати таке завдання за допомогою невеликої кількості досвідів. Так,
наприклад, план усього з восьми досвідів був використаний для вивчення
ефективності дії двох противірусних препаратів в експериментах на великих
ембріонах. Дослідження дозволило розробити рекомендація з вибору
оптимальної схеми застосування препаратів з урахуванням порядку їх уведення
й одержати 100%- ну виживаність ембріонів.
Ще одна розповсюджена в медицині завдання, при розв'язку якої
ефективне застосування методів планування експерименту, - оцінка післядії
ліків при виборі оптимальної тактики лікування хворих.
Наш час малий кого залишає байдужими до проблеми автомобільного
транспорту. Навіть ті, хто воліє ходити пішки, не залишаються осторонь від
екологічних питань, пов'язаних із забрудненням повітря вихлопними газами.
Ясно, що раціональне конструювання двигуна й оптимальне його регулювання
сприяють як економічній роботі двигуна, так і зменшенню токсичності
вихлопних газів. Тут також на допомогу можуть прийти методи
багатофакторного планування експерименту.
При відпрацьовуванні режимів експлуатації двигуна прийнято
використовувати ряд його регулювальних характеристик, побудова яких
сполучено із проведенням порядку 150 досвідів. Застосування одного зі
стандартних методів планування експерименту ( ротатабельний план другого
порядку для трьох факторів) дозволило на прикладі серійного двигуна
представити дані у вигляді поліноміальних рівнянь, інформативність яких
виявилася суттєво вище, чим у набору кривих, отриманих за традиційною
методикою. До того ж число поставлених досвідів виявилося рівним 24.
Підвищення інформативності забезпечується за рахунок обліку в одно му
рівнянні ефектів взаємодії факторів, можливості більш точної інтерполяції,
компактної й наочної вистави даних. Результати експерименту оцінювалися по
трьом основним характеристикам роботи двигуна: потужності, економічності й
токсичності вихлопних газів. Наявність трьох вихідних параметрів забезпечує
можливість вибору компромісних розв'язків. За допомогою поліноміальних
рівнянь на ЕОМ або на спеціально побудованих номограмах можна
моделювати (програвати) різні ситуації, забезпечуючи, наприклад, максимальну
потужність при заданих рівнях економічності й токсичності або які-небудь інші
комбінації вимог .
Нехай ставиться завдання розробки состава й технології одержання
нового багатокомпонентного матеріалу із заданими властивостями.
Експериментатор висуває гіпотези щодо його состава й режимів одержання, які
вимагають експериментальної перевірки. Наприклад, він припускає, що
матеріал може складатися з деякої комбінації полімеру (якщо це полімерний
матеріал) з наповнювачем, стабілізатором, пластифікатором, барвником і т.д.
Має бути експериментальний пошук серед деяких
наповнювачів,
стабілізаторів, пластифікаторів, і т.д. В остаточному підсумку потрібно знайти
якісний состав матеріалу й визначити технологічні режими. Як вирішуються
такі питання без застосування методів плануванні експерименту? Найбільш
традиційне наступне приймання. Довільним образом робиться трохи
«прикидочних» досвідів, у результаті яких виходять матеріали з деякими
властивостями. Якщо результати досвідів не задовольняють дослідника, знову
ставиться серія досвідів, у яких варіюється якісний состав матеріалу й деякі
режимні параметри.
Так триває доти, поки не буде отриманий матеріал, хоча б у якійсь мірі
задовольняючий заданим властивостям. Потім стабілізується його якісний
состав і шляхом однофакторного експерименту відбувається пошук режимних
параметрів. Процедура пошуку звичайно затягається надовго, число досвідів
виявляється дуже більшим. Тут рівні факторів зустрічаються без усякої
закономірності, деякі по кілька раз, деякі жодного разу.
У таких завданнях дуже корисними можуть виявитися спеціальні плани
експерименту, засновані на комбінаторних конфігураціях. Розглянемо
конкретний приклад із практики авторів брошури. Завдання полягало в пошуку
состава й рецептури нового полімерного матеріалу спеціального призначення.
Варіювалися чотири фактори. Перший фактор – тип пластифікатору –
змінювався на трьох рівнях, тобто розглядалися три різні пластифікатори.
Другий і третій фактори – тип стабілізатора й кількість деякого інгредієнта в
ньому – також змінювалися на трьох рівнях, а четвертий фактор – тип
наповнювача – на дев'ятьох рівнях. Матеріал оцінювався по дев'яти фізикохімічним показникам і за узагальненим критерієм. Повний перебір усіх
можливих варіантів зажадав би N = 33 х 9 = 243 досвіду. Застосовуючи
спеціальні плани(використовуючи латинський куб другого порядку), завдання
вдалося розв'язати за допомогою 27 досвідів. Отриманий матеріал, що
задовольняє всім вимоги. Пошук цього нового багатокомпонентного матеріалу
був успішно проведений за 2 місяця, тоді як на аналогічне дослідження
звичайно приділяється 2 року.
Завдання такого типу характерні для досить багатьох областей
дослідження. Це й пошук нових лікарських препаратів, добрив, кормів,
будівельних матеріалів, сплавів, мастил і багатьох інших сумішей.
Факти історії
У добрі старі часи питання організації експерименту цілком віддавалися
на відкуп експериментаторові. Усе, що було потрібно від математика, якщо
уводити, увести до ладу нього доходила справа, стосувалося обробки
результатів уже проведеного експерименту. Поступово стало ясно, що мова
повинна йти не просто про обробку даних, а про оптимальні процедури
математико-статистичного аналізу. Такі процедури були розроблені зусиллями
багатьох математиків. У результаті їх діяльності виникли метод найменших
квадратів (А. Лежандр, 1752-1833 рр.; К. Гаусс, 1777-1855 рр.), основи
регресійного й кореляційного аналізів (Ф. Гальтон, 1822-1911 рр.; К. Пирсон,
1857-1936 рр.), концепція малих вибірок (В.С. Госсет, 1876-1936 рр.).
Експериментатор тепер зміг установлювати кількісні взаємозв'язки між
змінними замість якісних міркувань типу «добре – погано», «більше – менше»,
якими він користувався раніше. Кожний кількісний ефект міг зіставлятися з
випадкової складової, ототожнюється з помилкою експерименту, причому
ефект уважався значимим тільки в тому випадку, якщо суттєво перевищував цю
помилку. На додаток до більших вибірок з'явилася можливість роботи з малими
вибірками, що містять невелике число досвідів, що відповідало реальним
можливостям експериментатора. Нарешті стала доступною згортка інформації
про багатьох змінних у вигляді єдиного поліноміального рівняння ( рівняння
регресії). Для змістовної інтерпретації (тлумачення) поліноміальних моделей
потрібен був нова мова, прилучення до якого йшло не зовсім гладко. З'явилися
такі поняття, як взаємодія змінних, кореляція між ними, які відбивали
складність поведінки об'єктів, обумовлених багатьма змінними. Поступово
з'ясувалося, що інтерпретувати також моделі можна далеко не завжди. Якщо
сам експеримент був організований невдало, вибірка мала погану структуру й
складалася з невеликого числа спостережень, то на стадії обробки даних
математика не рятувала положення. Виникло запитання: навіщо добре
обробляти дані, якщо сам експеримент поставлений погано? Він чітко був
сформульований Р. Фішером (1890 – 1962 рр.),якому призначено було стати
основоположником математичної теорії планування експерименту. В 1919 р.
молодий статистик Рональд Фішер був запрошений на Ротемстедску
агробіологічну станцію, щоб розібратися в утрудненнях, що виникли при
інтерпретації накопичених з 1843 г. даних польових досвідів по дослідженню
ефективності добрив. Основні труднощі полягали в тому, що не вдавалося
відокремити оцінку ефекту від внесених добрив від оцінки ефекту, зв'язаного зі
способами обробки ґрунту. Займаючись цим завданням, Р. Фішер розробив
основи дисперсійного аналізу, запропонувавши сумарну дисперсію розкладати
на компоненти, пов'язані з різними джерелами неоднорідності. З'явилися
основи багатофакторного планування експерименту для оцінки ефектів
факторів і їх взаємодій. Разом з Йетсом він зв'язав планування експерименту з
комбінаторикою, використовуючи для побудови планів такі конфігурації, як
латинські квадрати, неповні збалансовані й частково збалансовані блок-схеми
й т.п. За допомогою комбінаторних конфігурацій досягалося обмеження на
рандомизацію й поділ плану на блоки. Кемторн в 1973 р. (міжнародний
симпозіум у Колорадо, США) відзначив, що, на його думку, існують «три
кити» на яких тримається фишеровская концепція планування експерименту:
рандомизация, повторення й блокування (поділ плану на блоки). Рандомизация
– це випадковий порядок реалізації досвідів, призначений для боротьби із
систематичною помилкою. Повторення забезпечує збільшення точності оцінок і
сприяє виділенню слабких сигналів на тлі шуму. Розбивка на блоки дає
можливість виключити вплив факторів, що заважають.
Але якщо простежити джерела ідей планування експерименту, у тому
числі й тих, які відзначив Кемторн, те вони йдуть у давню давнину. Так,
побудова комбінаторних конфігурацій, наприклад магічних квадратів, було
відомо в Прадавньому Китаї, а теорія латинських квадратів веде свій початок
від Ейлера. Ідеї рандомизації висловлювалися в епоху Ренесансу, коду
робилися спроби виключити перешкоди з показань приладів, і в більш прадавні
часи при жеребкуванні. Необхідність повторних спостережень була відома до
Фішера. Зображення плану для чотирьох факторів можна знайти в листі Ферма
до Паскалю під час обговорення завдань про поділ ставки, і набагато раніше – у
древнє китайських трактатах (наприклад, в «И Цзин»). Кількісні оцінки ефектів
факторів одержував генетик Мендель у своїх досвідах з горохом, а французький
дослідник Жорж Виль умів планувати польовий досвід для різних добрив за
багатофакторною схемою. Можна вказати й інші джерела. Але проте концепції
планування експерименту до Р. Фішера не існувало. Він запропонував, щоб
статистик втручався в сам процес постановки експерименту, а не обмежував
свою роль лише етапом обробки даних. Визначилися такі поняття, як план
експерименту,
стратегія
планування,
порівняльний
експеримент,
ортогональність, оцінка ефектів взаємодії, багатофакторність, рандомизація,
блокування й т.п..
Ідеї Фішера виявилися досить плідними й знайшли широкий відгук серед
експериментаторів. У процесі свого розвитку, поступово пристосовуючись до
різних постановок завдань і об'єктам дослідження, концепція розширювалася й
збагачувалася. Так, проблема багатофакторності породила дробові репліки –
спеціальні плани, призначені для оптимального скорочення перебору варіантів
(Д. Фінни, 1945 р.). Це мало велике практичне значення, тому що
експериментатора насамперед хвилює питання про необхідну кількість
досвідів. Тому що як складна не була б завдання, він інтуїтивно прагне до
проведення мінімального числа досвідів. При цьому в традиційному підході
часто в жертву приносяться точність, вірогідність і інтерпретруємість
результатів. Звертаючись до теорії планування експерименту, дослідник
одержує відповідь на запитання про те, скільки досвідів, яких саме й у якому
порядку треба виконувати на кожному етапі розв'язку його завдання. Причому
досягається певна збалансованість між прагненням до мінімізації числа
досвідів і рівнем точності й надійності одержуваних результатів. Правда,
відповідь не завжди буває однозначним, оскільки залежить від ресурсів,
наявних у розпорядженні експериментатора (час, сировина, устаткування і т.д.),
а також від тих відомостей, якими він розташовує до початку дослідження.
Дробові репліки – це не тільки шлях скорочення перебору варіантів як
такого, але й засіб боротьби з «прокльоном розмірності». Чим більше факторів,
тим більше розмірність простору, у якому ведеться опис досліджуваного
об'єкта, тому що кожний фактор задає координатну вісь у факторному просторі.
Відсіваючи за допомогою дробових планів несуттєві або мало істотні фактори,
вдається значно понизити розмірність простору.
На початку 40-х років Вальд показав, що можна суттєво заощадити
кількість спостережень, якщо перейти до послідовної процедури проведення
досвідів. При цьому висунута експериментатором гіпотеза повинна
перевірятися після кожного наступного досвіду доти, поки не буде досягнута
необхідна точність. Цим і визначається необхідний об'єкт вибірки. Отже, якщо
раніше він задавався апріорно, те тепер з'явилася можливість установлювати
його апостеріорно в ході самого дослідження. Це давало економію досвідів, але
аж ніяк не завжди економію часу. Дійсно, ставити й обробляти відразу серію
досвідів виявляється найчастіше швидше, чим послідовно ставити досвіди й
обробляти їхні результати на кожному кроці, якщо навіть цих досвідів вийде
менше.
Ідея послідовного планування Вальда виявилося продуктивної при
розробці крокової стратегії експериментування. Кроковий принцип ліг в основу
процедури пошуку екстремума, запропонованої Боксом і Уілсоном в 1951 р. Ця
процедура відома за назвою методу крутого сходження. У ній сполучається
факторне планування й рух по градієнту. Спочатку реалізується ощадлива по
числу досвідів експериментальна серія, необхідна для оцінки градієнта. Потім
здійснюється рух у напрямку градієнта. Такі цикли тривають доти, поки не буде
знайдена область оптимуму. Звичайно ця область описується більш детально за
допомогою полінома другого, а іноді й більш високого порядку.
У методі крутого сходження найбільше повно відбилася ідея оптимізації,
настільки співзвучна нашому часу. Це зв'язало планування експерименту з
кібернетикою, теорією автоматичного керування, проблемами АСК і т.д. Тому
не дивно, що саме метод Боксу – Уілсона одержав у нашій країні найбільш
широке поширення. Накопичений багаторічний досвід його ефективного
застосування при оптимізації хімічних, металургійних, біологічних і багатьох
інших процесів [3, 4].
У методі крутого сходження фігурують ортогональні плани. Як буде
показано нижче, матриця дисперсій – коваріацій ( коваріційна матриця оцінок
параметрів моделі) у цьому випадку повинна мати діагональну структуру.
Наслідком цього виявляється незалежність оцінок ефектів факторів і не
сміщенність оцінки градієнта. Ці переваги важко переоцінити при пошуку
найкоротшого шляху до оптимуму й інтерпретації поліноміальних моделей.
Однак не у всіх завданнях цей критерій оптимальності є найбільш істотним.
Уже при описі області оптимуму ортогональність не завжди забезпечувала
необхідну точність пророкування, і Боксом були запропоновані ротатабельні
плани ( 1957 р.). Ротатабельні плани забезпечують однакове значення помилки
пророкування відгуку для крапок, рівновіддалених від центру експерименту.
Так були зроблені перші кроки в розвитку теорії оптимальності планів.
Американський математик Д. Кіфер ( 1959 р.) займаючись проблемою
одержання спільно – ефективних оцінок, розробив основи цієї теорії.
Вибираючи план експерименту, можна керуватися або вимогами,
пропонованими до точності коефіцієнтів моделі, або до точності пророкування
відгуку. Це приводить до двох безлічам критеріїв оптимальності. Усі вони
можуть бути описані мовою матриці дисперсій – ковариацій. Наприклад,
найбільш популярний D - критерій є ніщо інше, як вимога мінімізації
визначника матриці дисперсій – ковариацій. Це еквівалентно вимозі мінімізації
спільної дисперсії оцінок коефіцієнтів.
Теорія Д. Кифера носила абстрактний характер, у силу чого не знайшла
відгуку в практичних додатках. В.В. Налимову зі співробітниками ( 1966 р.)
удалося пристосувати її до розв'язку практичних завдань за допомогою теорії
квази - D – оптимальних планів. Справа в тому, що число досвідів, потребных
для побудови моделей у теорії Кифера, як правило, виявлялося надзвичайно
більшим, а то й нескінченним. Завдання полягало в тому, щоб для заданого
числа досвідів знайти такий план, який би максимально наближався по
властивостях до D – оптимальному. Теорія квазі - D – оптимальності містила
відповідь на це питання [3, 5]. Однак тепер виникла проблема побудови
(синтезу) таких планів на ЕОМ. Алгоритмічно це важливе завдання вдалося
розв'язати В.В. Федорову ( 1969 р.). Їм же були отримані деякі узагальнення в
теорії критеріїв оптимальності планів [6].
Ми зупинилися на основних логічних етапах розвитку теорії планування
експерименту. Добре спланований експеримент забезпечує оптимальну обробку
результатів і, отже, можливість чіткої інтерпретації й коректних статистичних
виводів. Однак в основі статистичних методів обробки даних (таких, як
дисперсійний і регресійний аналізи) лежать певні передумови про властивості
законів розподілу випадкових величин, їх незалежності, однорідності дисперсій
і т.д. У реальних завданнях ці передумови виконуються далеко не завжди.
Сукупність таких передумов прийнято називати моделлю ситуації. Виникає
питання: навіщо оптимально планувати експеримент, якщо немає впевненості в
тому, що виконуються передумови прийнятої моделі ситуації? У зв'язку із цим
центр ваги перемістився на проблему прийняття розв'язків при виборі моделі
ситуації й обробці даних. В 70-х роках виник новий напрямок, відоме за назвою
аналізу даних і пов'язане з іменем американського математика Дж. Тьюки. Тут
можна виділити такі основні етапи, як перевірки виконання передумов моделі
ситуації, використання апріорної інформації (байесовскі методи), застосування
стійких (робастних)процедур у випадку порушення тих або інших передумов
для неможливості їх перевірки. Це стимулював інтенсивний розвиток в останні
роки
робастних і непараметричних методів аналізу. У такий спосіб
експериментатор повинен щонайкраще вибрати модель ситуації, план
експерименту й метод обробки даних.
Коли мова йде про оптимальність планів, передбачається, що модель
об'єкта задана. Це може бути, наприклад, поліном першого або другого
порядку. Якщо ж реальний об'єкт не відповідає обраній моделі, то губляться
властивості оптимальності плану. У середині 70-х років В.В. Налимов порушив
питання: навіщо оптимально планувати експеримент, якщо модель об'єкта
обрана погано? Це породило концепцію «віяла моделей» [5]. Традиційно
передбачалося, що досліджуваний об'єкт повинен бути описано однієї – єдиною
моделлю. Якщо ж моделей було трохи, намагалися провести їхню
дискримінацію й все-таки залишити одну найкращу. Багаторічний опти
показав, що поняття найкращої моделі неоднозначно. Модель, що володіє
гарними інтерполяційними властивостями, може виявитися малопридатної для
екстраполяції, а модель, бездоганно роботу лабораторної установки, не
підходить для промислового об'єкта. Це й привело до ідеї використання віяла
моделей без їхньої дискримінації.
Скачать