Uploaded by dr.vagrish

Функции распределения

advertisement
ИССЛЕДОВАНИЕ РАСПРЕДЕЛЕНИЙ
Создайте новый рабочий файл на 100 наблюдений.
В Eviews для любого закона распределения предусмотрено 4 вида функций:
@d… - вычисление значение плотности распределения - DDF
@c…. – вычисление значение функции распределения, т.е. накопленной вероятности (для
распределений Пирсона, Снедекора-Фишера и Стьюдента есть еще функции, вычисляющие
остаточную вероятность @chisq, @fdist, @tdist) - CDF
@q… - вычисление значения квантили распределения (функция обратная к CDF)
@r… - генерирование случайной величины, распределенной по данному закону (для
равномерно на [0;1] распределения и стандартного нормального закона есть отдельные функции:
rnd и nrnd соответственно).
см. HELP/FUNCTION REFERENCE/STATISTICAL DISTRIBUTION FUNCTIONS
Генерирование любого распределения основано на простом факте: ф.р. любой с.в. – есть
равномерно распределенная на [0;1] с.в.   F  x    ~ U 0;1
Соответственно, имея равномерно распределенную на [0;1] с.в. с помощью обратной
функции распределения вычисляются квантили нужного распределения – так устроены
генераторы с.в.
ДИСКРЕТНАЯ С.В.
X
P
Сгенерируем с.в. со следующим распределением:
-2
-1
0.4
0.3
1
0.2
2
0.1
Сгенерируйте η~U[0;1]: genr u=rnd.
Теперь генерируем требуемую с.в. :
genr x=-2*(u<0.4)+(-1)*(u>=0.4)*(u<0.7)+1*(u>=0.7)*(u<0.9)+2*(u>=0.9)
Постройте таблицу распределения View/One Way Tabulation, проверьте гипотезу о том,
что истинное мат.ожидание действительно такое , каким ему полагается быть в теории (каким?).
На каком уровне значимости гипотеза будет отвергнута?
НОРМАЛЬНЫЙ ЗАКОН
Создайте переменную N01, имеющую стандартное нормальное распределение
(используйте генератор случайных чисел для стандартного нормального закона: genr N01=nrnd).
Вычислите 2.5% точку и 5% квантиль распределения N01, сохраните их как скалярные
величины (используйте команду scalar, а также функцию @quantile – см. HELP/FUNCTION
REFERENCE/DESCRIPTIVE STATISTICS). Отсортируйте переменную N01, на каком месте оказались
вычисленные значения, почему? Каковы должны быть истинные значения этих величин
(используйте функцию @qnorm)? (см. HELP/FUNCTION REFERENCE/STATISTICAL DISTRIBUTION
FUNCTIONS)
Устойчивость к линейному преобразованию
Создайте переменную N_22~N(-2,2). Как ее получить из переменной N01?
Посмотрите на дескриптивные статистики переменной N_22, совпадают ли они с вашими
ожиданиями? Сохраните, как скаляры значения среднего (mu_22) и дисперсии (sigma2_22),
используйте команду scalar и функции @mean и @var (см. HELP/FUNCTION REFERENCE/
DESCRIPTIVE STATISTICS).
Создайте группу из переменных N01 и N_22 и постройте на одном графике обе
эмпирические функции плотности. Объясните различия. Постройте на одном графике функции
распределения этих переменных (в опциях снимите флажок для доверительного интервала).
Объясните различия.
Проведите тест на нормальность для переменной N_22 (с теоретическими значениями
параметров и с оцененными по выборке) VIEW/DESCRIPIVE STATISTICS & TESTS/EMPIRICAL
DISTRIBUTION TESTS
Постройте график Quantile-Quantile, сравнив распределение переменной N_22 с
нормальным (в поле «Q-Q graph» выбирайте «Theoretical», а в опциях указывайте нормальное
распределение). Какие выводы?
Постройте график Quantile-Quantile, сравнив распределения N01 и N_22 между собой (в
поле «Q-Q graph» выбирайте «Empirical»). Почему график получился «красивым»?
Устойчивость по сложению, ЗБЧ и ЦПТ
Создадим новую переменную S - среднюю из 100 стандартных
распределенных переменных, написав простенькую программу (File/New/Program):
нормально-
series s=0
for !i=1 to 100
series n=nrnd
s=s+n
next
s=s/100
Запустите программу, кликнув по кнопке RUN.
Исследуйте распределение переменной S: посмотрите дескриптивные статистики (чему
равны среднее и дисперсия, почему?), протестируйте на нормальность, сравните ее с переменной
N01 (постройте на одном графике обе плотности, обе функции распределения, обратите внимание
на ширину доверительного интервала для эмпирических CDF ).
Постройте график Quantile-Quantile для сравнения распределений переменных S и N_22
между собой. Объясните результаты.
Проведите механический отбор, взяв каждое десятое наблюдение: поставьте такое
условие на SAMPLE: @mod(@trend,10)=0 (@trend – функция, перенумеровывающая наблюдения –
1, 2, 3,…; @mod(x,y) – функция, выдающая остаток от деления x на y). Снова постройте график
Quantile-Quantile для переменных S и N_22, что изменилось и почему?
Интервальная оценка среднего значения нормальной с.в.
Используем переменную S для интервальной оценки
переменной N01. Вспомните:
x  

истинного
мат.ожидания
  
 n ~ N  0;1 или x ~ N   ;
 . Найдите границы 90%
n 

2
доверительного интервала для мат.ожидания переменной S (используйте функцию @quantile).
Какими они должны быть на самом деле? (используйте функцию @qnorm и свойство
 2 
x ~ N  ;  )
n 

РАСПРЕДЕЛЕНИЕ ПИРСОНА
Создадим теперь несколько переменных, распределенных по закону Хи-квадрат. Напишем
маленькую программку, разными способами генерирующую с.в. с различным числом d.f.
(апостроф - знак комментария: то, что идет после апострофа программа проигнорирует):
genr h01=nrnd^2
genr h02=@rexp(2)
genr h05=@rgamma(2,5/2)
genr h10=@qchisq(u,10)
genr h18=h1+h2+h5+h10
genr h450=@rchisq(450)
' плотность показательного: f(x)=1/θ*exp(-x/θ), θ=2
' плотность гамма: f(x)=(x/θ)^(k-1)*exp(-x/θ)/(θ*Γ(k)), θ=2, k=5/2
' u – равномерно распределенная с.в. на [0;1]
Проверьте, что все построенные переменные подчиняются Хи-квадрат распределению
(проводите тесты на распределения View/Descriptive Statistics & Tests/Empirical Distributions
Tests… и стройте графики Quantile-Quantile). Объясните – почему получившиеся переменные
оказались распределены по Хи-квадрат, несмотря на разные способы построения?
Постройте на одном графике эмпирические плотности переменных h01-h18 (проще всего
объединить все переменные в одну группу gr_h, дав команду group gr_h h*, а затем выкинуть
лишнюю h450 View/Group Members), какие закономерности наблюдаете? Сравните ваши
наблюдения с дескриптивными статистиками этих переменных. Постройте на одном графике
эмпирические функции распределения (не забудьте в опциях отменить построение
доверительного интервала), объясните различия.
Нормализация и ЦПТ для Хи-квадрат с.в.
Постройте матричный график Quantile-Quantile для переменных N01, h1, h2, h5, h10 (в
поле «Q-Q graph» выбирайте «Empirical», а в поле «Multiple series» выбирайте «Lower triangular
matrix»). Почему графики оказались «плохими»? Почему они «особенно плохо ведут себя» вдали
от центра? Сравните h450 и N01, почему теперь все оказалось «достаточно хорошо» (посмотрите
на гистограммы, графики плотности,
график Quantile-Quantile, результаты теста на
нормальность)?
ЗБЧ для Хи-квадрат с.в.
Построим еще несколько переменных: hk_1=hk/k для всех переменных h (проще оформить
все команды в виде одной маленькой программки). Постройте их эмпирические плотности на
одном графике (h450_1 исключите и постройте отдельно), что наблюдаете и почему?
Интервальная оценка дисперсии нормальной с.в.
Сгенерируйте переменную h99, распределенную по Хи-квадрат с d.f. =99. Используйте ее
для построения доверительного интервала для дисперсии переменной N_22 (вспомните лемму
Фишера: n*s2/2 ~ 2(n-1), s – выборочное СКО): постройте новую переменную
var_22=100*sigma2_22/h99. Найдите квантили переменной var_22, соответствующие 90%
доверительному интервалу, сравните их с истинными значениями границ доверительного
интервала для 2 переменной N_22, полученных с помощью теоретического распределения 2(99)
(используйте функции @quantile, @qchisq и @chisq, квантили сохраните как скалярные
величины, используя команду scalar).
РАСПРЕДЕЛЕНИЕ ФИШЕРА
Сгенерируйте переменную f18_5=h18/(18*h5_1). Сравните ее распределение с
переменной, сгенерированной с помощью функции @rfdist(18, 5), объясните результат.
Сгенерируйте любым способом переменные, распределенные по следующим законам:
F(18;10), F(18;18), F(18;450). Сравните их с распределением h18_1, нанеся все плотности (или
функции распределения) на один график, построив графики Quantile-Quantile. Объясните
результат (какие теоретические значения среднего и дисперсии вы ожидаете при увеличении
числа степеней свободы?).
Постройте переменную k18=18*f18_450 и проведите для нее точный тест на выявление
типа распределения (View/Descriptive Statistics & Tests/Empirical Distributions Tests…), какое
распределение и с какими параметрами следует предполагать и почему? Объясните выводы
теста.
Сгенерируйте переменные, распределенные по следующим законам: F(5;5), F(10;10),
F(18;18), F(450;450). Постройте их эмпирические плотности на одном графике. Какую
закономерность наблюдаете и почему? Что произойдет в пределе с параметрами среднего и
дисперсии при дальнейшем увеличении числа степеней свободы? Сравните распределения этих
переменных между собой и с нормальным законом с помощью диагональных графиков, какие
выводы можете сделать и почему?
Вычислите 5% и 95% квантили распределения переменной f5_18, а также эти же квантили
для переменной f18_5. Сохраните их в виде отдельных скалярных величин (используйте функцию
@quantile). Найдите истинные 5% и 95% квантили этих распределений (используйте функции
@qfdist и @fdist). Сравните. А что можно сказать о сопоставлении истинных и эмпирических
квантилей для распределения F(450;450) и почему? Перемножьте 5% квантиль переменной f5_18
и 95% квантиль переменной f18_5, объясните результат. Чему должно равняться произведение
10% и 90% точек для переменных типа fk_k и почему? Проверьте вашу гипотезу на
сгенерированных переменных и с помощью точного вычисления квантилей.
РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА
Создайте ряд переменных, имеющих распределение Стьюдента с 5, 10, 18, 450 степенями
свободы. Напишите для этого программу, создающую эти распределения из уже имеющихся
переменных, или сгенерируйте их с помощью специальных функций.
Например:
genr st5=@qtdist(rnd,5)
series st10=N01/sqr(h10/10)
series st18= nrnd/sqr(h18_1)
series st450=@rtdist(450)
Объясните - почему эти различные способы позволяют генерировать распределения
Стьюдента. Протестируйте полученные переменные с помощью графиков Quantile-Quantile и с
помощью точных тестов, сопоставляя их между собой, с теоретическими распределениями
Стьюдента и со стандартным нормальным распределением.
Постройте графики плотностей (теоретических или эмпирических) распределений St(2),
St(10), St(450) и плотность стандартного нормального закона в одном окне. Объясните
наблюдаемое явление.
Используйте небольшую программу (student_tables.prg), вычисляющую 97.5% и 99.5%
квантили этих переменных и соответствующих им теоретических распределений и стандартного
нормального закона и сохраняющую их в таблицу. (File/Open/Program…)
Объясните – как меняются значения квантилей и почему? Почему наблюдаются
расхождения между теоретическими и эмпирическими значениями?
Создайте переменные sf5=st5^2 и sf10=st_10^2. Какое распределение они должны иметь?
Проверьте ваш вывод с помощью точных тестов и диагональных графиков.
ПРОЧИЕ РАСПРЕДЕЛЕНИЯ
Поработайте с другими распределениями, проверяя различные свойства: генерируйте
распределения, стройте графики, проводите тесты.
Проверьте свойство устойчивости к линейному преобразованию для логистического
закона.
Проверьте свойство устойчивости к умножению на константу для распределения Парето.
Проверьте свойство устойчивости по сложению для Гамма-распределения.
Проверьте связь логнормального закона с нормальным законом.
Проверьте связь распределения Парето и Экспоненциального распределения:
 x 
1
 ~ Exp  
 
 xmin 
если  ~ Pareto  xmin ;     ln 
Download