Загрузил Katia Markova

r-studio статистика

Реклама
Справочная информация по функциям R
Установить R на свой компьютер можно, например, отсюда: https://mirror.truenetwork.ru/
CRAN/. Среду разработки RStudio для языка программирования R можно установить, перейдя
по ссылке: https://rstudio.com/products/rstudio/download/#download. При установке
RStudio на компьютер проследите, чтобы в адресе директории установки были только латинские символы, например, C:\R и C:\RStudio, соответственно. Также при импорте файлов
в RStudio в адресе расположения файла должны быть только латинские символы.
В качестве альтернативы возможно использовать облачную версию RStudio. Здесь все хранится
в облаке, и установка R/RStudio на компьютер не требуется. Доступ по ссылке: https://
rstudio.cloud/.
Подобная информация об R и документация размещены по адресу https://www.r-project.
org/. Справку по функциям R можно получить и напрямую из RStudio во вкладке Help (не
пункт меню).
Темы 1–2. Предварительные сведения. Оценивание параметров распределения
Семинары 1–3
Некоторые функции:
• abs(x) — модуль числа x;
• ˆ — возведение в степень, например, xˆ2 — квадрат x;
• exp(x) — показательная функция;
• log(x) — натуральный логарифм;
• log2(x) — логарифм по основанию 2;
• sin(x) — синус;
• cos(x) — косинус;
• ceiling(x) округляет x вверх до ближайшего целого числа;
• floor(x) округляет x вниз до ближайшего целого числа.
Логические операции:
• < — меньше;
• <= — меньше или равно;
• > — больше;
• >= — больше или равно;
• == — равно;
• != — не равно;
• !A — не A;
• A | B — A или B;
• A & B — A и B.
Работа с массивами:
• с() — вектор, например, с(1,2,0,1) задает вектор (1,2,0,1);
1
• X[-2] убирает из X второй столбец, X[-с(2,4)] — убирает из X второй и четвертый
столбец, X[-с(2:4)] — убирает из X столбцы со второго по четвертый, X[-с(2,4),] —
убирает из X вторую и четвертую строки;
• sort(X) — упорядочение X по возрастанию; sort(X, decreasing = TRUE) — по убыванию;
• sum(X) — сумма элементов X;
• cumsum(X) — вектор накопленных сумм элементов X;
• prod(X) — произведение элементов X;
• cumprod(X) — вектор накопленных произведений элементов X;
• rank(X, ties.method = "M") — набор рангов по числовому набору X; в случае повторяющихся элементов ранг элементов в связке будет определяться методом M: средним
рангом (M = average), по порядку (M = first), в обратном порядке (M = last), случайным (M = random), максимальным (M = max) или минимальным (M = min);
• subset(X,cond) выбирает из X согласно условию cond;
• nrow(X) — количество строк в X;
• ncol(X) — количество столбцов в X;
• colnames(X)[k] <- "new name" — переименование переменной с номером k в наборе
данных X;
• as.Date("YYYY-M-D") — интерпретировать значение в формате даты;
• sample_n(X, m) выбирает из X случайно m элементов (используется пакет dplyr);
• sample_frac(X, p) выбирает из X случайно 100p% элементов (используется пакет
dplyr).
Основные функции описательной статистики. Пусть X — выборка.
• mean(X) — выборочное среднее;
• var(X) — выборочная дисперсия;
• sd(X) — выборочное среднеквадратическое (стандартное) отклонение;
• min(X) — минимальный элемент;
• max(X) — максимальный элемент;
• length(X) — объем;
• median(X) — медиана;
• quantile(X, p) — квантиль для выборки X уровня (порядка) p:
– при p = 0 — минимальный элемент min(X);
– при p = 0.25 — первый квартиль Q1 ;
– при p = 0.5 — второй квартиль Q2 (медиана);
– при p = 0.75 — третий квартиль Q3 ;
– при p = 1 — максимальный элемент max(X);
– quantile(X) выводит квантили уровней 0, 0.25, 0.5, 0.75 и 1;
• IQR(X) — межквартильный размах;
• summary(X) выводит минимальный элемент выборки, первый квартиль, медиану, выборочное среднее, третий квартиль и максимальный элемент.
• skewness(X) — выборочный коэффициент асимметрии (используется пакет e1071);
• kurtosis(X) — выборочный коэффициент эксцесса (используется пакет e1071);
• table(X) строит точечный вариационный ряд по X;
• table(cut(X, breaks = m)) строит интервальный вариационный ряд по X с m интервалами группировки;
• ecdf(X) — эмпирическая функция распределения, построенная по X; ecdf(X)(x) — значение эмпирической функции распределения в точке x, построенной по X; plot(ecdf(X)
строит график эмпирической функции распределения;
2
• hist(X, freq = TRUE) строит гистограмму частот для выборки X; hist(X, freq =
TRUE, breaks = m) создает гистограмму частот для выборки X с m интервалами группировки (есть особенности);
• boxplot(X, range = 0) строит «ящик с усами»; «усы» соответствуют минимальному
элементу и максимальному элементам, «ящик» соответствует первому квартилю, медиане и третьему квартилю. При boxplot(X, range = 1.5) или при boxplot(X) «усы»
отстоят на полтора межквартильного расстояния от «ящика», а возможные отдельные
точки отображают выбросы;
• qqnorm(X) строит график Q–Q plot по X, сравнивающий выборочные квантили с квантилями нормального распределения. Альтернатива — qqPlot(X) (используется пакет
car);
• aggregate(X, list(Y), fun, na.rm = TRUE) агрегирует X по значениям Y в соответствии с функцией fun, исключая пропущенные наблюдения.
Основные функции, касающиеся распределений:
• qnorm(x, m, sd) — квантиль уровня x нормального распределения с математическим
ожиданием m и стандартным отклонением sd;
• qchisq(x, df) — квантиль уровня x распределения хи-квадрат с df степенями свободы;
• qt(x, df) — квантиль уровня x распределения Стьюдента с df степенями свободы;
• qf(x, df1, df2) — квантиль уровня x распределения Фишера с df1 и df2 степенями
свободы;
• qbinom(x, size, prob) — квантиль уровня x биномиального распределения с параметрами size и prob;
• для вычисления значения плотности соответствующего распределения в точке x нужно
вместо первой буквы q в функциях, перечисленных выше, писать букву d;
• для вычисления значения функции соответствующего распределения в точке x нужно
вместо первой буквы q в функциях, перечисленных выше, писать букву p;
• для моделирования выборки объема x из генеральных совокупностей нужно вместо первой буквы q в функциях, перечисленных выше, писать букву r.
Построение доверительных интервалов:
• t.test(X, conf.level = 0.95, alternative = "A")$conf.int — границы 95%-го
доверительного интервала для математического ожидания нормальной генеральной совокупности по выборке X при неизвестной дисперсии и типе интервала A (two.sided,
less или greater);
• z.test(X, sigma.x = s, conf.level = 0.95, alternative = "A")$conf.int —
границы 95%-го доверительного интервала для математического ожидания нормальной
генеральной совокупности по выборке X при известной дисперсии и равной s2 и типе
интервала A (two.sided, less или greater) (используется пакет BSDA);
• varTest(X, conf.level = 0.95, alternative = "A")$conf.int — границы 95%-го
доверительного интервала для дисперсии нормальной генеральной совокупности по выборке X и типе интервала A (two.sided, less или greater) (используется пакет EnvStats);
• binom.test(x, n, conf.level = 0.95, alternative = "A")$conf.int — границы
95%-го доверительного интервала для вероятности «успеха» на основе x «успехов» из n
и типе интервала A (two.sided, less или greater) — точный доверительный интервал;
• prop.test(x, n, correct = FALSE, conf.level = 0.95, alternative = "A")$
conf.int — границы 95%-го доверительного интервала для вероятности «успеха» на основе x «успехов» из n и типе интервала A (two.sided, less или greater) — аппроксимация для n > 30.
3
Тема 3. Проверка статистических гипотез
Семинары 4–6
Критерии согласия (гипотезы о нормальном распределении генеральной совокупности):
• pearson.test(X, n.classes = k) — реализация критерия Пирсона хи-квадрат по выборке X и количеству интервалов группировки k, при этом этот аргумент можно не указывать и использовать количество интервалов группировки по умолчанию (используется
пакет nortest);
• ks.test(X, "pnorm", alternative = "A") — реализация критерия Колмогорова по
выборке X и альтернативной гипотезе A (two.sided, less или greater);
• lillie.test(X) — реализация критерия Лиллиефорса по выборке X (используется пакет
nortest);
• shapiro.test(X) — реализация критерия Шапиро–Уилка по выборке X;
• jarque.bera.test(X) — реализация критерия Харке–Бера по выборке X (используется
пакет tseries);
• lillie.test(X) — реализация критерия Лиллиефорса по выборке X (используется пакет
nortest);
• cvm.test(X) — реализация критерия Крамера–фон Мизеса по выборке X (используется
пакет nortest);
• ad.test(X) — реализация критерия Андерсона–Дарлинга по выборке X (используется
пакет nortest).
Одновыборочные критерии о значении параметров распределения генеральной совокупности:
• t.test(X, mu = m0, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении математического ожидания нормально распределенной генеральной совокупности величине m0 по выборке X на уровне значимости 0.05 при альтернативной
гипотезе A (two.sided, less или greater) и неизвестной дисперсии;
• z.test(X, mu = m0, sigma.x = s, conf.level = 0.95, alternative = "A") —
проверка гипотезы о значении математического ожидания нормально распределенной
генеральной совокупности величине m0 по выборке X на уровне значимости 0.05 при
альтернативной гипотезе A (two.sided, less или greater) и известной дисперсии s2
(используется пакет BSDA);
• varTest(X, sigma.squared = s2 , conf.level = 0.95, alternative = "A") — проверка гипотезы о значении дисперсии нормально распределенной генеральной совокупности величине s2 по выборке X на уровне значимости 0.05 при альтернативной гипотезе A
(two.sided, less или greater) (используется пакет EnvStats);
• binom.test(x, n, p = p0, conf.level = 0.95, alternative = "A") — проверка
гипотезы о значении доли (параметра распределения Бернулли) величине p0 на уровне
значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) на основе
x «успехов» из n — точный критерий;
• prop.test(x, n, p = p0, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении доли (параметра распределения Бернулли) величине p0 на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) на основе x
«успехов» из n. Проверка гипотезы проводится на основе анализа таблицы сопряженности.
Двухвыборочные критерии о значении параметров распределения генеральной совокупности:
• t.test(X, Y, mu = m0, paired = FALSE, var.equal = TRUE, conf.level = 0.95,
alternative = "A") — проверка гипотезы о значении разности математических ожи4
даний двух независимых нормально распределенных генеральных совокупностей величине m0 по выборкам X и Y на уровне значимости 0.05 при альтернативной гипотезе A
(two.sided, less или greater) и неизвестных, но равных дисперсиях (или неравных дисперсиях при var.equal = FALSE). При значении аргумента paired = TRUE — парный
тест (для связных выборок одинакового объема);
• z.test(X, Y, mu = m0, sigma.x = sx, sigma.y = sy, conf.level = 0.95,
alternative = "A") — проверка гипотезы о значении разности математических ожиданий двух независимых нормально распределенных генеральных совокупностей величине m0 по выборкам X и Y на уровне значимости 0.05 при альтернативной гипотезе A
(two.sided, less или greater) и известных дисперсиях sx2 и sy2 (используется пакет
BSDA);
• var.test(X, Y, ratio = r, conf.level = 0.95, alternative = "A") — проверка
гипотезы о значении отношения дисперсий двух независимых нормально распределенных
генеральных совокупностей величине r по выборкам X и Y на уровне значимости 0.05 при
альтернативной гипотезе A (two.sided, less или greater);
• prop.test(c(x1,x2), c(n1,n2), conf.level = 0.95, alternative = "A") — проверка гипотезы о равенстве долей (параметров распределения Бернулли) на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) на основе x1
«успехов» из n1 испытаний в первой выборке и x2 «успехов» из n2 испытаний во второй
выборке. Проверка гипотезы проводится на основе анализа таблицы сопряженности. По
умолчанию используется аргумент correct = TRUE, учитывающий поправку Йейтса.
Критерии однородности:
• ks.test(X, Y, alternative = "A") — реализация критерия Смирнова по выборкам X
и Y при альтернативной гипотезе A (two.sided, less или greater);
• cvm_test(X, Y) — реализация двухвыборочного критерия Крамера–фон Мизеса по выборкам X и Y (используется пакет twosamples);
• ad_test(X, Y) — реализация двухвыборочного критерия Андерсона–Дарлинга по выборкам X и Y (используется пакет twosamples).
Критерии Уилкоксона:
• wilcox.test(X, mu = mu0, exact = TRUE, correct = TRUE, conf.int = TRUE,
conf.level = 0.95, alternative = "A") — реализация одновыборочного критерия
Уилкоксона о значении медианы генеральной совокупности величине mu0 по выборке X
при альтернативной гипотезе A (two.sided, less или greater). Дополнительно выводится 95%-й доверительный интервал для медианы (conf.int = TRUE), рассчитывается
точное p-значение (exact = TRUE) и используется аппроксимация нормальным законом
распределения (correct = TRUE);
• wilcox.test(X, Y, mu = mu0, paired = FALSE, exact = TRUE, correct = TRUE,
conf.int = TRUE, conf.level = 0.95, alternative = "A") — реализация критерия Уилкоксона (Wilcoxon rank sum test) о значении медианы разности двух генеральных
совокупностей величине mu0 по независимым выборкам X и Y при альтернативной гипотезе
A (two.sided, less или greater). Дополнительно выводится 95%-й доверительный интервал для медианы разности (conf.int = TRUE), рассчитывается точное p-значение (exact
= TRUE) и используется аппроксимация нормальным законом распределения (correct =
TRUE);
• wilcox.test(X, Y, mu = mu0, paired = TRUE, exact = TRUE, correct = TRUE,
conf.int = TRUE, conf.level = 0.95, alternative = "A") — реализация парного
критерия Уилкоксона (two-sample Wilcoxon signed-rank test) о значении медианы разности двух генеральных совокупностей величине mu0 по двум связным выборкам X и Y
5
одинакового объема при альтернативной гипотезе A (two.sided, less или greater). Дополнительно выводится 95%-й доверительный интервал для медианы разности (conf.int
= TRUE), рассчитывается точное p-значение (exact = TRUE) и используется аппроксимация нормальным законом распределения (correct = TRUE).
Критерии знаков:
• SIGN.test(X, md = md0, conf.level = 0.95, alternative = "A") — реализация
одновыборочного критерия знаков о значении медианы генеральной совокупности величине md0 по выборке X при альтернативной гипотезе A (two.sided, less или greater)
(используется пакет BSDA);
• SIGN.test(X, Y, md = md0, conf.level = 0.95, alternative = "A") — реализация парного критерия знаков о значении медианы разности двух генеральных совокупностей величине md0 по связным выборкам X и Y одинакового объема при альтернативной
гипотезе A (two.sided, less или greater) (используется пакет BSDA).
Непараметрические критерии для нескольких совокупностей:
• kruskal.test(X, F) — реализация критерия Краскела–Уоллиса для выборки X со значениями факторов (типов совокупностей) F;
• Median.test(X, F, alpha = 0.05, correct = TRUE) — реализация критерия Муда
для выборки X со значениями факторов (типов совокупностей) F на уровне значимости
0.05 и включении поправки на непрерывность при двух факторах, когда аргумент correct
= TRUE (используется пакет agricolae).
Непараметрический критерий случайности:
• bartels.rank.test(X) — реализация рангового критерия случайности Бартелса для
набора X (используется пакет randtests).
Тема 4. Дисперсионный анализ
Семинары 7–8
Дисперсионный анализ (ANOVA):
• aov(X ∼ F, data = D) — реализация дисперсионного анализа, изучая влияния фактора(ов) F на признак X в наборе D. «Важность» факторов определяется их порядком после
знака ∼. Аргумент F может быть как одним фактором, так и комбинацией нескольких: F1
+ F2 или F1:F2, или F1 + F2 * F3 и пр.;
• summary(aov(...)) — выводит таблицу дисперсионного анализа;
• plot(aov(...), 1:2) — выводит графики остатков и квантиль–квантиль;
• aov(...)$coefficients — возвращает коэффициенты модели дисперсионного анализа;
• aov(...)$residuals — возвращает значения остатков;
• aov(...)$fitted.values — возвращает предсказанные средние значения.
6
Критерии равенства дисперсий для нескольких совокупностей:
• bartlett.test(X, F) — реализация критерия Бартлетта для выборки X со значениями
факторов (типов совокупностей) F;
• leveneTest(X, F, center = "C") — реализация критерия Левена для выборки X со
значениями факторов (типов совокупностей) F и расчете отклонений C: mean или median;
последний тип реализуется по умолчанию (используется пакет car);
• Для проверки равенства дисперсий в двух совокупностях можно применить критерий
Фишера–Снедекора var.test.
Ранговый критерий факторного анализа:
• jonckheere.test(X, F, alternative = "A") — реализация критерия Джонкира для
выборки X со значениями факторов (типов совокупностей) F при альтернативном упорядочении A (two.sided, increasing или decreasing) (используется пакет clinfun).
Критерии попарных сравнений:
• pairwise.t.test(X, F, p.adjust.method = "M", pool.sd = TRUE, paired =
FALSE, alternative = "A") — реализация попарного применения критерия Стьюдента
для выборки X со значениями факторов (типов совокупностей) F и поправкой p-значения
методом M (bonferroni, holm, none) при альтернативной гипотезе A (two.sided, less или
greater). Дополнительно вычисляется объединенная дисперсия, а выборки полагаются
несвязными;
• pairwise.wilcox.test(X, F, p.adjust.method = "M", paired = FALSE,
alternative = "A") — реализация попарного применения критерия Уилкоксона для
выборки X со значениями факторов (типов совокупностей) F и поправкой p-значения методом M (bonferroni, holm, none) при альтернативной гипотезе A (two.sided, less или
greater). Дополнительно выборки полагаются несвязными;
• TukeyHSD(aov(...), ordered = FALSE) — попарное сравнение средних методом Тьюки; значение ordered указывает, следует ли упорядочить уровни фактора по возрастанию
среднего значения в выборке.
Семинар 9: семестровая аттестация
Тема 5. Анализ зависимостей
Семинары 10–11
Таблицы сопряженности:
• chisq.test(X, Y, correct = TRUE) — анализ таблицы сопряженности по выборкам X
и Y с использованием поправки Йейтса для таблицы 2 × 2 (для таблиц большей размерности поправка не применяется);
• fisher.test(X, Y) — реализация точного критерия Фишера для таблицы сопряженности 2 × 2 по выборкам X и Y (для таблиц большей размерности используется аппроксимация).
Измерение тесноты связи между неранжируемыми признаками:
• Phi(X, Y) — возвращает коэффициент контингенции ϕ по выборкам X и Y (используется
пакет DescTools);
• YuleQ(X, Y) — возвращает коэффициент ассоциации Юла по выборкам X и Y для таблиц
сопряженности 2 × 2 (используется пакет DescTools);
7
• ContCoef(X, Y) — возвращает коэффициент контингенции Пирсона по выборкам X и Y
(используется пакет DescTools);
• CramerV(X, Y) — возвращает коэффициент Крамера по выборкам X и Y (используется
пакет DescTools);
• TschuprowT(X, Y) — возвращает коэффициент Чупрова по выборкам X и Y (используется
пакет DescTools).
Вместо аргументов X и Y можно указать один аргумент: таблицу сопряженности table(X, Y)
или же матрицу matrix(c(. . .), ncol = C, byrow = TRUE) с количеством столбцов C, записывая ее элементы построчно.
Измерение тесноты связи между ранжируемыми признаками:
• cor(X, Y, method = "M") — возвращает выборочный коэффициент корреляции Пирсона, Спирмена или Кендалла (M = pearson, spearman или kendall), используя выборки
X и Y. Возможно указание также набора данных D: cor(D, method = "M") для построения
корреляционной матрицы;
• plot(X, Y) — построение диаграммы рассеяния, используя выборки X и Y; plot(D) —
построение попарных диаграмм рассеяния по набору данных D;
• cor.test(X, Y, conf.level = 0.95, method = "M", alternative = "A") — проверка гипотезы о значимости коэффициента корреляции Пирсона, Спирмена или Кендалла (M = pearson, spearman или kendall), используя выборки X и Y на уровне значимости
0.05 при альтернативной гипотезе A (two.sided, less или greater).
Тема 6. Регрессионный анализ
Семинары 12–14
Линейная регрессия:
• lm(Y ∼ X, data = D) — построение парной линейной регрессии для изучения влияния
объясняющей переменной X на зависимую переменную Y в наборе D. Если требуется построить уравнение, проходящее через начало координат, то можно записать формулу как
Y ∼ X + 0 или как Y ∼ X - 1. При нескольких объясняющих переменных, например,
двух X1 и X2 формула записывается в виде Y ∼ X1 + X2. Если набор D содержит лишь
все необходимые объясняющие переменные, подлежащие включению в модель, и зависимую переменную, то можно использовать сокращенную запись lm(Y ∼ ., data = D).
Можно исключить часть переменных в модели линейной регрессии, записав формулу,
например, в виде Y ∼ . - X1.
• summary(lm(...)) — выводит сводную информацию регрессионного анализа;
• anova(lm(...)) — выводит сводную информацию дисперсионного анализа;
• plot(lm(...), 1:2) — выводит графики остатков и квантиль–квантиль;
• lm(...)$coefficients — возвращает коэффициенты уравнения линейной регрессии;
• confint(lm(...), level = 0.95) — возвращает 95%-e доверительные интервалы для
коэффициентов уравнения линейной регрессии;
• lm(...)$residuals — возвращает значения остатков;
• lm(...)$fitted.values — возвращает предсказанные значения зависимой переменной
согласно построенному уравнению.
Визуализация парной линейной регрессии:
• plot(D$X, D$Y) — построение диаграммы рассеяния между объясняющей переменной
X и зависимой переменной Y в наборе D;
8
• abline(lm(Y ∼ X, data = D)) — добавление парной линейной регрессии на диаграмму рассеяния.
Прогнозирование и интервальное оценивание:
• predict(lm(...), interval = "I", level = 0.95) — возвращает предсказанные
значения fitted.values, а также нижние и верхние границы 95%-го доверительного интервала (I = confidence) или 95%-го интервала предсказания для прогноза (I =
prediction);
• predict(lm(...), newdata = data.frame(X = X0), interval = "I", level =
0.95) — возвращает предсказанное значения для значения объясняющей переменной
X0, а также нижние и верхние границы либо 95%-го доверительного интервала, либо или
95%-го интервала предсказания для прогноза (I = confidence или prediction).
Проверка выполнения основных предположений регрессионного анализа (частично):
• bptest(lm(...), studentize = FALSE) — реализация критерия Бройша–Пагана о гомоскедастичности (используется пакет lmtest);
• gqtest(lm(...), alternative = "two.sided") — реализация критерия Голдфелда–
Квандта о гомоскедастичности (используется пакет lmtest);
• dwtest(lm(...), alternative = "two.sided") — реализация критерия Дарбина–
Уотсона о наличии автокорреляции первого порядка (используется пакет lmtest);
• bgtest(lm(...), order = K) — реализация критерия Бройша–Годфри о наличии автокорреляции порядка K (используется пакет lmtest).
Верификация построенной модели:
• MAPE(YF, Y) — возвращает среднюю ошибку аппроксимации, где YF — предсказанные
значения, а Y — наблюдаемые (используется пакет MLmetrics);
• vif(lm(...)) — возвращает показатели VIF для построенной модели линейной регрессии при более одной объясняющей переменной (используется пакет car);
• stepAIC(lm(...)) — возвращает показатель AIC для построенной модели линейной
регрессии, а также проводит сравнение нескольких моделей, последовательно исключая
по одной объясняющей переменной и рассчитывая для них показатель AIC (используется
пакет MASS);
• regsubsets(Y ∼ X, data = D, nvmax = N) — проводит сравнение моделей линейных
регрессий по набору D, в котором X — объясняющие переменные, Y — зависимая переменная, используя не более N объясняющих переменных. Для заданного количества
объясняющих переменных (от 0 до N) лучшей моделью считается та, для которой величина SSE минимальна. Альтернативная запись: regsubsets(D$X, D$Y, nvmax = N)
(используется пакет leaps).
– summary(regsubsets(...))$outmat — выводит таблицу объясняющих переменных в лучших моделях;
– summary(regsubsets(...))$adjr2 — возвращает скорректированные коэффициенты детерминации в лучших моделях;
– plot(regsubsets(...), scale = "adjr2") — строит диаграмму, связывающую
объясняющие переменные в лучших моделях и скорректированные коэффициенты
детерминации.
Наличие структурных изменений:
• chow.test(Y1, X1, Y2, X2) — реализация критерия Чоу сравнения двух регрессионных моделей (используется пакет gap).
9
Тема 7. Временные ряды
Семинары 15–16
Операции с временным рядом:
• ts(X, start = S, end = E, frequency = F) — формирование временного ряда по набору X с начальным периодом S, конечным периодом E и частотой F;
• diff(TS, lag = L, differences = D) — построение временного ряда разности порядка D и лагом между периодами L по временному ряду TS;
• exp(mean(log(X))) — вычисление среднего геометрического по набору X, не содержащему нулевые элементы;
• plot(TS) — визуализация временного ряда TS;
• boxplot(TS ∼ cycle(TS), range = 0) — построение «ящиков с усами» по временному ряду TS с учетом значения параметра frequency(TS);
• seasonplot(TS, year.labels = TRUE, year.labels.left = TRUE) — визуализация
временного ряда TS для каждого цикла с учетом значения параметра frequency(TS)
(используется пакет forecast).
Сглаживание временного ряда:
• ses(TS, alpha = A, initial = "simple", h = H, level = c(80, 95)) — построение модели простого экспоненциального сглаживания с параметром затухания A по временному ряду TS и последующим горизонтом прогнозирования на H периодов и дополнительным построением 80%- и 95%-х интервалов предсказания для прогноза (используется
пакет forecast);
– при отсутствии аргумента alpha, находится значение оценки A, которое выводится
функцией summary(ses(...));
– ses(...)$fitted — сглаженный временной ряд;
– ses(...)$residuals — значения остатков;
– forecast(ses(...)) — вывод предсказанных моделью будущих значений прогноза
и границ интервалов предсказания для прогноза;
– plot(ses(...)$fitted) — визуализация сглаженного временного ряда;
– plot(ses(...)) — визуализация исходного временного ряда и прогноза, а также
добавление сглаженного временного ряда: lines(ses(...)$fitted);
– plot(ses(...)$residuals) — вывод графика остатков;
• ma(TS, order = O) — вывод сглаженного временного ряда методом скользящей средней
порядка O по исходному временному ряду TS (используется пакет forecast);
• sma(TS, order = O, h = H, level = 95) — построение модели скользящей средней
порядка O по временному ряду TS и последующим горизонтом прогнозирования на H
периодов и дополнительным построением 95%-х интервалов предсказания для прогноза
(используется пакет smooth);
– sma(...)$order — оценка порядка модели сглаживания O при отсутствии аргумента
order;
– sma(...)$fitted — сглаженный временной ряд;
– sma(...)$residuals — значения остатков;
– forecast(sma(...)) — вывод предсказанных моделью будущих значений прогноза
и границ 95%-х интервалов предсказания для прогноза;
– plot(forecast(sma(...))) — визуализация исходного и сглаженного временных
рядов, значений прогноза и границ 95%-х интервалов предсказания для прогноза;
– plot(sma(...)$residuals) — вывод графика остатков;
– sma(...)$ICs — вывод значений информационных критериев.
10
Декомпозиция временного ряда методом скользящей средней:
• decompose(TS, type = "T") — выполнение декомпозиции временного ряда TS методом скользящей средней на основе аддитивной (T = additive) или мультипликативной
модели (T = multiplicative):
– decompose(...)$trend — оценки тренда;
– decompose(...)$seasonal — оценки сезонной составляющей;
– decompose(...)$random — оценки остатков;
– plot(decompose(...)) — визуализация декомпозиции.
Критерии о наличии тренда:
• rank.test(X, alternative = "A") — реализация рангового критерия Манна–Кендалла
о наличии тренда для набора X и альтернативной гипотезе A — two.sided, left.sided
или right.sided (используется пакет randtests);
• cox.stuart.test(X, alternative = "A") — реализация непараметрического критерия Кокса–Стюарта о наличии тренда для набора X и альтернативной гипотезе A —
two.sided, left.sided или right.sided (используется пакет randtests).
Семинары 17–18: защита индивидуального проекта, обобщение материалов курса для подготовки к экзамену
11
Скачать