Справочная информация по функциям R Установить R на свой компьютер можно, например, отсюда: https://mirror.truenetwork.ru/ CRAN/. Среду разработки RStudio для языка программирования R можно установить, перейдя по ссылке: https://rstudio.com/products/rstudio/download/#download. При установке RStudio на компьютер проследите, чтобы в адресе директории установки были только латинские символы, например, C:\R и C:\RStudio, соответственно. Также при импорте файлов в RStudio в адресе расположения файла должны быть только латинские символы. В качестве альтернативы возможно использовать облачную версию RStudio. Здесь все хранится в облаке, и установка R/RStudio на компьютер не требуется. Доступ по ссылке: https:// rstudio.cloud/. Подобная информация об R и документация размещены по адресу https://www.r-project. org/. Справку по функциям R можно получить и напрямую из RStudio во вкладке Help (не пункт меню). Темы 1–2. Предварительные сведения. Оценивание параметров распределения Семинары 1–3 Некоторые функции: • abs(x) — модуль числа x; • ˆ — возведение в степень, например, xˆ2 — квадрат x; • exp(x) — показательная функция; • log(x) — натуральный логарифм; • log2(x) — логарифм по основанию 2; • sin(x) — синус; • cos(x) — косинус; • ceiling(x) округляет x вверх до ближайшего целого числа; • floor(x) округляет x вниз до ближайшего целого числа. Логические операции: • < — меньше; • <= — меньше или равно; • > — больше; • >= — больше или равно; • == — равно; • != — не равно; • !A — не A; • A | B — A или B; • A & B — A и B. Работа с массивами: • с() — вектор, например, с(1,2,0,1) задает вектор (1,2,0,1); 1 • X[-2] убирает из X второй столбец, X[-с(2,4)] — убирает из X второй и четвертый столбец, X[-с(2:4)] — убирает из X столбцы со второго по четвертый, X[-с(2,4),] — убирает из X вторую и четвертую строки; • sort(X) — упорядочение X по возрастанию; sort(X, decreasing = TRUE) — по убыванию; • sum(X) — сумма элементов X; • cumsum(X) — вектор накопленных сумм элементов X; • prod(X) — произведение элементов X; • cumprod(X) — вектор накопленных произведений элементов X; • rank(X, ties.method = "M") — набор рангов по числовому набору X; в случае повторяющихся элементов ранг элементов в связке будет определяться методом M: средним рангом (M = average), по порядку (M = first), в обратном порядке (M = last), случайным (M = random), максимальным (M = max) или минимальным (M = min); • subset(X,cond) выбирает из X согласно условию cond; • nrow(X) — количество строк в X; • ncol(X) — количество столбцов в X; • colnames(X)[k] <- "new name" — переименование переменной с номером k в наборе данных X; • as.Date("YYYY-M-D") — интерпретировать значение в формате даты; • sample_n(X, m) выбирает из X случайно m элементов (используется пакет dplyr); • sample_frac(X, p) выбирает из X случайно 100p% элементов (используется пакет dplyr). Основные функции описательной статистики. Пусть X — выборка. • mean(X) — выборочное среднее; • var(X) — выборочная дисперсия; • sd(X) — выборочное среднеквадратическое (стандартное) отклонение; • min(X) — минимальный элемент; • max(X) — максимальный элемент; • length(X) — объем; • median(X) — медиана; • quantile(X, p) — квантиль для выборки X уровня (порядка) p: – при p = 0 — минимальный элемент min(X); – при p = 0.25 — первый квартиль Q1 ; – при p = 0.5 — второй квартиль Q2 (медиана); – при p = 0.75 — третий квартиль Q3 ; – при p = 1 — максимальный элемент max(X); – quantile(X) выводит квантили уровней 0, 0.25, 0.5, 0.75 и 1; • IQR(X) — межквартильный размах; • summary(X) выводит минимальный элемент выборки, первый квартиль, медиану, выборочное среднее, третий квартиль и максимальный элемент. • skewness(X) — выборочный коэффициент асимметрии (используется пакет e1071); • kurtosis(X) — выборочный коэффициент эксцесса (используется пакет e1071); • table(X) строит точечный вариационный ряд по X; • table(cut(X, breaks = m)) строит интервальный вариационный ряд по X с m интервалами группировки; • ecdf(X) — эмпирическая функция распределения, построенная по X; ecdf(X)(x) — значение эмпирической функции распределения в точке x, построенной по X; plot(ecdf(X) строит график эмпирической функции распределения; 2 • hist(X, freq = TRUE) строит гистограмму частот для выборки X; hist(X, freq = TRUE, breaks = m) создает гистограмму частот для выборки X с m интервалами группировки (есть особенности); • boxplot(X, range = 0) строит «ящик с усами»; «усы» соответствуют минимальному элементу и максимальному элементам, «ящик» соответствует первому квартилю, медиане и третьему квартилю. При boxplot(X, range = 1.5) или при boxplot(X) «усы» отстоят на полтора межквартильного расстояния от «ящика», а возможные отдельные точки отображают выбросы; • qqnorm(X) строит график Q–Q plot по X, сравнивающий выборочные квантили с квантилями нормального распределения. Альтернатива — qqPlot(X) (используется пакет car); • aggregate(X, list(Y), fun, na.rm = TRUE) агрегирует X по значениям Y в соответствии с функцией fun, исключая пропущенные наблюдения. Основные функции, касающиеся распределений: • qnorm(x, m, sd) — квантиль уровня x нормального распределения с математическим ожиданием m и стандартным отклонением sd; • qchisq(x, df) — квантиль уровня x распределения хи-квадрат с df степенями свободы; • qt(x, df) — квантиль уровня x распределения Стьюдента с df степенями свободы; • qf(x, df1, df2) — квантиль уровня x распределения Фишера с df1 и df2 степенями свободы; • qbinom(x, size, prob) — квантиль уровня x биномиального распределения с параметрами size и prob; • для вычисления значения плотности соответствующего распределения в точке x нужно вместо первой буквы q в функциях, перечисленных выше, писать букву d; • для вычисления значения функции соответствующего распределения в точке x нужно вместо первой буквы q в функциях, перечисленных выше, писать букву p; • для моделирования выборки объема x из генеральных совокупностей нужно вместо первой буквы q в функциях, перечисленных выше, писать букву r. Построение доверительных интервалов: • t.test(X, conf.level = 0.95, alternative = "A")$conf.int — границы 95%-го доверительного интервала для математического ожидания нормальной генеральной совокупности по выборке X при неизвестной дисперсии и типе интервала A (two.sided, less или greater); • z.test(X, sigma.x = s, conf.level = 0.95, alternative = "A")$conf.int — границы 95%-го доверительного интервала для математического ожидания нормальной генеральной совокупности по выборке X при известной дисперсии и равной s2 и типе интервала A (two.sided, less или greater) (используется пакет BSDA); • varTest(X, conf.level = 0.95, alternative = "A")$conf.int — границы 95%-го доверительного интервала для дисперсии нормальной генеральной совокупности по выборке X и типе интервала A (two.sided, less или greater) (используется пакет EnvStats); • binom.test(x, n, conf.level = 0.95, alternative = "A")$conf.int — границы 95%-го доверительного интервала для вероятности «успеха» на основе x «успехов» из n и типе интервала A (two.sided, less или greater) — точный доверительный интервал; • prop.test(x, n, correct = FALSE, conf.level = 0.95, alternative = "A")$ conf.int — границы 95%-го доверительного интервала для вероятности «успеха» на основе x «успехов» из n и типе интервала A (two.sided, less или greater) — аппроксимация для n > 30. 3 Тема 3. Проверка статистических гипотез Семинары 4–6 Критерии согласия (гипотезы о нормальном распределении генеральной совокупности): • pearson.test(X, n.classes = k) — реализация критерия Пирсона хи-квадрат по выборке X и количеству интервалов группировки k, при этом этот аргумент можно не указывать и использовать количество интервалов группировки по умолчанию (используется пакет nortest); • ks.test(X, "pnorm", alternative = "A") — реализация критерия Колмогорова по выборке X и альтернативной гипотезе A (two.sided, less или greater); • lillie.test(X) — реализация критерия Лиллиефорса по выборке X (используется пакет nortest); • shapiro.test(X) — реализация критерия Шапиро–Уилка по выборке X; • jarque.bera.test(X) — реализация критерия Харке–Бера по выборке X (используется пакет tseries); • lillie.test(X) — реализация критерия Лиллиефорса по выборке X (используется пакет nortest); • cvm.test(X) — реализация критерия Крамера–фон Мизеса по выборке X (используется пакет nortest); • ad.test(X) — реализация критерия Андерсона–Дарлинга по выборке X (используется пакет nortest). Одновыборочные критерии о значении параметров распределения генеральной совокупности: • t.test(X, mu = m0, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении математического ожидания нормально распределенной генеральной совокупности величине m0 по выборке X на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) и неизвестной дисперсии; • z.test(X, mu = m0, sigma.x = s, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении математического ожидания нормально распределенной генеральной совокупности величине m0 по выборке X на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) и известной дисперсии s2 (используется пакет BSDA); • varTest(X, sigma.squared = s2 , conf.level = 0.95, alternative = "A") — проверка гипотезы о значении дисперсии нормально распределенной генеральной совокупности величине s2 по выборке X на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) (используется пакет EnvStats); • binom.test(x, n, p = p0, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении доли (параметра распределения Бернулли) величине p0 на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) на основе x «успехов» из n — точный критерий; • prop.test(x, n, p = p0, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении доли (параметра распределения Бернулли) величине p0 на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) на основе x «успехов» из n. Проверка гипотезы проводится на основе анализа таблицы сопряженности. Двухвыборочные критерии о значении параметров распределения генеральной совокупности: • t.test(X, Y, mu = m0, paired = FALSE, var.equal = TRUE, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении разности математических ожи4 даний двух независимых нормально распределенных генеральных совокупностей величине m0 по выборкам X и Y на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) и неизвестных, но равных дисперсиях (или неравных дисперсиях при var.equal = FALSE). При значении аргумента paired = TRUE — парный тест (для связных выборок одинакового объема); • z.test(X, Y, mu = m0, sigma.x = sx, sigma.y = sy, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении разности математических ожиданий двух независимых нормально распределенных генеральных совокупностей величине m0 по выборкам X и Y на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) и известных дисперсиях sx2 и sy2 (используется пакет BSDA); • var.test(X, Y, ratio = r, conf.level = 0.95, alternative = "A") — проверка гипотезы о значении отношения дисперсий двух независимых нормально распределенных генеральных совокупностей величине r по выборкам X и Y на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater); • prop.test(c(x1,x2), c(n1,n2), conf.level = 0.95, alternative = "A") — проверка гипотезы о равенстве долей (параметров распределения Бернулли) на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater) на основе x1 «успехов» из n1 испытаний в первой выборке и x2 «успехов» из n2 испытаний во второй выборке. Проверка гипотезы проводится на основе анализа таблицы сопряженности. По умолчанию используется аргумент correct = TRUE, учитывающий поправку Йейтса. Критерии однородности: • ks.test(X, Y, alternative = "A") — реализация критерия Смирнова по выборкам X и Y при альтернативной гипотезе A (two.sided, less или greater); • cvm_test(X, Y) — реализация двухвыборочного критерия Крамера–фон Мизеса по выборкам X и Y (используется пакет twosamples); • ad_test(X, Y) — реализация двухвыборочного критерия Андерсона–Дарлинга по выборкам X и Y (используется пакет twosamples). Критерии Уилкоксона: • wilcox.test(X, mu = mu0, exact = TRUE, correct = TRUE, conf.int = TRUE, conf.level = 0.95, alternative = "A") — реализация одновыборочного критерия Уилкоксона о значении медианы генеральной совокупности величине mu0 по выборке X при альтернативной гипотезе A (two.sided, less или greater). Дополнительно выводится 95%-й доверительный интервал для медианы (conf.int = TRUE), рассчитывается точное p-значение (exact = TRUE) и используется аппроксимация нормальным законом распределения (correct = TRUE); • wilcox.test(X, Y, mu = mu0, paired = FALSE, exact = TRUE, correct = TRUE, conf.int = TRUE, conf.level = 0.95, alternative = "A") — реализация критерия Уилкоксона (Wilcoxon rank sum test) о значении медианы разности двух генеральных совокупностей величине mu0 по независимым выборкам X и Y при альтернативной гипотезе A (two.sided, less или greater). Дополнительно выводится 95%-й доверительный интервал для медианы разности (conf.int = TRUE), рассчитывается точное p-значение (exact = TRUE) и используется аппроксимация нормальным законом распределения (correct = TRUE); • wilcox.test(X, Y, mu = mu0, paired = TRUE, exact = TRUE, correct = TRUE, conf.int = TRUE, conf.level = 0.95, alternative = "A") — реализация парного критерия Уилкоксона (two-sample Wilcoxon signed-rank test) о значении медианы разности двух генеральных совокупностей величине mu0 по двум связным выборкам X и Y 5 одинакового объема при альтернативной гипотезе A (two.sided, less или greater). Дополнительно выводится 95%-й доверительный интервал для медианы разности (conf.int = TRUE), рассчитывается точное p-значение (exact = TRUE) и используется аппроксимация нормальным законом распределения (correct = TRUE). Критерии знаков: • SIGN.test(X, md = md0, conf.level = 0.95, alternative = "A") — реализация одновыборочного критерия знаков о значении медианы генеральной совокупности величине md0 по выборке X при альтернативной гипотезе A (two.sided, less или greater) (используется пакет BSDA); • SIGN.test(X, Y, md = md0, conf.level = 0.95, alternative = "A") — реализация парного критерия знаков о значении медианы разности двух генеральных совокупностей величине md0 по связным выборкам X и Y одинакового объема при альтернативной гипотезе A (two.sided, less или greater) (используется пакет BSDA). Непараметрические критерии для нескольких совокупностей: • kruskal.test(X, F) — реализация критерия Краскела–Уоллиса для выборки X со значениями факторов (типов совокупностей) F; • Median.test(X, F, alpha = 0.05, correct = TRUE) — реализация критерия Муда для выборки X со значениями факторов (типов совокупностей) F на уровне значимости 0.05 и включении поправки на непрерывность при двух факторах, когда аргумент correct = TRUE (используется пакет agricolae). Непараметрический критерий случайности: • bartels.rank.test(X) — реализация рангового критерия случайности Бартелса для набора X (используется пакет randtests). Тема 4. Дисперсионный анализ Семинары 7–8 Дисперсионный анализ (ANOVA): • aov(X ∼ F, data = D) — реализация дисперсионного анализа, изучая влияния фактора(ов) F на признак X в наборе D. «Важность» факторов определяется их порядком после знака ∼. Аргумент F может быть как одним фактором, так и комбинацией нескольких: F1 + F2 или F1:F2, или F1 + F2 * F3 и пр.; • summary(aov(...)) — выводит таблицу дисперсионного анализа; • plot(aov(...), 1:2) — выводит графики остатков и квантиль–квантиль; • aov(...)$coefficients — возвращает коэффициенты модели дисперсионного анализа; • aov(...)$residuals — возвращает значения остатков; • aov(...)$fitted.values — возвращает предсказанные средние значения. 6 Критерии равенства дисперсий для нескольких совокупностей: • bartlett.test(X, F) — реализация критерия Бартлетта для выборки X со значениями факторов (типов совокупностей) F; • leveneTest(X, F, center = "C") — реализация критерия Левена для выборки X со значениями факторов (типов совокупностей) F и расчете отклонений C: mean или median; последний тип реализуется по умолчанию (используется пакет car); • Для проверки равенства дисперсий в двух совокупностях можно применить критерий Фишера–Снедекора var.test. Ранговый критерий факторного анализа: • jonckheere.test(X, F, alternative = "A") — реализация критерия Джонкира для выборки X со значениями факторов (типов совокупностей) F при альтернативном упорядочении A (two.sided, increasing или decreasing) (используется пакет clinfun). Критерии попарных сравнений: • pairwise.t.test(X, F, p.adjust.method = "M", pool.sd = TRUE, paired = FALSE, alternative = "A") — реализация попарного применения критерия Стьюдента для выборки X со значениями факторов (типов совокупностей) F и поправкой p-значения методом M (bonferroni, holm, none) при альтернативной гипотезе A (two.sided, less или greater). Дополнительно вычисляется объединенная дисперсия, а выборки полагаются несвязными; • pairwise.wilcox.test(X, F, p.adjust.method = "M", paired = FALSE, alternative = "A") — реализация попарного применения критерия Уилкоксона для выборки X со значениями факторов (типов совокупностей) F и поправкой p-значения методом M (bonferroni, holm, none) при альтернативной гипотезе A (two.sided, less или greater). Дополнительно выборки полагаются несвязными; • TukeyHSD(aov(...), ordered = FALSE) — попарное сравнение средних методом Тьюки; значение ordered указывает, следует ли упорядочить уровни фактора по возрастанию среднего значения в выборке. Семинар 9: семестровая аттестация Тема 5. Анализ зависимостей Семинары 10–11 Таблицы сопряженности: • chisq.test(X, Y, correct = TRUE) — анализ таблицы сопряженности по выборкам X и Y с использованием поправки Йейтса для таблицы 2 × 2 (для таблиц большей размерности поправка не применяется); • fisher.test(X, Y) — реализация точного критерия Фишера для таблицы сопряженности 2 × 2 по выборкам X и Y (для таблиц большей размерности используется аппроксимация). Измерение тесноты связи между неранжируемыми признаками: • Phi(X, Y) — возвращает коэффициент контингенции ϕ по выборкам X и Y (используется пакет DescTools); • YuleQ(X, Y) — возвращает коэффициент ассоциации Юла по выборкам X и Y для таблиц сопряженности 2 × 2 (используется пакет DescTools); 7 • ContCoef(X, Y) — возвращает коэффициент контингенции Пирсона по выборкам X и Y (используется пакет DescTools); • CramerV(X, Y) — возвращает коэффициент Крамера по выборкам X и Y (используется пакет DescTools); • TschuprowT(X, Y) — возвращает коэффициент Чупрова по выборкам X и Y (используется пакет DescTools). Вместо аргументов X и Y можно указать один аргумент: таблицу сопряженности table(X, Y) или же матрицу matrix(c(. . .), ncol = C, byrow = TRUE) с количеством столбцов C, записывая ее элементы построчно. Измерение тесноты связи между ранжируемыми признаками: • cor(X, Y, method = "M") — возвращает выборочный коэффициент корреляции Пирсона, Спирмена или Кендалла (M = pearson, spearman или kendall), используя выборки X и Y. Возможно указание также набора данных D: cor(D, method = "M") для построения корреляционной матрицы; • plot(X, Y) — построение диаграммы рассеяния, используя выборки X и Y; plot(D) — построение попарных диаграмм рассеяния по набору данных D; • cor.test(X, Y, conf.level = 0.95, method = "M", alternative = "A") — проверка гипотезы о значимости коэффициента корреляции Пирсона, Спирмена или Кендалла (M = pearson, spearman или kendall), используя выборки X и Y на уровне значимости 0.05 при альтернативной гипотезе A (two.sided, less или greater). Тема 6. Регрессионный анализ Семинары 12–14 Линейная регрессия: • lm(Y ∼ X, data = D) — построение парной линейной регрессии для изучения влияния объясняющей переменной X на зависимую переменную Y в наборе D. Если требуется построить уравнение, проходящее через начало координат, то можно записать формулу как Y ∼ X + 0 или как Y ∼ X - 1. При нескольких объясняющих переменных, например, двух X1 и X2 формула записывается в виде Y ∼ X1 + X2. Если набор D содержит лишь все необходимые объясняющие переменные, подлежащие включению в модель, и зависимую переменную, то можно использовать сокращенную запись lm(Y ∼ ., data = D). Можно исключить часть переменных в модели линейной регрессии, записав формулу, например, в виде Y ∼ . - X1. • summary(lm(...)) — выводит сводную информацию регрессионного анализа; • anova(lm(...)) — выводит сводную информацию дисперсионного анализа; • plot(lm(...), 1:2) — выводит графики остатков и квантиль–квантиль; • lm(...)$coefficients — возвращает коэффициенты уравнения линейной регрессии; • confint(lm(...), level = 0.95) — возвращает 95%-e доверительные интервалы для коэффициентов уравнения линейной регрессии; • lm(...)$residuals — возвращает значения остатков; • lm(...)$fitted.values — возвращает предсказанные значения зависимой переменной согласно построенному уравнению. Визуализация парной линейной регрессии: • plot(D$X, D$Y) — построение диаграммы рассеяния между объясняющей переменной X и зависимой переменной Y в наборе D; 8 • abline(lm(Y ∼ X, data = D)) — добавление парной линейной регрессии на диаграмму рассеяния. Прогнозирование и интервальное оценивание: • predict(lm(...), interval = "I", level = 0.95) — возвращает предсказанные значения fitted.values, а также нижние и верхние границы 95%-го доверительного интервала (I = confidence) или 95%-го интервала предсказания для прогноза (I = prediction); • predict(lm(...), newdata = data.frame(X = X0), interval = "I", level = 0.95) — возвращает предсказанное значения для значения объясняющей переменной X0, а также нижние и верхние границы либо 95%-го доверительного интервала, либо или 95%-го интервала предсказания для прогноза (I = confidence или prediction). Проверка выполнения основных предположений регрессионного анализа (частично): • bptest(lm(...), studentize = FALSE) — реализация критерия Бройша–Пагана о гомоскедастичности (используется пакет lmtest); • gqtest(lm(...), alternative = "two.sided") — реализация критерия Голдфелда– Квандта о гомоскедастичности (используется пакет lmtest); • dwtest(lm(...), alternative = "two.sided") — реализация критерия Дарбина– Уотсона о наличии автокорреляции первого порядка (используется пакет lmtest); • bgtest(lm(...), order = K) — реализация критерия Бройша–Годфри о наличии автокорреляции порядка K (используется пакет lmtest). Верификация построенной модели: • MAPE(YF, Y) — возвращает среднюю ошибку аппроксимации, где YF — предсказанные значения, а Y — наблюдаемые (используется пакет MLmetrics); • vif(lm(...)) — возвращает показатели VIF для построенной модели линейной регрессии при более одной объясняющей переменной (используется пакет car); • stepAIC(lm(...)) — возвращает показатель AIC для построенной модели линейной регрессии, а также проводит сравнение нескольких моделей, последовательно исключая по одной объясняющей переменной и рассчитывая для них показатель AIC (используется пакет MASS); • regsubsets(Y ∼ X, data = D, nvmax = N) — проводит сравнение моделей линейных регрессий по набору D, в котором X — объясняющие переменные, Y — зависимая переменная, используя не более N объясняющих переменных. Для заданного количества объясняющих переменных (от 0 до N) лучшей моделью считается та, для которой величина SSE минимальна. Альтернативная запись: regsubsets(D$X, D$Y, nvmax = N) (используется пакет leaps). – summary(regsubsets(...))$outmat — выводит таблицу объясняющих переменных в лучших моделях; – summary(regsubsets(...))$adjr2 — возвращает скорректированные коэффициенты детерминации в лучших моделях; – plot(regsubsets(...), scale = "adjr2") — строит диаграмму, связывающую объясняющие переменные в лучших моделях и скорректированные коэффициенты детерминации. Наличие структурных изменений: • chow.test(Y1, X1, Y2, X2) — реализация критерия Чоу сравнения двух регрессионных моделей (используется пакет gap). 9 Тема 7. Временные ряды Семинары 15–16 Операции с временным рядом: • ts(X, start = S, end = E, frequency = F) — формирование временного ряда по набору X с начальным периодом S, конечным периодом E и частотой F; • diff(TS, lag = L, differences = D) — построение временного ряда разности порядка D и лагом между периодами L по временному ряду TS; • exp(mean(log(X))) — вычисление среднего геометрического по набору X, не содержащему нулевые элементы; • plot(TS) — визуализация временного ряда TS; • boxplot(TS ∼ cycle(TS), range = 0) — построение «ящиков с усами» по временному ряду TS с учетом значения параметра frequency(TS); • seasonplot(TS, year.labels = TRUE, year.labels.left = TRUE) — визуализация временного ряда TS для каждого цикла с учетом значения параметра frequency(TS) (используется пакет forecast). Сглаживание временного ряда: • ses(TS, alpha = A, initial = "simple", h = H, level = c(80, 95)) — построение модели простого экспоненциального сглаживания с параметром затухания A по временному ряду TS и последующим горизонтом прогнозирования на H периодов и дополнительным построением 80%- и 95%-х интервалов предсказания для прогноза (используется пакет forecast); – при отсутствии аргумента alpha, находится значение оценки A, которое выводится функцией summary(ses(...)); – ses(...)$fitted — сглаженный временной ряд; – ses(...)$residuals — значения остатков; – forecast(ses(...)) — вывод предсказанных моделью будущих значений прогноза и границ интервалов предсказания для прогноза; – plot(ses(...)$fitted) — визуализация сглаженного временного ряда; – plot(ses(...)) — визуализация исходного временного ряда и прогноза, а также добавление сглаженного временного ряда: lines(ses(...)$fitted); – plot(ses(...)$residuals) — вывод графика остатков; • ma(TS, order = O) — вывод сглаженного временного ряда методом скользящей средней порядка O по исходному временному ряду TS (используется пакет forecast); • sma(TS, order = O, h = H, level = 95) — построение модели скользящей средней порядка O по временному ряду TS и последующим горизонтом прогнозирования на H периодов и дополнительным построением 95%-х интервалов предсказания для прогноза (используется пакет smooth); – sma(...)$order — оценка порядка модели сглаживания O при отсутствии аргумента order; – sma(...)$fitted — сглаженный временной ряд; – sma(...)$residuals — значения остатков; – forecast(sma(...)) — вывод предсказанных моделью будущих значений прогноза и границ 95%-х интервалов предсказания для прогноза; – plot(forecast(sma(...))) — визуализация исходного и сглаженного временных рядов, значений прогноза и границ 95%-х интервалов предсказания для прогноза; – plot(sma(...)$residuals) — вывод графика остатков; – sma(...)$ICs — вывод значений информационных критериев. 10 Декомпозиция временного ряда методом скользящей средней: • decompose(TS, type = "T") — выполнение декомпозиции временного ряда TS методом скользящей средней на основе аддитивной (T = additive) или мультипликативной модели (T = multiplicative): – decompose(...)$trend — оценки тренда; – decompose(...)$seasonal — оценки сезонной составляющей; – decompose(...)$random — оценки остатков; – plot(decompose(...)) — визуализация декомпозиции. Критерии о наличии тренда: • rank.test(X, alternative = "A") — реализация рангового критерия Манна–Кендалла о наличии тренда для набора X и альтернативной гипотезе A — two.sided, left.sided или right.sided (используется пакет randtests); • cox.stuart.test(X, alternative = "A") — реализация непараметрического критерия Кокса–Стюарта о наличии тренда для набора X и альтернативной гипотезе A — two.sided, left.sided или right.sided (используется пакет randtests). Семинары 17–18: защита индивидуального проекта, обобщение материалов курса для подготовки к экзамену 11