МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «Пензенский государственный технологический университет» (ПензГТУ) Курсовая работа по дисциплине «Многомерный анализ данных» на тему: «Статистический анализ многомерных данных» Расчетно-пояснительная записка Выполнил студент группы 23ИВ1м Стрельцов А.В. Руководитель Моисеев А.В. Работа защищена с оценкой _____________________________ Пенза, 2023 Содержание Введение 3 1 Описание метода анализа 5 1.1 Линейная регрессия 5 1.2 Выбор наилучшей модели 8 1.3 Допущения линейной регрессии 10 2 Практическая часть 14 2.1 Описание данных и процедур их преобразованию к виду, пригодному 14 для анализа 2.2 Реализация аналитических процедур 15 Заключение 19 Список литературы 20 2 Введение Исходная информация в социально-экономических исследованиях представляется чаще всего в виде набора объектов, каждый из которых характеризуется рядом признаков (показателей). Поскольку число таких объектов и признаков может достигать десятков и сотен, и визуальный анализ этих данных малоэффективен, то возникают задачи уменьшения, концентрации исходных данных, выявления структуры и взаимосвязи между ними на основе построения обобщенных характеристик множества признаков и множества объектов. Такие задачи могут решиться методами многомерного статистического анализа. Многомерный статистический анализ - раздел математической статистики, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Основное внимание в многомерном статистическом анализе уделяется математическим методам построения оптимальных планов сбора, систематизации и обработки данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Исходным массивом многомерных данных для проведения многомерного анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как величина случайная, а последовательность наблюдений как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака. 3 По содержанию многомерный статистический анализ может быть условно разбит на три основных подраздела: 1. Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных. 2. Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как регрессионный анализ, дисперсионный анализ, ковариационный анализ, факторный анализ и т.д. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных). 3.Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как дискриминантный анализ, кластерный анализ, многомерное шкалирование. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве). 4 1 Описание метода анализа 1.1. Линейная регрессия Линейная регрессия — это математическая модель, которая описывает связь нескольких переменных. Модели линейной регрессии представляют собой статистическую процедуру, помогающую прогнозировать будущее. Она применяется в научных сферах и в бизнесе, а в последние десятилетия используется в машинном обучении. Рассмотрим точечный график распределения двух переменных (рисунок 1). Рисунок 1 – Точечный график Интуитивно видно, что между ними есть связь — все они визуально складываются в линию. И тут возникает вопрос как это доказать. Решение этого вопроса: – провести несколько линий; – найти критерий для сравнения; – сравнить их между собой и выбрать ту, которая будет максимально близка к этому критерию. 5 Собственно, эта линия и есть линейная регрессия – описание соответствия между случайными переменными. Далее следует разбор этого решения Уравнение линейной регрессии – Тип: Параметрический. – Применяется: когда нужно оценить связь между зависимой переменной и одной или несколькими независимыми переменными. – Проверяет: есть ли связь между зависимой переменной и каждой из независимых переменных. – Данные: хотя бы две переменных, одна из которых зависимая. – Нулевая гипотеза: коэффициент при каждой из независимых переменных равен нулю (т.е. нет связи между зависимой и независимой переменной). Первый шаг — провести несколько линий. Следует применить уравнение линейной функции. 𝑦 =𝑘 ×𝑥+𝑏 Если подставить разные значения x, то вычисляются разные значения y и если разложить точки по оси координат и соединить, то получится прямая линия (при условии, что k и b не меняются). В статистике при записи линейной регрессии используются другие буквы. 𝑦 = 𝑏0 + 𝑏1 × 𝑥 Здесь появились коэффициенты b0 и b1 b0 – точка пересечения с осью координат Y. Это значение, которое принимает y в том случае, если x равен нулю. 𝑦 = 𝑏0 + 𝑏1 × 0𝑦 = 𝑏0 b1 показывает, на какое значение изменится y, если x изменится на единицу. Далее следует выбрать критерий для сравнения линий. Для этого следует использовать метод наименьших квадратов. 6 Метод наименьших квадратов – способ проведения регрессионной линии, чтобы сумма квадратов отклонений отдельных значений зависимой переменной от неё была минимальной. Для каждой точки на графике измеряется расстояние по оси y до каждой проведённой линии. 𝑦𝑟𝑒𝑠 = 𝑦 − 𝑦𝑝𝑟𝑒𝑑 Y – координата точки по оси Y, а Yres расстояние до линии по оси Y . Здесь вычисляется разница между фактическим Y и предсказанным Ypred значением зависимой переменной для каждого значения независимой переменной. Если фактическое и предсказанное значение совпадают (Y – Ypred = 0), то модель предсказала значение идеально. А чем больше разница, тем хуже предсказание модели для этого единственного наблюдения. Разница между фактическими и предсказанными значениями может быть положительной (предсказанное значение меньше фактического) или отрицательной (предсказанное больше фактического). Однако если просто просуммировать их, то отрицательные и положительные разницы будут компенсировать друг друга. Поэтому можно возвести эту разницу в квадрат, чтобы такого не происходило. 2 Как только это сделается, можно суммировать 𝑌𝑟𝑒𝑠 для всех точек. В результате вычислили дисперсию остатков регрессии. Полная формула: 𝑛 𝑅𝑆𝑆 = ∑(𝑦𝑖 − 𝑦𝑝𝑟𝑒𝑑 )2 𝑖=1 RSS – расшифровывается как Residual Sum of Squares (сумма квадратов остатков регрессии. Дисперсия остатков регрессии — сумма квадратов разниц между фактическими и предсказанными линейной регрессией значениями зависимой переменной. Однако существует много комбинаций, поэтому нужно сравнить линии и найти такую, которая бы одновременно минимизировала разницу в предсказанных и фактических значениях для всех комбинацией значений. 7 Сделать это одновременно невозможно (может быть тысяча точек на графике), и нужен компромисс. В данном случае он заключается в минимизации суммы всех значений. То есть нужна линия с наименьшей дисперсией остатков регрессии. Обычно делают следующим образом: последовательно вычисляется несколько десятков или сотен линий с разными параметрами b0 и b1, до тех пор, пока не удастся найти такое значение RSS, которое не будет изменяться. 1.2 Выбор наилучшей модели Важное отличие линейной регрессии от других тестов в том, что она может учитывать одновременное влияние нескольких независимых переменных на одну зависимую. Для примера рассмотрим факторы связаные с количеством просмотров у песен на YouTube. Глядя на набор данных и опираясь на теорию, мы можем выдвинуть несколько разных гипотез: – громкие песни более популярны; – танцевальные песни более популярны; –если в песне есть слова, то она более популярна; – позитивные песни более популярны. Набор данных, который используется в этом примере, содержит переменные с этими характеристиками. Теперь нужно разобраться, как можно использовать несколько переменных одновременно. Дело вот в чём: провести линию в пространстве можно вне зависимости от того, сколько у этого пространства размерностей. Выше проводилась линия в двухмерном пространстве (одно измерение для зависимой, другое – для независимой переменной). Но можно точно так же провести линию в трёхмерном пространстве (одно измерение для зависимой переменной и два для независимых). И так далее. Это нельзя визуализировать и представить, но это тот случай, когда математическая абстракция о том, что можно представить пространство с произвольным числом измерений, оказывается весьма полезна практически. 8 Таким образом можно учесть связь зависимой переменной с несколькими независимыми переменными и то, как независимые переменные влияют на зависимую, если оказываются связаны друг с другом (интерактивный эффект). Однако возникает проблема: как выбрать, какие переменные («громкость», «танцевальность», «позитивность» и так далее) нужно добавить в модель, а какие стоит исключить? Ответ очень простой: нужно построить несколько моделей, в каждую из которых будут добавляться по очереди новые переменные, и сравнить их между собой. Запись уравнения будет выглядеть следующим образом: 𝑦 = 𝑏0 + 𝑏1 × 𝑥1 𝑦 = 𝑏0 + 𝑏1 × 𝑥1 + 𝑏2 × 𝑥2 𝑦 = 𝑏0 + 𝑏1 × 𝑥1 + 𝑏2 × 𝑥2 + 𝑏3 × 𝑥3 𝑦 = 𝑏0 + 𝑏1 × 𝑥1 + 𝑏2 × 𝑥2 + 𝑏3 × 𝑥3 + 𝑏4 × 𝑥4 Добавлять новые переменные стоит от «сильных» к «слабым». Например, в примере этот порядок должен быть следующим: – есть ли слова; – позитивность; – «танцевальность»; – громкость. Для каждой модели будет получаться значения RSS, значения коэффициентов и результат проверки значимости каждого из коэффициентов. Дальше руководствуемся простой логикой: – если pvalue меньше 0.05, то мы можем оставить коэффициент, если нет – то его нужно исключить; – если коэффициент значимый, но изменение, которое он оказывает субъективно маленькое, то его можно исключить. Пример — допустим, наличие слов в песне увеличивает количество просмотров на 100. Но среднее количество просмотров у видео 100 тысяч — получается, он незначим. 9 – если коэффициент детерминации (о нём ниже) изменился незначительно, то коэффициент можно исключить. Часто все три события происходят одновременно (так как они взаимосвязаны), поэтому обычно легко понять стоит исключить из модели переменную или нет. Теперь следует разобраться, что такое коэффициент детерминации. Он позволяет оценить, насколько хороша модель в целом. То есть какой процент значений зависимой переменной она описывает. Чтобы вычислить коэффициент детерминации, берется среднее значение зависимой переменной (середина оси Y) и проводится горизонтальная линия. Для этой линии также нужно высчитать RSS (в этом случае он называется TSS). Затем сравнить его с RSS каждой линии и решить пропорцию: 𝑅𝑆𝑆𝐿1 𝑥% = 𝑇𝑆𝑆 100% 𝑅𝑆𝑆𝐿2 𝑥% = 𝑇𝑆𝑆 100% 𝑅𝑆𝑆𝐿3 𝑥% = 𝑇𝑆𝑆 100% 𝑅𝑆𝑆𝐿3 𝑥% = 𝑇𝑆𝑆 100% То есть, находится x для каждого уравнения и сравнивается между собой. Чем он выше, тем лучше модель объясняет изменчивость зависимой переменной. Коэффициент детерминации — доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. И последнее, что тут стоит сказать – на практике коэффициент детерминации редко превышает 8%. А ещё у него есть второе имя — «Эрквадрат». 10 1.3 Допущения линейной регрессии Теоретически линейная регрессия может быть вычислена для любой комбинации зависимой и независимых переменных, однако есть ряд допущений, без соблюдения которых результат будет содержательно бесполезным. Таблица 1 – Допущения линейной регрессии Линейная зависимость Это основное допущение. Считается, что между независимой и зависимой переменной приближенно есть линейная связь, которую можно зафиксировать. Если это не так, то модель будет отражать связь между данными неточно. Тут есть важный момент. На графиках выше направление линейной связи очевидно. Но в реальной жизни в большинстве случаев — очень неочевидно. Например, на этом графике линейной связи как будто нет (рисунок 2). 11 Рисунок 2 – График линейной связи Но она может быть, и чтобы убедиться в этом, нужно построить линейную регрессию. Тип переменных Переменные должны быть либо непрерывными, либо категориальными. Наличие вариации Без вариации невозможно показать связь между изменениями двух переменных. Если одна или две из них не меняются, то модель не будет содержательно полезной, так как просто не сможет зафиксировать изменения. Отсутствие мультиколлинеарности Переменные, которые добавлены в модель, не должны быть мультиколлинеарными. То есть независимые переменные не должны быть взаимосвязаны между собой. Например, «танцевальные» песни обычно и «энергичные». Мультиколлинеарность – наличие линейной зависимости между независимыми переменными. Мультиколлинеарность приводит к неустойчивости коэффициентов модели. Конкретные результаты могут сильно различаться в зависимости от выборок, что делает модель неспособной пройти проверку на другой выборке из той же генеральной совокупности. Проще говоря, оказывается, что модель, которая может казаться точной, на самом деле оказывается неверной. 12 В таком случае нужно оставить одну переменную из тех, кто подвержен мультиколлинеарности. Тут не стоит жалеть об исключении данных: это та ситуация, когда уменьшение числа переменных повышает качество объяснения. Отсутствие внешних переменных Не должно быть существенных переменных, которые при этом не включены в модель. Они могут оказывать значительное влияние на переменные, которые учтены в модели, что опять же делает результаты нестабильным. Гомоскедастичность Остатки должны иметь постоянную дисперсию на каждом уровне независимой переменной. Это значит, что для каждого из значений независимой переменной уровень дисперсии остатков должен быть одинаковым. Гомоскедастичность — непостоянная дисперсия случайной ошибки для разных наблюдений. Есть две причины, почему это важно: – это может признаком того, что нарушено допущение о линейности связи между переменными; – для получения наилучшей линии нужно оптимизировать несколько непохожих между собой групп наблюдений. Независимость наблюдений Это общее требование ко всем выборочным статистическим моделям. Отбор наблюдений в выборку должен быть случайным, сами наблюдения никак не должны влиять друг на друга и быть независимыми. Наличие зависимости опять же делает значения параметров нестабильными и приводит к тому, что модель не может описать все данные в целом 13 2 Практическая часть 2.1 Описание данных и процедур их преобразования к виду, пригодному для анализа Данные, которые анализируются в данном курсовом проекте представляют собой статистику успешности фильмов за период с 1958 по 2023 разных жанров. Рисунок 3 – Данных фильмов с 1958 до 2023 годов Анализируются следующие данные, которые представлены в доступном виде: movie_tittle – название фильма; production_date – дата выхода фильма; genres – жанр фильма; runtime_minutes – время продолжительности фильма; director_name – режиссер фильма; director_peofessions – участие режиссера в фильме (например продюсер, сценарист); director_birthYear – год рождения режиссера; 14 movie_averageRating – рэйтинг успешности фильма; movie_numerOfVotes – количество голосов за фильм; approval_Index – индекс одобрения; Production budget $ – бюджет фильма; Domestic gross $ – внутренний сбор фильма; Worldwide gross $ – общемировой сбор. 2.2 Реализация аналитических процедур Математический анализ занимает очень важную роль. Благодаря мат. анализу можно понять, где происходил спад, а где рост. Первым этапом следует импортировать файл в программу «Deductor». Рисунок 4 – Импорт данных Линейная регрессия образуются два набора данных: один – таблица рассчитанных результатов, а другой – коэффициенты регрессии. Эти коэффициенты можно просмотреть в визуализаторе под таким же названием, но иногда нужно использовать коэффициенты в сценарии для дальнейшей 15 обработки. Поэтому при добавлении любого узла появляется возможность «переключиться» на другой набор данных, если он присутствует в предыдущем узле. Для того, чтобы сделать выводы, кто снимал самые успешные фильмы, следует сделать выборку в том числе и по имени режиссера (рисунок5) Рисунок 5 – Фильтрация данных Далее настроим выражение для нахождения успешных и провальных фильмов, которое будет создано на основе столбцов данных, связанных с внутренними и мировыми оборотами в прокате. Рисунок 6 – Конструктор выражения 16 Рисунок 7 – Выражение в deduct Зададим значения входных и выходных данных. Рисунок 8 – Настройка назначения столбцов Количественное значение, которое дала нейросеть тому или показателю представлен на рисунке 9. Рисунок 9 – Коэффициенты регрессии Общий результат регрессии приведен на рисунке 10. 17 Рисунок 10 – Результат регрессии Теперь мы можем задавать свои входные данные для того, чтобы предположить, будет фильм провальным или нет. Рисунок 11 – Редактирование входных данных 18 Заключение Экономическая жизнь требует непрерывного обновления знаний и умения добывать их. Обработка накопленных данных, проведение анализа их и построение прогнозов на основе полученной информации являются актуальными проблемами не только финансовых аналитиков, но и практикующих финансовых менеджеров. Наличие специализированных программных средств, позволяющих не просто интерпретировать полученную информацию в виде таблиц и графиков, но и создавать на их базе информационные системы с аналитическими свойствами позволяет значительно формализовать, ускорить и упростить рутинные процессы добывания знаний и принятия решений. 19 Список литературы 1. Степанов А.Н. Архитектура вычислительных систем и компьютерных сетей : учеб. пособие для студ. вузов / А. Н. Степанов. - М. ; СПб. ; Н. Новгород : Питер, 2007. - 508 с. : рис. - (Учебное пособие). - Алф. указ.: С. 496-508 2. Иопа Н.И. Информатика (для технических специальностей) : учеб. пособие / Н. И. Иопа. - М. : Кнорус, 2011. - 470 с. - Библиогр.: С. 470 3. Провалов В.С. Информационные технологии управления : учеб. пособие / В. С. Провалов ; Рос. акад. образования, Моск. психолого-соц. ин-т. - М. : Флинта, 2008. - 371 с. 4. Гришин А.Ф. Статистические модели: построение, оценка, анализ : учеб. пособие для студ. вузов / А. Ф. Гришин, Е. В. Кочерова. - М. : Финансы и статистика, 2005. - 416 с. 5. Голицына О.Л. Базы данных : учеб. пособие / О. Л. Голицина, Н. В. Максимов, И. И. Попов. - М. : Форум - ИНФРА-М, 2006. - 352 с. 6. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP : учеб. пособие для вузов / А. А. Барсегян [и др.]. - 2-е изд. перераб. и доп. - СПб. : БХВ-Петербург, 2007. - 375 с. 20