Uploaded by Shahzod Eshpulatov

Статистика

advertisement
МИНИСТЕРСТВО ВЫСШЕГО ОБРАЗОВАНИЯ,
НАУКИ И ИННОВАЦИЙ РЕСПУБЛИКИ УЗБЕКИСТАН
САМАРКАНДСКИЙ ИНСТИТУТ ЭКОНОМИКИ И СЕРВИСА
ФАКУЛЬТЕТ:
__________________________________________
КАФЕДРА:
__________________________________________
САМОСТОЯТЕЛЬНАЯ
РАБОТА
По предмету:
_______________________________________________
На тему: _______________________________________________
Выполнил(а): ________________________
________________________________________
Проверил(а): ________________________
________________________________________
Самарканд - 2024
Статистика
Содержание:
Введение
1.
Сбор данных
2.
Описание данных
3.
Индуктивная статистика
Заключение
Список литературы
Введение
Статистика — это наука, занимающаяся сбором, анализом,
интерпретацией, представлением и организацией данных. Она является
фундаментальным инструментом для принятия решений на основе
данных
в
различных
сферах
человеческой
деятельности.
В
современном мире, где информация играет ключевую роль, статистика
позволяет систематизировать и интерпретировать большие объемы
данных, выявлять закономерности и делать обоснованные выводы.
История статистики уходит корнями в древние цивилизации, где ее
элементы
использовались
для
учета
населения
и
управления
государством. Однако, как самостоятельная наука, статистика начала
формироваться в XVII-XVIII веках, когда были разработаны первые
теории вероятностей и методы анализа данных.
Современная статистика включает широкий спектр методов и
подходов, от простых описательных статистик до сложных моделей и
алгоритмов машинного обучения. Она используется во всех областях
науки и техники, от медицины и биологии до экономики и социальных
наук.
Цель этого реферата — познакомить читателя с основными
концепциями
и
методами
статистики,
продемонстрировать
их
применение на практике и показать, как статистические методы
помогают
принимать
обоснованные
решения.
Мы
рассмотрим
основные этапы статистического исследования, включая сбор данных,
их описание и анализ, а также применение статистических методов в
различных областях.
Сбор данных
Сбор данных — это процесс собирания информации и измерения
целевых показателей в сложившейся системе, который позволит потом
ответить на актуальные вопросы и оценить результаты. Сбор данных
является частью исследований во всех областях изучения, включая
физику, общественные науки, Гуманитарные науки и бизнес. Хотя
методы различны для разных дисциплин, упор на обеспечение точной и
правдивой информации остаётся тем же самым. Целью всего сбора
данных служит получение свидетельства о качестве данных, что
позволяет при анализе дать убедительные и надёжные ответы на
поставленные вопросы.
Источник: Википедия
Связанные понятия
Интеллектуальный анализ текстов (ИАТ, англ. text mining) —
направление в искусственном интеллекте, целью которого является
получение
информации
из
коллекций
текстовых
документов,
основываясь на применении эффективных в практическом плане
методов машинного обучения и обработки естественного языка.
Название
«интеллектуальный
анализ
текстов»
перекликается
с
понятием «интеллектуальный анализ данных» (ИАД, англ. data mining),
что выражает схожесть их целей, подходов к переработке информации
и сфер применения...
Машина вывода — программа, которая выполняет логический
вывод из предварительно построенной базы фактов и правил в
соответствии с законами формальной логики.
Модель мозга — любая теоретическая система, которая стремится
объяснить физиологические функции мозга с помощью известных
законов
физики
и
математики,
а
также
известных
фактов
нейроанатомии и нейрофизиологии . Существуют по меньшей мере два
основных положения, играющих фундаментальную роль в теории
функционирования мозга, в отношении которых сходится мнение
большинства современных теоретиков...
Абстрактная модель — это модель, отражающая лишь самые общие
характеристики моделируемого явления. Чаще всего абстрактная
модель даёт лишь качественные характеристики моделируемого
объекта или явления.
Систе́ма подде́ржки приня́тия реше́ний (СППР) (англ. Decision
Support System, DSS) — компьютерная автоматизированная система,
целью которой является помощь людям, принимающим решение в
сложных условиях для полного и объективного анализа предметной
деятельности. СППР возникли в результате слияния управленческих
информационных систем и систем управления базами данных.
Упоминания в литературе
В главе 17 описывается прикладное исследование, организованное
при сотрудничестве с нашими французскими партнерами. Речь идет о
сохранении и воспроизведении характеристик профессионального
жеста (опыта, связанного с ручными манипуляциями). Проведен анализ
исследований,
показывающий
специфику
когнитивного
опыта,
приобретенного в процессе такого вида деятельности. Подробно
описаны особенности применения для получения информации особой
техники видеозаписи – миниатюрной камеры (SubCam), закрепленной
на уровне глаз индивида (например, на очках или каске) и дающей
возможность производить видеозапись с точки зрения субъекта.
Главный интерес использования техники SubCam заключается в
возможности погрузиться в феноменологию деятельности, опираясь на
данные о том, какие ее аспекты являются объектом особого внимания
субъекта. Особое внимание уделяется необходимости понимания места
этого
инструмента
в
процедуре
психологического
наблюдения.
Другими словами, речь идет не столько о технологии видеозаписи,
сколько о методе наблюдения при помощи SubCam. Такая запись
визуализирует элементы жеста, которые являются для индивида
наиболее существенными, а значит, могут интерпретироваться как
актуальные
составляющие
воспринимаемого
качества
изучаемой
деятельности. Однако их интерпретация невозможна без выявления
субъективно значимых составляющих жеста, без получения ответа на
вопросы, почему тот или иной элемент жеста оказался для оператора
существенным и зачем та или иная операция была выполнена именно в
данный момент. Ответы на эти вопросы получаются в кооперативном
дебрифинге, в процессе которого сам оператор становится участником
анализа результатов исследования. В главе показаны основные этапы
сбора данных о выполнении профессионального жеста, их обработки и
анализа. Рассмотрены организационные и этические трудности, с
которыми может столкнуться исследователь, и даны рекомендации,
следование которым является условием успеха при внедрении
результатов исследования на предприятии.
Описание данных
Изучение языка программирования резонно начать со средств
описания данных. Для этого сначала необходимо ввести понятия,
касающиеся данных. При изучении Си нам периодически придется
опускаться на уровень их машинного представления. Но при
первоначальном знакомстве это материал можно пропустить (кроме п.
«Типы
данных
и
переменные».),
довольствуясь
общими
представлениями – целое, вещественное, символ, массив.
Системы счисления
Начнем издалека и посмотрим свежим взглядом на то, к чему давно
привыкли. Вот число 1256. Что такое цифры? Можно сказать, что это
числа, из которых строится это число. Но, кроме значения самой цифры
еще важным является положение (позиция), которая определяет ее вес,
отчего системы счисления называются позиционными. Величина, на
которую
следующая
цифра
тяжелее
предыдущей,
называется
основанием системы счисления PP. В системе с основанием PP должны
быть цифры от 0 до P−1P−1. В общем виде значение числа вычисляется
как
W=ΣRipiW=ΣRipi.
Например,
то
же
самое
1256=1∗103+2∗102+5∗101+6∗101256=1∗103+2∗102+5∗101+6∗10.
Кстати, от арабов нам достались не только цифры, но и порядок их
нумерации, места (позиции) разрядов считаются справа налево.
013 01
Младший разряд – это своего рода начало координат, от которого
начинается выполнение всех операций (например, сложение идет от
младших цифр, аналогично распространяется и перенос). Поэтому
естественно, что в памяти компьютера числовые данные хранятся,
начиная с младших разрядов. Точнее, младшими байтами вперед (хотя
история знает и противоположные примеры). Точно так же хранятся и
элементы массивов, но в отличие от чисел мы их изображаем поевропейски, т.е. слева направо.
Но это еще цветочки. В шестнадцатеричном дампе памяти цифры в
байте читаются справа налево, а сами байты целого числа – наоборот.
Налицо конфликт цивилизаций.
В понимании взаимоотношения систем счисления важно то, что
когда мы говорим о представлении числа в виде цифр, число
воспринимается как величина, над которой можно делать какие-то
операции, например, складывать с другими. И эта величина не зависит
от формы ее представления. Например, мешок сахара остается таковым,
независимо от того, как считать его содержимое, в килограммах, пудах
или фунтах. Значение сохраняется, а его представление будет разным.
Как говорил удав в известном мультике «А в попугаях я значительно
длиннее». То же самое касается и операций. Семь спичек плюс семь
спичек равно четырнадцати, потому что четырнадцать это десяток и
еще четыре (вспомните себя в первом классе).
Преобразование чисел /из одной системы счисления в другую
На самом деле алгоритмы, используемые для перевода чисел из
одной системы счисления в другую, применяются для преобразования
данных из внешней формы представления во внутреннюю (см. 4.5).
«Родная» десятичная система счисления, в которой производятся
преобразования, играет роль внутреннего представления, в ней мы
оперируем числом как величиной или значением, а «посторонняя»
система счисления рассматривается нами как состоящая из отдельных
цифр.
Преобразование целого в десятичную систему счисления. Для
перевода целого числа, представленного в системе счисления с
основанием
PP,
нужно
воспользоваться
формулой
определения
значения числа в этой системе счисления, выполнив соответствующие
действия над цифрами (в родной десятичной системе) - W=ΣRipiW=ΣRi
pi.
2C516=2∗162+12(C)∗161+5=512+192+5=709102C516
=2∗162+12(C)∗161+5=512+192+5=70910
43758=4∗83+3∗82+7∗8+5=2048+192+56+5=23011043758
=4∗83+3∗82+7∗8+5=2048+192+56+5=230110
Преобразования дробной части числа в десятичную систему
счисления. Для дробной части числа нужно использовать ту же самую
формулу с учетом отрицательных степеней основания для разрядов
дробной части - W= ΣRi p^-i.
0.3F516=3/16+15(F)/162+5/163=0.18750+0.05859+0.00122=0.247311
00.3F516=3/16+15(F)/162+5/163=0.18750+0.05859+0.00122=0.2473110
0.5248=5/8+2/82+4/83=0.6250+0.0312+0.0078=0.6640100.5248
=5/8+2/82+4/83=0.6250+0.0312+0.0078=0.664010
Преобразование целого из десятичной системы счисления в
систему с основанием P. Идея алгоритма заключается в том, что
остаток от деления исходного числа на P дает нам младшую цифру
числа в этой системе счисления. Последовательность остатков от
деления исходного числа на основание системы счисления образует
цифры числа, но в обратном порядке, начиная с младшей.
Индуктивная статистика
Задачи индуктивной статистики заключаются в том, чтобы
определять, насколько вероятно, что две выборки принадлежат к одной
популяции.
Давайте наложим друг на друга, с одной стороны, две кривые — до
и после воздействия — для контрольной группы и, с другой стороны,
две аналогичные кривые для опытной группы. При этом масштаб
кривых должен быть одинаковым.
Видно, что в контрольной группе разница между средними обоих
распределений невелика, и поэтому можно думать, что обе выборки
принадлежат к одной и той же популяции. Напротив, в опытной группе
большая разность между средними позволяет предположить, что
распределения для фона и воздействия относятся к двум различным
популяциям, разница между которыми обусловлена тем, что на одну из
них повлияла независимая переменная.
Проверка гипотез
Как уже говорилось, задача индуктивной статистики — определять,
достаточно ли велика разность между средними двух распределений
для того, чтобы можно было объяснить ее действием независимой
переменной, а не случайностью, связанной с малым объемом выборки
(как, по-видимому, обстоит дело в случае с опытной группой нашего
эксперимента).
При этом возможны две гипотезы:
1) нулевая гипотеза (Н0), согласно которой разница между
распределениями
недостоверна;
предполагается,
что
различие
недостаточно значительно, и поэтому распределения относятся к одной
и той же популяции, а независимая переменная не оказывает никакого
влияния;
2) альтернативная гипотеза (Hx), какой является рабочая гипотеза
нашего исследования. В соответствии с этой гипотезой различия между
обоими распределениями достаточно значимы и обусловлены влиянием
независимой переменной.
Основной принцип метода проверки гипотез состоит в том, что
выдвигается
нулевая
гипотеза
Н0,
с
тем
чтобы
попытаться
опровергнуть ее и тем самым подтвердить альтернативную гипотезу
H1.
Действительно,
если
результаты
статистического
теста,
используемого для анализа разницы между средними, окажутся таковы,
что позволят отбросить Н0, это будет означать, что верна Н1 т.е.
выдвинутая рабочая гипотеза подтверждается.
В гуманитарных науках принято считать, что нулевую гипотезу
можно отвергнуть в пользу альтернативной гипотезы, если по
результатам
статистического
теста
вероятность
случайного
возникновения найденного различия не превышает 5 из 100. Если же
этот уровень достоверности не достигается, считают, что разница
вполне может быть случайной и поэтому нельзя отбросить нулевую
гипотезу.
Для того чтобы судить о том, какова вероятность ошибиться,
принимая или отвергая нулевую гипотезу, применяют статистические
методы, соответствующие особенностям выборки.
Так, для количественных данных при распределениях, близких к
нормальным, используют параметрические методы, основанные на
таких показателях, как средняя и стандартное отклонение. В частности,
для определения достоверности разницы средних для двух выборок
применяют метод Стьюдента, а для того чтобы судить о различиях
между тремя или большим числом выборок, — тест F, или
дисперсионный анализ.
Если же мы имеем дело с неколичественными данными или
выборки слишком малы для уверенности в том, что популяции, из
которых они взяты, подчиняются нормальному распределению, тогда
используют непараметрические методы — критерий χ2 (хи-квадрат)
для качественных данных и критерии знаков, рангов, Манна-Уитни,
Вилкоксона и др. для порядковых данных.
Кроме того, выбор статистического метода зависит от того,
являются
ли
те
выборки,
средние
которых
сравниваются,
независимыми (т. е., например, взятыми из двух разных групп
испытуемых) или зависимыми (т. е. отражающими результаты одной и
той же группы испытуемых до и после воздействия или после двух
различных воздействий).
Уровни достоверности (значимости)
Тот или иной вывод с некоторой вероятностью может оказаться
ошибочным, причем эта вероятность тем меньше, чем больше имеется
данных для обоснования этого вывода. Таким образом, чем больше
получено результатов, тем в большей степени по различиям между
двумя выборками можно судить о том, что действительно имеет место в
той популяции, из которой взяты эти выборки.
Однако обычно используемые выборки относительно невелики, и в
этих случаях вероятность ошибки может быть значительной. В
гуманитарных науках принято считать, что разница между двумя
выборками
отражает
действительную
разницу
между
соответствующими популяциями лишь в том случае, если вероятность
ошибки для этого утверждения не превышает 5%, т.е. имеется лишь 5
шансов из 100 ошибиться, выдвигая такое утверждение. Это так
называемый
уровень
достоверности
(уровень
надежности,
доверительный уровень) различия. Если этот уровень не превышен, то
можно считать вероятным, что выявленная нами разница действительно
отражает положение дел в популяции (отсюда еще одно название этого
критерия — порог вероятности).
Для каждого статистического метода этот уровень можно узнать из
таблиц
распределения
критических
значений
соответствующих
критериев (t, χ2 и т.д.); в этих таблицах приведены цифры для уровней
5% (0,05), 1% (0,01) или еще более высоких. Если значение критерия
для данного числа степеней свободы (см. Приложение оказывается
ниже критического уровня, соответствующего порогу вероятности 5%,
то нулевая гипотеза не может считаться опровергнутой, и это означает,
что выявленная разница недостоверна.
Заключение
Большое значение статистики в обществе объясняется тем, что она
представляет собой одно из самых основных, одно из наиболее важных
средств, с помощью которых хозяйствующий субъект ведет учет в
хозяйстве.
Учет является способом систематического измерения и изучения
общественных явлений с помощью количественных методов. Не всякое
изучение
количественных
соотношений
есть
учет.
Различные
количественные отношения между явлениями можно представить в
виде тех или иных математических формул, и это само по себе еще не
будет учетом. Одна из характерных особенностей учета - подсчет
отдельных элементов, отдельных единиц, из которых складывается то
или иное явление.
Учет является средством контроля и мысленного обобщения
процессов общественного развития. Лишь благодаря статистике
управляющие органы могут получать всестороннюю характеристику
управляемого объекта, будь то национальное хозяйство в целом или
отдельные его отрасли или предприятия. Статистика дает сигналы о
неблагополучии в отдельных частях механизма управления, показывая
таким образом необходимость обратной связи - управляющих решений.
Общие принципы и методы научного познания служат фундаментом
для
понимания
и
правильного
использования
статистической
методологии. Итак, основной задачей статистики является сбор, учет,
обработка и хранение данных (информации), отображающих ход
общественного развития.
Список литературы
1. Уильям Г. Кохран. "Основы выборочного метода". Москва:
Статистика, 1976.
2. Питер Брюс, Эндрю Брюс. "Статистика для чайников". М.:
Диалектика, 2016.
3. Дэвид Мур, Джордж Маккейб. "Введение в практическую
статистику". М.: Вильямс, 2009.
4. Алексей Шипунов. "Основы статистики и вероятностей".
Новосибирск: Издательство НГУ, 2013.
Download