Загрузил Максим Калашников

Praktika - Statisticheskiy analiz odnomernykh vyborok

реклама
Статистический анализ одномерных выборок - 1,2
Задачи для самостоятельного решения
1. Сравнить риск и возможный доход от вложений средств в два фонда
Ожидаемый возврат, %
Стандартное отклонение, %
Фонд А
Фонд В
10
3
7
2,5
Как вы считаете, какой из фондов предпочтительнее?
2.
Построить столбиковую и круговую диаграммы доли занятых в различных отраслях региона
по следующим данным:
Отрасли
Количество занятых (тыс.чел.)
Промышленность и строительство
Сельское хозяйство
Сфера обслуживания
Сфера интеллектуального труда
40
34
16
24
3. Имеются данные о числе продаж каждоым из 15 случайно выбранных продавцов универмага:
15, 14, 15, 15, 20, 10, 10, 18, 10, 20, 15, 18, 18, 15, 18. По имеющимся данным построить
вариационный ряд распределения, дискретный ряд распределения и начертить полигон
распределения, вычислить эмпирическую функцию распределения и построить график, построить
интервальный ряд распределения числа продаж и начертить гистограмму распределения,
вычислить числовые характеристики выборки и дать интерпретацию полученных значений.
4.
Дано распределение признака X (случайной величины X), полученное по n наблюдениям. В
данной задаче X – месячный доход жителя региона (в руб.); n=1000 (жителей).
Менее
500100015002000Свыше
500
1000
1500
2000
2500
2500
ni
58
96
239
328
147
132
Построить гистограмму и эмпирическую функцию распределения X. Найти среднюю
арифметическую X , медиану Me и моду M0, дисперсию, среднеквадратическое отклонение и
коэффициент вариации V, коэффициенты асимметрии и эксцесса. Дайте интерпретацию
полученных значений
Xi
Теория - Статистический анализ одномерных выборок
Пример. Имеются данные о доходах работников некоторой фирмы (тыс.руб.): 2, 4, 7, 3, 1, 1, 3, 2,
7, 3.
Построить вариационный ряд, дискретный и интервальный ряды распределения. Найти
эмпирическую функцию распределения и построить ее график.
Решение. Проведем ранжирование выборки и получим вариационный ряд распределения: 1, 1, 2,
2, 3, 3, 3, 4, 7, 7.
Дискретный статистический ряд удобно записывать в следующей таблице
xi
1
2
3
4
7
ni
2
2
3
1
2
5
n
i 1
2
10
2
10
3
10
1
10
2
10
i
 10
5
р
i 1
*
i
1
Построим эмпирическую функцию по данным дискретного ряда и ее график (рис. 19) по
данным таблицы:
0 при x  0;
0,2 при 0  x  2;

0,4 при 2  x  3;
*
F x   
0,7 при 3  x  4;
0,8 при 4  x  10;

1 при x  10;
F * x 
1
0,8
0,7
0,4
0,2
1 2 3 4 5 6 7 8 9 10
x
Эмпирическая функция распределения доходов
Для построения интервального ряда сначала определим количество интервалов
k =[1 + 3,322 lgn] = [1+3,322 lg 10] = [4,322] = 4
и длину интервалов
Запишем интервальный ряд в виде таблицы:
Интервалы
Частоты
[1; 2,5)
[2,5; 4)
[4; 5,5)
[5,5; 7]
4
3
1
2
∑
Относительные
частоты
0,4
0,3
0,1
0,2
∑
Пример. Определить среднюю цену квартиры в некотором районе г. Перми по имеющимся
данным (тыс. руб.):
340, 320, 340, 410, 360, 1580, 365.
Решение. По имеющимся данным найдем среднее
̅
∑
тыс. руб.
В качестве моды берем наиболее часто встречающееся значение
тыс. руб. для
нахождения медианы расположим выборочные значения в порядке возрастания: 320, 340, 340, 360,
365, 410, 1580. Так как
, то
:
тыс. руб.
Полученное среднее арифметическое значение не будет являться наиболее типичным
значением цены однокомнатной квартиры, т.к. большинство квартир (6 из 7) предлагаются по цене
ниже 420 тыс.руб. Следовательно, в этом случае применение среднего арифметического для
оценок и выводов приводит к ошибочным и недостоверным результатам. Так, потенциальный
покупатель, желающий приобрести квартиру по цене, не превышающую 360 тыс. руб., при
принятии решения на основе средней цены, скорее всего, откажется от покупки квартиры в
данном районе. В то же время более 85% предложений удовлетворяют его требованиям.
Здесь целесообразно использовать медиану, которая равна 360 тыс. руб. В данном случае
медиана будет правильнее в качестве показателя, характеризующего наиболее типичное значение
из имеющихся данных.
Пример. Группировка населения по среднемесячной заработной плате (руб.): 1800, 2070, 2550,
3180, 4400.
Решение. Найдем выборочное среднее
x
по формуле:
X 
x
1 n
 xi
n i 1
1800  2070  2550  3180  4400
 2800
5
Определим стандартное отклонение из формулы:
S2 
S
1
n
 ( xi  x)2 ,
(1800  2800) 2  (2070  2800) 2  (2550  2800) 2  (3180  2800) 2  (4400  2800) 2
 927.34
5
Определим коэффициент вариации по формуле:
V
S
x
где
V
S
- стандартное отклонение,
x-
 100% ,
средняя величина признака.
927.34
 100%  33,1%
2800
Коэффициент вариации не превышает 33%, следовательно, совокупность считается
однородной.
Пример. Обследование жилищных условий жителей поселка представлено следующим
распределением. Охарактеризовать жилищные условия жителей поселка.
Количество м. кв.
До 5
5-7
7-9
9-11
11-13
13-15
15-17
17-19
19-21
21-23
Свыше 23
100
130
170
300
450
400
330
280
140
120
80
на одного человека
Численность
жителей, человек
Решение. Среднюю величину анализируемого признака – средний размер занимаемой площади на
1 человека – будем определять по формуле средней арифметической взвешенной:
Количество
Численность
Накопленные
Центральная
м.кв. на одного
жителей,
частоты
варианта хi ср
человека
человек ni
До 5
100
100
4
5–7
130
230
6
7–9
170
400
8
9 – 11
300
700
10
11 – 13
450
1150
12
13 – 15
400
1550
14
15 – 17
330
1880
16
17 – 19
280
2160
18
19 – 21
140
2300
20
21 – 23
120
2420
22
80
2500
24
Свыше 23
-
n
ni  2500
-
Центральные варианты определяются как среднее арифметическое из двух значений
интервала, например, (5+7)/2 = 6.
Так как первый и последний интервал является открытыми, то величина интервала первой
группы принимается равной величине интервала последующей (2), а величина интервала
последней группы – величине интервала предыдущей группы (2). Таким образом, условно
принимаем:
первая группа: 3 – 5
последняя группа: 23 – 25
Средний размер занимаемой площади на 1 человека составит:
X 
х
1
4  100    24  120  34220  13,7
n
2500
1 k
 ni xi .
n i 1
м. кв.
Размах вариации представляет собой разность между наибольшим (
(
) и наименьшим
) значениями вариант, т.е.:
.
Размах вариации составит:
R = 25 – 3 = 22 м. кв.
Выборочная дисперсия
S2
– это средняя из квадратов отклонений значений признака от
его средней арифметической величины. Выборочная дисперсия определяется по формуле:
S2 
1
n
 ( xiср  x )2  ni  n  ( xiср )2  ni  x 2
1
Выборочная дисперсия составит:
S2 


1
57317
42    242  13,7 2 
 22,93 .
2500
2500
Стандартное отклонение – это корень квадратный из выборочной дисперсии.
S  S2
.
Среднее квадратическое отклонение составит:
S
57317
 22,93  4,8
2500
м. кв.
V
S
 100% .
x
Коэффициент вариации показывает однородность выбранной совокупности: чем он
меньше, Мерой сравнения степеней колеблемости для двух, трех и более вариационных рядов
служит показатель, который носит название коэффициента вариации и определяется по формуле:
тем более однородна совокупность. Для однородной совокупности он не превышает 33%.
Коэффициент вариации составит:
V
4,8
 100%  35%
13,7
Структурными средними являются мода, медиана, квартили.
Мода ( Mo ) – варианта, встречающаяся в изучаемой совокупности чаще всего, т.е. варианта,
которой соответствует наибольшая частота.
Вычисление моды в интервальном ряду с равными интервалами производится по формуле:
Mo  xМо  h 
где
nMo  nMo 1
(nMo  nMo 1)  (nMo  nMo 1)
,
x Мо – начало (нижняя граница) модального интервала;
h ─ величина интервала;
nMo1, nMo , nMo1
– частоты пред модального, модального и после модального интервалов.
Модальный интервал 11 – 13, так как ему соответствует максимальная частота, равная 450.
Воспользуемся данными табл. и рассчитаем моду:
Mо  11  2 
450  300
 12,5
(450  300)  (450  400)
м. кв.
Медиана ( Mе ) – варианта, находящаяся в середине ряда распределения. Расчет медианы
для интервального ряда производится по формуле:
Mе  xМе  h 
где
0,5n  n x( Me 1)
nMe
,
xMe – начало (нижняя граница) медианного интервала;
h ─ величина интервала;
n– сумма накопленных частот ряда;
n x ( Me 1)
nMe –
– накопленная частота вариант, предшествующему медианному;
частота медианного интервала.
Воспользуемся данными табл. и рассчитаем медиану. В таблице медиана лежит между
1250 и 1251 частотами, а они находятся в сумме накопленных частот, равной 1550, поэтому
интервал 13 – 15 является медианным. Определим медиану:
2500
 1150
Me  13  2  2
 13,5
400
м.кв.
Для
характеристики
социально-экономического
явления,
отраженного
рядом
распределения, следует рассчитать первый и третий квартили (второй равен медиане) по
следующим формулам, аналогичным медиане:
Qi  xi  i 
n  i / 4  n x(i 1)
ni
, i  1,3 .
Первый квартиль составит:
Q1  9  2 
2500
 400
4
 10,5
300
м.кв.
Третий квартиль составит:
Q3  15  2 
3
2500
 1550
4
 17
330
м.кв.
Расчет квартилей позволяет отметить, что 25% жителей имеют до 10,5 м.кв. занимаемой
площади на 1 человека, а 25%  свыше 17 м.кв. занимаемой площади на 1 человека. Остальные
50% жителей имеют от 10,5 до 17 м.кв. занимаемой площади на 1 человека.
Сравнивая среднее значение признака с модой и медианой можно отметить, что их
значения довольно близки, но не равны между собой. Следовательно, ряд распределения имеет
некоторую ассиметрию, которая может быть определена с помощью меры скошенности по
формуле:
Sk 
х  Мо
S
.
Мера скошенности составит:
Sk 
13,7  12,5
 0,25 ,
4,8
т.е. мера скошенности больше 0, а мода меньше среднего значения признака, это говорит о
небольшой правосторонней ассиметрии.
Интервальный ряд распределения изобразим с помощью гистограммы.
500
400
350
300
250
200
150
100
50
Свыше 23
21 – 23
19 – 21
17 – 19
15 – 17
13 – 15
11 – 13
9 – 11
7–9
5–7
0
До 5
численность жителей, чел.
450
количество м2 на одного человека
Гистограмма распределения жителей по количеству м.кв. на одного человека
Вывод: среднее количество м.кв. на одного человека составило 13,7 м.кв.. В данной
совокупности жителей наиболее часто встречается количество м.кв. на одного человека, равное
12,5 м.кв.. 50% жителей имеют количество м.кв. на одного человека менее 13,5 м.кв., а 50%
жителей – более 13,5 м.кв..
Рассчитанный коэффициент вариации больше 33%, следовательно, данная совокупность
является неоднородной.
Пример. По группировке населения по среднемесячной заработной плате (руб.) расчитать
выборочные характеристики.
Группы
населения
по
Количество
среднемесячной З.П., руб.
человек
1800 – 4400
5
4400 – 13690
15
13690 – 22900
10
ИТОГО:
30
Решение.
Группы
населения
по
Количество
Середины интервалов (xi)
Накопленное
среднемесячной З.П., руб.
человек
1800 – 4400
5
3100
5
4400 – 13690
15
9045
20
13690 – 22900
10
18295
30
ИТОГО:
30
-
-
Найдем выборочное среднее
x
количество человек
по формуле:
X 
x
1 k
 ni xi
n i 1
3100  5  9045  15  18295  10
 11137,5 руб.
30
Выборочная дисперсия определяется по формуле:
S2 
S2 
1
n
 ( xi  x)2 ,
(3100  11137,5) 2  5  (9045  11137,5) 2  15  (18295  11137,5) 2  10
 30032781,21 .
30
Определим стандартное отклонение из формулы:
S  S 2  30032781,21  5480,23 руб.
Вычисление
Mo  xМо  h 
моды
в
nMo  nMo 1
(nMo  nMo 1)  (nMo  nMo 1)
Mo  4400  9290 
интервальном
ряду
производится
по
формуле:
, тогда получим
15  5
 10593.33 руб.
(15  5)  (15  10)
Расчет медианы для интервального ряда производится по формуле:
1 30  5
Me  4400  9290  2
15
Mе  xМе  h 
0,5n  n x( Me 1)
nMe
,
 10593.33 руб.
Квартили находятся по следующим формулам, аналогичным медиане:
Qi  xi  i 
n  i / 4  n x(i 1)
ni
, i  1,3 .
Квартили делят совокупность на четыре части: 25%; 50%; 75%; 100%, для того чтобы
найти первый квартили нужно узнать сколько составляет 25% от 30:
1 30  5
Q1  4400  9290  4
15
30
 25%  7.5 .
100%
 5948.33 руб.
Для того чтобы найти второй квартили нужно узнать сколько составляет 50% от 30:
30
 50%  15 .
100%
2 30  5
Q 2  4400  9290  4
15
 10593.33
руб.
Для того чтобы найти третий квартили нужно узнать сколько составляет 75% от 30:
30
 75%  22.5 .
100%
3 30  20
Q3  13690  9210  4
10
 15992.5 руб.
Мы знаем что 100%=30, найдем четвертый квартиль:
4 30  20
Q 4  13690  9210  4
10
 22900
руб.
k
Определим асимметрии по формуле:
As  (3100  11137,5)
3
As 
 ni ( xi  x ) 3
i 1
 5  (9045  11137,5)3  15  (18295  11137,5)3  10
30  5480,233
nS 3
,
 6,7
Левосторонняя, значительная асимметрия.
Для симметричных распределений может быть рассчитан показатель эксцесса ( Ex ):
n
Ex 
 ( xi  x ) 4
i 1
nS 4
Ex  (3100  11137,5)
4
 3,
 5  (9045  11137,5) 4  15  (18295  11137,5) 4  10
30  5480,233
Плосковершинное распределение.
 3  0,23
Скачать