2. Построение адекватной статистической модели

реклама
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Новосибирский государственный университет
Кафедра моделирования и управления промышленным производством
МЕТОДИЧЕСКИЕ УКАЗАНИЯ
по спецкурсу Н.М. Журавель "Статистические методы в системном
моделировании промышленного производства"
Моделирование зависимости экономических показателей от
производственных факторов
Выпуск II
Новосибирск, 2008
В пособии содержится методика получения системы статистических
моделей экономических показателей и использования этих моделей для
технико-экономического анализа производства. Наличие поэтапного задания
на цифровом материале по металлургическому производству способствует
активному освоению методики.
Пособие предназначено для студентов экономического факультета .
Составитель: к.э.н., доцент Журавель Н.М.
Рецензент: к.э.н., доцент - Маслов Е.В.
§ 1 Постановка задачи и ее информационное обеспечение на примере металлургического
производства
Цель и объект моделирования. Цель исследования состоит в получении системы моделей
формирования обобщающего экономического показателя работы
металлургического
производства - среднеотраслевой себестоимости стали и ее важнейших составляющих - под
влиянием важнейших производственных факторов.
Выбор объекта моделирования сводится к отысканию пространственных и временных
границ статистической совокупности. Временные границы определяют
имеющаяся
периодичность отчетности и необходимость получить представительную выборку во времени.
Пространственные границы задаются перечнем объектов, описанных общим набором факторов.
Металлургическое производство можно исследовать на трех уровнях - металлургические
печи, цехи и завод в целом. Заводской уровень сразу из рассмотрения можно исключить из-за
большой разнотипности цехов на одном предприятии и несопоставимости вследствие этого
заводских данных. В качестве основного объекта целесообразно взять металлургические цехи.
Печи могут служить лишь вспомогательным объектом, поскольку они не являются
самостоятельной хозрасчетной единицей.
Подготовка исходной информации. На этапе информационного обеспечения
исследования, в первую очередь, ставится вопрос о формировании первичного набора
факторов. Для его решения разрабатывается гипотеза о наборе, максимально учитывающем
характеристики моделируемого процесса. Затем эта гипотеза уточняется на основе
обобщенного опыта специалистов отрасли. Удобной формой привлечения этого источника
априорной информации является анкетный опрос экспертов.
Подобный опрос был включен в план исследования и преследовал две цели: выявить
мнение специалистов по предложенному набору факторов с точки зрения его достоверности и
полноты; проранжировать факторы по значимости их влияния на величину моделируемого
показателя. В коллективе экспертов были представлены все группы работников, связанные с
анализом и планированием издержек производства - работники экономических служб
предприятий, руководящий персонал
цехов, работники научно-исследовательских
учреждений. Опрос показал приемлемость предложенного набора факторов: специалисты не
предложили существенно дополнить или измененить набор.
Статистический анализ материалов анкетного опроса включает следующие этапы.
1. Получение вариационных рядов распределения мнений о месте по влиянию на
себестоимость стали групп факторов и отдельных факторов внутри групп; расчет характеристик
положения рядов распределения (средняя арифметическая x , мода Мо , медиана Ме, ); расчет
характеристик вариации ответов (доля ответов на трех соседних местах, включая медианное,
коэффициент качественной вариации Q ). Последний рассчитывается по формуле:
Q
p
p
i2
i 3
n1  ni  n2  ni  ...n p  2
p
 n n
i  p 1
i
p 1
 np
p ( p  1) N 2
( )
2
p
где р - число мест (вариантов ответа),
n - частота, с которой встречается каждый вариант,
N - общее число ответов.
Вариационные ряды с названными характеристиками по группам факторов приведены в
табл. 1.
2. Ранжировка групп факторов и отдельных факторов внутри групп, общая ранжировка
факторов.
Ранжировка проводится на основе данных о среднем месте фактора или группы. При
определении окончательного ранга группы использованы все виды средних величин. Анализ
средневзвешенного, медианного и модального места показывает хорошее, совпадение
ранжировок по всем видам средних. На этом основании принята окончательная ранжировка
групп, по которой наиболее важными группами факторов по степени влияния на себестоимость
признаны структура производственных фондов, уровень концентрации производства и
номенклатура выпускаемой продукции.
Таблица 1
Оценка вариации ответов экспертов о влиянии групп производственных факторов
на себестоимость стали
Техническая
характеристика
Объем производства и сортамент
продукции
Технология плавки и разливки
Характеристика
сырых материалов
Технико-экономические показатели
Теплотехнические
параметры
Возрастная
структура фондов
Характеристики
кадров цеха
Географическое
положение
Средние
x
Ме
Мо
Присвоенный ранг
Групповой
признак
Место по влиянию на себестоимость стали
-
2,01
0,87
1,00
-
1
2,85
2,00
-
-
-
3,76
2
-
-
2
6
8
1
1
16
20
7
-
23
16
20
7
15
3
18
17
3
1
9
11
1
2
3
4
5
6
7
8
9
10
11
12
50
15
10
4
3
2
2
1
-
-
-
21
22
26
6
3
5
1
1
1
-
7
14
19
23
10
8
4
1
1
10
16
11
20
14
9
2
2
13
7
13
4
16
10
8
3
10
10
11
14
21
4
-
-
7
10
-
2
1
7
1
2
-
5
Мера согласованно
сти
%
Q
1
74.7
0.31
3,00
2
62,1
0,15
3,15
4,00
3-4
59,8
0,08
4,05
3,33
4,00
3-4
51,7
0,07
-
4,82
4,41
5,00
5
34,5
0,04
-
-
5,07
4,68
6,00
6-7
56,3
0,08
-
-
-
6,40
5,98
6,00
6-7
56,3
0,05
8
3
1
2
6,06
6,86
7,00
8
43,7
0,07
38
12
-
5
8,26
8,28
9,00
9
70,1
0,16
Внутригрупповая ранжировка проводится аналогичным образом. Когда ранги фактора по
различным средним противоречат друг другу, факторам присваивается два или более мест
поровну.
На основе групповой и внутригрупповой ранжировки синтезируется единая система
расположения всех факторов. Возможны следующие способы получения такой системы:
- последовательное расположение групп и отдельных факторов внутри них по значимости;
- ранжировка факторов по сумме баллов группы и фактора внутри нее;
- введение сравнимых шкал для меж- и внутригрупповых оценок.
Чтобы выразить ценность места фактора внутри группы в той же 9-балльной системе
измерения, которая принята для групп, используется следующий прием: суммируются оценки
факторов внутри каждой группы, и на эту сумму делится оценка группы. Полученная величина
представляет вес единицы внутригрупповой шкалы, выраженный в единицах 9-балльной
шкалы. Умножая на этот коэффициент место каждого фактора, получаем скорректированные
оценки, по которым выполняется окончательная ранжировка всех факторов.
3. Оценка степени согласованности ответов экспертов.
Эта оценка базируется на показателях вариации мнений экспертов о значимости факторов.
Анализ характера распределения ответов позволяет выдвинуть предварительную гипотезу о
причинах разброса мнений. Здесь возможны следующие ситуации.
Распределение имеет одну вершину, степень согласованности ответов достаточно высока.
Можно полагать, что разброс мнений вызван случайными причинами.
Просматриваются несколько четко выраженных вершин распределения, что говорит о
наличии нескольких групп экспертов с разным характером мнений. Это следует учесть на
следующем этапе статистической обработки анкет.
Ответы сравнительно равномерно распределяются по всей шкале оценок, нет четко
выраженных вершин, степень согласованности мала. Можно предположить, что либо в анкете
дана нечеткая формулировка названия признака, либо введено слишком много градаций шкалы,
либо эксперты некомпетентны в этом вопросе.
В чистом виде перечисленные ситуации встречаются редко, чаще имеют место их
комбинации.
Анализ рядов распределения и количественных оценок разброса мнений экспертов (табл.1)
позволяет заключить, что мнения довольно разноречивы. Хорошая согласованность получена
только для групп факторов, занимающих крайние места - I, 2 и 9. По мере приближения к
средним местам различия в мнениях увеличиваются (мера рассеяния с 70% для I и 9 места
снижается до 34% для 5 и 6).
По причинам разброса мнений экспертов к первой ситуации можно отнести распределение
ответов по 1, 2 и 9-ой группе факторов; ко второй - распределение по 4, 7-ой группе
(просматриваются 2 вершины); и третьей - ответы по 5 и 6-ой группе.
4. Выделение групп специалистов с устойчивым совпадением мнений. Ранжировка
факторов по групповому мнению.
Необходимость в выделении однородных групп экспертов связана с конечной целью
экспертного опроса - формированием группового решения на основе совокупности
индивидуальных оценок. Традиционные способы принятия группового решения (принцип
большинства на основе усредненных, центральных оценок) применимы только в тех случаях,
когда коллектив экспертов однороден в смысле "поведения" (характера ответов). Если
коллектив неоднороден, то средние, центральные оценки теряют содержательный смысл, они
могут оказаться в определенном смысле "хуже" индивидуальных или групповых, на основе
которых получены. В таком случае либо отдают предпочтение точке зрения, которая
представляется
соответствующей теоретическим представлениям, либо разбивают
совокупность объектов на части и приписывают каждой части отдельную шкалу.
Группировка экспертов по характеру их ответов предполагает введение меры сходства
каждой пары экспертов. При использовании любой из возможных мер сходства в результате
расчетов явно или неявно получаем квадратную матрицу мер близости (расстояний) между
экспертами по характеру их ответов. Следующий этап заключается в исследовании этой
матрицы и - при необходимости - в разбиении ее на однородные группы одним из алгоритмов
таксономии.
С этой целью выделяется устойчивое ядро, включающее основную часть экспертов, а
постепенно отделяющиеся от него (основного таксона) эксперты не образуют устойчивых
таксонов, по численности сравнимых с основной группой. (Вполне понятно, что эксперты,
отделяющиеся на первых шагах, обладают наиболее оригинальным, резко отличным от
большинства экспертов мнением.)
Для выделения однородных групп экспертов по материалам опроса специалистов
металлургического производства использовали алгоритм и программу таксономии "Форель-1"
[1], Подлежащая таксономии совокупность состояла из 18 факторов, в число которых включены
стоящие на первых и вторых местах в своих группах. Результаты разбиения на отдельных
шагах приведены в табл. 2.
Таблица 2
Результаты выделения однородных групп экспертов по металлургическому производству
Характеристика таксономии
Номер шага
0
1
2
3
4
5
Радиус гиперсферы
5,93
5,34
4,75
4,15
3,56
2,97
Число таксонов, всего
1
4
10
19
30
48
Единичных
-
3
7
13
24
38
Включающих 2-3 эксперта
-
-
2
5
5
9
84
73
69
52
23
В том числе:
Число экспертов в основном 87
таксоне
В качестве эталонной группы следует выбрать ядро экспертов, сформировавшееся на четвертом
шаге процесса, после которого резко возрастает число единичных таксонов.
Изменение структуры совокупности экспертов по специализации характеризуется
следующими данными:
Вся совокупность (87 чел)
Эталонная группа (52 чел)
Работники экономических служб
23,8
32,0
Работники технологических служб
25,0
30,0
Исследователи
25,0
18,0
Главные специалисты
26.2
20,0
Эти данные свидетельствуют, что наиболее едины в своих мнениях работники предприятий,
непосредственно занимающиеся анализом и планированием себестоимости.
Ранжировка факторов для выделенной группы экспертов проводилась таким же образом,
как и для всей совокупности экспертов. Сопоставление ранжировок показывает, что при
сохранении общей последовательности расположения групп факторов, эталонные оценки более
резко отличаются друг от друга, чем в целом по всей совокупности экспертов. Это привело к
устранению двойных мест для срединных по значимости групп факторов.
Полученная ранжировка групп, а также отдельных факторов внутри них является весьма
полезной на последующих стадиях уточнения гипотезы о рабочем наборе факторов. Факторы
(или группы факторов), которые, по общему мнению, малозначительны, могут быть исключены
из рабочего набора, особенно если сбор информации по ним связан с определенными
затруднениями.
Обеспечение сопоставимости информации. При выборе источников информации
естественна ориентация на централизованную отчетность. Однако недостаточность и излишняя
агрегированность ее по отдельным факторам требуют дополнительных специальных
обследований на предприятиях.
Важным вопросом, решаемым на этапе подготовки исходной информации, является выбор
измерителей факторов, от которого в значительной мере зависит сопоставимость данных в
пространстве и во времени. Несопоставимость моделируемых показателей (себестоимости и ее
составляющих) по отдельным объектам порождается их стоимостным характером. Эти
обобщающие показатели являются аддитивными функциями затрат на сырье, топливо,
электроэнергию и другие материалы. Цены на последние не зависят от деятельности
металлургических цехов, поэтому необходим пересчет показателей по единым ценам.
Несопоставимость факторов (аргументов) по отдельным цехам обусловливается разными
причинами. В первую очередь следует назвать различия в общей мощности цехов и их
структуре, некоторые характеристики цехов оказываются в абсолютных величинах
несравнимыми, и для обеспечения сопоставимости требуется пересчет их на относительные.
Относительные измерители введены для сортамента выплавляемой стали, способа разливки,
способа выплавки (применение кислорода), вида топлива, простоев печей.
В результате выполнения всех стадий сбора и подготовки информации по всем цехам
были получены сведения о четырех показателях (себестоимость и ее составляющие - расходы
по переделу, итого задано и стоимость добавочных материалов), 47 количественных и 7
качественных факторах.
Анализ и отбор существенной информации. Названный набор
может содержать
избыточную информацию. Поэтому прежде чем переходить к построению модели
целесообразно выделить из этого набора информативную подсистему меньшей размерности, но
в тоже время достаточно точно описывающую объекты наблюдения. Процесс выбора
существенных факторов не заканчивается на этапе подготовки информации, а продолжается и
при построении модели. Но идеи, лежащие в основе выбора информативных факторов на этих
стадиях процесса, различны. При подготовке информации сужение набора переменных
производится, исходя из внутренних свойств матрицы связи факторов производства. Поиск
информативной подсистемы переменных в ходе построения модели помимо учета взаимосвязи
переменных учитывает силу их влияния на функцию - моделируемый экономический
показатель.
Процесс отбора существенной информации целесообразно начать с выявления роли
отдельных составляющих в колеблемости себестоимости между цехами.
Поскольку величина себестоимости тонны стали образуется сложением отдельных
составляющих, то ее вариация может быть разложена на элементы, отражающие влияние
вариации каждой составляющей себестоимости. Проведя такое разложение, получим, что
вариация расходов по переделу определяет 70% изменчивости себестоимости, итого заданное около 25%, и только 5% падает на добавочные материалы. Следовательно, при изучении
различий в себестоимости углеродистой стали в первую очередь следует анализировать
различия в расходах по переделу, хотя их удельный вес в себестоимости сравнительно невелик
(этот вывод относится к случаю, когда устранено влияние цен).
Следующая стадия при отборе существенной информации - выбор наиболее
информативных технико-производственных факторов на основе анализа их взаимосвязей.
Процесс сужения набора целесообразно начинать с анализа матриц коэффициентов парных
связей переменных (отдельно для качественных и количественных признаков).
По качественным признакам анализировалась их информативность, связь с
моделируемыми показателями и другими качественными признаками. Из выделенных 7-ми
качественных признаков малую информативность имеют два: тип печей (стационарные и
качающиеся) и вид футеровки (основная и кислая), так как в подавляющем большинстве цехов
установлены стационарные печи с основной футеровкой. Исключение из общей совокупности
2-3-х резко отличающихся по этим характеристикам цехов позволяет элиминировать влияние
указанных признаков.
Оценка силы связи каждого из 5-ти оставшихся признаков с моделируемыми показателями
и другими качественными признаками может быть выполнена различными статистическими
приемами, например, с помощью коэффициентов взаимной сопряженности Пирсона (С) и
Чупрова (К), рассчитываемых на основе критерия χ2 - Пирсона (табл.3).
Таблица З
Наименование
Признаков
1.
2.
3.
4.
5.
Вид топлива
Способ разливки
Тип процесса
Применение кислорода
Способ завалки
Величина
χ2
32,9
18,5
10,2
9,1
1,9
ВероятностьР(χ2)
несущественности
влияния признака
0,001
0,01
0,07
0,10
0,85
Значения коэффициентов сопряженности
Пирсона С
Чупрова К
0,58
0,47
0,37
0,35
0,17
0,40
0,35
0,2
0,25
0,12
Рассмотрение значения Р(χ2) дает основание сделать весьма достоверный вывод о
существенности влияния на расходы по переделу первых двух качественных признаков - вида
топлива и способа разливки. По следующим двум признакам - тип процесса и
применение кислорода - вывод о значимости влияния может быть сделан с меньшей
определенностью. Что касается способа завалки, то полученное значение
Р(χ2) позволяет
считать расходы по переделу независимыми от этого признака и исключить его из дальнейшего
анализа. Исследование взаимосвязи оставшихся 4-х качественних признаков между собой
можно провести по матрице коэффициентов К.
Исходной базой для анализа связей количественных переменных служит матрица парных
коэффициентов корреляции, построенная для совокупности цехов. Эта матрица имеет
размерность 51x51 (47 переменных и 4 функции). На основе содержательных соображений и
непосредственного просмотра матрицы выделяются группы переменных, дублирующие друг
друга (функционально связанные или с коэффициентом корреляции, более 0,8). В результате
исключения дублирующих количественных переменных общий размер матрицы уменьшается
до 35x35.
Второй этап сужения набора количественных переменных основывается на формальном
анализе структуры полученной матрицы. Для этой цели могут быть использованы методы
факторного анализа и примыкающие к ним способы исследования структуры матрицы
корреляции. В рассматриваемом исследовании использован метод экстремальной группировки
факторов, позволяющий на основе матрицы парных коэффициентов корреляции разбить
факторы на заданное число групп и для каждого определить его нагрузку (в виде коэффициента
корреляции) на гипотетический центральный фактор группы. Чем больше нагрузки переменных
в группе, тем теснее их взаимосвязи внутри группы. Выбор представителей групп производится
на основе ряда соображений как содержательных, так и формальных. Преимущество с
содержательных позиций должно отдаваться переменным, значения которых легко оценить для
вновь проектируемых и реконструируемых предприятий, например, средний вес плавки,
годовая выплавка стали, сортамент стали и др.
С формальной точки зрения следует обращать внимание на: величину парных
коэффициентов корреляции между факторами и функциями - чем больше теснота связей, тем
предпочтительнее выбор; расстояние фактора от условного центрального фактора группы - чем
ближе, тем предпочтительнее выбор; связь факторов с уже отобранными; состав групп при
разных разбиениях; целесообразно включать в набор образующиеся при разных разбиениях
единичные факторы.
На основе приведенных соображений в результате экстремальной группировки из 35
количественных переменных отобрано для этапа собственно моделирования 20 переменных.
§ 2. Построение адекватной статистической модели экономических показателей
Основное условие эффективного применения статистической модели - ее адекватность,
соответствие реальному явлению. Под адекватной моделью здесь понимается та, по которой
можно было бы не только аппроксимировать значения моделируемого показателя с
достаточной точностью, но и получать неискаженные оценки влияния факторов. Регрессионная
модель на основе всей совокупности объектов обеспечивает подобную адекватность лишь в
случае однородности исследуемой совокупности, при которой допустимо приложение
полученных статистических закономерностей ко всем ее единицам.
В указанном смысле совокупность объектов отрасли, как правило, неоднородна. Объекты
естественным образом объединяются в несколько типов (классов), основой формирования
которых является общность одного или нескольких элементов производственного процесса.
Наиболее часто в качестве типоообразующих признаков выступает общность: используемой
техники (что часто коррелирует со временем ввода объектов в эксплуатацию), назначения
продукции, технологии производства, природно-географических условий работы объектов.
Таким образом, величина экономических показателей определяется не только величиной
факторов производства, но характером их комбинаций, тем, к какому типу предприятий
принадлежит объект. Наиболее типична следующая ситуация. Для некоторой группы
"похожих", близких объектов, характер связи между факторами и показателями остается
стабильным, при дальнейшем изменении факторов производства объект может выйти за
границы области, занимаемой данным типом, и накопленные количественные изменения
переходят в качественное различие, имеет место либо скачок, разрыв зависимости, либо
изменение ее направления и вида.
Для подобных ситуаций наиболее эффективным типом модели является кусочно-линейная
аппроксимация (дискретно-непрерывная модель).
Построение моделей такого типа включает 2 основных этапа: а) классификацию объектов
на основе определенного набора признаков - построение дискретной части модели и б)
построение частных регрессионных моделей для выделенных групп. Классификация цехов
может быть осуществлена как на основе качественных различий между ними, так и на основе
количественных эквивалентов этих различий. Схема классификации по качественным
факторам, с помощью алгоритма древовидной классификации в сокращенном виде содержится
в задании для самостоятельной работы. Схема классификации на основе количественных
признаков излагается ниже.
Операцию по выбору признаков, вызывающих неоднородность, можно осуществить
различными статистическими приемами - на основе исследования распределения признаков,
изучения характера парных связей, вычисления коэффициентов однородности и т.п.
Анализ рядов и графиков показывает, что факторы металлургического производства могут
быть отнесены к следующим типам распределения: одновершинное, многовершинное, jобразное. Представителей
для выявления однородных групп цехов нужно искать среди
факторов, имеющих второй или третий тип распределений, поскольку подобные типы
распределения свидетельствуют о наличии групп цехов, локализованных по уровню факторов.
Но с точки зрения однородности, нас интересует не только получение групп, компактно
расположенных в пространстве признаков, но и выявление среди них групп с индивидуальным
характером производственных связей. Поэтому для окончательного выбора факторов,
порождающих неоднородность, имеет смысл проанализировать корреляционные поля
зависимости моделируемого показателя от факторов, предположительно формирующих
однородные группы. При анализе корреляционных полей вначале выясняется, существует ли
какая-либо общая тенденция в зависимостях на всем диапазоне изменения фактора и
определяется примерная форма этой тенденции. Затем анализируется расположение точек
корреляционного поля внутри наиболее характерных интервалов изменения факторов и
устанавливаются частные тенденции для этих интервалов. Сравнение частных тенденций
между собой и с общей тенденцией позволяет в какой-то мере судить о наличии
неоднородности зависимостей и силе этой неоднородности.
В результате анализа распределений корреляционных полей по всем количественным
факторам выделены следующие 6 признаков, вызывающие неоднородность: средний вес
плавки Х2, годовая выплавка стали Х3, доля чугуна в садке Х4, доля разливки в изложницы на
тележках Х5, калорийность топлива X6, удельный расход кислорода Х7.
Поскольку основу классификации составляет многомерный набор признаков, то наиболее
целесообразно для классификации использовать методы распознавания образов, в частности,
алгоритм и программу "Recognition" [ 1], основанные на методе потенциальных функций.
Одной из отличительных особенностей этой программы является то, что разбиение
совокупности объектов производится на заранее заданное исследователем число классов.
Поскольку в данном исследовании количество однородных подсовокупностей заранее
неизвестно, то задача классификации расширяется за счет необходимости определения числа
классов.
Любая система классификации имеет ценность лишь в том случае, если конкретное
описание, которое она может обеспечить, позволяет осуществлять прогнозирование. В нашем
случае задача заключается в прогнозировании экономических показателей по значениям
производственных факторов. Поэтому естественно признать лучшей ту классификацию,
которая обеспечивает наибольшую точность прогноза показателя. Точность прогноза можно
оценить при экзамене по объектам, не учитывавшимся при формировании исходной
классификации. Сказанное предопределяет выбор в качестве критерия - отношения (F) общей
дисперсии моделируемого показателя во всей совокупности к средневзвешенной дисперсии по
всем классам. Чем больше величина F, тем выше точность дискретной модели для оценки и
прогнозирования экономических показателей.
С учетом сказанного применена многостадийная схема построения дискретной части
модели, особенностями которой является разделение совокупности на обучающую и
экзаменуемую выборки, многократный процесс классификации и использование внешнего
критерия.
Перейдем непосредственно к изложению результатов расчетов. Из совокупности цехов
случайным образом выделено 54 цеха, которые сформировали обучающую выборку. На этой
обучающей выборке по 6 производственным факторам - индикатором неоднородности проведено четыре классификации при числе классов К = 2, 3, 4, 5.
Выбор рациональной классификации осуществлен на основе описания классов по
моделируемому показателю - расходам по переделу. В таблице 4 даются средние значения
расходов по переделу Х1 в каждом классе и их доверительные границы, а также обобщающие
характеристики классификаций по моделируемому показателю - средневзвешенная дисперсия и
отношение F. Максимального значения отношение F достигает в двухклассовой группировке
(F=2,302), которая, следовательно, может считаться оптимальной по этому критерию. Наиболее
близкой по величине F к оптимальной группировке является 3-х классовая группировка
(F=2,194). Эти две классификации отличаются и тем положительным качеством, что внутри
каждой доверительные интервалы по классам не пересекаются.
Правильность выбора оптимальной классификации можно проверить, осуществив
распознавание вновь предъявляемых цехов в режиме экзамена, т.е. на основе полученных при
обучении уравнений плоскостей, разделяющих классы (разделяющих функций). При
классификации 12 мартеновских цехов, не участвовавших в обучении, получены следующие
значения средневзвешенной дисперсии расходов по переделу для различных классификаций:
Тип классификации
К=2
К=3
К=4
К=5
Средневзвешенная
внутригрупповая
4,01
6,67
6,07
6,07
дисперсия
Минимальная величина средневзвешенной внутригрупповой дисперсии соответствует
двухклассовой группировке. Таким образом, и для материала экзамена (прогноза) рациональная
дискретная модель состоит из двух классов.
Таблица 4
Описание классов по моделируемому показателю (расходам по переделу Х1)
Вид
Классы
классификации
К=2
x
1
2
3
4
14,68
9,14
15,46-13,90
9,98-8,30
x1
x1 tσx1
15,19
9,07
13,09
16,09-14,18
10,00-8,14
14,18-12,00
x1
x1 tσx1
15,14
9,15
13,47
12,09
16,21-14,08
10,13-8,18
14,50-12,44
14,09-10,09
5
(*)
(**)
4,85
2,302
5,0
2,194
6,08
1,768
1
x1 tσx1
К=3
К=4
К=5
15,11
9,16
13,70
11,60
14,57
5,82
1,810
x1
16,23-14,00
10,14-8,18
14,80-12,59
13,56-9,65
16,66-12,49
x1 tσx1
2
(*) – Средневзвешенная дисперсия σ ср.взв.
2
 общ
/(n  1)
(**) – Отношение F  2
 ср.взв. /(n  k  1)
Примечание: Доверительные интервалы для Х1 рассчитаны с уровнем вероятности Р=0,95.
После выбора рациональной классификации имеем возможность окончательно описать
модель в виде дискретной функции. В нашем случае дискретная модель расходов по переделу
может быть записана следующим образом: расходы по переделу равны (14,680,78) руб/т, если
разделяющая функция I класса: (0,554 - 0,583Х2 - 0,566Х3 - 0,708Х4- 0,602Х5 + 0,136Х6 0,505Х7) > 0; и равны (9,140,84) руб/т, если разделяющая функция 2 класса: (1149 + 0,857Х 2 +
0,798Х3 + 0,792Х5 - 0,132X6 + 0,663Х7) > 0.
Условиями, определяющими
интервалы для Х1, в модели выступают разделяющие
функции, выдаваемые программой для каждого класса. Дискретные модели могут
использоваться как самостоятельные, если обеспечивают высокую точность аппроксимации. Но
поскольку абсолютная величина средневзвешенной внутригрупповой дисперсии в модели все
же значительна (4,85), то эту модель мы используем как основу дискретно-непрерывного
моделирования.
Выбор факторов для построения частных регрессий в каждом классе можно осуществить
либо чисто формальным алгоритмом выбора значимых факторов, либо на основе
содержательного анализа их вариации внутри классов и между ними, а также анализа матриц
парных связей факторов друг с другом и с моделируемым показателем внутри каждого класса.
В результате подобного анализа для построения частной регрессии в I классе отобрано 6, во II 5 факторов. Регрессии построены в линейной форме. Остаточная дисперсия дискретнонепрерывной модели, найденная как средневзвешенная из остаточных дисперсий обеих
уравнений регрессии, составляет 1,571 по сравнению с 4,85 в дискретной модели. Очевидно,
что дискретно-непрерывная модель
обеспечивает значительно большую точность по
сравнению с дискретной. Преимуществом дискретно-непрерывной модели является и то, что по
ней можно оценить истинный характер влияния включенных в уравнения регрессии факторов,
поскольку уравнения построены для однородных подсовокупностей. Это позволяет с большей
надежностью пользоваться параметрами модели в аналитических и прогностических целях.
В таблице 5 приводятся результаты оценки точности прогнозирования значений расходов
по переделу X1 по дискретно-непрерывной и единой модели для всей совокупности в форме
распределения Х1 – относительных отклонений расчетных значений Х1 от фактических:
X 1факт.  X 1 расч.
X 1 
X 1факт.
Из приведенных данных видно, что при пользовании дискретно-непрерывной моделью
вместо непрерывной почти вдвое (30 вместо 17) увеличивается число цехов, для которых
расходы по переделу оцениваются с малой ошибкой (от 0 до 4%) и весьма значительно (с 28 до
12 цехов) сокращается число крупных ошибок (свыше 10%). Кроме того, непрерывная модель
дает систематическую погрешность: для цехов на твердом чугуне расчетные оценки завышены,
на жидком - занижены. При пользовании дискретно-непрерывной моделью распределение
отклонений носит случайный характер, без систематической погрешности.
Таблица 5
Вид модели
1. Единая непрерывная
2. Дискретно-непрерывная
Величина относительного отклонения ΔХ1,%
0-2
7
17
2-4
10
13
4-6
7
7
i
6-8
8-10
7
7
10
5
i ------ U
свыше 10
2
12
§ 3. Применение моделей для внутриотраслевого технико-экономического
анализа
Общая задача технико-экономического анализа деятельности объединений и отдельных
предприятий состоит в объективной оценке производственно-хозяйственной деятельности
коллектива предприятий и в выявлении неиспользованных производственных резервов.
Результаты анализа используются для перспективного и текущего планирования. Методической
основой экономического анализа является сравнительный анализ. Он может осуществляться в
нескольких направлениях - фактический уровень системы показателей сравнивается с
плановым, с уровнем прошлых периодов, со среднеотраслевым уровнем, с уровнем лучших
предприятий и др.
Адекватная статистическая модель позволяет оценить долевое участие в изменчивости
моделируемого показателя опосредованно влияющих факторов. Это может быть сделано путем:
а) прямой оценки по величине коэффициентов регрессий "b"или их модификациям коэффициентам эластичности ( b  x / y ),показывающим изменение моделируемого показателя
при изменении на 1% среднего значения данного фактора при фиксированном положении
других;
б) определения диапазона изменения показателя в зависимости от диапазона изменения
отдельных факторов, оценки вклада отдельных факторов в динамику показателя
эффективности;
в) использования разностных форм уравнения, которые характеризуют зависимость
прироста показателя от изменения факторов производства, и могут быть рассчитаны от разного
уровня (среднеотраслевого, лучшего предприятия и т. д.).
Техника и результаты аналитических расчетов. Для анализа изменения моделируемого
показателя в отчетном году данные отчетного и предшествующих годов по каждому
предприятию подставляются в частную регрессионную модель соответствующей этому
предприятию подсовокупности. Расчетное значение показателя по данным прошлого года
показывает, каков был бы уровень показателя в отчетном году при отсутствии изменения
условий производства. Разность получающихся оценок показателя дает изменение его за счет
факторов, включенных в модель. Эта разность для каждого предприятия раскладывается по
отдельным факторам. Для получения сведений по всей отрасли или отдельным объединениям
суммируются взвешенные по объему производства значения разности по всем предприятиям.
Анализ удобно проводить по форме, приведенной в табл. 6. Обобщение результатов анализа,
проведенного по данным большинства предприятий черной металлургии России на основе
дискретно-непрерывной модели, позволило сделать следующее заключение.
1. Эффективность воздействия на себестоимость таких условий производства в
металлургических цехах, как объем выплавленной стали и ее сортамент, технология плавки и
разливки, качество сырья и топлива, степень интенсификации процесса и устарелости
производственных фондов, различна в подсовокупностях цехов,
отличающихся типом производственного процесса.
2.В цехах, работающих на твердом чугуне, резервы снижения себестоимости не
использованы в достаточной мере. Вследствие этого имеет место рост себестоимости по
сравнению с тем уровнем, какой бы достигался при сохранении условий производства
прошлого года (на сумму 3,4 млн. рублей). Главные причины этого явления - чрезмерное
повышение содержания кремния в чугуне (1,3 млн. руб.) и снижение калорийности топлива (1.2
млн. руб).
3.В цехах, работающих на жидком чугуне, использование резервов привело к условному
снижению себестоимости на сумму 16,8 млн. руб. В основном, это достигнуто за счет
сокращения удельного расхода топлива (10,6 млн. руб.), роста объема выплавки (5,8 млн. руб.),
снижения доли чугуна в. садке (6,4 млн. руб.), повышения калорийности топлива (3,5 млн.
руб.). Эффект мог бы выражаться более значительной цифрой, если бы не имели место такие
неблагоприятно влияющие явления, как снижение доли разливки сверху и увеличение
количества простоев печей.
Задание для самостоятельной работы по теме "Моделирование
экономических показателей от производственных факторов"
зависимости
I этап. Статистический анализ материалов анкетного опроса.
По данным таблицы № I рассчитать:
p
а) среднюю взвешенную X 
 x m
i
i 1
i
p
m
i 1
i
где xi - варианты ответов,
mi- частоты,
р - число мест (вариантов ответов) .
б) медиану Ме = XMe+i(n/2-)/mMe
где XMe - начало медианного интервала, включающего ответ с номером n/2
в
упорядоченном ряду ответов,
i - длина интервала,
п - объем выборки,
 - сумма частот всех интервалов, предшествующих медианному.
в) моду Mo = Хmax"m" (вариант с максимальной частотой)
г) долю ответов на трех соседних вариантах, включая медианный.
Таблица 6
Форма расчетов при сравнительном анализе
Наименование
предприятий
Расчеты по фактору Xi (bi=0,0084)
средний
средний
размер
уровень
уровень
изменения
фактора в фактора в
отчетном прошлом Xi=
году
Салдинский завод
цех №1
цех №2
Выксунский завод
xi0
372,9
89,2
156,2
году
xi1
362,7
87,3
169,1
xi0 - xi1
10,2
1,9
12,9
и т.д. по
влияние
фактора
на всем
изменение моделируемо- факторам
моделей
го показателя
для единицы для всего
продукции
выпуска
biXi
biXiV
0,0853
0,0159
-0,108
314,15
9,51
79,57
…
…
…
Итого по предприятиям
для
для всего
единицы выпуска
продукции V
-0,112
0,038
1,009
160,4
603,7
357,2
На основе рассчитанных характеристик требуется сделать выводы о ранжировке групп
факторов по степени влияния на себестоимость стали и оценить согласованность ответов по
полученной ранжировке.
2 этап. Анализ и отбор существенной информации
а) Выявление роли отдельных составляющих в колеблемости себестоимости между
цехами.
Основные статистики, характеризующие интенсивность вариации и взаимосвязь
функциональных показателей между собой, приведены ниже:
Среднее
значение
Наименование показателя
Расходы по переделу X1
Сырьевые затраты Х2
Затраты
на
добавочные
материалы Х3
Себестоимость
1
т
углеродистой стали Х4
X
Среднеквадратическое
отклонение
12,73
39,82
1,22
3,41
2,05
0,44
53,78
3,57
Матрица
коэффициентов
корреляции ( rx x ) с показателями:
i j
Х1
1
Х2
-0,1534
1
Х3
-0,5442
0,1140
1
Х4
0,8102
0,4406
-0,3424
1
Используя эти данные, можно выявить, какую долю в вариацию себестоимости Х4 вносит
каждая из составляющих – Х1, Х2 и Х3.
Для этой цели, поскольку Х4 является аддитивной функцией Х1, Х2 и Х3, можно
воспользоваться формулой дисперсии суммы нескольких случайных величин:
3
3
i 1
i 1
 2 [ xi ]   x2  2 rx y  x   x
i
i j
i
j
i
j
б) Анализ взаимосвязи стоимости стали с качественными факторами производственного
процесса.
Таблица взаимной сопряженности себестоимости и качественных факторов имеет вид:
1
3
6
3
0
10
21
17
4
1
0
11
16
5
0
11
13
7
2
1
0
2
12
5
1
3
10
0
1
0
8
8
3
1
0
без кислорода
прочие
природный газ
+ мазут
8
12
11
1
0
применение
кислорода
Способ
выплавки
Вид топлива
мазут
в изложницы
11
14
6
2
1
Способ
разливки
в
стационарные
канавы
0
10
17
5
0
машинами
46 - 49
50 – 53
54 – 57
58 – 61
> 61
Тип завалки
кранами
Себестоимость (руб.)
на
жидком
чугуне
Тип
процесса
на
твердом
чугуне
Качественные
признаки
3
16
20
5
1
Для определения влияния качественных признаков рекомендуется воспользоваться
коэффициентами взаимной сопряженности Чупрова "К". Для их вычисления составляются
таблицы взаимной сопряженности, подлежащим которых являются значения моделируемого
показателя, заданные "m" интервалами, сказуемым - "n" градаций по каждому из качественных
признаков. В клетках таблицы задаются численности цехов, обладающих данной градацией
качественного признака и с величиной моделируемого показателя, принадлежащего данному
интервалу.
Вычисление коэффициента "К" основывается на измерении отклонений наблюдаемых частот в
клетках таблицы от ожидаемых частот, которые соответствуют теоретическому распределению
в клетках таблицы в предположении о взаимной независимости признаков. Эти отклонения
измеряются обобщенной величиной 2, которая является основным элементом в конструкции
формул взаимной сопряженности:
m
n
 2  
 ij2
, где 2=AiBj - AiBj/N
Ai B j / N
AiBj - наблюдаемая частота, которая соответствует i-му интервалу моделируемого показателя и
j-ой градации качественного фактора;
N - количество объектов в совокупности;
Аi – доля объектов, попавших в i-ый интервал, в совокупности,
AiBj/N – ожидаемая частота,
Bj – доля объектов с j-ой градацией, в совокупности.
Для независимых переменных доля к итогу по строчкам каждой клетки должна быть такой
же, как и доля каждой колонки в общем итоге. Логическим основанием для заключения о
наличии связи между двумя рассматриваемыми переменными служит принцип: поскольку
теоретическое распределение получено в предположении о независимости признаков, то чем
больше наблюдаемое распределение будет отличаться от случайного, тем сильнее должна быть
связь между признаками. Мерой этой связи и является величина 2. Коэффициент "К" Чупрова
устраняет такие недостатки этой меры, как независимость значений 2 от N и от размерности
матрицы (m x n):
2
K
N  (m  1)(n  1)
Статистическая оценка 2 осуществляется по таблицам существенности 2
, где
содержатся значения вероятности Р, с которой принимается гипотеза Н 0 о независимости
признаков при заданном числе степеней свободы (m-1)(n-1). Чем меньше Р, тем больше
оснований для принятия гипотезы Н0.
Результат расчетов необходимо представить в табличном виде:
i 1 j 1
Наименование признака
1.
2.
3.
4.
Величина
2
Коэффициент
сопряженности
Чупрова
Вероятность, с которой
принимается гипотеза
Н0
Тип процесса
Способ разливки
Способ выплавки
Способ завалки
По данным этой таблицы следует сделать выводы об отборе качественных признаков для
процесса моделирования себестоимости стали.
3 этап. Разбиение совокупности
цехов на однородные группы методом древовидной
классификации на основе качественных факторов
Древовидная
классификация
представляет
собой
многошаговый
процесс
последовательных разбиений, когда на первом шаге совокупность разбивается по одному
фактору, на втором шаге каждая из полученных частей разбивается по другому фактору и т.д.
Процесс останавливается при достижении критической (с точки зрения использования
статистических методов анализа) численности групп. В результате этого процесса формируется
дерево разбиений, вершиной которого является общая совокупность.
Выбор группировочного фактора на каждом шаге может осуществляться как по
формальному критерию, так и исходя из априорной оценки важности факторов. Формальным
критерием может служить величина коэффициента качественной вариации Q. Он равен
отношению фактического числа различий всех объектов совокупности к максимально
возможному:
Q
p
p
i2
i 3
n1  ni  n2  ni  ...  n p  2
0
 n n
i  p 1
2
i
n
p 1 p
p ( p  1) / 2  (n / p)
где р - число градаций качественного фактора,
ni - частота, с какой встречается в совокупности i-я градация,
N - численность всей совокупности.
Q
принимает значение от 0 до I. В качестве группировочного выбирается фактор с
максимальным значением Q.
С помощью этого критерия необходимо разбить совокупность цехов на однородные
группы по трем качественным признакам: типу процесса, виду топлива и способу разливки (см.
табл.7).
Результаты рекомендуется оформить в виде схемы:
№ шага и класса
0 шаг
1 шаг
1 класс
2 класс
Величина Q
тип процесса
вид топлива
способ разливки
Численность
цехов
34 цеха
и состав
групп
4 этап. Получение дискретной и дискретно-непрерывной модели себестоимости стали.
Для получения дискретной и дискретно-непрерывной модели рекомендуется
воспользоваться пакетом статистических программ для расчета множественной регрессии.
Исходные данные для расчетов содержаться в табл.7 (количественные факторы и функция себестоимость 1 т стали).
5 этап. Технико-экономический анализ по дискретно-непрерывной модели.
С помощью методики анализа, изложенной в пособии, выявить резервы снижения
себестоимости по сравнению с лучшими предприятиями каждого из классов, формирующих
дискретно-непрерывную модель.
ЛИТЕРАТУРА
1. Статистическое моделирование и прогнозирование. (Учебное пособие под редакцией
А.Г.Гранберга). – М.: Финансы и статистика, 1990.
Таблица 7
Номер
цеха
Х4
Себестоимость
1 т стали,
тыс. руб.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
48.26
47.10
46.94
52.20
52.76
56.31
46.69
54.60
47.26
55.62
56.77
58.83
54.39
56.29
53.64
55.65
56.25
57.98
61.17
62.54
52.79
51.82
55.43
57.47
54.11
58.33
55.73
53.47
58.16
51.61
57.01
Х5
Годовая
выплавка
стали, тыс. т
4289.7
3700.5
3193.5
3176.4
1540.9
78.6
4347.4
2627.6
4892.7
746.7
110.7
342.8
383.1
384.8
157.8
299.2
246.8
80.5
318.1
481.5
391.0
296.5
254.3
333.5
227.1
161.9
170.1
1254.2
775.7
1086.9
362.0
Экономические характеристики и производственные факторы по объектам черной металлургии
Количественные факторы
Качественные факторы
Х6
Х7
Х8
Х9
Тип процесса
Вид топлива
Доля
Содержание
Калорийность
Средний
На
На
чугуна в
в чугуне
топлива, ккал
срок службы
Мазут +
жидком
твердом
Мазут
Прочие
садке, %
фосфора,
цеха, лет
пром. газ
чугуне
чугуне
%
59.7
0.078
10.16
8.2
+
+
61.0
0.078
10.24
32.2
+
+
60.1
0.078
11.13
23.4
+
+
59.3
0.15
3.50
12.9
+
+
55.9
0.15
10.00
23.8
+
+
46.1
0.13
9.83
53.0
+
+
57.9
0.16
5.87
32.5
+
+
56.0
0.14
10.61
4.7
+
+
54.5
0.12
10.55
6.5
+
+
36.2
0.17
9.59
7.3
+
+
34.6
0.14
9.66
76.9
+
+
34.6
0.14
9.68
1.3
+
+
28.8
0.13
10.73
65.17
+
+
33.7
0.18
8.7
21.0
+
+
26.4
0.17
9.63
30.0
+
+
32.0
0.09
10.46
21.0
+
+
35.2
0.25
9.74
56.7
+
+
30.8
0.25
9.73
56.0
+
+
61.6
0.13
9.48
66.7
+
+
73.8
0.06
5.37
22.0
+
+
37.7
0.15
9.54
52.5
+
+
33.4
0.13
10.4
42.3
+
+
49.2
0.15
9.81
35.5
+
+
45.1
0.16
9.57
44.5
+
+
39.0
0.12
9.72
60.7
+
+
39.6
0.17
9.56
28.0
+
+
52.8
0.12
9.57
56.5
+
+
57.5
0.18
11.18
13.2
+
+
55.8
0.18
10.23
17.2
+
+
32.5
0.12
10.00
20.1
+
+
37.5
0.12
10.00
23.2
+
+
Способ разлива
Канавы
Изложницы на
тележках
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Скачать