ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ ПАНЕЛЬНЫХ ДАННЫХ (36 ЧАСОВ) д.э.н. Е.А.Коломак Программа курса Введение Однонаправленная панельная модель Двунаправленная панельная модель Тестирование гипотез для панельных данных Несбалансированные панели Модель с гетероскедастичностью Модель с серийной автокорреляцией Динамическая панельная регрессия Векторная авторегрессия панельных данных Бинарные зависимые переменные в панельных данных 1. Обзор линейной регрессии 1.1. Метод наименьших квадратов 1.2. Тестирование гипотез 1.1. Метод наименьших квадратов i=1,..,n – индекс наблюдения yi – наблюдения над зависимой переменной, xi – вектор наблюдений над независимыми переменными yi xiT ei β - вектор коэффициентов регрессии, ei – ошибка регрессии, xiT – транспонированный вектор наблюдений над независимыми переменными. x1i xi ... x ki 1 ... k 1.1. Метод наименьших квадратов В матричном виде: y X e где y ( y1 ,..., yn )T x1T X ... xT n e (e1 ,..., en )T xi1=1 для i=1,…,n , в этом случае β1 является константой 1.1. Метод наименьших квадратов Метод наименьших квадратов (Ordinary Least Squares - OLS) ˆ OLS arg min yˆi xiT ̂ n T 2 ( y x ) i i i 1 ˆOLS ( X T X )1 X T y eˆi yi yˆi Оценки метода наименьших квадратов являются несмещенными линейными оценками с минимальной дисперсией, если верны следующие предположения о стохастической структуре модели: E(ei)=0 E(ei2)=σ2 E(eiej)=0 для всех i≠j rk X=k<n xj – детерминированы Оценки метода наименьших квадратов имеют нормальное распределение, если дополнительно выполнено условие о явной форме ошибок: ei ~N(0, σ2) 1.1. Метод наименьших квадратов Ковариационная матрица VarˆOLS 2 ( X T X ) 1 1 n 2 s eˆi n k i1 Оценка дисперсии ошибок σ2: 2 Стандартная ошибка коэффициента регрессии Коэффициент детерминации RSS eˆT eˆ yˆ T yˆ R 1 1 T T TSS y y y y 2 se ( ˆ j ) s ( X T X ) 1 2 adj R jj eˆT eˆ (n k ) 1 T y y (n 1) RSS – сумма квадратов ошибки регрессии, TSS – сумма квадратов центрированных значений зависимой переменной 1.1. Метод наименьших квадратов Если в модели линейной регрессии нарушены предположения, что E(ei2)=σ2 и E(eiej)=0 для всех i≠j, то наиболее эффективной в классе линейных несмещенных оценок является оценка обобщенного метода наименьших квадратов (Generalized Least Squares – GLS). ˆGLS ( X T 1 X ) 1 X T 1 y Где Ω – ковариационная матрица ошибок регрессии. Ковариационная матрица оценки: Varˆ GLS 1 (X X ) T 1 1.1. Метод наименьших квадратов Доступный обобщенный метод наименьших квадратов (Feasible Generalized Least Squares - FGLS). На первом этапе методом наименьших квадратов получают состоятельные оценки ошибок и оценку ковариационной матрицы Ω, На втором этапе получают оценки регрессионной модели. ˆ 1 X ) 1 X T ˆ 1 y ˆFGLS ( X T ˆ 1 X ) 1 VarˆFGLS ( X T se ( ˆ jFGLS ) ( X T 1 X ) 1 jj 1.2. Тестирование гипотез Существует два подхода к тестированию гипотез: точный и асимптотический. Точный подход основан на предположении о нормальности распределения ошибок регрессии. Асимптотический подход опирается на следствия центральной предельной теоремы. 1.2. Тестирование гипотез. Точный подход: ei ~N(0, σ2) 1. Линейная гипотеза относительно коэффициентов: H 0 : R r где R – матрица размерности qxk, а r – вектор размерности qx1. Пример: 1 2 2 3 0 1 0 0 R 0 1 1 1 2 3 2 r 0 Статистика для проверки гипотез или ( Rˆ r )T ( R( X T X ) 1 RT ) 1 ( Rˆ r ) F ~ Fq,n-k qs 2 (eˆ rT eˆ r eˆT eˆ) q F eˆT eˆ (n k ) ~ Fq,n-k 1.2. Тестирование гипотез. Точный подход: ei ~N(0, σ2) Наиболее часто тестируемые гипотезы: 1. Проверка на значимость регрессионной модели в целом H 0 : 2 .... k 0 (TSS RSS ) (k 1) yˆ T yˆ (k 1) R2 n k F T 2 ˆ ˆ RSS (n k ) e e (n k ) 1 R k 1 2. Проверка гипотезы о значении отдельного коэффициента H 0 : j (j 0) ˆ j (j 0) se ( ˆ j ) t nk ˆ tn k ˆ tn k ˆ ˆ s ( ) q ; s ( ) q j e j 1 j e j 1 2 2 1.2. Тестирование гипотез. Асимптотический подход: ˆ n В этом случае 1. se ( ˆ j ) 1 n 2 ˆ eˆi n i1 2 ( X T X ) 1 Линейная гипотеза относительно коэффициентов: H 0 : R r W ( Rˆ r )T ( RVˆRT ) 1 ( Rˆ r ) q2 ˆ 1 X ( X T X ) 1 Vˆ ( X T X ) 1 X T 2. Гипотеза о значении коэффициента регрессии H 0 : j (j 0) ˆ j (j 0) se ( ˆ j ) N (0,1) n ˆ N ( 0,1) ˆ N ( 0,1) ˆ ˆ s ( ) q ; s ( ) q j e j 1 j e j 1 2 2 jj 2. Панельные данные 2.1. Структура панельных данных 2.2. Преимущества панельных данных 2.3. Линейная модель панельных данных 2.1. Структура панельных данных Панельные данные представляют собой наблюдения над однородными объектами в течение определенного периода времени, таким образом, панельные данные объединяют кросс-секции и временные ряды. Пусть i=1,…,n – индекс объекта, t=1,…,T – индекс момента времени, тогда yit – наблюдения над зависимой переменной, xit – вектор наблюдений над независимыми переменными. Если для всех объектов имеются наблюдения в каждый момент времени, тогда панель считается сбалансированной, общее количество наблюдений равно n*T. Если для некоторых i или t наблюдения отсутствуют, то панель считается несбалансированной. Если в различные моменты времени наблюдаются различные объекты, то в этом случае имеем дело с псевдопанелью. 2.1. Структура панельных данных Примеры регрессий с панельными данными. Wit – заработная плата объекта i в момент времени t, Eduit – образование объекта i в момент времени t, Expit – опыт работы объекта i в момент времени t, Hoursit – количество отработанных часов объекта i в момент времени t. Оценивается влияние образования, опыта работы и отработанного времени на заработную плату. Wit 1 2 Eduit 3 Expit 4 Expit2 5 Hours it eit Iit – инвестиционные вложения на предприятии i в момент времени t, Fit – рыночная стоимость предприятия i в момент времени t, Сit – основные фонды предприятия i в момент времени t. Оценивается влияние рыночной стоимости и накопленных основных фондов на инвестиции. I it 1 2 Fit 3Cit eit 2.2. Преимущества панельных данных 1. 2. 3. Большее количество наблюдений увеличивает число степеней свободы, уменьшает коллинеарность независимых переменных и позволяет получить более эффективные оценки. Возможность контролировать неоднородность объектов в выборке. Позволяют тестировать эффекты, которые невозможно идентифицировать в кросс-секциях и во временных рядах. Примеры - исследование рынка труда женщин; -влияние членства в профсоюзе на заработную плату. 2.2. Преимущества панельных данных 4. В случае временных рядов возникает проблема оценки динамических коэффициентов, например при оценки модели распределенного лага h yt xt ut , 0 5. Панельные данные позволяют снизить остроту проблемы отсутствующих и ненаблюдаемых переменных yit * T xit T zit uit Если zit=zi для всех t=1,…,T. yit yi ,t 1 T ( xit xi ,t 1 ) (uit ui ,t 1 ), Если zit=zt для всех i=1,…,n yit yt T ( xit xt ) (uit ut ), 1 n yt yit n i 1 1 n xt xit n i1 1 n ut uit n i1 2.3. Линейная модель панельных данных Линейная панельная модель yit xitT uit i – индекс объекта, t – индекс момента времени, β – вектор коэффициентов регрессии, xitT – транспонированный вектор наблюдений над k независимыми переменными. x1it xit ... x kit Однонаправленная модель ошибки: 1 ... k uit i it μi – ненаблюдаемые индивидуальные эффекты, υit – остаточные идиосинкратические компоненты. Двунаправленная модель ошибки: uit i t it λi – ненаблюдаемые временные эффекты. 2.3. Линейная модель панельных данных Предполагается, что μi, λi и υit являются независимыми одинаково распределенными величинами с нулевой средней и постоянной дисперсией σμ2, σλ2 и συ2 соответственно. Индивидуальные и временные эффекты могут трактоваться как фиксированные или как случайные. В первом случае оценивается модель с фиксированными эффектами, во втором случае оценивается модель со случайными эффектами.