20
Памятка по эконометрике Интерпретация спецификаций с логарифмами Расчеты показателей для оценки качества регрессии и проверки гипотез Предсказание Y для модели, в которой зависимая переменная – logY Сравнение логарифмической и линейной моделей Избранные формулы Условия Гаусса-Маркова Мультиколлинеарность Проверка линейных ограничений Сравнение «длинной» и «короткой» регрессий. Целесообразность добавления группы новых переменных Тесты на спецификацию Фиктивные переменные (dummy variables). Ловушка фиктивных переменных. Фиктивные переменные (dummy variables). Тест Чоу. Гетероскедастичность Автокорреляция случайного члена Временные ряды Интерпретация спецификаций с логарифмами 1 2 ln ln Y X X на 1%→Y ↑ на β 2 % 1 2 ln Y X X на 1 единицу→Y ↑ на (e β2 -1)*100% (при малых -0,2<β 2 <0,2 это примерно равно β 2 *100%) 1 2 ln Y X X на 1%→Y ↑ на β 2 /100 единиц Расчеты показателей для оценки качества регрессии и проверки гипотез Была оценена регрессия lnv логарифм выпуска на предприятии на lnk логарифм капитала, lnl логарифм труда. 1. Необходимо понять, что за модель оценивалась и сколько в ней регрессоров: 0 1 2 ln ln ln v l k В этой модели k=3 регрессора (константа, lnl, lnk) 2. Number of obs=25 (количество наблюдений n) 3. Model SS =Explained SS (ESS) - это сумма квадратов отклонений предсказанных значений от их среднего. В нашем случае Model SS=44,173 4. Residual SS это сумма квадратов отклонений остатков от их среднего. Среднее остатков в модели с константой всегда равно нулю, поэтому это сумма квадратов остатков. В нашем случае Residual SS=1,222 5. Total SS общая сумма квадратов, то есть сумма квадратов отклонений наблюдаемых значений зависимой переменной от ее среднего. В нашем случае Total SS=45,395 2 3 1 4 5 6 7 8 9 10 11 12

Памятка по эконометрике

Embed Size (px)

Citation preview

Памятка по эконометрике

Интерпретация спецификаций с логарифмами

Расчеты показателей для оценки качества регрессии и проверки гипотез

Предсказание Y для модели, в которой зависимая переменная – logY

Сравнение логарифмической и линейной моделей

Избранные формулы

Условия Гаусса-Маркова

Мультиколлинеарность

Проверка линейных ограничений

Сравнение «длинной» и «короткой» регрессий. Целесообразность добавления группы новых

переменных

Тесты на спецификацию

Фиктивные переменные (dummy variables). Ловушка фиктивных переменных.

Фиктивные переменные (dummy variables). Тест Чоу.

Гетероскедастичность

Автокорреляция случайного члена

Временные ряды

Интерпретация спецификаций с логарифмами

1 2ln lnY X X ↑ на 1%→Y ↑ на β2%

1 2lnY X X ↑ на 1 единицу→Y ↑ на (eβ2

-1)*100% (при малых -0,2<β2<0,2 это примерно равно

β2*100%)

1 2 lnY X X ↑ на 1%→Y ↑ на β2/100 единиц

Расчеты показателей для оценки качества регрессии и проверки гипотез Была оценена регрессия lnv – логарифм выпуска на предприятии на lnk – логарифм капитала, lnl –

логарифм труда.

1. Необходимо понять, что за модель оценивалась и сколько в ней регрессоров:

0 1 2ln ln lnv l k

В этой модели k=3 регрессора (константа, lnl, lnk)

2. Number of obs=25 (количество наблюдений n)

3. Model SS =Explained SS (ESS) - это сумма квадратов отклонений предсказанных значений от их

среднего. В нашем случае Model SS=44,173

4. Residual SS – это сумма квадратов отклонений остатков от их среднего. Среднее остатков в модели

с константой всегда равно нулю, поэтому это сумма квадратов остатков. В нашем случае Residual

SS=1,222 5. Total SS – общая сумма квадратов, то есть сумма квадратов отклонений наблюдаемых значений

зависимой переменной от ее среднего. В нашем случае Total SS=45,395

2 3

1

4

5

6

7

8

9

10

11

12

Памятка по эконометрике

6. F-статистика проверяет значимость регрессии в целом. Гипотеза: все коэффициенты, кроме

константы, равны нулю (то есть что наша модель не лучше, чем просто Y Y )

Математики установили, что если нулевая гипотеза верна, такая статистика имеет F-распределение.

То есть чем больше значение статистики, тем менее вероятно, что нулевая гипотеза верна.

2

2

/ ( 1) / ( 1)( 1, )

/ ( ) 1 / ( )

ExplainedSS k R kF k n k

ResidualSS n k R n k

В числителе – 44,173

22,0862

Model MS (смысл – сумма квадратов отклонений

предсказанных значений от их среднего в расчете на 1 регрессор (исключая константу): то есть,

сколько объяснил в среднем каждый регрессор, кроме константы)

В знаменателе 1,222

0,05522

Residual MS (смысл – дисперсия остатков)

В нашем случае F=22,086/0,055=397,54. Это очень много. Такого почти не могло бы быть, если бы

нулевая гипотеза была бы верна.

Суть теста: если объяснено (ESS) намного больше, чем осталось(RSS), то не зря включали

регрессоры помимо константы – модель значима. Чем выше F-статистика, тем меньше вероятность,

что гипотеза о совместном равенстве коэффициентов нулю, верна.

7. Prob>F - Значимость F-статистики (≈вероятность того, что она незначима)

Полученное значение F сравнивают с табличным для F(k-1, n-k), в данном случае для F(2,22)=5,72.

Расчетное значении существенно выше табличного, значит наш случай попадает далеко за пределы

границ принятия нулевой гипотезы.

Почти всегда, если расчетное значение F больше 10, модель высоко значима.

8. R-squared

R2 – доля объясненной дисперсии (или доля объясненной суммы квадратов в общей). Равен

квадрату корреляции между предсказанными и наблюдаемыми значениями Y. В парной регрессии

равен корреляции между X и Y.

2 ESSR

TSS или

2 1RSS

RTSS

В нашем случае это 44,173

0,973 45,395

Model SS

Total SS или

1,2221 1 0,973

45,395

Residual SS

Total SS

9. Adj. R-squared

2 2

11 1adj

nR R

n k

В нашем случае 2 (25 1)

0,9731) 0,1 9706(25 3)

(1adjR

10. Root MSE (RMSE) – среднеквадратическая ошибка регрессии. Показатель качества

регрессии – при сравнении моделей лучше, чтобы он был меньше.

RSSRMSE

n k

В нашем случае 1,222

0,055 0,2357125 3

RMSE Residual MS

11. t-статистики коэффициентов показывают во сколько раз оценка коэффициента больше его

стандартной ошибки (она показывает точность измерения коэффициента). Чем в большее

число раз коэффициент больше своей стандартной ошибки, тем более вероятно, что он

отличен от нуля.

.t

s e

Если |t|>tтабличное (уровень значимости 5% или 1%, двухсторонний тест; n-k степеней

свободы), то коэффициент значимо отличен от нуля

На выборках больше 20 если |t|>2,1, то практически наверняка коэффициент значимо отличен

от нуля

Памятка по эконометрике

Односторонние тесты:

Если видим, что оценка коэффициента больше нуля и хотим проверить, больше она нуля или

равна нулю, и не рассматриваем возможности, что она может быть меньше нуля, то используем

односторонний критерий

0

1

: 0

: 0

H

H

Если t расч>t одностор (табличное), то отвергаем нулевую гипотезу: коэффициент, скорее всего

больше нуля.

Аналогично и в случае с проверкой на отрицательность. Если теоретически коэффициент не может

быть положителен:

0

1

: 0

: 0

H

H

Если t расч<-t одностор (табличное), то отвергаем нулевую гипотезу: коэффициент, скорее всего

меньше нуля.

Если нам нужно протестировать равенство коэффициента какому-то числу a, то t расчетное

просто записываем как:

.

at

s e

(видно, что эта статистика измеряет отличие полученной нами оценки от тестируемого

значения a )

12. [95% Conf. Interval] - 95%-ный доверительный интервал

Позволяет сказать, в какой интервал почти наверняка попадает значение коэффициента

регрессии, если ее построить не по выборке, а по всей генеральной совокупности наблюдений.

таблич., двустор . .t s e

В статьях обычно не приводятся доверительные интервалы, но есть значения стандартных

ошибок, поэтому можно примерно считать, что доверительный интервал при выборках больше

20 равен 2 . .s e

Предсказание Y для модели, в которой зависимая переменная – logY

b=0 b>0

Памятка по эконометрике Часто мы используем логарифм зависимой переменной, вместо нее самой, а затем хотим предсказать

значение исходной переменной. Например: 1 2ln ...Y X (в правой части уравнения могут быть

любые переменные – как логарифмированные, так и нет). Если в качестве предсказания для Y использовать logYY e , то мы будем получать заниженную оценку Y . Более корректной оценкой будет

logYY e , для

получения которой требуется выполнить следующие шаги:

1. Создать lnY - предсказанные значения логарифма Y.

2. Создать переменную lnYM e

3. Построить регрессию Y на M без константы (!): Y M . Предсказанные по полученной формуле

Y и будут состоятельными оценками истинного Y. α можно воспринимать как корректирующий

коэффициент.

Сравнение логарифмической и линейной моделей Для сравнения логарифмической модели и линейной можно сравнить коэффициенты корреляции между

наблюдаемыми и предсказанными значениями в двух случаях.

Избранные формулы В парной регрессии F-статистика равна квадрату t-статистики коэффициента наклона.

1

X X X Y

- вектор коэффициентов регрессии

Y X

Эластичность Y по XX Y

смысл: приблизительно на сколько % вырастет Y при увеличении

X на 1%

Y

Предельный эффектX

смысл: приблизительно на сколько единиц вырастет Y при

увеличении X на 1 ед.

Условия Гаусса-Маркова (в скобках базовые способы проверки) 1. E(ui)=0 (математическое ожидание ошибки равно нулю, на данных: среднее остатков в модели с

константой автоматически равно нулю)

2. Нет мультиколлинеарности (сильной корреляции между регрессорами: если между какими-то

регрессорами корреляция выше 0,7, то надо задуматься о возможных последствиях

мультиколлинеарности)

3. Гомоскедастичность ошибок σui=σ (на данных: нет зависимости между остатками и предсказанными

значениями или квадратом остатков и регрессорами – дисперсия остатков постоянна).

4. Нет автокорреляции ошибок cov(ui,uj)=0 (последующие ошибки не зависят от предыдущих, а

формируются случайным образом, на данных: если нарисовать остатки, то он наблюдения к

наблюдению они произвольно скачут)

В случае их выполнения МНК – это Best Linear Unbiased Estimator

5. Желательна нормальность распределения ошибок (на практике – остатков). Она нужна для

корректности тестов (нормальное распределение остатков гарантирует нормальность распределения

коэффициентов и применимость t-теста и F-теста). При этом условии больше уверенность в том,

что случайный член – это сумма случайных величин (которая по ЦПТ распределена нормально при

большом объеме выборки).

Мультиколлинеарность а. Мультиколлинеарность – ситуация, когда объясняющая переменная достаточно хорошо

объясняется другими переменными

б. Интуитивное понимание проблемы: если две переменные коррелированны, то мы не можем

различить их влияние на зависимую.

Например, для модели 0 1 1 2 2Y X X Не работают слова «при прочих равных условиях рост

X1 ведет к росту Y на….», так как не будет прочих равных условий – вместе с X1 меняется и X2.

в. Признаки того, что в регрессии есть мультиколлинеарность:

Некоторые коэффициенты имеют неожиданный знак, все или большинство переменных по

отдельности незначимы, тогда как F-статистика значима и R2 достаточно большой.

Памятка по эконометрике

г. Обнаружение:

а. Наличие коэффициентов корреляции между объясняющими переменными выше 0,8

б. Более корректный способ. Рассчитать Variance Inflation Factor для каждой переменной –

если он выше 5, то надо проанализировать возможные причины и последствия

мультиколлинеарности.

1 2 3

2 1 3

1 2

, ....

2 2

, ....

1

1

1

1

x x x

x x x

VIFr

VIFr

Стандартные ошибки коэффициента при переменной i в iVIF раз выше, чем если бы

объясняющие переменные были некоррелированы. Отсюда и название Variance Inflation Factor –

дисперсия оценки, соответственно, в VIF раз больше, чем в случае полного отсутствия

мультиколлинеарности.

д. Последствия:

a. Оценки остаются несмещенными (если строить много уравнений регрессии по выборкам из

генеральной совокупности и рассматривать получаемые оценки коэффициентов, то они

будут распределены вокруг истинного значения коэффициента)

b. Стандартные ошибки возрастут. Поскольку 2 или более объясняющих переменных сильно

коррелированны между собой мы не можем точно оценить их влияние. Оценки

коэффициентов регрессии становятся менее точными, то есть стандартные ошибки

коэффициентов растут.

е. Борьба:

Ничего не делать и при этом избежать смещения из-за неверной спецификации

Выкинуть одну из сильно коррелированных с другими переменных (как бы

лишнюю)

Выполнить преобразование коррелированных переменных (сложить несколько

переменных или заменить средним, поделить одно на другое, но все это так, чтобы

имело смысл)

Увеличить размер выборки

Лучше бороться только в случае, когда ожидания не оправдались (незначимость коэффициента).

Если t-статистики большие (коэффициенты высоко значимы), то обычно лучше не трогать.

Памятка по эконометрике

Проверка линейных ограничений

а. Проверка того, что сумма или разность коэффициентов равна определенному числу

Пусть рассматривается регрессия 0 1 1 2 2 3 3 4 4y x x x x и мы хотим проверить, что

сумма или разность двух коэффициентов равна определенному числу.

0 3 4

1 3 4

:

:

H a

H a

Находим

3 4 3 4

3 4 3 4 3 4var var 2cov ,

a at

se

Оценки коэффициентов берутся из результатов оценивания регрессии. Дисперсии оценок коэффициентов

( 3var и 4var ) и ковариация между ними ( 3 4cov , ) берутся из ковариационной матрицы (в

Eviews после построения регрессии выбрать View – Covariance Matrix). Дисперсия – это ковариация оценки

коэффициента с самим собой. Либо дисперсию оценки можно найти как квадрат ее стандартной ошибки

(Std. Error в стандартном аутпуте любого пакета).

Эта статистика измеряет то, насколько полученные нами в регрессии без ограничений оценки параметров

отличаются от тех, которые соответствуют проверяемым ограничениям.

При a=0 и знаке “-“ между оценками коэффициентов получается, что мы тестируем равенство

коэффициентов друг другу.

Если расчетное значение превышает табличное значение двусторонней t-статистики для заданного

уровня значимости и n-k степеней свободы (напоминаю, что n – число наблюдений, k – число

регрессоров, включая константу), то нулевая гипотеза отвергается.

Тестирование линейных ограничений в EViews делается через меню View – Coefficients Tests – Wald

Coefficient restrictions, где вводится линейное ограничение, проверить которое Вы хотите.

б. Универсальный способ тестировать линейные ограничения. Сравнение «длинной» и

«короткой» регрессий. Целесообразность добавления группы новых переменных

Рассматриваются 2 регрессии: длинная (unrestricted – без ограничения) и короткая (restricted – с

ограничением). Короткая может получаться из длинной накладыванием на длинную ограничений

(простейшее – это сказать, что коэффициенты перед какими-то переменными равны нулю, более сложное –

что линейная комбинация коэффициентов чему-то равна). При переходе от короткой регрессии к длинной

происходит снижение суммы квадратов остатков с RRSS до URRSS , то есть регрессия становится более

точной. Вопрос: существенно ли длинная регрессия лучше короткой? Нет ли оснований отвергнуть

гипотезу о равенстве определенных коэффициентов нулю или гипотезу, соответствующую какому-то

другому ограничению, благодаря которому из длинной регрессии получается короткая? 2 2

2

( ) / ( ) ( ) / ( )( , )

/ ( ) (1 ) / ( )

R UR UR R

UR UR

RSS RSS m k R R m kF m k n m

RSS n m R n m

k - количество регрессоров в короткой (restricted) регрессии

m – количество регрессоров в длинной (unrestricted) регрессии

n – количество наблюдений

Вариант с RSS (сумма квадратов остатков) работает всегда, а с R2 работает только, если у нас одна и та же

зависимая переменная в двух регрессиях, иначе не удастся сократить формулу с RSS в формулу с R2 (из-за

того, что у каждой зависимой переменной будет своя TSS.

Памятка по эконометрике

Из того как выглядит эта статистика видно, что она измеряет по сути, насколько существенно снижение

суммы квадратов остатков (RSS) при переходе от короткой к длинной регрессии. При этом, если это

улучшение достигается за счет добавления (добавляется m-k переменных) небольшого числа переменных,

то это более ценно (F-статистика будет выше), чем когда добавляется много переменных.

Если рассчитанная F-статистика больше, чем табличная с m-k, n-m степенями свободы, то длинная

регрессия существенно лучше (гипотеза об ограничениях отвергается).

Тестирование линейных ограничений в EViews делается через меню View – Coefficients Tests – Wald

Coefficient restrictions, где вводится ограничение на равенство всех добавленных коэффициентов друг

другу и нулю или какое-то иное более специфическое ограничение.

Последствия неправильной спецификации

Коэффициенты Стандартные

ошибки

коэффициентов

Включили

лишнюю

переменную Z

Нет смещения коэффициентов

Стандартные

ошибки

корректные, но

завышенные

Пропустили

нужную

переменную Z

– эта

проблема

важнее

включения

лишней

переменной

Обычно есть смещение по сравнению с истинным значением (кроме

ситуации, когда у пропущенной переменной коэффициент 0 или она

некоррелирована с включенной переменной):

Некорректные, t-

тестом

пользоваться

некорректно

Тесты на спецификацию

При построении модели можно попробовать разные наборы объясняющих переменных.

Переменную разумно оставить в модели, если:

1. Есть серьезные теоретические предпосылки включения переменной

2. Высокие значения t-статистики коэффициента при этой переменной

3. R2-adj увеличивается при включении этой переменной

4. Другие коэффициенты заметно меняются при исключении этой переменной

5. Информационные критерии падают после включения данной переменной

(чем они меньше, тем лучше). AIC – критерий Акайке, BIC - критерий

Шварца (байесовский).

Эконометрические тесты

Название Содержание Нулевая гипотеза

Как проделать в

EViews из окна

уравнения

регрессии (объект

Equation)

Тест

Вальда

(=F-тест)

Тестируются линейные

ограничения, накладываемые

на коэффициенты, когда мы

хотим посмотреть, можно ли

сделать модель более

Есть линейное ограничении

(например, один коэффициент

равен другому, коэффициент

равен 0, коэффициент равен 2,

один коэффициент в два раза

View – Coefficient

Tests – Wald test. Если sig<0,05 на 5%

уровне значимости

отвергаем гипотезу

Памятка по эконометрике

экономичной. Используется F-

статистика

больше другого и т. п. о возможности

наложения

линейного

ограничения.

F-тест на

пропущен

ные

переменн

ые

Сравниваются короткая и

длинная регрессия (то есть

регрессия, полученная из

короткой путем добавления

указанных аналитиком

переменных, которых еше нет

в уравнении)

Все коэффициенты перед

вновь включенными

переменными равны нулю. Не

нужно включать их в

уравнение, они не

пропущенные.

View – Coefficient

Tests – Omitted

variables.

Если sig<0,05, то

нулевая гипотеза

отвергается,

коэффициенты

перед новыми

переменными НЕ

равны нулю,

протестированные

переменные

значимы. Можно

включать

выбранные

переменные.

F-тест на

лишние

переменн

ые

Сравниваются длинная

короткая регрессия (то есть

регрессия, полученная путем

удаления указанных

аналитиком переменных,

которые уже есть в длинной

регрессии)

Все коэффициенты перед

переменными, которые

предлагается удалить, равны

нулю. Можно удалять из

уравнения, они лишние.

View – Coefficient

Tests – Redundant

variables.

Если sig>0,05, то

нулевая гипотеза

верна: можно

удалить лишние

переменные

Ramsey

RESET

test

Сравнивается исходная

регрессия с регрессией, в

которую добавлены

предсказанные значения Y (т.е.

Y ) в квадрате и, может быть,

еще более высоких степеней

Например:

Y=a+bX – было

Y=a+bX+(a+bX)^2 – стало,

т.к. здесь добавили как раз

предсказанный Y в квадрате

Добавляемые слагаемые

совместно незначимы

(коэффициенты перед ними

равны нулю). Нет ошибки

спецификации.

View – Stability

Tests – Ramsey

RESET test

Если sig<0,05, то

включенные

слагаемые значимы

и имеет смысл

подумать о

включении других

переменных или

нелинейной

спецификации

модели

Фиктивные переменные (dummy variables). Ловушка фиктивных переменных. Если есть номинальная или порядковая переменная, принимающая k значений, то, чтобы она была

пригодна для анализа нужно перекодировать ее в k-1 фиктивных (или в k, но в анализе использовать только

k-1).

Пол – фиктивная переменная. Принимает 2 значения (мужчина/женщина). Для кодировки требуется 1

фиктивная переменная (принимающая значение 1, если человек мужчина, 0 – если женщина или наоборот).

Например, если пол кодировать не одной переменной, а двумя, то получится:

0 1 2i i iY man woman

Памятка по эконометрике

Проблема 1. Как интерпретировать? Если человек мужчина, то у него зарплата выше на 1 по

сравнению с кем? Что такое 0 , если man и woman одновременно не могут быть 0?

Проблема 2. Невозможно рассчитать коэффициенты.

Мужчина? Женщина? зарплата

Респондент 1 1 0 10

Респондент 2 0 1 15

Респондент 3 1 0 20

Матрица

1 1 0

1 0 1

1 1 0

X

В ней первый столбец равен сумме двух других.

1 1 1 1 1 0 3 2 1

1 0 1 1 0 1 2 2 0

0 1 0 1 1 0 1 0 1

X X

У полученной матрицы нулевой определитель! А значит не получится взять обратную матрицу (так как в

этой операции определитель находится в знаменателе, а при делении на 0 имеем неопределенность и т.

п.)

Проблемы можно решить, опустив константу, тогда коэффициенты станут средним заработком мужчин и

женщин, соответственно. Но поскольку нас интересует не поиск средних которые можно и так посчитать, а

оценка значимости различий, лучше просто одну из категорий сделать эталонной, чтобы было с чем

сравнивать!

Правильная спецификация:

0 1i iY man

Интерпретация: по сравнению с женщинами, мужчины зарабатывают в среднем на 1 больше.

Пример 2:

Есть 3 жанра: боевики, комедии, триллеры. Как зависят кассовые сборы от жанра?

Правильная спецификация:

0 1 2iY comedy thriller

Можно в качестве эталонной взять и другой жанр, но мы взяли боевики.

Интерпретация: по сравнению с боевиками при прочих равных условиях комедии зарабатывают на

1 больше, чем боевики. Триллеры – на 2 больше боевиков.

Фиктивные переменные (dummy variables). Тест Чоу.

Исследуется взаимосвязь между опытом работы, уровнем образования и заработной платой для людей от

25 до 50 лет. Мы считаем, что уровень образования человека (education) может принимать три значения:

0 – нет высшего образования

1 – бакалавр

2 – магистр

Если мы просто включим эту переменную в регрессию 0 1 2Y experience education , то получится,

что мы считаем, что:

Человек, у которого нет высшего образования (education=0) в среднем получает

0 1experience рублей

Бакалавр (education=1) получает 0 1 2experience рублей

Памятка по эконометрике

Магистр (education=2) получает 0 1 22experience

То есть каждый уровень высшего образования приносит 2 рублей к предыдущему.

Но, чаще всего, это слишком сильное ограничение и поэтому вводят фиктивные переменные

edu0 = 1, если нет высшего образования

edu1 =1, если бакалавр

edu2 =1, если магистр

Для каждого человека только одна из этих переменных может быть равна 1, так как фиксируется наиболее

высокий уровень образования, полученный человеком.

Получаем зависимость вида:

0 1 2 31 2Y experience edu edu

Интерпретация:

Если у человека edu1=0 и edu2=0 (то есть у него нет высшего образования), то он получает в

среднем 0 1experience

Если у человека edu1=1 (бакалавр), то он получает 0 1 2experience

Если у человека edu2=1 (магистр), то он получает в среднем 0 1 3experience

Таким образом, не делается предположение о том, что магистерская степень добавляет в 2 раза больше, чем

бакалаврская для человека, у которого нет высшего образования.

опыт

зарплата

β0

β0+ β2

β0+ 2β2 Нет высшего

образования

бакалавр

магистр

β0

β0+ β2

β0+ β3

Нет высшего

образования

бакалавр

магистр

зарплата

опыт

Памятка по эконометрике Картина стала лучше отражать действительность: прирост зарплаты может быть максимален при переходе

от отсутствия высшего образования к бакалавриату, а после магистратуры прирост может быть меньше (в

предыдущей спецификации такой возможности не существовало).

Но вполне возможно, что не только базовый уровень зарплаты (при нулевом опыте), но и влияние опыта

различается при разном уровне образования! Тогда нужно ввести еще дамми-переменные для

коэффициента наклона. За базу по-прежнему берем человека без высшего образования

0 1 2 3 4 51 2 1 2Y edu edu edu edu experience

Теперь мы ввели полный набор дамми-переменных.

Вначале (первая скобка) показали, что при отсутствии опыта человек без образования получает 0 ,

человек с бакалаврским 0 1 , магистр получает 0 2 .

Затем (вторая скобка) показали, что для человека без образования каждый месяц опыта работы приносит

3 рубля, для бакалавра 3 4 , для магистра - 3 5

Для оценки этих коэффициентов нужно раскрыть скобки и мы увидим, какими дожны быть регрессоры:

0 1 2 3 4 5

0 1 2 3 4 5

1 2 1 2

1 2 1 2

Y edu edu edu edu experience

edu edu experience edu experience edu experience

Таким образом, нужно построить регрессию зарплаты Y на edu1, edu2, experience и произведения

1edu experience и 2edu experience

То, что мы сделали – это ввели полный набор фиктивных переменных как для константы, так и для

коэффициентов наклона. Это может быть первый шаг, когда Вы допускаете, что для всех трех групп –

разные зависимости зарплаты от опыта (отличие от предыдущего графика – разный наклон линий, то есть

разные предельные эффекты опыта):

Если гипотеза о разных коэффициентах наклона не подтверждается, то можно соответствующие

фиктивные переменные убрать.

Тест Чоу (позволяет проверить, стоит ли строить для каждой подгруппы свою регрессию или нет)

Построение регрессии для каждой подгруппы (нет высшего образования, бакалавры, магистры) – это то же

самое, что ввести в регрессию полный набор фиктивных переменных, так как когда мы ввели полный набор

фиктивных переменных у нас для каждого уровня образования получаются свои коэффициенты – просто

записано это компактно, а не тремя разными уравнениями.

Короткая (restricted):

0 1Y experience

Длинная (unrestricted):

0 1 2 3 4 51 2 1 2Y edu edu experience edu experience edu experience

β0

β0+ β2

β0+ β3

Нет высшего

образования

бакалавр

магистр

зарплата

опыт

Памятка по эконометрике Следовательно, чтобы ответить на вопрос «стоит ли строить для каждой подгруппы свою регрессию

или нет?» нужно проверить гипотезу о совместной незначимости всех добавленных для учета

бакалаврского и магистерского образования коэффициентов:

0 1 2 4 5: 0H

Гипотеза проверяется F-тестом для сравнения длинной регрессии и короткой

Если гипотеза не отвергается, то это означает, что нет необходимости учитывать различия в уровне

образования при моделировании влияния опыта на зарплату: для людей с любым образованием, влияние

опыта на зарплату одинаково.

Используем формулу:

( ) / ( )( , )

/ ( )

R UR

UR

RSS RSS m kF m k n m

RSS n m

k - количество регрессоров в короткой (restricted) регрессии

m – количество регрессоров в длинной (unrestricted) регрессии

n – количество наблюдений

В нашем случае

k=2

m=6

Проверка: если есть 3 группы (нет образования, бакалавр, магистр), то m должно быть равно 3k. Так как

k=2 – это число коэффициентов для описания 1 группы, а если мы делим выборку на 3 группы, то

необходимо 3k коэффициентов.

Если рассчитанная F-статистика будет выше табличной, то длинная регрессия лучше короткой. Однако

потом стоит подумать, нужен ли полный набор фиктивных переменных – возможно, длинную регрессию

все же можно укоротить, если есть очевидно незначимые переменные. Для этого можно тестировать

равенство нулю отдельных коэффициентов или нескольких коэффициентов совместно.

Альтернативную формулу теста Чоу можно посмотреть в учебнике Магнуса ( в параграфе «Проверка

гипотез. Доверительные интервалы и доверительные области») или Доугерти (в главе «Фиктивные

переменные»). Если есть категориальная переменная с номером группы, то, чтобы провести тест

Чоу на целесообразность построения отдельных регрессий, можно воспользоваться View – Coefficient

Tests – Factor Breakpoint Test. В целом, лучше использовать подход, основанный на тестировании

совместной значимости определенных коэффициентов.

Гетероскедастичность

Истинная (pure) гетероскедастичность: правильно специфицировали модель, просто даже в

правильно специфицированной модели разная дисперсия ошибок у разных наблюдений.

Не ведет к смещение коэффициентов. Интуитивно понятно из рисунка, что модель правильно

специфицирована, а гетероскедастичность является просто неизбежным свойством этих данных:

Памятка по эконометрике

Пример: X – прибыль компании, Y – средства, выделенные на дивиденды (чем выше прибыль

компании, тем больше альтернатив для ее использования и тем выше дисперсия денег,

выделенных на дивиденды).

Ложная (impure) гетероскедастичность: гетероскедастичность, вызванная неправильной

спецификацией (пропустили переменную или использовали линейную регрессию вместо

нелинейной) Ведет к смещению коэффициентов (ведь модель неправильно специфицирована).

Интуитивно смещение коэффициентов понятно из рисунка (на самом деле модель нелинейная, а

мы оценили линейную):

Последствия:

1. Коэффициенты несмещенные в случае истинной и смещенные в случае ложной

гетероскедастичности

2. Стандартные ошибки при гетероскедастичности на самом деле больше, чем выдает

МНК, так как МНК не знает, что наблюдения с высокой дисперсией ошибок (в нашем

примере те, для которых X принимает большие значения) – это некачественные

наблюдения, которые от выборки к выборке меняют свое положение и двигают наклон

линии регрессии. МНК думает, что для данной выборки можно одинаково доверять всем

наблюдениям и потому занижает дисперсию коэффициентов.

3. МНК не эффективен (нарушается условие Гаусса-Маркова, значит оценки уже не

BLUE, то есть не лучшие, не самые эффективные в классе линейных несмещенных

оценок). Более эффективны оценки обобщенного МНК, частным случаем которого

является взвешенная регрессия.

Тесты:

X

Y

X

Y

Памятка по эконометрике

Предположим, у нас модель 2 20 1 1y = + x + x

Найдем для каждого наблюдения квадрат остатков 2e

Тест Бреуша-Пагана: 2

0 1 1 k ke = + x +...+ x

Если модель значима в целом, то тогда есть гетероскедастичность (так как 2e зависит от

объясняющих переменных)

Тест Уайта: 2 2

2 1 2 3 2 4 1 5 2

2

0 1 1e = + x + x x x x x (Выявляет практически любую форму

гетероскедастичности, но требует достаточно большой выборки, так как много параметров для

оценки. Можно какие-то слагаемые опустить, если выборка небольшая или нет особой

необходимости проводить максимально строгий тест)

Гетероскедастичность есть, если статистика 2 2

1knR , где n – число наблюдений, R2 –

коэффициент детерминации в регрессии e2 на регрессоры, их квадраты и кросс-произведения

Еще:

Тест Глейзера

Тест Голдфельда-Квандта (см. Доугерти).

Во всех нулевая гипотеза: гомоскедастичность (дисперсия остатков не зависит от значений

объясняющих переменных).

Борьба:

1. Коррекция спецификации (логарифмическая или иная нелинейная модель, добавление

переменных, позволяющих точнее описать взаимосвязь).

2. Использование скорректированных стандартные ошибки (наиболее распространенный

способ – увеличивает стандартные ошибки по сравнению с обычным МНК, поэтому если

уж коэффициент значим, то такому выводу можно доверять).

3. Взвешенный метод наименьших квадратов (если есть явное предположение о том, что

модуль остатка пропорционален какой-то переменной или корню из нее, например). Лучше

всего попробовать разделить обе части уравнения на какую-то переменную, чтобы

полученное уравнение имело достаточно четкий смысл: например, предсказывать не

стоимость квартиры, а цену квадратного метра в квартире; предсказывать не ВВП страны, а

ВВП на душу населения – тогда очень часто гетероскедастичность пропадает).

Пример:

Y – цена квартиры, X – площадь квартиры.

0 1Y X e

Из графика или с помощью построения вспомогательной регрессии поняли, что 2 2e X , то есть дисперсия остатков не постоянна ( 2 ), как допускается в условиях

Гаусса-Маркова, а пропорциональна переменной X (чем больше площадь, тем больше

дисперсия отклонений реальных значений от предсказанных).

Тогда разделив обе части уравнения на X исправим ситуацию:

Памятка по эконометрике

0 1

1Y e

X X X

Коэффициенты те же, что в исходной модели, то есть их можно интерпретировать так же,

как и изначальные, не нужно интерпретировать в терминах преобразованных переменных.

Величина

2e

X

= 2 =const

Теперь квадраты остатков будут теоретически постоянны для каждого наблюдения, но

поскольку там нет точной зависимости 2 2e X , которую мы предположили, то просто

ситуация будет близка к гомоскедастичности, если мы достаточно точно угадали, как

связаны X и 2e .

Часто можно и просто разделить обе части уравнения на X, чтобы это еще и имело какой-то

смысл (цена квадратного метра в данной квартире)

Автокорреляция случайного члена Проблема:

4-е условие Гаусса-Маркова говорит о том, что МНК-оценки наиболее эффективные и

несмещенные в классе линейных оценок, если cov(εi,εj)=0 или, что то же самое, corr(εi,εj)=0. Как

правило, это то же самое, что отсутствие зависимости ошибки от времени, так как автокорреляция

случайного члена – проблема временных рядов. С практической точки зрения, если корреляция

между ошибками все же существует, то ошибка не полностью случайна – ведь существует

определенная закономерность изменения остатков. В случае автокорреляции первого порядка:

1t t tu

tu - классическая (неавтокоррелированная ошибка)

0 1 - коэффициент автокорреляции первого порядка

0 - нет автокорреляции

0 - положительная автокорреляция (если в предыдущем периоде ошибка была

положительной, то, скорее всего, в этом периоде тоже будет положительной; если в предыдущем

периоде ошибка была отрицательной, то в этом периоде, скорее всего, тоже будет отрицательной).

Памятка по эконометрике

Природа: внешние экономические шоки, не учитываемые в модели, влияют в одном направлении в

течение длительного времени.

Пример: предположим, обычно предсказываем продажи с помощью модели

0 1 2 3 4 5ln lnt tSales t promo spring summer autumn ,

в которой считается, что затраты на промо-акцию увеличивают продажи только в том месяце, когда

она проводится. Однако на самом деле в последующие месяцы эффект промо-акции частично

сохраняется и может получаться в течение некоторого времени после промо-акции , что реальные

продажи выше предсказанных (так как не учитывается запаздывающий эффект промо-акции,

прошедшее в прошлые месяцы). Значит, может иметь смысл добавить значения бюджета промо-

акции в предыдущий месяц и, может быть, еще затраты на продвижение за 2 месяца до текущего

периода.

0 - отрицательная автокорреляция (если в предыдущем периоде ошибка была положительной,

то, скорее всего, в этом периоде будет отрицательной; если в предыдущем периоде ошибка была

отрицательной, то в этом периоде, скорее всего, будет положительной). Знаки ошибок чередуются.

Редкое явление.

Памятка по эконометрике

Ложная автокорреляция связана с неверной спецификацией, как и гетероскедастичность, но в

случае, когда x упорядочены во времени: - тогда остатки вначале отрицательные, потом долгое

время положительные, а потом снова отрицательные. Как и любая неправильная спецификация

делает оценки коэффициентов смещенными. Решение – изменение спецификации (например, с

линейной на нелинейную).

Последствия чистой автокорреляции:

1. Не ведет к смещению коэффициентов

2. Увеличивает стандартные ошибки коэффициентов

3. МНК, не учитывая автокорреляцию, занижает стандартные ошибки коэффициентов

Тест Дарбина-Уотсона

Применим только когда:

1. В регрессии есть константа

2. Автокорреляция первого порядка

3. В регрессии нет лага зависимой переменной в качестве объясняющей

1

2

1

2

2

1

2(1 )t t

T

t t

e eT

t

e e

d r

e

, где

1t te er

- автокорреляция первого порядка.

11

t te er 4d отрицательная автокорреляция

10

t te er 2d нет автокорреляции первого порядка

11

t te er 0d положительная автокорреляция

На выборках больше 50, если d<1.5, то уже есть положительная автокорреляция

Тест Breusch-Godfrey (Breusch-Godfrey Serial Correlation LM Test): применим при любой спецификации Y(X)

в отличие от теста Дарбина-Уотсона!!!

1. Оценить модель Y(X)

2. Чтобы выяснить, есть ли автокорреляция p-го порядка, построить регрессию остатков от

объясняющих переменных и от себя самих в предыдущих периодах (если мы предполагаем, что

может быть автокорреляция p-го порядка, то вплоть до p-го лага). В случае одной объясняющей

переменной вспомогательное уравнение для теста будет выглядеть так:

Памятка по эконометрике

1 21 20 1 ...t t t ppt t tX u u u u

3. Если (n-p)R2 во вспомогательной регрессии выше, чем табличное значение

2

p , то автокорреляция

какого-то порядка до p включительно есть. Как правило, речь стоит вести об автокорреляции в тех

лагах, коэффициенты при которых оказались значимы.

Борьба:

1. Изменить спецификацию (добавить переменные, изменить функциональную форму).

2. Попытаться объяснить ошибку через ее предыдущие значения. Для этого используют

авторегрессионные модели (AR-модели). Их мы обсудим на следующем занятии.

3. Использовать поправку Newey-West по аналогии с поправкой Уайта – но это все же не самый

хороший метод (для прогнозных моделей вообще не имеет смысла – ведь он только стандартные

ошибки коэффициентов корректирует):

Временные ряды

1. Регрессионные модели – отражают предполагаемые причинно следственные связи, могут

включать эффекты прошлых периодов. Пример:

t – номер недели

tS - выручка от продаж в тысячах долларов на неделе t

tP - цена товара в период t

tCP - 1, если было продвижение товара только с помощью скидочных купонов; 0 –

иначе.

tDP - 1, если было продвижение товара путем организации специального прилавка; 0

– иначе.

tTP - 1, если в периоде t было комбинированное (обоими способами продвижение)

1 1

1 1 1

log 3.307 0.120log 3.923log 4.792log 1.684

0.241 1.395 0.425 0.325 0.407

t t t t t

t t t t t t

S S P P TP

TP CP CP DP DP e

Как записать такую модель в EViews?

В поле спецификации уравнения регрессии:

log(S) c log(S(-1)) log(P) log(P(-1)) TP TP(-1) CP CP(-1) DP DP(-1)

Нередко проводится очень стабильная ценовая и маркетинговая политика и можно

обойтись и без объясняющих переменных, когда процесс демонстрирует стабильные

закономерности во времени. Например, продажи в розничной сети (периодически

проводятся какие-то промо-акции, но они касаются отдельных товаров, а в целом их

влияние на общие продажи невелико – просто есть какие-то традиции проводить

распродажи в определенное время года и т. п.). Модели без объясняющих переменных

часто оказываются лучше для целей предсказания и во многих других случаях.

2. Аддитивная модель временного ряда

Y T C S e

Памятка по эконометрике

Y - уровень ряда

T - тренд (базовая компонента – как растет или падает показатель во времени)

Остальное – это повышающие или понижающие коэффициенты:

S - сезонность

C - цикличность (фаза делового цикла – макроэкономические факторы, на коротких

промежутках времени (несколько лет) часто опускают!)

e - случайная составляющая

Подходит для ситуаций, когда к тренду каждый сезон добавляет каждый раз примерно

какое-то свое фиксированное число

3. Мультипликативная модель временного ряда

Y T C S e

Мультипликативная модель уместна в случае, когда сезонные колебания от тренда со

временем увеличиваются или падают – то есть к тренду не прибавляется определенное

число в определенные сезоны, а тренд умножается на число, соответствующее сезону.

Иными словами логика в том, что каждый сезон прибавляет определенный % к тренду.

Специальные методы анализа временных рядов

Определения:

1. Первый лаг временного ряда Yt это Yt-1. j-й лаг – это Yt-j.

2. Первая разность ряда Yt – это 1t t tY Y Y

Иногда используют логарифмы уровня ряда:

3. Первая разность логарифма Yt – это 1ln( ) ln( ) ln( )t t tY Y Y

Процентное изменение Yt между периодами t-1 и t примерно равно 100 ln( )tY , где

приближение наиболее точное, когда процентное изменение мало (<20%)

Пример: динамика продаж по годам

t Yt (уровень

ряда)

Yt-1 (первый

лаг) tY (первая

разность

логарифмов

уровней ряда)

ln( )tY (первая разность

логарифмов уровней

ряда)

1 25 - - -

Памятка по эконометрике

2 30 20 10 ln(30)-

ln(25)=0.18≈процентному

приросту (30-

25)/25*100=20%

3 40 30 10 ln(40)-ln(30)=0.29≈

процентному приросту в

(40-30)/30*100=33%

4 45 40 5 Ln(45)-

ln(40)=0.12≈процентному

приросту в (45-

40)/40*100=12,5%