ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ

ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ

МОДЕЛИ

Лекция 11

С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами:

• иметь высокую вариабельность;

• быть сильно коррелированными с объясняемой переменной;

• быть слабо коррелированными между собой;

• быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих*.

Объясняющие переменные подбираются с помощью статистических методов.

Процедура подбора переменных состоит из следующих этапов:

1.На основе накопленных знаний составляется множество так называемых потенциальных объясняющих переменных (первичных переменных), в которое включаются все важнейшие величины, влияющие на объясняемую переменную. Такие переменные будем обозначать

Х1 Х2, ..., Хт.

2.Собирается статистическая информация о реализациях как объясняемой переменной, так и потенциальных объясняющих переменных. Формируется вектор у наблюдаемых значений переменной Y и матрица X наблюдаемых значений переменных Х1, Х2, ..., Хт в виде

3. Исключаются потенциальные объясняющие переменные, характеризующиеся слишком низким уровнем вариабельности.

4.Рассчитываются коэффициенты корреляции между всеми рассматриваемыми переменными.

5.Множество потенциальных объясняющих переменных редуцируется с помощью выбранной статистической процедуры

Исключение квазинеизменных переменных

Предварительным условием присвоения различным величинам статуса объясняющих переменных считается достаточно высокая вариабельность. В качестве меры вариабельности используется коэффициент вариации

где Xj — среднее арифметическое переменной X;.

тогда как Sj — стандартное отклонение переменной Xj.

Задается критическое значение коэффициента вариации v*, например v* = 0,10. Переменные, удовлетворяющие неравенству vi<v*признаются квазинеизменными и исключаютсяиз множества потенциальных объясняющихпеременных. Эти переменные не несут значимой информации

Пример 1. Для описания объема производства напредприятии (Y), измеряемого в млн руб., рассматриваются четыре величины:

Х1 — количество работающих, тыс. чел.; Х2 — стоимость машин и оборудования,

млн руб.; Х3 — длительность простоя машин, дней; Х4 — инвестиционные затраты, млн руб.

Значения конкретных переменных за период 1991—2000 гг. представлены в табл. 1.

При заданном критическом значении коэффициента = 0,15 проверяем, обладают ли потенциальны объясняющие переменные достаточно высокой вариабельностью.

v*

Стандартные отклонения потенциальных объясняющих переменных равны соответственно:

Коэффициенты вариации рассматриваемых переменных принимают следующие значения:

Поскольку значение коэффициента Х4 меньше заданного критического значения v*=0,15 данная переменная (инвестиционные затраты) признается квазинеизменнои переменнойи удаляется из множества потенциальных объясняюших переменных

Вектор и матрица коэффициентов корреляции

Для оценивания силы линейной зависимостиобъясняемой переменной Y от потенциальных объясняющих переменных Х1, Х2, .., Хт

рассчитываются коэффициенты корреляции:

Эти коэффициенты представляются в виде вектора корреляции:

Коэффициенты корреляции между потенциальнымиобъясняющими переменными Х1, Х2, ..., Хт

рассчитываются по формуле

образуют матрицу корреляции R:

Матрица R симметрична, т. е. rij= rji.

Метод анализа матрицы коэффициентов корреляции

Идея этого метода сводится к выбору таких объясняющих переменных, которые сильно коррелируют с объясняемой переменной и, одновременно, слабо коррелируют между собой. В качестве исходных точек рассматриваются вектор R0 и матрица К

Для заданного уровня значимости (например, 5%, т.е. 0,05) и для (п — 2) степеней свободы рассчитывается так называемое критическое значение коэффициента корреляции:

где /* — значение t-распределения Стьюдента для заданного уровня значимочти и для (п — 2)степеней свободы.

Критическое значение коэффициента корреляции r*также может априорно задаваться аналитиком.

Процедура подбора объясняющих переменных состоит из следующих этапов:

1.Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству abs(ri)< r*поскольку они несущественно коррелируют объясняемой переменной.

2. Из оставшихся переменных объясняющей признается такая переменная Хh, для которой

\rh\ = max{ri},

поскольку Xh является носителем наибольшего количества информации об объясняемой переменной.3. Из множества потенциальных объясняющих

переменных исключаются все элементы, которые удовлетворяют неравенству

rhi > r*

поскольку эти переменные слишком сильно коррелируют с объясняющей переменной , и, следовательно, тольковоспроизводят представляемую ею информацию.Этапы 1—3 повторяются вплоть до момента опустошения множества потенциальных объясняющих переменных.

Метод показателей информационной ёмкостиИдея метода показателей информационной емкости cводится к выбору таких объясняющих переменных,которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор R0 и матрица R.Рассматриваются все комбинации потенциальных объясняющих переменных, общее количествокоторых составляет I = 2n-1.

Для каждой комбинации потенциальных объясняющих переменных рассчитываютсяиндивидуальные и интегральные показатели информационной емкости.Индивидуальные показатели информационной ёмкости в рамках конкретной комбинациирассчитываются по формуле

В этом выражении l обозначает номер переменной, а тl — количество переменных в рассматриваемойкомбинации.Интегральные показатели информационной емкости потенциальных объясняющих переменных рассчитываются по формуле

Индивидуальные у интегральные показатели информационной ёмкости нормируются в интервале [0; 1].

Их значения оказываются тем больше чемсильнее объясняющие переменные коррелируют с объясняемои перемени и чем слабее они коррелируют между собой.

В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателяинформационной емкости.

Пример 4. Необходимо подобрать объясняющие переменные для линейной модели, описывающейпроизводство скота в живом весе в расчёте на 1 га сельхозугодий (У) на некотором аграрном предприятии.Рассматривается cледующее множество потенциальных объясняющих переменных: Х1 — урожай кормовой кукурузы, Х2 — доля стоимости растительной агропродукции

в общей стоимости продукции сельского хозяйства, Х3 — средние закупочные цены мяса в живом весе,

Х4 — использование комбикормов.

На основе статистических данных за 1986—2000 гг. построен вектор коэффициентов корреляции между переменной У и переменными Х1 Х2, Х3, Х4,

а также матрица коэффициентов корреляции между переменными X1,Х2, Х3, Х4:

Выберем объясняющие переменные при помощи метода показателей информационной емкости. Поскольку рассматриваются четыре потенциальные объясняющие переменные, необходимо проанализировать L = 24 — 1 = 15 комбинаций переменных Перечислим все эти комбинации:

Интегральные показатели информационной емкости одноэлементных комбинаций идентичны индивидуальным показателям емкости, Которые, в свою очередь, равны квадратам коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными. Taким образом

Для двухэлементной комбинации С5 = (Х1, Х2)

рассчитываются два индивидуальных показателя информационной емкости: h51, относящийся к

переменной Х1, и h52, относящийся к

переменной Х2:

Интефальный показатель информационной емкости этой комбинации равен: H5 = h51 + h52 = 0,113 + 0,390 = 0,503.

После проведения аналогичных расчетов для остальных двухэлементных комбинаций получаем:

В свою очередь, рассмотрим трехэлементную комбинацию С11= {Х1, Х2, X3). Рассчитаем индивидуальные

показатели информационной ёмкости:

Интегральный показатель информационной емкости этой комбинации равен:

После проведения аналогичных расчетов для остальных трехэлементных комбинаций получаем:

Далее рассчитаем индивидуальные показатели информационной ёмкости переменных Х\, Х2, Х3

и Х4 (комбинация С15):

Интегральный показатель информационнойёмкости равен:H15 = h15,1 + h15,2 + h15,з + h15,4 = 0,585.Максимальное значение интегрального показателя Информационной ёмкости равно 0,668 и относится к комбинации С9, включающей переменные Х2 и Х4.

Это означает, что в линейной модели, описывающей уровень производства скота в живом весе на 1 га сельхозугодий на рассматриваемом аграрном предприятии,в качестве объясняющих переменных должны применятьсяХ2 — доля стоимости растительной

агропродукции в общей стоимости продукции сельского хозяйства, Х4 — использование комбикормов. Модель примет вид

Documents

ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ