Upload
aislin
View
132
Download
0
Embed Size (px)
DESCRIPTION
ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ МОДЕЛИ. Лекция 11. С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами: • иметь высокую вариабельность; • быть сильно коррелированными с объясняемой переменной; - PowerPoint PPT Presentation
Citation preview
ПОДБОР ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ДЛЯ ЛИНЕЙНОЙ
МОДЕЛИ
Лекция 11
С формальной точки зрения, объясняющие переменные в линейной эконометрической модели должны обладать следующими свойствами:
• иметь высокую вариабельность;
• быть сильно коррелированными с объясняемой переменной;
• быть слабо коррелированными между собой;
• быть сильно коррелированными с представляемыми ими другими переменными, не используемыми в качестве объясняющих*.
Объясняющие переменные подбираются с помощью статистических методов.
Процедура подбора переменных состоит из следующих этапов:
1.На основе накопленных знаний составляется множество так называемых потенциальных объясняющих переменных (первичных переменных), в которое включаются все важнейшие величины, влияющие на объясняемую переменную. Такие переменные будем обозначать
Х1 Х2, ..., Хт.
2.Собирается статистическая информация о реализациях как объясняемой переменной, так и потенциальных объясняющих переменных. Формируется вектор у наблюдаемых значений переменной Y и матрица X наблюдаемых значений переменных Х1, Х2, ..., Хт в виде
3. Исключаются потенциальные объясняющие переменные, характеризующиеся слишком низким уровнем вариабельности.
4.Рассчитываются коэффициенты корреляции между всеми рассматриваемыми переменными.
5.Множество потенциальных объясняющих переменных редуцируется с помощью выбранной статистической процедуры
Исключение квазинеизменных переменных
Предварительным условием присвоения различным величинам статуса объясняющих переменных считается достаточно высокая вариабельность. В качестве меры вариабельности используется коэффициент вариации
где Xj — среднее арифметическое переменной X;.
тогда как Sj — стандартное отклонение переменной Xj.
Задается критическое значение коэффициента вариации v*, например v* = 0,10. Переменные, удовлетворяющие неравенству vi<v*признаются квазинеизменными и исключаютсяиз множества потенциальных объясняющихпеременных. Эти переменные не несут значимой информации
Пример 1. Для описания объема производства напредприятии (Y), измеряемого в млн руб., рассматриваются четыре величины:
Х1 — количество работающих, тыс. чел.; Х2 — стоимость машин и оборудования,
млн руб.; Х3 — длительность простоя машин, дней; Х4 — инвестиционные затраты, млн руб.
Значения конкретных переменных за период 1991—2000 гг. представлены в табл. 1.
При заданном критическом значении коэффициента = 0,15 проверяем, обладают ли потенциальны объясняющие переменные достаточно высокой вариабельностью.
v*
Стандартные отклонения потенциальных объясняющих переменных равны соответственно:
Коэффициенты вариации рассматриваемых переменных принимают следующие значения:
Поскольку значение коэффициента Х4 меньше заданного критического значения v*=0,15 данная переменная (инвестиционные затраты) признается квазинеизменнои переменнойи удаляется из множества потенциальных объясняюших переменных
Вектор и матрица коэффициентов корреляции
Для оценивания силы линейной зависимостиобъясняемой переменной Y от потенциальных объясняющих переменных Х1, Х2, .., Хт
рассчитываются коэффициенты корреляции:
Эти коэффициенты представляются в виде вектора корреляции:
Коэффициенты корреляции между потенциальнымиобъясняющими переменными Х1, Х2, ..., Хт
рассчитываются по формуле
образуют матрицу корреляции R:
Матрица R симметрична, т. е. rij= rji.
Метод анализа матрицы коэффициентов корреляции
Идея этого метода сводится к выбору таких объясняющих переменных, которые сильно коррелируют с объясняемой переменной и, одновременно, слабо коррелируют между собой. В качестве исходных точек рассматриваются вектор R0 и матрица К
Для заданного уровня значимости (например, 5%, т.е. 0,05) и для (п — 2) степеней свободы рассчитывается так называемое критическое значение коэффициента корреляции:
где /* — значение t-распределения Стьюдента для заданного уровня значимочти и для (п — 2)степеней свободы.
Критическое значение коэффициента корреляции r*также может априорно задаваться аналитиком.
Процедура подбора объясняющих переменных состоит из следующих этапов:
1.Из множества потенциальных объясняющих переменных исключаются все элементы, которые удовлетворяют неравенству abs(ri)< r*поскольку они несущественно коррелируют объясняемой переменной.
2. Из оставшихся переменных объясняющей признается такая переменная Хh, для которой
\rh\ = max{ri},
поскольку Xh является носителем наибольшего количества информации об объясняемой переменной.3. Из множества потенциальных объясняющих
переменных исключаются все элементы, которые удовлетворяют неравенству
rhi > r*
поскольку эти переменные слишком сильно коррелируют с объясняющей переменной , и, следовательно, тольковоспроизводят представляемую ею информацию.Этапы 1—3 повторяются вплоть до момента опустошения множества потенциальных объясняющих переменных.
Метод показателей информационной ёмкостиИдея метода показателей информационной емкости cводится к выбору таких объясняющих переменных,которые сильно коррелированы с объясняемой переменной, и одновременно, слабо коррелированы между собой. В качестве исходных точек этого метода рассматриваются вектор R0 и матрица R.Рассматриваются все комбинации потенциальных объясняющих переменных, общее количествокоторых составляет I = 2n-1.
Для каждой комбинации потенциальных объясняющих переменных рассчитываютсяиндивидуальные и интегральные показатели информационной емкости.Индивидуальные показатели информационной ёмкости в рамках конкретной комбинациирассчитываются по формуле
В этом выражении l обозначает номер переменной, а тl — количество переменных в рассматриваемойкомбинации.Интегральные показатели информационной емкости потенциальных объясняющих переменных рассчитываются по формуле
Индивидуальные у интегральные показатели информационной ёмкости нормируются в интервале [0; 1].
Их значения оказываются тем больше чемсильнее объясняющие переменные коррелируют с объясняемои перемени и чем слабее они коррелируют между собой.
В качестве объясняющих выбирается такая комбинация переменных, которой соответствует максимальное значение интегрального показателяинформационной емкости.
Пример 4. Необходимо подобрать объясняющие переменные для линейной модели, описывающейпроизводство скота в живом весе в расчёте на 1 га сельхозугодий (У) на некотором аграрном предприятии.Рассматривается cледующее множество потенциальных объясняющих переменных: Х1 — урожай кормовой кукурузы, Х2 — доля стоимости растительной агропродукции
в общей стоимости продукции сельского хозяйства, Х3 — средние закупочные цены мяса в живом весе,
Х4 — использование комбикормов.
На основе статистических данных за 1986—2000 гг. построен вектор коэффициентов корреляции между переменной У и переменными Х1 Х2, Х3, Х4,
а также матрица коэффициентов корреляции между переменными X1,Х2, Х3, Х4:
Выберем объясняющие переменные при помощи метода показателей информационной емкости. Поскольку рассматриваются четыре потенциальные объясняющие переменные, необходимо проанализировать L = 24 — 1 = 15 комбинаций переменных Перечислим все эти комбинации:
Интегральные показатели информационной емкости одноэлементных комбинаций идентичны индивидуальным показателям емкости, Которые, в свою очередь, равны квадратам коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными. Taким образом
Для двухэлементной комбинации С5 = (Х1, Х2)
рассчитываются два индивидуальных показателя информационной емкости: h51, относящийся к
переменной Х1, и h52, относящийся к
переменной Х2:
Интефальный показатель информационной емкости этой комбинации равен: H5 = h51 + h52 = 0,113 + 0,390 = 0,503.
После проведения аналогичных расчетов для остальных двухэлементных комбинаций получаем:
В свою очередь, рассмотрим трехэлементную комбинацию С11= {Х1, Х2, X3). Рассчитаем индивидуальные
показатели информационной ёмкости:
Интегральный показатель информационной емкости этой комбинации равен:
После проведения аналогичных расчетов для остальных трехэлементных комбинаций получаем:
Далее рассчитаем индивидуальные показатели информационной ёмкости переменных Х\, Х2, Х3
и Х4 (комбинация С15):
Интегральный показатель информационнойёмкости равен:H15 = h15,1 + h15,2 + h15,з + h15,4 = 0,585.Максимальное значение интегрального показателя Информационной ёмкости равно 0,668 и относится к комбинации С9, включающей переменные Х2 и Х4.
Это означает, что в линейной модели, описывающей уровень производства скота в живом весе на 1 га сельхозугодий на рассматриваемом аграрном предприятии,в качестве объясняющих переменных должны применятьсяХ2 — доля стоимости растительной
агропродукции в общей стоимости продукции сельского хозяйства, Х4 — использование комбикормов. Модель примет вид