Modely s kvalitatívnymi vysvetľujúcimi premennými

Modely s kvalitatívnymi vysvetľujúcimi premennými

Kvalitatívne premenné

Kvalitatívne premenné môžmeme „kvantifikovať“ vytvorením takzvaných umelých premenných, ktoré nadobúdajú hodnoty 0 a 1 0 indikuje absenciu sledovaného atribútu 1 indikuje prítomnosť sledovaného atribútu

Napríklad premenná rozlišujúca pohlavie môže byť kvantifikovaná ako žena=1 a muž=0 alebo opačne.

Umelé premenné sú často nazývané aj kategorickými premennými alebo kvalitatívnymi premennými. Príklady: pohlavie, náboženstvo, národnosť, geografický región,

politická príslušnosť

Pasca umelých premenných (dummy variable trap) Pokiaľ model obsahuje lokujúcu konštantu a kvalitatívna premenná má

m kategórii, potom do modelu zavádzame len (m-1) umelých premenných. Napr. pohlavie má len dve kategórie takže do modelu zavedieme len jednu umelú

premennú. Je tomu tak pretože umelá premenná pri ženách nadobúda hodnotu 1 a pri

mužoch 0

Pokiaľ by sme skúmali napr. politickú príslušnosť v USA medzi Demokratmi, Republikánmi a nezávislými stranami zaviedli by sme do modelu dve umelé premenné ktoré by reprezentovali príslušnosť k trom stranám

Pokiaľ toto pravidlo nieje dodržané, dôjde k tomu čo sa niekedy nazýva aj ako pasca umelých premenných (dummy variable trap)-situácia dokonalej závislosti medzi vysvetlujúcimi premennými

Referenčná kategória

Kategória pri ktorej premenná nadobúda hodnotu 0 je často označovaná ako referenčná kategória. Všetky porovnania sú robené vo vzťahu k

referenčnej kategórii.

Pokiaľ je v modeli viac umelých premenných venujte zvýšenú pozornosť sledovaniu referenčnej kategórie, inak bude obtiažne interpretovať výsledky.

Čo si treba pamätať o umelých premenných Pokiaľ je v regresnom modeli zahrnutá lokujúca konštanta, počet

umelých premenných musí byť o jedno menej ako počet obmien kvalitatívnej premennej.

Pokiaľ je model odhadnutý bez lokujúcej konštanty, je možné do neho zahrnúť taký počet umelých premenných aký je počet kategórií kvalitatívnej premennej.

Koeficient pri umelej premennej je vždy interpretovaný vo vzťahu k referenčnej kategóri.

Umelá premenná môže byť v interakcii s kvantitatívnymi vysvetľujúcimi premennými rovnako tak ako aj s kvalitatívnymi vysvetľujúcimi premennými. Pokiaľ model obsahuje niekoľko kvalitatívnych premenných s rôznymi kategóriami, zavedenie premenných pre všetky kombinácie spotrebuje veľký počet stupňov voľnosti-

Interpretácia umelých premenných

Koeficient pri umelej premennej znamená rozdiel v lokujúcich konštantách medzi kategóriou pri ktorej sa umelá premenná rovná 1 a referenčnou kategóriou

Lokujúca konštanta z modelu s umelými premennými je konštantou kategórie ktorá je označená ako 0.

Interpretácia umelých premenných

Ak: Yi = B1 + B2 Fi

kde Y = mzda a F = umelá premenná rozlišujúca pohlaviepotom, v priemere, ženy zarábajú mzdu (B1 + B2) a zarábajú mzdu

B1. (všimnite si že B2 môže byť negatívne)

Takže ženy zarábajú o B2 viac ako muži.

Neviem štatistiku ale vôbec to nevadí, pretože aj tak nemám žiadne údaje.

Časové rady

Čo je časový rad??

Údaje o skúmanom sociálno - ekonomickom jave - chronologicky usporiadané v čase

správne zostavený časový rad údajov musí spĺňať porovnateľnosť údajov:– v čase ( za rovnako dlhé obdobia, resp.

rovnaké vzdialenosti medzi skúmaním) – v priestore ( rovnaké územné celky, regióny)– a vecnú porovnateľnosť (metodologickú,

obsahovú)

Označme hodnoty skúmaného ukazovateľa:

y1, y2 , y3 , ... yt …… yT, kde t = 1, 2, ….T,

pričom T je počet období, t je teda formálna časová premenná, ktorá udáva poradie hodnoty skúmaného ukazovateľa , napr.

Rok Yt t1995 3110 11996 3570 21997 3860 31998 3870 41999 3770 5

HNP SR na obyv.V rr.95-99 v US$

Z hľadiska dĺžky obdobia za ktoré skúmame hodnoty ukazovateľa, resp. dĺžky intervalu medzi jednotlivými skúmaniami ČR členíme na:

dlhodobé - ročné údaje, resp. päťročné

krátkodobé - kvartálne, mesačné údaje, resp. Jednodňové a pod.

12

Ak niečo skúmate takto z blízka riskujete že stratíte prehľad o celkovom kontexte

Základné charakteristiky rozboru časových radov

Absolútne miery rastu (poklesu):– absolútny prírastok (pokles) - prvé

diferencie y t = y t - y t -1

– druhé druhé diferencie (zrýchlenie)

y t 2 = y t - y t -1

14

Relatívne miery rastu

– koeficient rastu : k t = y t / y t - 1

(bezrozmerné číslo, napr. 1, 05, resp. 0.86)– koeficient prírastku : k t

= k t - 1 – tempo rastu (koef. Rastu v %):

Tt = k t . 100 , ( hovorí na koľko % vzrástol, resp. poklesol ukazovateľ, napr. 105%, alebo 86%

– tempo prírastku: T t

=Tt - 100, resp. T t = (k t - 1 ) . 100

(hovorí o koľko % vzrástol / poklesol ukazovateľ v aktuálnom období oprotí prechádzajúcemu)

15

Vývoj HNP SR za rr.95-99 v US$ na obyv. a rok.

16

Rok GNPSR (US$) koeficient koeficient tempo tempo1995 3110 rastu prirastku v % rastu prirastku v %1996 3570 1.148 114.79 0.15 14.791997 3860 1.081 108.12 0.08 8.121998 3870 1.003 100.26 0.00 0.261999 3770 0.974 97.42 -0.03 -2.58

V roku 1997 oproti r. 96 vzrástol HNP na obyv. na 108,12%

V roku 1997 oproti r. 96 vzrástol HNP na obyv. o 8,12%

Z jednotlivých koeficientov rastu možno vypočítať priemerný koeficient rastu

17

1-T 2 1-T

1 ...k . k .k k _ 4

k = (1,148.1,081. 1,003 . 0,974) = 1.0493

Za obdobie rr. 95-99 HNP v SR rástol ročne približne o 4,9%

Rozbor jednotlivých zložiek časového radu Časové rady vznikajú ako dôsledok pôsobenia

podstatných aj nepodstatných činiteľov na skúmaný sociálno ekonomický jav. Tieto činitele môžeme rozdeliť na:

trendové - vývojové, ktoré pôsobia neustále a určujú hlavný smer vývoja, t.j. trend v ČR (Tt ) periodické, ktoré spôsobujú pravidelné kolísanie hodnôt ČR okolo trendu, môžeme ich rozdeliť na

– cyklické (C t )- v dlhodobých ČR (hospodárske cykly)

– sezónne (S t )- krátkodobých ČR (sezónne kolísanie cien, sezónny dopyt…..),

18

náhodné činitele (E t ) - pôsobia náhodne, nepravidelne. Tieto činitele pôsobia na vývoj každého skúmaného ukazovateľa v štatistike

Na základe tohto rozčlenenia môžme dekomponovať - rozložiť ČR na tri zložky:

– trendovú (Tt )

– periodickú (C t ), resp. (S t ) – náhodnú (E t )

Medzi zložkami môže byť :aditívny vzťah : Yt = T t + St + Et

multiplikatívny vzťah: Yt = T t . St . Et

19

Analýza trendu v časovom rade Pri dekompozičnom prístupe je analýza trendu

založená:• na analytickom vyrovnaní vývoja hodnôt

skúmaného ukazovateľa vhodnou trendovou funkciou

ide o analógiu jednoduchej regresnej analýzy, pričom odhadované hodnoty sú funkciou časovej premennej t,

yt , = f (t)

trendová funkcia je potom použitá nielen ku hodnoteniu kvality prognózy “ex-post”, ale aj na prognózy “ex-ante”

20

21

doc. Ing . Z lata S ojko vá,CSc. 21

Niektoré typy jednoduchých trendových funkcií

t21o

't

1bo

't

t1o

't

221o

't

1o't

1o't

b . bb y

t .b y

b .b y

t.bt . bb y

tlog . bb y

t/bb y

Historické údaje Oblasť prognózy “ex-ante”

Štatistické posúdenie vhodnosti trendovej funkcie:

22

y var.celk.

TF l.var.vysvet

)yy(

)y'y( i

t2T

1tt

2T

1tt

yt

• pomocou indexu korelácie i yt , resp. • indexu determinácie iyt

2

ktoré vyjadrujú kvalitu prognózy “ex-post”

•Prioritné je však vecné posúdenie vhodnosti trendovejfunkcie, pretože je potrebné zvažovať ako sa “asi” môže skúmaný ukazovateľ v budúcich obdobiach vyvíjať

23

Analýza sezónnej zložky v časovom rade

Dekompozičný prístup predpokladá sa: multiplikatívny model ČR: Yt = Tt . St . Et

analýzu trendu v ČR (ak je prítomný) vhodnou trendovou funkciou: Tt = yt

, = f(t)

analýzu sezónnej zložky potom pomocou sezónnych indexov:

kde y t , sú hodnoty získané vyrovnaním časového

radu vhodnou trendovou funkciou pre t = 1,2…T

, y

y S

,t

tt

Postup analýzy a konštrukcie prognózy:

• Najskôr analyzujeme trend vyrovnaním časového radu vhodnou trendovou funkciou (pomocou regresnej analýzy)

• Podľa trendovej funkcie vypočítame “vyrovnané” hodnoty trendu (uskutočníme prognózu trendu aj na kvartály prognózovaného r. 1990)

• Indexy sezónnosti S t vypočítame delením skutočnej hodnoty tržieb y t hodnotou y t

‘ vypočítanou podľa trendovej funkcie

Indexy sezónnosti spriemerníme (aby sme objektivizovali sezónnu zložku a potom korigujeme na súčet 4 (korekcia na presnosť)

24

25

Rok Kvartál Tržby v tis.Sk t yt´ St = yt / yt' St priemerne St pr. korig y*1 184 1 170.141 1.0814558 1.046494 1.046400 178.036

1987 2 173 2 173.858 0.995066 0.972797 0.972709 169.1133 160 3 177.575 0.9010298 0.931975 0.931891 165.484 189 4 181.291 1.0425206 1.049093 1.048999 190.1741 191 5 185.008 1.0323869 Suma St priem. 193.593

1988 2 185 6 188.725 0.9802626 4.000359724 4 183.5753 179 7 192.442 0.9301517 Korekcny faktor: 179.3354 200 8 196.159 1.0195836 0.999910077 205.771 205 9 199.875 1.0256395 209.15

1989 2 192 10 203.592 0.9430623 198.0363 200 11 207.309 0.9647441 193.1894 229 12 211.026 1.0851762 221.3661 13 214.742 224.706

1990 2 14 218.459 212.4973 15 222.176 207.0444 16 225.893 236.961

Prognózatrendu

PrognózaY t ‘ . St priem.

Vyrovnané hodnoty trendu

Analýza sezónnosti a prognóza

Indexy sezónnosti

Výsledná Prognózatrendu a sezónnosti

Vzťah medzi množstvom prognóz a šancou že aspon jedna bude správna

Použitie umelých premenných pri sezónnych dátach

Proces odstránenia sezónnej zložky z časového radu výsledný časový rad je očistený o sezónnosť

Uvažujme nasledujúci model predikujúci tržby z predaja oblečenia:

Kde D2 =1 pre druhý kvartál, D3 =1 pre tretí kvartál, D4= 1 pre 4th kvartál Sales = reálne tržby na tisíc štvorcových stôp priestoru predajne.

1 2 2 3 3 4 4t t t t tSales A A D A D A D u

Použitie umelých premenných v sezónnych údajoch

Proces očistenia časového radu od sezónnosti je nasledujúci:1. Z odhadnutého modelu získame eohadovaný objem tržieb. 2. Odhadovaný objem tržieb odčítame od skutočných tržieb

a získame reziduá.3. K získaným reziduám pripočítame (výberovú) priemernú

hodnotu tržieb. Výsledné hodnoty sú časovým radom tržieb ktorý je očistený od sezónnosti.

FRISCH-WAUGHOV TEORÉM

Zavedením umelých premenných do modelu očistíme od sezónnosti všetky časové rady použité v danom modeli.

Ak použijeme v regresii časové rady sezónne očistených údajov, získané odhady sú rovnaké ako odhady koeficientov z regresia ktorá používa neočistené údaje ale umelé premenné pre zohľadnenie setónnosti.

Miery presnosti prognóz

Miery presnosti prognózChybou prognózy sa nazýva rozdiel:

Priemerná chyba:

Môže byť kladná alebo záporná podľa toho či prognózy častejšie podhodnocujú (yt>predikované y), alebo nadhodnocujú (yt<predikované y) skutočnosť.Táto miera sa považuje za mieru skreslenia a interpretuje sa podľa znamienka ME>0 model systematicky podhodnocuje ME<0 nadhodnocuje skutočnosť

ttt yye ˆ

n

tt

n

ttt e

nyy

nME

11

1)ˆ(

1

Priemerná absolútna chyba:

Vyjadruje priemernú absolútnu odchýlku skutočných hodnôt od odhadnutých hodnôt v rovnakých merných jednotkách v akých je vyjadrený pôvodný časový rad

Priemerná štvorcová chyba – rozptyl chýb:

-citlivé na veľké chyby

n

tt

n

ttt e

nyy

nMAE

11

1ˆ

1

n

t

n

tttt e

nyy

nMSE

1 1

22 1ˆ

1

Percentuálne mieryPriemerná percentuálna chyba:

Priemerná percentuálna miera skreslenia, ak je kladná znamená to že model systematicky podhonocuje skutočnosť (väčšina chýb je kladná) a naopak.

n

t

n

t t

t

t

tt

y

e

ny

yy

nMPE

1 1

%100.1

%100.)ˆ(1

Priemerná absolútna percentuálna miera chyba:

Vyjadruje v percentách priemernú veľkosť chýb prognóz v porovnaní so skutočnými hodnotami na celom úseku prognózovania, t=1,2,....,n

%100.1

%100.ˆ1

11

n

t t

tn

t t

tt

y

e

ny

yy

nMAPE

Štatistika pre testovanie hypotéz a vašej trpezlovosti ;-)

Documents

Modely s kvalitatívnymi vysvetľujúcimi premennými