Upload
others
View
12
Download
1
Embed Size (px)
Citation preview
HJF Statisztika II.
Statisztika II. előadás és gyakorlat – 1. rész T.Nagy Judit
Ajánlott irodalom: Ilyésné Molnár Emese – Lovasné Avató Judit: Statisztika II. Feladatgyűjtemény, Perfekt, 2006.
Korpás Attiláné (szerk.): Általános Statisztika II., Nemzeti Tankönyvkiadó, 1997.
Molnár Máténé – Tóth Mártonné: Általános Statisztika Példatár II., Nemzeti Tankönyvkiadó, 2001.
T.Nagy Judit 1
HJF Statisztika II.
Bevezetés Statisztika I. (Leíró statisztika): Teljes sokaság vizsgálata esetén alkalmazható módszerek.
Statisztika II. (Következtető statisztika): A sokaságnak csak egy részét (egy mintát)
vizsgálunk, és ez alapján vonunk le a teljes sokaságra vonatkozó következtetéseket.
Főbb témakörei:
Regressziószámítás, idősorok elemzése, statisztikai becslések, hipotézisvizsgálat.
T.Nagy Judit 2
HJF Statisztika II.
I. Kétváltozós lineáris korreláció és regressziószámítás
A sztochasztikus kapcsolat fajtáival már megismerkedtünk (Statisztika 1.)
Sztochasztikus kapcsolat típusai
o Asszociációs – mindkét ismérv minőségi vagy területi
o Vegyes – egyik minőségi v. területi, másik mennyiségi
o Korrelációs – mindkét ismérv mennyiségi
o Rangkorrelációs – mindkét ismérv sorrendi
A korreláció tehát mennyiségi ismérvek közötti sztochasztikus kapcsolat. (amit nemcsak
kettő, hanem több ismérv esetén is értelmezünk).
I. 1. MINTAPÉLDA:
Egy vendéglátóhely a napi átlaghőmérséklet mellett vizsgálta a vendégek napi
sörfogyasztását. A megfigyelt 10 nap adatai:
Napi átlaghőmérséklet (°C) Sörfogyasztás (l)
18 250 20 310 25 390 24 320 22 330 26 430 24 390 19 320 16 290 16 270
Két kérdésre keresünk választ:
Van-e kapcsolat az ismérvek között, ha van, milyen irányú és milyen erősségű?
A kapcsolat milyen matematikai összefüggéssel írható le?
T.Nagy Judit 3
HJF Statisztika II.
A korreláció kimutatása és szorossága (van-e kapcsolat?, milyen irányú?, milyen
szoros?)
1. Az adatok ábrázolása pontdiagramon (a kapcsolat megléte és iránya)
050
100150200250300350400450500
15 17 19 21 23 25 27
napi átlaghőmérséklet (°C)
napi
sör
fogy
aszt
ás (l
)
1.1. ábra
Következtetés: pozitív korreláció van az átlaghőmérséklet és a sörfogyasztás között.
Példák:
0
20
40
60
80
100
120
0 50 100 150 200
X
Y
Korrelálatlanság
0
50
100
150
200
250
0 50 100 150 200
X
Y
Pozitív korreláció
0
50
100
150
200
250
300
0 50 100 150 200
X
Y
Negatív korreláció
2. Kovariancia kiszámítása (a kapcsolat megléte, iránya)
n)dd(
C YX∑= YYd
XXd
iY
iX
−=
−=
T.Nagy Judit 4
HJF Statisztika II.
A számoláshoz szükséges munkatáblázat:
X Y dX dY dXdY
18 250 -3,00 -80 240 20 310 -1,00 -20 20 25 390 4,00 60 240 24 320 3,00 -10 -30 22 330 1,00 0 0 26 430 5,00 100 500 24 390 3,00 60 180 19 320 -2,00 -10 20 16 290 -5,00 -40 200 16 270 -5,00 -60 300
Összesen: 210 3300 0 0 1670 Átlag: 21,00 330
C = 1670/10 =167
Értelmezés:
Pozitív irányú kapcsolat van a két ismérv között.
C>0 pozitív irányú kapcsolat
C<0 negatív irányú kapcsolat
C=0 a kapcsolat teljes hiánya
3. a. Lineáris korrelációs együttható (a kapcsolat megléte, iránya és szorossága)
( )
∑ ∑∑=
2Y
2X
YX
dd
ddr
T.Nagy Judit 5
HJF Statisztika II.
A számoláshoz szükséges munkatáblázat:
X Y dX dY dXdY dX 2 dY 2
18 250 -3,00 -80 240 9 6400 20 310 -1,00 -20 20 1 400 25 390 4,00 60 240 16 3600 24 320 3,00 -10 -30 9 100 22 330 1,00 0 0 1 0 26 430 5,00 100 500 25 10000 24 390 3,00 60 180 9 3600 19 320 -2,00 -10 20 4 100 16 290 -5,00 -40 200 25 1600 16 270 -5,00 -60 300 25 3600
Összesen: 210 3300 0 0 1670 124 29400 Átlag: 21,00 330
r = 1670/1909,35 = 0,8747
Értelmezés:
Viszonylag szoros, pozitív irányú lineáris kapcsolat van a két ismérv között.
-1 ≤ r ≤ 1
Előjele a kapcsolat irányát mutatja meg.
A kapcsolat annál szorosabb, minél közelebb van |r| az 1-hez. r = 0 a kapcsolat teljes hiánya, korrelálatlanság
3. b. Determinációs együttható
r2=0,87472 =0,765=76,5%
Értelmezés:
A sörfogyasztás ingadozását 76,5%-ban magyarázza a hőmérséklet.
Az eredményváltozó (Y) (ingadozását) varianciáját hány %-ban magyarázza a
magyarázóváltozó (X).
T.Nagy Judit 6
HJF Statisztika II.
4. RegressziószámításKeressük az X Y adatpárokhoz legjobban illeszkedő függvényt.
A függvénytípus megválasztása:
szakmai ismeret alapján
pontdiagram segítségével
A statisztikai gyakorlatban használatos függvénytípusok:
Lineáris regresszió Hatványkitevős regresszió Exponenciális regresszió Parabolikus regresszió Nemlineáris regresszió Hiperbolikus regresszió
0
50
100
150
200
250
0 50 100 150 200
X
Y
lineáris kapcsolat feltételezése
(pozitív irányú)
nemlineáris kapcsolat feltételezése
(pozitív irányú)
lineáris kapcsolat feltételezése
(negatív irányú)
0
1
2
3
4
5
6
0 2 4 6 8 10 12 14
X
Y
nemlineáris kapcsolat feltételezése
(negatív irányú)
T.Nagy Judit 7
HJF Statisztika II.
Kétváltozós lineáris regressziószámítás
I. 1. MINTAPÉLDA
050
100150200250300350400450500
15 17 19 21 23 25 27
X
Y
1.2. ábra
Az előzetes vizsgálat szerint:
A pontdiagram lineáris kapcsolatra utal.
r is alátámasztja a lineáris kapcsolat meglétét és mutatja szorosságát
A lineáris kapcsolatot leíró függvény: f(x) = b1⋅x + b0
A regressziós egyenest alakban keressük. Az adatsorra legjobban illeszkedő
egyenes, melynek a pontoktól mért átlagos távolsága a legkisebb. (A legkisebb négyzetek
módszerével, a szélsőérték feladat megoldására a következőket kapjuk:)
01 bXbY +⋅=
( )∑ →− minYY2
A paraméterek kiszámítása:
∑∑= 2
X
YX1 d
ddb XbYb 10 ⋅−=
b1=1670/124=13,4677 b0=330-13,4677⋅21=47,1783
A keresett regressziós egyenes egyenlete: Y = 13,47X+ 47,18 ˆ
T.Nagy Judit 8
HJF Statisztika II.
050
100150200250300350400450500
15 17 19 21 23 25 27
X: napi átlaghőmérséklet (°C)
Y: n
api s
örfo
gyas
ztás
(l)
1.3. ábra
A paraméterek értelmezése:
b0=47,18: 0 °C napi átlaghőmérséklet esetén átlagosan 47,18 l sörfogyasztásra számíthatunk.
b1=13,47: 1 °C-kal magasabb hőmérséklet átlagosan 13,47 l-es fogyasztásnövekedést okoz.
b0: X=0 esetén Y mekkora értékére számíthatunk átlagosan.
b1: A magyarázó változó (X) adott értékének egy egységnyi változása átlagosan mekkora
változást okoz az eredményváltozóban (Y), a vizsgált tartományban.
A változók kölcsönhatása esetén: X egységnyi változása átlagosan mekkora Y változással
jár együtt.
Előrejelzés
I. 1. MINTAPÉLDA
Becsüljük meg a regressziófüggvény segítségével, hogy 23 °C-os átlaghőmérséklet esetén
mennyi lesz az átlagos napi sörfogyasztás!
Y = 13,47X.+ 47,18
X=23 esetén: = 13,47⋅23 + 47,18 = 356,99 Y
23 °C-os átlaghőmérséklet esetén várhatóan 357 l lesz a napi sörfogyasztás.
T.Nagy Judit 9
HJF Statisztika II.
Elaszticitási (rugalmassági) együttható
Jelentése
X változó adott értékének egységnyi relatív (1%-os) változása az Y változó mekkora relatív
(hány %-os) változásával jár együtt.
Lineáris függvény esetén:
Pontrugalmasság:YXb)X,Y(E 1 ⋅=
Átlagpontban mért rugalmasság: YXb)X,Y(E 1 ⋅=
I. 1. MINTAPÉLDA
Határozzuk meg a sörfogyasztás elaszticitását az X=17 pontban valamint átlagpontban:
X=17 esetén = 13,47⋅17 + 47,18= 276,17 Y
17,276
1747,13)17,Y(E ⋅= = 0,8291
Értelmezés
Ha az átlaghőmérséklet 17°C-ról 1%-kal emelkedik, az 0,831%-os sörfogyasztás-növekedést
okoz.
Átlagpontban, azaz X = 21 esetén, Y = 330
3302147,13)21,Y(E ⋅= = 0,8572
Értelmezés
Ha az átlaghőmérséklet 21°C-ról 1%-kal való emelkedése 0,86%-os sörfogyasztás-növekedést
okoz. Mivel a mutató kisebb, mint 1(%), azt mondhatjuk, hogy a sörfogyasztás rugalmatlanul
reagál a hőmérsékletre.
Az E mutató abszolút nagysága szerint a következő eseteket különböztetjük meg:
• Ha |E|<1, akkor Y rugalmatlan az X változásával szemben.
T.Nagy Judit 10
HJF Statisztika II.
• Ha |E|=1, akkor Y változásával arányosan változik X.
• Ha |E|>1, akkor Y rugalmas az X változásával szemben.
A regressziós becslés hibája
Számítsuk ki a mintában szereplő összes Xi értékhez a regressziófüggvénnyel becsült
értéket (azaz helyettesítsük az = 13,47X+ 47,18 becslőfüggvénybe a mintabeli X-eket).
iY
Y
Az abszolút hiba (reziduális szórás) megmutatja, hogy a regressziós becslések ( ) átlagosan iY
mennyivel térnek el az eredményváltozó (Yi) megfigyelt értékeitől.
2ne
s2
ie −= ∑
ahol (maradéktag) iii YYe −=
A relatív hiba (relatív reziduális szórás) megmutatja, hogy a regressziós becslések ( ) iY
átlagosan hány %-kal térnek el az eredményváltozó (Yi) megfigyelt értékeitől.
Ys
V ee =
A számoláshoz szükséges munkatáblázat:
X Y Y2)YY( −
18 250 289,64 1571,3296 20 310 316,58 43,2964 25 390 383,93 36,8449 24 320 370,46 2546,2116 22 330 343,52 182,7904 26 430 397,40 1062,7600 24 390 370,46 381,8116 19 320 303,11 285,2721 16 290 262,70 745,2900 16 270 262,70 53,2900
Összesen: 210 3300 ≈3300 6908,8966
88966,6908se = =29,3873 liter
T.Nagy Judit 11
HJF Statisztika II.
3303873,29Ve = =0,0891=8,91%
Értelmezés
Tehát a regressziós becslések átlagosan 29,39 literrel, azaz 8,91%-kal térnek el a megfigyelt
értékektől.
A regressziófüggvény megbízhatóságát a relatív hibával mérjük. A gyakorlatban 10% alatti
relatív hibájú regressziós becslést minősítünk jónak és tartunk alkalmasnak arra, hogy
előrejelzést készítsünk vele.
T.Nagy Judit 12
HJF Statisztika II.
Összefoglalás
Kapcsolatvizsgálat
Korrelációszámítás: Két (vagy több) mennyiségi ismérv közötti kapcsolat irányát,
szorosságát/intenzitását jellemezi
A korreláció kimutatása:
o Pontdiagrammal
o Mérőszámmal: kovariancia, korrelációs együttható, determinációs együttható
Regresszió számítás: A kapcsolatban lévő tendenciát (ha van) függvénnyel írja le. (Több
változó esetén többváltozós regressziószámításról beszélünk.)
A becslőfüggvény típusának megállapítása pontdiagram vagy szakmai ismeret alapján
történhet. Lehet:
o Lineáris
o Nemlineáris
A kétváltozós lineáris regressziószámítás menete
1. Vizsgáljuk, hogy van-e elég szoros(b), lineáris(a) kapcsolat:
(a) pontdiagram,
(b) lineáris korrelációs együttható (r) segítségével.
Ha van, akkor
2. Meghatározzuk a regressziós egyenes egyenletét
• b1, b0 paraméter meghatározása
• a regressziófüggvény felírása 01 bXbY +⋅=
T.Nagy Judit 13
HJF Statisztika II.
Gyakorló Feladatok 1. Hat hallgatót megkérdezve előző féléves Gazdasági matematika és Makroökonómia jegyükről, a következő adatokat adódtak:
Gazd. Mat. Makro.
1 1 2 1 3 2 4 2 3 2 5 4
Feladat Vizsgálja meg, regressziószámítás segítségével, hogy milyen kapcsolat van az osztályzatok között. Értelmezze a kiszámolt mutatókat és paramétereket. Becsülje meg, a regressziófüggvény segítségével, egy gazdasági matematikából négyesre levizsgázott hallgató makroökonómia jegyét.
2. 15 elemű minta alapján vizsgálták adott típusú új és használt gépkocsik életkora és eladási
ára valamint életkora és futott kilométere közötti kapcsolatot.
Életkor
évEladási ár
MFtFutott
ekm0 5,2 01 2,8 591 3,2 402 2,5 792 2,4 923 2,2 813 1,9 924 1,6 1055 1,5 976 1,4 1207 1,2 1409 1,0 157
11 0,9 22012 1,3 21012 0,7 250
Feladat Jellemezze lineáris regressziófüggvénnyel az arra alkalmasabb kapcsolatot. Ábrázolja a regressziófüggvényt, majd értelmezze paramétereit.
T.Nagy Judit 14
HJF Statisztika II.
Becsülje meg, a regressziófüggvény segítségével, egy 8 éves, ugyanilyen típusú gépkocsi eladási árát/futott kilométerét!
3. Egy budapesti ingatlanügynök 2007. márciusában vizsgálta a körzetében eladó 63 m2-es lakások adatait:
Emelet Kínálati ár (millió Ft)
0 15,8 1 17,6 1 19,5 1 25,9 2 19,2 2 20,0 2 22,6 2 23,9 2 25,5 3 21,3 3 21,5 4 23,5 4 28,0 4 21,5 5 21,0 5 21,9 5 26,7 6 26,7 6 33,9
∑ YXdd = 86,4526 = 58, 9474 ∑ 2
Xd ∑ 2Yd = 316,3074
Feladat Vizsgálja meg regressziószámítással, hogy milyen kapcsolat van a lakás emelete és a kínálati ára között. Értelmezze a kiszámolt mutatókat és paramétereket.
T.Nagy Judit 15
HJF Statisztika II.
II. Idősorok vizsgálata Az idősorok összetevői
Egy jelenség időbeli alakulásának vizsgálatánál, a statisztikai elemzés szempontjából három
tényezőt szoktunk elkülöníteni:
• Alapirányzat (trend) - hosszú távon tartósan érvényesülő tendencia y
(lehet lineáris vagy nemlineáris)
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7
t
yt
0
50
100
150
200
250
300
0 1 2 3 4 5 6 7 8 9
t
yt
• Periodikus ingadozás (szezonhatás) s – rövid időszakon belül ciklikusan ismétlődő,
periodikus hullámzás az alapirányzat körül
0,0
2,0
4,0
6,0
8,0
10,0
12,0
0 2 4 6 8 10 12 14
t
yt
• Véletlen ingadozás (véletlen hatás) v – a trendre gyakorolt egyéb befolyásoló hatások
0,02,04,06,08,0
10,012,014,0
0 2 4 6 8 10 12 1
t
4
yt
A fenti összetevők összekapcsolódása:
1. Additív modell esetén y = + s + v y
2. Multiplikatív modell esetén y = · s · v y
T.Nagy Judit 16
HJF Statisztika II.
A kapcsolódási mód ábrázolás útján dönthető el:
Ha a szezonális ingadozások abszolút nagysága állandó – additív modellt,
0,0
2,0
4,0
6,0
8,0
10,0
12,0
0 2 4 6 8 10 12 1
t
yt
4
012345678
0 2 4 6 8 10 12 14
t
yt
ha a relatív nagyság állandó – multiplikatív modellt használunk.
0
500
1 000
1 500
2 000
2 500
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
t
yt
0,05,0
10,015,020,025,030,0
0 2 4 6 8 10 12 1
t
yt
4
T.Nagy Judit 17
HJF Statisztika II.
Az alapirányzat (trend) meghatározása analitikus trendszámítással
A trendszámítás célja az alapvető tendencia meghatározása, a többi tényező kiszűrése, azaz az
idősor kisimítása. Az analitikus trendszámításnál az alapirányzatot regressziófüggvénnyel
közelítjük (a magyarázó változó az idő: t)
II. 1. MINTAPÉLDA:
Magyarország lakáscélú, devizaalapú hitelállományának alakulását mutatja az alábbi táblázat,
2002. és 2007. között. (KSH)
Év
Tárgyidőszak végén fennálló
állomány összege, 100 milliárd Ft
2002. 6 2003. 14 2004. 19 2005. 22 2006. 27 2007. 31
Ábrázoljuk az idősor adatait:
0
5
10
15
20
25
30
35
2001 2002 2003 2004 2005 2006 2007 2008
Év
Fenn
álló
hite
llállo
mán
y (1
00 M
rd F
t)
2.1. ábra
Következtetés: lineáris kapcsolat (pozitív irányú), nincs szezonalitás.
Mivel az ábra lineáris kapcsolatra utal, az adatokat lineáris trendfüggvénnyel közelítjük. Azaz
keressük az 01t btby += becslőfüggvény b1 és b0 paramétereit. (A legkisebb négyzetek
módszerét alkalmazva, a szélsőérték probléma megoldásaként a
következőket kapjuk:)
( ) minyy tt →−∑
A paraméterek kiszámítása:
T.Nagy Judit 18
HJF Statisztika II.
( )∑ ∑∑
−
⋅⋅−⋅=
nt
t
ytnytb tt
22
1 tbyb 1t0 ⋅−=
T.Nagy Judit 19
HJF Statisztika II.
A számoláshoz szükséges munkatáblázat:
Év yt t t2 t· yt
2002. 6 1 1 62003. 14 2 4 282004. 19 3 9 572005. 22 4 16 882006. 27 5 25 1352007. 31 6 36 186
Összesen 119 21 91 500Átlag 19,8333 3,5
62191
8333,195,36500b 21
−
⋅⋅−= = 4,7715
tbyb 1t0 ⋅−= = 19,8333 - 4,7715⋅3,5 = 3,1299
A lineáris kapcsolatot leíró trendfüggvény: 13,3t77,4y t += . Ábrázolva:
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7
t
yt
2.2. ábra
A paraméterek értelmezése:
b0=3,13 A vizsgált időszakot megelőző időpontban, azaz 2001-ben 3,13 100mrd Ft volt a
fennálló devizaalapú hitelállomány a trend szerint.
T.Nagy Judit 20
HJF Statisztika II.
b1=4,77: A trend szerint a vizsgált időszakban évente átlagosan 4,77 100mrd Ft-tal nőtt a
devizaalapú hitelállomány.
b0: A vizsgált időszakot megelőző időpont trend szerinti értéke.
b1: Ennyivel változik időszakonként átlagosan a vizsgált jelenség, a trend szerint.
Megegyezik a korábban már tanult d mutatóval.
A trendfüggvény hibája
Számítsuk ki a trendértékeket a t=1, 2,…6-ra. Ha a trendfüggvénybe ( )
helyettesítjük a megfelelő t értékeket, megkapjuk az idősor becsült értékeit ( -ket):
13,3t77,4y t +=
ty
A számoláshoz szükséges munkatáblázat:
Év yt t ty 2tt )yy( −
2002. 6 1 7,9 3,6100 2003. 14 2 12,67 1,7689 2004. 19 3 17,44 2,4336 2005. 22 4 22,21 0,0441 2006. 27 5 26,98 0,0004 2007. 31 6 31,75 0,5625
Összesen 119 21 ≈119 8,4195 Átlag 19,8333 3,5
Az abszolút hiba (reziduális szórás)
ne
s2
te
∑= ahol ttt yye −=
64195,8se = =1,1846
A relatív hiba (relatív reziduális szórás) ys
V ee =
T.Nagy Judit 21
HJF Statisztika II.
8333,191846,1Ve = =0,0597=5,97%
Értelmezés
Tehát a fennálló hitelállomány lineáris trendfüggvénnyel becsült értékei és a valós értékek
átlagosan 1,1846 100mrd Ft-tal, azaz 5,97%-kal térnek el egymástól..
Ha a relatív reziduális szórás nem haladja meg a 10%-ot, akkor minősítjük a trendfüggvényt
jónak (ekkor alkalmas előrejelzés készítésére).
Az szezonalitás meghatározás (additív modell esetén)
II. 2. MINTAPÉLDA:
A Magyarországra érkező külföldi látogatók számának alakulása 2005 és 2007 között (KSH):
Év Negyedév
Egy napra látogatók száma, millió fő
2005. I. 4,6 II. 5,9 III. 9,4 IV. 6,3
2006. I. 5,4 II. 6,8 III. 10,0 IV. 6,8
2007. I. 6,2 II. 7,4 III. 10,6 IV. 6,6
1.) Ábrázoljuk az idősor adatait:
T.Nagy Judit 22
HJF Statisztika II.
0,02,04,06,08,0
10,012,0
I. II. III. IV. I. II. III. IV. I. II. III. IV.
2005. 2006. 2007.
időszak
láto
gató
k sz
áma
(mill
ió fő
)
2.3. ábra
Következtetés: lineáris kapcsolat, van szezonalitás (additív modell).
2.) Mivel az ábra lineáris kapcsolatra utal, az adatokat lineáris trendfüggvénnyel közelítjük.
A számoláshoz szükséges munkatáblázat:
Év Negyedév yt t t2 t· yt
2005. I. 4,6 1 1 4,6 II. 5,9 2 4 11,8 III. 9,4 3 9 28,2 IV. 6,3 4 16 25,2
2006. I. 5,4 5 25 27,0 II. 6,8 6 36 40,8 III. 10,0 7 49 70,0 IV. 6,8 8 64 54,4
2007. I. 6,2 9 81 55,8 II. 7,4 10 100 74,0 III. 10,6 11 121 116,6 IV. 6,6 12 144 79,2
Összesen 86,0 78,0 650,0 587,6 Átlag 7,1667 6,5
A paraméterek kiszámítása:
1278650
1667,75,6126,587b 21
−
⋅⋅−= =0,2
5,62,01667,7b0 ⋅−= =5,8667
A lineáris kapcsolatot leíró trendfüggvény: 9,5t2,0y t +=
T.Nagy Judit 23
HJF Statisztika II.
0,02,04,06,08,0
10,012,0
0 2 4 6 8 10 12 14
t
yt
2.4. ábra
A paraméterek értelmezése:
b0=5,9: A vizsgált időszakot megelőző időpontban, azaz 2004 IV. negyedévében 5,9 millió fő
látogatott hazánkba, trend szerint.
b1=0,2: A trend szerint a vizsgált időszakban negyedévente átlagosan 0,2 millió fővel nőtt a
hazánkba látogató külföldiek száma.
3.) A szezonhatás kimutatása
Cél: A szezonok általános jellemzése.
Mivel a szezonális ingadozások abszolút nagysága állandó – additív modellt használunk:
. ttt vsyy ++=
Az egyedi szezonális eltérések ( tt yy − ) kiszámításához az alábbi
munkatáblázatot készítjük (ahol az értékek a 2.) pontban meghatározott
lineáris trend függvénnyel becsült értékek.):
ty
Év Negyedév ty t ty tt yy −2005. I. 4,6 1 6,1 -1,5
II. 5,9 2 6,3 -0,4 III. 9,4 3 6,5 2,9 IV. 6,3 4 6,7 -0,4
2006. I. 5,4 5 6,9 -1,5 II. 6,8 6 7,1 -0,3 III. 10,0 7 7,3 2,7 IV. 6,8 8 7,5 -0,7
2007. I. 6,2 9 7,7 -1,5 II. 7,4 10 7,9 -0,5 III. 10,6 11 8,1 2,5 IV. 6,6 12 8,3 -1,7 Összesen 86,0 78,0 86,4 -0,4
T.Nagy Judit 24
HJF Statisztika II.
Az utolsó oszlopban szereplő egyedi szezonális eltéréseket szezononként rendezve a
következő táblát kapjuk:
Időszak I. negyedév
II. negyedév
III. negyedév
IV. negyedév
2005 -1,5 -0,4 2,9 -0,4 2006 -1,5 -0,3 2,7 -0,7 2007 -1,5 -0,5 2,5 -1,7
Az egyes negyedévek szezonális eltérései (számtani átlagok):
sI=3
)5,1()5,1(5,1 −+−+− = -1,50
sII=3
)5,0()3,0(4,0 −+−+− = -0,40
sIII=3
5,27,29,2 ++ = 2,70
sIV=3
)7,1()7,0(5,1 −+−+− = -0,93
Ha ezeket összeadva nem 0-t kapunk, akkor nem sikerült teljesen kiszűrnünk
az ingadozást, így korrekció szükséges.
-1,5+(-0,4)+2,7+(-0,93)≠0
A korrekciós tényező:4
ssss IVIIIIII +++(számtani átlag)
Korrekciós tényező: 03,04
93,07,24,05,1−=
−+−−
Az egyes negyedévek korrigált szezonális eltérései: s* = s – korrekciós
tényező
sI*= -1,5-(-0,0333) = -1,4667
sII*= -0,4-(-0,0333) = -0,3667
sIII*= 2,7-(-0,0333) = 2,7333
sIV*= -0,93-(-0,0333) = -0,8967
T.Nagy Judit 25
HJF Statisztika II.
Időszak I. negyedév
II. negyedév
III. negyedév
IV. negyedév
2005 -1,5 -0,4 2,9 -0,4 2006 -1,5 -0,3 2,7 -0,7 2007 -1,5 -0,5 2,5 -1,7 Össz. Korr.
s: szezonális eltérés (számtani átlag) -1,50 -0,40 2,7 -0,9333 -0,1333 -0,0333s*: korrigált szezonális eltérés (s-korr) -1,4667 -0,3667 2,7333 -0,8967 0
Így a korrekcióval elértük, hogy a (korrigált) szezonális eltérések összege 0 legyen:
sI* + sII
* + sIII*+ sIV
*= 0
-1,4667 + (-0,3667) + (2,7333) + (-0,8967) = 0
A szezonális eltérések jelentése:
sI*= - 1,47: A vizsgált időszakban az első negyedévben a szezonhatás miatt a tényleges
látogatók száma átlagosan 1,47 millió fővel alatta marad a trend szerinti értéknek.
sIII*= 2,73: A vizsgált időszakban a harmadik negyedévben a szezonhatás miatt a tényleges
látogatók száma átlagosan 2,73 millió fővel meghaladja a trend szerinti értéket.
T.Nagy Judit 26
HJF Statisztika II.
Előrejelzés (Extrapoláció)
Additív modellben: + s* (vagy s) ty
II. 2. MINTAPÉLDA
Határozzuk meg a látogatók számát 2008. IV. és 2009. I. negyedévében:
2008. IV. negyedévére:
• t = 16 -ot behelyettesítve a trendfüggvény egyenletébe kapjuk a trend szerinti értéket:
= 9,1, 9,5162,0y16 +⋅=
• amit a IV. negyedév szezonális eltérésével módisítunk = 9,1 - 0,8967 = 8,2033 IV*
16 sy +
Értelmezés:
A látogatók várható száma 2008. IV. negyedévében, ha a tapasztalt tendencia folytatódik 8,2
millió fő lesz.
2009. I. negyedévére hasonlóan számolunk:
• t = 17 esetén = 9,3 a trend szerinti érték. 9,5172,0y17 +⋅=
A szezonalitást is figyelembe véve:
• = 9,3 - 1,4667 = 7,8333 millió fő lesz a látogatók várható száma 2009. I.
negyedévében, ha a tapasztalt tendencia folytatódik.
*I17 sy +
Véletlen hatás (interpoláció segítségével)
II. 2. MINTAPÉLDA
Határozzuk meg, hogy mekkora volt a véletlen hatás 2007. III. negyedévében.
Az additív modell szerint: yt = + sty * + vt (ha a szezonális eltérések korrekciójára volt
szükség, akkor a képletben s helyett s* szerepel), amiből )sy(yv *ttt +−=
• t = 11 esetén = 8,1 11y
A látogatók száma a trend szerint 2007. III. negyedévében 8,1 millió fő.
• = 8,1 + 2,7333 = 10,8333 )sy( *11 +
T.Nagy Judit 27
HJF Statisztika II.
A látogatók száma a becslésünk szerint (figyelembe véve a szezonalitást) 2007. III.
negyedévében 10,83 millió fő.
Az ilyen típusú előrejelzést, amely során a vizsgált időszakon belülre végzünk becslést
interpolációnak nevezzük.
• v11 = 10,6 - 10,8333 = 0,2333
Tehát a véletlen hatás 2007. III. negyedévében 0,23 millió fő volt.
Az szezonalitás meghatározás (multiplikatív modell esetén)
II. 3. MINTAPÉLDA
A következő táblázat a Magyarországon értékesített burgonyamennyiséget tartalmazza (ezer
tonnában), 2004. és 2007. között (KSH):
Időszak Burgonya (ezer tonna)
2004 J–M 5,5 Á–Jú 9,4 Jl–Sz 24,7 O–D 11,8
2005 J–M 7,7 Á–Jú 10,0 Jl–Sz 17,8 O–D 13,5
2006 J–M 8,2 Á–Jú 10,4 Jl–Sz 16,7 O–D 7,7
2007 J–M 4,1 Á–Jú 6,0 Jl–Sz 10,8 O–D 6,9
1.) Ábrázoljuk az idősor adatait:
T.Nagy Judit 28
HJF Statisztika II.
0,0
5,0
10,015,0
20,0
25,0
30,0
J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D J–M Á–Jú Jl–Sz O–D
2004 2005 2006 2007
időszak
érté
kesí
tett
burg
onya
men
nyis
ég(e
zer
tonn
a)
2.5. ábra
Következtetés: lineáris kapcsolat, van szezonalitás (multiplikatív modell).
2.) Mivel az ábra lineáris kapcsolatra utal, az adatokat lineáris trendfüggvénnyel közelítjük.
A számoláshoz szükséges munkatáblázat:
időszak yt t t2 t· yt2004 J–M (I.) 5,5 1 1 5,5
Á–Jú (II.) 9,4 2 4 18,8 Jl–Sz (III.) 24,7 3 9 74,1 O–D (IV.) 11,8 4 16 47,2
2005 J–M (I.) 7,7 5 25 38,5 Á–Jú (II.) 10,0 6 36 60,0 Jl–Sz (III.) 17,8 7 49 124,6 O–D (IV.) 13,5 8 64 108,0
2006 J–M (I.) 8,2 9 81 73,8 Á–Jú (II.) 10,4 10 100 104,0 Jl–Sz (III.) 16,7 11 121 183,7 O–D (IV.) 7,7 12 144 92,4
2007 J–M (I.) 4,1 13 169 53,3 Á–Jú (II.) 6,0 14 196 84,0 Jl–Sz (III.) 10,8 15 225 162,0 O–D (IV.) 6,9 16 256 110,4
Összesen 171,18 136 1496 1340,3 Átlag 10,7 8,5
A paraméterek kiszámítása:
161361496
7,105,8163,1340b 21
−
⋅⋅−= = - 0,3379
5,8)3379,0(7,10b0 ⋅−−= =13,5722
T.Nagy Judit 29
HJF Statisztika II.
A lineáris kapcsolatot leíró trendfüggvény: 57,13t34,0y t +−=
0,0
5,0
10,0
15,0
20,0
25,0
30,0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
t
yt
2.6. ábra
A paraméterek értelmezése:
b0= 13,57: A vizsgált időszakot megelőző időpontban, azaz 2003 IV. negyedévében az
értékesített burgonyamennyiség 13,57 ezer t, a trend szerint.
b1= - 0,34: A trend szerint a vizsgált időszakban negyedévente átlagosan 0,34 ezer tonnával
csökkent a hazánkban értékesített burgonyamennyiség.
3.) A szezonhatás kimutatása
Mivel a szezonális ingadozások relatív nagysága állandó – multiplikatív modellt használunk
. ttt vsyy ⋅⋅=
Az egyedi szezonindexek ⎟⎟⎠
⎞⎜⎜⎝
⎛
t
t
yy
kiszámításához az alábbi munkatáblázatot
készítjük ahol az értékek a 2.) pontban meghatározott
lineáris trend függvénnyel becsült értékek.:
ty 57,13t34,0y t +−=
T.Nagy Judit 30
HJF Statisztika II.
Év Negyedév yt t tyt
t
yy
2004 I. 5,5 1 13,23 0,42 II. 9,4 2 12,89 0,73 III. 24,7 3 12,55 1,97 IV. 11,8 4 12,21 0,97
2005 I. 7,7 5 11,87 0,65 II. 10,0 6 11,53 0,87 III. 17,8 7 11,19 1,59 IV. 13,5 8 10,85 1,24
2006 I. 8,2 9 10,51 0,78 II. 10,4 10 10,17 1,02 III. 16,7 11 9,83 1,70 IV. 7,7 12 9,49 0,81
2007 I. 4,1 13 9,15 0,45 II. 6,0 14 8,81 0,68 III. 10,8 15 8,47 1,28 IV. 6,9 16 8,13 0,85
Az utolsó oszlopban szereplő hányadosokat (szezonindexeket) szezononként rendezve a
következő táblát kapjuk:
Időszak I. II. III. IV. 2004 0,42 0,73 1,97 0,97 2005 0,65 0,87 1,59 1,24 2006 0,78 1,02 1,7 0,81 2007 0,45 0,68 1,28 0,85
Az egyes negyedévek szezonindexei (mértani átlagok):
sI.= 4 45,078,065,042,0 ⋅⋅⋅ = 0,5564
sII.= 4 68,002,187,073,0 ⋅⋅⋅ = 0,8147
sIII.= 4 28,17,159,197,1 ⋅⋅⋅ = 1,6158
sIV. = 4 85,081,024,197,0 ⋅⋅⋅ = 0,9539
Ha ezeket összeszorozva nem 1-et kapunk, akkor nem sikerült teljesen kiszűrnünk az
ingadozást, tehát korrekció szükséges.
0,5564⋅ 0,8147 ⋅1,658 ⋅0,9539 ≠ 1
T.Nagy Judit 31
HJF Statisztika II.
A korrekciós tényező: 4.IV.III.II.I ssss ⋅⋅⋅ (mértani átlag)
Korrekciós tényező: 9143,09539,06158,18147,05564,04 =⋅⋅⋅
Az egyes negyedévek korrigált szezonindexei:tényezőkorrekciós
ss* =
sI. *=
9143,05564,0 = 0,6086
sII.*=
9143,08147,0 = 0,8911
sIII.*=
9143,06158,1 =1,7673
sIV.*=
9143,09539,0 =1,0433
Időszak I. II. III. IV. 2004 0,42 0,73 1,97 0,97 2005 0,65 0,87 1,59 1,24 2006 0,78 1,02 1,7 0,81 2007 0,45 0,68 1,28 0,85 Prod. Korr.
s: szezonindex (mértani átlag) 0,5564 0,8147 1,6158 0,9539 0,6987 0,9143 s*: korrigált szezonindex 0,6086 0,8911 1,7673 1,0433 1
Így a korrekcióval elértük, hogy a (korrigált) szezonindexek szorzata 1 legyen:
sI. * ⋅ sII.
* ⋅ sIII.* ⋅ sIV.
* = 1
0,6086⋅0,8911⋅1,7673⋅1,0433=1
A szezonindexek jelentése:
sI. *= 0,6086: A vizsgált időszakban az első negyedévben a szezonhatás miatt a tényleges
értékesített burgonyamennyiség átlagosan 0,6086-szorosa (60,86%-a, 39,14%-kal alatta
marad) a trend szerinti értéknek.
T.Nagy Judit 32
HJF Statisztika II.
sJl-Sz*= 1,7673: A vizsgált időszakban a harmadik negyedévben a szezonhatás miatt a
tényleges értékesített burgonyamennyiség átlagosan 1,7673-szorosa (76,73%-kal meghaladja)
a trend szerinti értéknek (értéket).
Előrejelzés (Extrapoláció)
Multiplikatív modellben: ⋅ s* (vagy s) ty
II. 3. MINTAPÉLDA
Határozzuk meg értékesített burgonyamennyiséget 2008. IV. negyedévében:
2008. IV. negyedévére:
• t = 20-at
• a trend szerinti érték: 57,132034,0y20 +⋅−= =6,77
• a szezonalitást figyelembe véve azaz a IV. negyedév szezonindexével módosítva ⋅ s*20y IV.
= 6,77⋅1,0434 = 7,0638
Értelmezés:
Tehát a várhatóan értékesített burgonyamennyiség 2008. IV. negyedévében, ha a tapasztalt
tendencia folytatódik 7,06 ezer t lesz.
Véletlen hatás
II. 3. MINTAPÉLDA
Határozzuk meg, hogy mekkora volt a véletlen hatás 2007. I. negyedévében.
A multiplikatív additív modell szerint: yt = ⋅ sty * ⋅ vt (ha a szezonindexek korrekciójára volt
szükség, akkor a képletben s helyett s* szerepel), amiből *t
tt sy
yv
⋅= .
• t = 13 esetén 9,15 =13y
A értékesített burgonyamennyiség a trend szerint 2007. I. negyedévében 9,15 ezer tonna.
• = 9,15 ⋅0,6086 = 5,5687 )sy( *.I13 ⋅
T.Nagy Judit 33
HJF Statisztika II.
A értékesített burgonyamennyiség a becslésünk szerint, figyelembe véve a szezonalitást 2007.
I. negyedévében 5,57 ezer tonna.
• 5687,5
1,4v13 = = 0,7363
Értelmezés:
Tehát a véletlen hatás 2007. I. negyedévében 0,74 volt.
T.Nagy Judit 34
HJF Statisztika II.
Összefoglalás Az idősorelemzés menete
1. Ábrázoljuk az adatokat pontdiagramon. Ebből megállapítható
• a trendfüggvény típusa (lineáris, nemlineáris)
• hogy van-e szezonalitás (és, hogy additív vagy multiplikatív a modell)
2. A lineáris trendfüggvény meghatározása
• b1, b0 paraméterek meghatározása
• majd a trendvonal egyenletének egyenlet felírása.: 01t btby +=
Ha van szezonalitás:
3. A trendfüggvénnyel becsült adatok ( ) kiszámítása. ty
4. A szezonális ingadozás kimutatása (szezonális eltérések vagy szezonindexek
meghatározása)
• Az egyedi szezonális eltérések/szezonindexek kiszámítása
Additív modell
tt yy −
Multiplikatív modell
t
t
yy
Cél: Az egyes szezonok általános jellemzése, szezononkénti (számtani ill. mértani)
átlagolással. Így kapjuk sI., sII., sIII., sIV. szezonális eltérések/szezonindexek értékét.
Ha sikerült teljesen kiszűrnünk az ingadozást:
0s =∑ 1s =∏
• Ha nem, akkor az s-eket nyers szezonális eltéréseknek/szezonindexeknek
nevezzük és belőlük korrekcióval kapjuk az ún. korrigált szezonális
eltéréseket/szezonindexeket (s*). A korrekciós tényező a szezonális
eltérések/szezonindexek számtani/mértani átlaga.
ms
tényezőkorrekciós ∑= m stényezőkorrekciós ∏=
tényezőkorrekciósss* −=
tényezőkorrekciósss* =
T.Nagy Judit 35
HJF Statisztika II.
Gyakorló Feladatok 1. Magyarország burgonyatermelésének alakulása 2001-2007 között (KSH):
Év Burgonyatermelés
(ezer hektár) 2001 36 2002 34 2003 31 2004 31 2005 25 2006 23 2007 26
Feladat Illesszen trendfüggvényt az adatsorra. Értelmezze a függvény paramétereit. Becsülje meg a trendfüggvény segítségével az ország 2009-es burgonyatermelését.
2. A hangverseny látogatók számának alakulása 1990 és 2006 között Magyarországon (KSH):
Év
1000 lakosra jutó hangverseny
látogató 1990 72 1991 58 1992 56 1993 50 1994 49 1995 45 1996 44 1997 37 1998 39 1999 41 2000 42 2001 44 2002 48 2003 46 2004 45 2005 50 2006 43
∑ 2t = 1785 t
yt∑ ⋅ =6900
Feladat Illesszen trendfüggvényt az adatsorra. Értelmezze a függvény paramétereit.
T.Nagy Judit 36
HJF Statisztika II.
Becsülje meg a trendfüggvény segítségével, a 2008-ban ezer lakosra jutó hangverseny látogatók számát.
3. Az egyetemet végzett foglalkoztatottak számának alakulása Magyarországon (december 31.)
(KSH):
Év Egyetemet végzett foglalkoztatottak száma (ezer fő)
1998 246,6
1999 244,9
2000 275,7
2001 269,8
2002 265,6
2003 299,0
2004 332,7
2005 335,5
2006 330,8 Feladat Illesszen trendfüggvényt az adatsorra. Értelmezze a függvény paramétereit. Becsülje meg a trendfüggvény segítségével a foglalkoztatottak számát, 2008-ban.
4. Magyarország vendéglátóhelyeinek eladási forgalma 2005 és 2007 között (KSH):
Időszak Forgalom(Mrd Ft)
2005 I. negyedév 16 II. negyedév 17 III. negyedév 14 IV. negyedév 20 2006 I. negyedév 21 II. negyedév 18 III. negyedév 14 IV. negyedév 22 2007 I. negyedév 22 II. negyedév 21 III. negyedév 16 IV. negyedév 24
T.Nagy Judit 37
HJF Statisztika II.
Feladat Határozza meg a forgalom irányzatát leíró lineáris trendfüggvényt és értelmezze a paramétereit. Vizsgálja meg a szezonalitást, multiplikatív kapcsolatot feltételezve. Határozza meg a véletlen szerepét 2006. III. negyedévében. Becsülje meg a 2008. IV. negyedévében várható forgalmat.
5. Az ittasan, segédmotor kerékpárral okozott balesetek számának alakulása Magyarországon 2005
és 2007 között (KSH):
Időszak Balesetek
száma 2005 I. negyedév 22 II. negyedév 67 III. negyedév 70 IV. negyedév 36 2006 I. negyedév 20 II. negyedév 79 III. negyedév 89 IV. negyedév 46 2007 I. negyedév 34 II. negyedév 87 III. negyedév 99 IV. negyedév 48
Feladat Határozza meg és értelmezze a lineáris trendfüggvény paramétereit. Vizsgálja meg a szezonalitást, additív modellt feltételezve. Határozza meg a véletlen szerepét 2005. IV. negyedévében. Becsülje meg, hogy a 2009. I. negyedévében hány baleset várható.
6. Egy utazási iroda, lineáris trend szerinti bevétele 2001. IV. negyedévében 45 millió Ft volt. Ezt az
értéket a 2002. és 2007. időszak (negyedéves) adataiból számított trend alapján határozták meg. A
negyedévenkénti átlagos növekedés 1,2 millió Ft.
Feladat Írja fel a lineáris trend egyenletét. Határozza meg a 2005. I. negyedévi trend szerinti értéket.
A negyedévekre vonatkozó korrigált szezonindexek a következők voltak: szezonindex I. negyedév II. negyedév III. negyedév IV. negyedév
% 76 130 90
T.Nagy Judit 38
HJF Statisztika II.
Feladat Számítsa ki és értelmezze a hiányzó adatot. Készítsen előrejelzést 2009. III. negyedévére (a szezonalitást figyelembe véve).
7. Egy cég forgalma 2001. és 2007. között a negyedéves adatok alapján a következő
trendfüggvénnyel írható le (M Ft): =1,6t + 11,2 ty
A negyedévekre vonatkozó korrigált szezonális eltérések a következők voltak: Szezonális
eltérés I. negyedév II. negyedév III. negyedév IV. negyedév
M Ft 0,8 -1,3 -2,2
Feladat Értelmezze a trendfüggvény paramétereit. Határozza meg és értelmezze a hiányzó szezonális eltérést.
Becsülje meg 2009. II. negyedévében várható forgalmat.
T.Nagy Judit 39