View
229
Download
4
Embed Size (px)
Citation preview
FIF
1. ForgangurAf reiknilíkönum og
óvissu:Að fella mælingar að
líkaniFyrirlestur #2
Haustönn 2006Einar Hjörleifsson
2
© einar
Af óvissu
• “It’s ok to be uncertain. It’s ok to be ignorant. But it’s never ok to be certain when you are, in fact, uncertain or ignorant.”
Dr. Donald J. Orth
• Allar mælingar og öll líkön fela í sér óvissu.• Viðfangsefnið vísindamannsins er að meta og lýsa
óvissunni.• Viðfangsefni stjórnenda er ákvörðunartaka í ljósi
óvissunar. Oft þarf að taka ákvarðanir áður en við höfum mælingar til að
byggja ákvarðanir á!
3
© einar
Af orðnotkun
ENSKA Uncertainty Error Confidence interval Deviation
ÍSLENSKA Óvissa Skekkja Öryggismörk Frávik
Sum hugtökin hafa með vissum hætti innbyggða neikvæða merkingu. Upplýsingagildið sem í þeim felast segja hinsvegar oft meira en meðaltalið eða miðgildið sem oftast er vitnað til.
4
© einar
Að fella gögn að líkani
Þrjú skref: Mælingar úr einhverju nátturlegu mengi
Formlegt tölfræðilegt líkan með stuðlum sem á að meta
Einhvert skilyrði til þess að meta hversu vel líkanið fylgir mæligögnunum miðað við mismundi gildi stuðlanna. Skilyrðið er oft lágmarksumma frávika.
5
© einar
Hvað er reiknilíkan?
Tölfræðileg greining á mælingum þar sem stuðlar í ákveðinni jöfnu eru metnir þannig að mæld gildi falli sem best að spágildum líkansins samkvæmt ákveðnum skilyrðum.
Hin kunnulega línulega aðhvarfsgreining er ekkert annað en ákveðið mat á stuðlum í mjög einföldu reiknilíkani.
Mat á meðaltali með staðalskekkju er einnig líkan “Reiknilíkan Hafrannsóknastofnunarinnar” er í eðli
sínu sambærilegt, bara flóknara.
6
© einar
Bestun – “Goodness of fit”
Mælt gildi = Spáð gildi + FrávikYi = Ŷi + i
Spáð gildi: Byggt á einhverju formlegu stærðfræðilegu líkani
i stendur hér fyrir sérhverja mælingu, i = 1,2,3, …n
Frávik = Mælt gildi – Spáð gildii= Yi – Ŷi
Þar sem frávikið er í raun mæling á fjarlægð á spáðu gildi miðað við mælda gildið þá er það augljóslega góður mælikvarði á bestun, þ.e. hversu vel líkanið fellur að mæligögnunum.
7
© einar
Myndræn framsetning á fráviki
0.0
5.0
0 100
Spáð gildiŶi
Yi
Xi
Mælt gildi
i
ˆi i iY Y
8
© einar
Bestun: Summa frávika2
i = Mælt gildi – Spáð gildi
Frávikin eru bæði jákvæð og neikvæð gildi Því er ekki hægt að nota einfalda summu frávikanna í
bestun Frávikin sett í annað veldi leysir vandamálið fyrir
neikvæðu gildin Stærðfræðileg mjög hentugt
SS = (Mælt –Spáð)2 = i2
Bestun felur í sér að finna þau gildi fyrir stuðlana í reiknilíkaninu sem að gefa lægstu summu frávika2
Það fylgja þessu ákveðnar forsendur: Frávikin eru normaldreifð um spáða gildið með sömu dreifingu (2) fyrir öll mældu gildin. A stærðfræðimáli er slíkt skrifað sem:
~ N(0,2)
9
© einar
0.0
5.0
0 100
Frávikin í öðru veldi
22 ˆi i iY Y
10
© einar
0.0
5.0
0 100
Summa frávika2
22 ˆi i iY Y
11
© einar
Grunnskilyrði reiknilíkana
Óháð því hversu flókið sjálft líkanið er, þá er gunnskilyrðið fyrir bestun alltaf hið sama: SS = (Mælt – Spáð)2
Það eina sem er flókið er aðferðin sem að notuð er til þess að meta stuðlana sem að uppfylla skilyrðið um lágmarkssummu frávika.
FIF
Dæmi: Línuleg bestun með tveimur stuðlum
13
© einar
Mælingarnar
Tíu fiskar (n=10) með eftirfarandi mælingum
Þyngd fisks Hrognafjöldi
Einföld rýni: Því þyngri sem fiskurinn
er því fleiri eru hrognin. Líklegt að einfalt línulegt
líkan með tveimur stuðlum: (hallatölu og skurðpunkti) dugi til þess að lýsa sambandinu milli þyngdar og hrognafjölda.
i Þyngd n Egg1 16.0 57.852 19.2 81.463 22.4 62.264 26.4 96.575 30.0 108.286 35.2 94.057 36.4 102.858 41.6 138.619 44.8 124.75
10 48.8 158.57
0
20
40
60
80
100
120
140
160
180
0 10 20 30 40 50 60
Body weight
Nu
mb
er o
f eg
gs
('000
)
14
© einar
Líkanið á stærðfræðimáli
Á stærðfræðimáli skrifum við:Mælt gildi = Spáð gildi + frávik
Yi = Ŷi + i
Yi = a + b * Xi + i
Hrognafjöldii = a + b * Þyngdi + frávik
Fyrir þetta líkan er bestunin:SS = (Mælti – Spáði )2
= ( Yi – Ŷi )2
= ( Yi – [a+ b * Xi] )2
= (Hrognafjöldii – [a + b * Þyngdi])2
Mismunandi tölugildi á stuðlunum a og b gefa mismunandi tölugildi á SS. Markmiðið er að finna þau gildi fyrir a og b sem að gefa lægsta SS gildið.
15
© einar
Blað og blýantsútreikningur
Skurðpunktur (a) 20.00Hallatala (b) 2.50
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 60.0 -2.150 4.6242 19.2 81.462 68.0 13.462 181.2143 22.4 62.264 76.0 -13.736 188.6864 26.4 96.570 86.0 10.570 111.7225 30.0 108.284 95.0 13.284 176.4736 35.2 94.051 108.0 -13.949 194.5667 36.4 102.849 111.0 -8.151 66.4388 41.6 138.611 124.0 14.611 213.4819 44.8 124.747 132.0 -7.253 52.610
10 48.8 158.565 142.0 16.565 274.407
Xi: Þyngd fisks SS =(Yi-Ŷi)2 1464.220Yi: Hrognafjöldi (´000)
16
© einar
Gildin á a og b ráða gildinu á SS Skurðpunktur (a) 102.00
Hallatala (b) 0.00
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 102.0 -44.150 1949.2592 19.2 81.462 102.0 -20.538 421.8273 22.4 62.264 102.0 -39.736 1578.9724 26.4 96.570 102.0 -5.430 29.4865 30.0 108.284 102.0 6.284 39.4926 35.2 94.051 102.0 -7.949 63.1817 36.4 102.849 102.0 0.849 0.7218 41.6 138.611 102.0 36.611 1340.3649 44.8 124.747 102.0 22.747 517.415
10 48.8 158.565 102.0 56.565 3199.625
Xi: Þyngd fisks SS =(Yi-Ŷi)2 9140.343Yi: Hrognafjöldi (´000)
Skurðpunktur (a) 20.00Hallatal (b) 2.50
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 60.0 -2.150 4.6242 19.2 81.462 68.0 13.462 181.2143 22.4 62.264 76.0 -13.736 188.6864 26.4 96.570 86.0 10.570 111.7225 30.0 108.284 95.0 13.284 176.4736 35.2 94.051 108.0 -13.949 194.5667 36.4 102.849 111.0 -8.151 66.4388 41.6 138.611 124.0 14.611 213.4819 44.8 124.747 132.0 -7.253 52.610
10 48.8 158.565 142.0 16.565 274.407
Xi: Þyngd fisks SS =(Yi-Ŷi)2 1464.220Yi: Hrognafjöldi (´000)
0
20
40
60
80
100
120
140
160
180
0 10 20 30 40 50 60
Body weight
Nu
mb
er o
f eg
gs
('00
0)
0
20
40
60
80
100
120
140
160
180
0 10 20 30 40 50 60
Body weight
Nu
mb
er o
f eg
gs
('00
0)
17
© einar
SS gildið sem fall af b Intercept (a) 20.00
Slope (b) 2.50
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 60.0 -2.150 4.624…
10 48.8 158.565 142.0 16.565 274.407
Xi: Body weight SS =(Yi-Ŷi)2 1464.220Yi: No. Eggs (´000)
Intercept (a) 20.00Slope (b) 2.60
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 61.6 -3.750 14.066…
10 48.8 158.565 146.9 11.685 136.545
Xi: Body weight SS =(Yi-Ŷi)2 1398.783Yi: No. Eggs (´000)
Intercept (a) 20.00Slope (b) 3.00
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 68.0 -10.150 103.031…
10 48.8 158.565 166.4 -7.835 61.384
Xi: Body weight SS =(Yi-Ŷi)2 3418.317Yi: No. Eggs (´000)
0
500
1000
1500
2000
2500
3000
3500
2.2 2.4 2.6 2.8 3
slope b
SS
Breyting á hallatölunni (b) leiðir til mismunandi SS-gilda.
Fyrir gefinn skurðpunkt (a), þá er aðeins ein hallatala (b) sem gefur lægsta SS-gildið.
18
© einar
SS gildið sem fall af a Intercept (a) 17.00
Slope (b) 2.50
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 57.0 0.850 0.722…
10 48.8 158.565 139.0 19.565 382.798
Xi: Body weight SS =(Yi-Ŷi)2 1693.734Yi: No. Eggs (´000)
Intercept (a) 22.00Slope (b) 2.50
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 62.0 -4.150 17.226…
10 48.8 158.565 144.0 14.565 212.146
Xi: Body weight SS =(Yi-Ŷi)2 1411.210Yi: No. Eggs (´000)
Intercept (a) 27.00Slope (b) 2.50
i Xi Yi Ŷi Yi-Ŷi (Yi-Ŷi)2
1 16.0 57.850 67.0 -9.150 83.730…
10 48.8 158.565 149.0 9.565 91.494
Xi: Body weight SS =(Yi-Ŷi)2 1628.687Yi: No. Eggs (´000)
Breyting á skurðpunkti (a) leiðir til mismunandi SS-gilda.
Fyrir gefna hallatölu (b), þá er aðeins einn skurðpunktur (b) sem gefur lægsta SS-gildið.
0
200
400
600
800
1000
1200
1400
1600
1800
2000
17 18 19 20 21 22 23 24 25 26 27
intercept a
SS
19
© einar
SS gildið sem fall af a og b
Aðeins eitt sett af tölugildum fyrir a og b gefur lægsta SS.
Hallatala2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
15.0 7300 5773 4474 3404 2561 1947 1561 1402 1472 177115.5 7069 5574 4307 3269 2458 1876 1522 1396 1498 182816.0 6843 5380 4145 3139 2360 1810 1488 1394 1528 189116.5 6621 5191 3988 3014 2268 1749 1459 1398 1564 195817.0 6405 5007 3836 2894 2180 1694 1436 1406 1604 203117.5 6194 4828 3689 2779 2097 1643 1417 1419 1650 210818.0 5988 4654 3547 2669 2019 1597 1403 1438 1700 219118.5 5787 4484 3410 2564 1946 1556 1395 1461 1756 227919.0 5591 4320 3278 2464 1878 1521 1391 1490 1816 237119.5 5399 4161 3151 2369 1816 1490 1392 1523 1882 246920.0 5213 4007 3029 2279 1758 1464 1399 1561 1952 257120.5 5032 3858 2912 2195 1705 1443 1410 1605 2028 267921.0 4856 3714 2800 2115 1657 1428 1426 1653 2108 279121.5 4685 3575 2693 2040 1614 1417 1448 1707 2194 290922.0 4519 3441 2591 1970 1576 1411 1474 1765 2284 303222.5 4358 3312 2494 1905 1544 1410 1505 1829 2380 315923.0 4201 3188 2402 1845 1516 1415 1542 1897 2480 329223.5 4050 3069 2315 1790 1493 1424 1583 1970 2586 342924.0 3904 2955 2233 1740 1475 1438 1629 2049 2696 357224.5 3763 2846 2156 1695 1462 1457 1681 2132 2812 371925.0 3627 2742 2084 1655 1454 1482 1737 2221 2932 3872
Sk
urð
pu
nk
tur
n
i ibXaiYSSE1
2
20
© einar
Númerísk leit að lágmarki
Með nútíma tölvum er auðvelt framkvæma leit að gildum á stuðlum sem að uppfylla skilyrði um lágmörkun frávika.
Fyrir okkar dæmi þá eru prófuð mismunandi gildi af a og b og SS reiknað út. Skilyrðið er áfram það sama: Leitað er eftir þeim gildum af stuðlunum sem að gefa lægsta SSE.
Í Excel er þetta gert sjálfkrafa með “Solver”. Þó að grunnprinsippið sé einfalt þá er aðferðarfræðin flókin.
21
© einar
Analýtisk lausn á lágmörkun
Hægt er að sýna fram á að lausn á a og b sem uppfylla skilyrðið um að SSE er lágmarkað er eftirfarandi:
Í Excel má setja upp reiknigrind og nota ofangreindar formúlur til að meta a & b.
Xb-Ya og
1
2
1
n
ii
n
iii
XX
YYXXb
22
© einar
Af hverju að nota númeríska leit?
Þó svo að til sé analýtísk lausn fyrir einföld líkön þá er slíkt oft ekki fyrir hendi fyrir flóknari líkön. Í þeim tilfellum er eina leiðin að leita að lágmörkun með númerískum hætti.
Ókostir við númeríska leit: Getur oft tekið talsverðan tíma Getum lent í því að fá “falska” lausn
vegna staðbundinna lágmarka
23
© einar
Staðbundið lágmark
Stuðull sem verið er að lágmarka
SS
R
Staðbundið lágmark
Raunveruleg lausn
24
© einar
Forsendur lágmörkunar
Mikilvægt er að muna að þegar við notum lágmörkun á kvaðratfrávikum þá er gert ráð fyrir að frávikin séu normaldreifð um spáða gildið með meðaltal NÚLL og drefingu samkvæmt 2: = N(,2)
Ofangreint tákn stendur fyrir frávik með meðaltal (=0) og dreifingu (variance) 2.
n
YYn
iii
1
2
2
ˆ
25
© einar
Normaldreifing frávika
Dreifing frávika á y eru þau sömu, óháð x-gildi
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9
x
y
26
© einar
Ef ekki normaldreifing?
Líkön eru oft notuð án þess að hugað sé að forsendum á bak við dreifingu frávika.
Þetta á sérstaklega við þegar hugað er að öryggismörkum (t.d. staðalfrávikinu).
Til þess að gefnir útreikningar hafi einhverja merkingu þá verða forsendurnar að standa.
Ef ekki normaldreifð gögn, hvað þá? Oft hægt að leysa það mál með því að
umskrifa jöfnurnar, t.d. þannig að mælingar verða á lógarithmískum kvarða.
27
© einar
Dreifing frávika
Að skoða dreifingu frávika er mikilvægur hluti í allri greiningu gagna.
Slík greining gefur oft til kynna að það líkan sem að menn gefa sér í upphafi sé í raun ófullnægjandi.
Í raunveruleikanum (þ.e. utan dæmanna sem að okkur eru gefin í grunntölfræðikúrsum) þá endum við oft með líkan sem að fullnægir ekki að fullu skilyrðum um dreifingu frávika.
28
© einar
Mæligögnin
0
20
40
60
80
100
20 120 220 320 420 520
N
U
29
© einar
Setjum upp þrjú hugsanleg líkön
qNU
qNaU
qNU
nn
UUSSE22 ˆ
30
© einar
Líkönin felld að gögnunum
y = 0.14x
0
20
40
60
80
100
0 100 200 300 400 500
N
U
y = 0.21x - 16.9
0
20
40
60
80
100
0 100 200 300 400 500
N
U
y = 0.004x1.63
0
20
40
60
80
100
0 100 200 300 400 500
N
U
Hvaða líkan er “best”?
31
© einar
Frávik sem fall af N (x-ás)
-20
-10
0
10
20
30
40
0 200 400
N
U-U
hat
-20
-10
0
10
20
30
40
0 100 200 300 400 500
N
U-U
hat
-20
-10
0
10
20
30
40
0 100 200 300 400 500
N
U-U
hat
Power líkanið uppfyllirbest skilyrðið um aðfrávikin séu óháð stærðmæligildisins N (x-ás).
FIF
Einfalt meðaltalog normaldreifing
33
© einar
Hvað er meðaltal?
“Í seiðaleiðangri haustið 2002 voru lengdarmæld 7073 seiði. Meðallengdin var 50 mm” Hvernig var þessi meðallengd reiknuð út? Hvaða forsendur liggja á bak við þessa
útreikninga? Hvaða upplýsingar eru ekki gefnar?
Er útreikningur á meðallengd byggt á reiknilíkani?
34
© einar
Einkenni seiðamælinganna
0
50
100
150
200
250
300
350
400
450
20 25 30 35 40 45 50 55 60 65 70 75 80
Lengd (mm)
Fjö
ldi fisk
a
Dreifing gagnanna er sýmetrísk
Flest seiði eru af ákveðinni lengd
Fjöldi seiða af ákveðinni lengd lækka eftir því sem lengra er frá “miðbikinu”
Er til einhver ferill sem að lýsir þessum einkennum?n=7073
35
© einar
Hvaða ferli lýsir gögnunum best?
0
100
200
300
400
500
600
20 30 40 50 60 70 80
Lengd (Xi)
Fjöld
i (n
i)
5,1
4,16;1
5,55,2
Fjöldi
2 2
21
22
2 2
i iX X
i
N Nn e e
Hér gefum við okkur að gögninfylgi normaldreifingu:Finnum gildi á og semað lýsa best gögnunum.eða eitt og sér segja í raunekki nema hálfa sögu.
36
© einar
Hvað er hvað?
Fall sem lýsir normaldreifingu er flókið við fyrstu sýn ......
Xi - mæld stærð (hér lengd fisks) ni – fjöldi fiska af lengd Xi
N – Heildarfjöldi mældra fiska - metin stærð, daglega nefnt meðaltal - metið frávik, daglega nefnt staðalfrávik
2 2
21
22
2 2
i iX X
i
N Nn e e
37
© einar
Hvað skiptir máli?
Hvaða stuðlar eru í jöfnunni?
er meðaltalið er staðalfrávik
Mældu gildin eru auðvitað ni og Xi
Allt hitt eru fastar
Ath: Gætum allt eins notaðtáknið X-hat í stað
2 2
21
22
2 2
i iX X
i
N Nn e e
38
© einar
Sem sagt .....
Líkindadreifingin stjórnast eingöngu af gildunum á stuðlunum og , vegna þess að allt hitt (2, ,, e, ...) eru fastar og því aukaatriði.
Slíkt er oft skrifað sem: ,in f Líkindadreifingin er fall af
meðaltali og staðalfráviki
2 2
21
22
2 2
i iX X
i
N Nn e e
39
© einar
pdf = f(,), höldum =50
0
100
200
300
400
500
600
20 30 40 50 60 70 80
Líkin
di á
tölu
gild
i 1
5
2
2
2
2
2
1
2
2
1
2
1
ii XX
eepdfMeðaltalið ( eitt og sérsegir í raun ekki nema hálfasögu því án staðalfráviksins() höfum við litlar upplýsingarum dreifingu gagnanna ummeðaltalið.
40
© einar
pdf = f(,), höldum =10
0
50
100
150
200
250
300
20 30 40 50 60 70 80
Líkin
di á
tölu
gild
i 5
4
6
2
2
2
2
1
2
2
1
2
1
ii XX
eepdf
41
© einar
“Bestu” stuðlarnir
0
100
200
300
400
500
20 25 30 35 40 45 50 55 60 65 70 75 80
Lengd (mm)
Fjö
ldi
2
2
2
2
1
2
2
1
2
1
ii XX
eepdf
Sagt var: =50Vantaði: =10
42
© einar
Hvaða merkir staðalfrávik?
0
100
200
300
400
500
20 25 30 35 40 45 50 55 60 65 70 75 80
Lengd (mm)
Fjö
ldi
Í seiðaleiðangri 2002 voru mæld 7073 þorskseiði.Meðallengd var 49.8 mm og staðalfrávik 10.1 mm
1
68% af mælingum (4810 seiði) falla innan við1 staðalfrávik (39.7-59.9 mm) ef gert er ráð að gögnin séu normaldreifð.
43
© einar
Hvaða merkir 1.96staðalfrávik?
0
100
200
300
400
500
20 25 30 35 40 45 50 55 60 65 70 75 80
Lengd (mm)
Fjö
ldi
Í seiðaleiðangri 2002 voru mæld 7073 þorskseiði.Meðallengd var 49.8 mm og staðalfrávik 10.1 mm
16
95% af mælingum (6719 seiði) falla innan við1.96 staðalfrávik (30.0-69.6 mm) ef gert er ráð að gögnin séu normaldreifð.
44
© einar
1.96 staðalfrávik frá meðaltali
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8 9 10
Líkin
di á
tölu
gild
i
12
Athugið að staðalfrávikið lýsir dreifingu gagnanna. Bilið sem að t.d. 95% gagnafalla undir er annað fyrir =1.0 en =2.0 þó svo að meðaltalið sé það sama.Meðaltalið eitt og sér segir því aðeins hálfa söguna.
FIF
Aðrar dreifingar á gögnum
46
© einar
0-grúppa: gögn
Árgangur Vísitala Árgangur Vísitala1970 873 1990 371971 283 1991 61972 79 1992 421973 1191 1993 1551974 54 1994 741975 130 1995 1631976 2743 1996 401977 435 1997 11521978 552 1998 27521979 370 1999 94081980 558 2000 30881981 78 2001 23641982 10 2002 51531983 1531984 17721985 8121986 501987 811988 201989 42
0
2000
4000
6000
8000
10000
70 75 80 85 90 95 100
Hvað er að stað-hæfingunni að meðalársfjöldi og staðalfrávik seiða sé = 1053 = 1885 ????
47
© einar
0grúppa:=1053, =1885
0.00
0.05
0.10
0.15
0.20
0.25
-5000 -2500 0 2500 5000 7500Líkin
di á
tölu
gild
i (10-3
)
0 grúppa
-2700 480016
95%
Svar: Fjöldi seiða getur ekki verið negatívur?
48
© einar
Líkanið af meðalfjölda
0
5
10
15
20
25
30
-10000 -5000 0 5000 10000
Seiðavísitala þorsks
Fjö
ldi ára
Gefið var: =1053 og =1885
Ljóst er að gögnin falla ekki að líkaninu, þ.e. gögnin eru ekki normaldreifð. Því eru og merkingarleysa.
49
© einar
Hvað með lógaritmann?
0
2
4
6
8
10
12
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Lógarithminn af seiðavísitölu þorsks
Fjöld
i ára
Lausn: =5.5 og =1.9
Hér falla gögnin betur að normaldreifingu og og ekki lengur merkingarleysa. Fittið er þó ekki mjög gott
50
© einar
Tökum antílógaritmann .....
Meðaltali af lógaritmanum af seiða-vísitölunni gefur =5.5 og =1.9. Þ.e. að segja 95% af vísitölumælingunum ættu að falla innan bilsins 5.51.96*1.9
Ef við tökum antilógaritmann af þessu fáum við að 95% af vístölumælingunum ættu að falla innan bilsins:
Geometrískt meðaltal er = exp(5.5)=248 95% mörkin liggja á bilinu 6 - 9000
Þetta lýsir gögnunum betur en fyrsta tilraun!
9.1*96.15.5 e
51
© einar
Lognormal dreifing
0
2
4
6
8
10
12
0 2500 5000 7500 10000
Seiðavísitala þorsks
Fjöld
i ára
FIF
Kynning á hártogun (bootstrap)
53
© einar
Hártogun I
Til þess að mynda öryggismörk í kringum einhvern metinn stuðul þarf að vita með hvaða hætti frávikin eru dreifð í kringum besta matið.
Algengasta dreifing á frávikum í kringum meðaltal er normaldreifing. Hinsvegar eru til margar aðrar dreifingar (s.s. log-normal dreifing, gaussian, poisson og multinomial)
54
© einar
Hártogun II
Vandamálið er að oft er þessi dreifing ekki þekkt. Ef röng dreifing er notuð til að meta öryggismörk á einhverjum metnum stuðli leiðir það til rangrar ályktunar sbr. Útreikninga á meðafjölda seiða þegar
gert er ráð fyrir að fjöldinn sé normaldreifður.
Ein lausn á því er að nota gögnin sjálf til að meta dreifinguna, þetta er kallað hártogun (bootstrapping)
55
© einar
Hártogun III
Búði til b gagnasett a1, a2, a3, …. ab sem hvert um sig inniheldur n gögn sem tekin hafa verið með tilviljunarkenndum hætti úr upphaflegu gögnunum.
Reiknaðu stuðlana (t.d. meðallengd, stofnstærð, …) í hverju setti um sig
Myndaðu “líkindadreifingu” og reiknaðu einhver öryggismörk (t.d. 95% öryggismörk)
56
© einar
Dæmi um einfalda útreikninga
# Gögn BS1 BS2 BS3 BS4 ….. BSn1 3 3 3 3 11 32 5 7 11 7 5 73 7 9 8 3 8 54 8 8 11 7 7 35 9 7 3 5 8 56 11 9 3 7 7 7
Meðaltal 7,2 7,2 6,5 5,3 7,7 5,0
57
© einar
Dreifing meðaltals (n = 255)
0
5
10
15
20
25
30
35
40
45
50
4.0-4.4
4.5-4.9
5.0-5.4
5.5-5.9
6.0-6.4
6.5-6.9
7.0-7.4
7.5-7.9
8.0-8.4
8.5-8.9
9.0-9.4
9.5-9.9
58
© einar
Líkindadreifing meðaltals (n=255)
0.00
0.25
0.50
0.75
1.00
4 5 6 7 8 9 10
Meðaltal
Lík
ur
á að
með
alta
l < e
n s
tærð
in á
x
ásn
um
59
© einar
Hártogun IV
Út frá myndaðri líkindadreifingu er hægt að reikna líkindi á að meðaltali liggi innan einhverra tiltekinna marka. T.d.
50% líkur eru á að meðaltalið sé á milli 6.3 og 7.8
95% líkur eru á að meðaltalið sé á milli 5.0 og 8.9
Í verklegum tíma munum við reyna að prófa hártogun til að lýsa dreifingu gagna.
60
© einar
Kostir og gallar hártogunar
Kostir hártogunar: Ekki þarf fyrirfram að gefa sér að gögnin
dreifist eftir einhverjum ákveðnu ferli (normal, lognormal, o.s.fr.)
Ókostir hártogunar: Tímafrekt, krefst margendurtekningar á
útreikningum. Er eiginlega ekki lengur ókostur á tímum tölvualdar.
61
© einar
Mat á B2000 skv. hártogun
0.0%
0.5%
1.0%
1.5%
2.0%
2.5%
3.0%
3.5%
30 40 50 60 70 80 90 100 110 120 130 151
Stærð veiðistofns
Lík
ind
adre
ifin
g á
B20
00
Mestu líkur
95% líkur
Hugsið ykkur ofangreint dæmi ef við hefðum notað hefðbundið meðaltal og staðalfrávik
62
© einar
Mat á B2000 skv. hártogun
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
30 40 50 60 70 80 90 100 110 120 130 140 150
Stærð veiðistofns
Lík
ind
i á a
ð B
2000
<B
95
%
líkur