Upload
frye
View
107
Download
6
Embed Size (px)
DESCRIPTION
Tunnuste t üü bid. Arvulised (kvantitatiivsed). Mittearvulised (kvalitatiivsed). Pidevad. Diskreetsed. Järjestatavad. Nominaalsed. Kaal Valuutakurss Vanus. Kodulehe külastajate arv Klientide arv päevas Laste arv peres. Haridustase Rahulolule hinnang. Aadress Lemmiktoode. - PowerPoint PPT Presentation
Citation preview
Arvulised (kvantitatiivsed) Mittearvulised (kvalitatiivsed)
Pidevad Diskreetsed Järjestatavad Nominaalsed
KaalValuutakurss
Vanus...
Kodulehe külastajate arv
Klientide arv päevas
Laste arv peres
Haridustase
Rahulolule hinnang
AadressLemmiktoode
Binaarsed
Sugu
Tunnuste tüübid
• Statistikas on oluline andmete täpne esitamine. • Andmetabel (objekt-tunnus maatriks):
– Iga rida esindab ühte uuritavat objekti (tema mõõtmistulemusi)
– Iga veerg (tulp) esindab ühte tunnust Andmetabel ei ole informatiivne, ennekõike suuremate
uuringute korral.• Kirjeldav statistika on andmete esitamine
kokkuvõtlikul, sisutihedal, ülevaatlikul kujul,• Arvulised näitajad (keskmine, ...);• Graafiline esitus (tabelid, diagrammid, ...).
• Kirjeldav statistika on andmeanalüüsi esimene etapp.
Andmetabel
Sagedustabel
• Sagedustabel - võtab andmetabelist kokku mitmel objektil mingit väärtust esineb ehk esitab vastava sageduse. Peame teadma: – milliseid väärtusi tunnus võib omandada– ja kui sageli iga väärtus esines (...mitmel üliõpilasel on hallid
silmad...).• Absoluutne sagedus (sagedus) – väärtusele vastav
objektide arv,• Suhteline sagedus (sageduste osakaal) - sagedus jagatakse
objektide koguarvuga.• Kumulatiivne sagedus (sageduste summa)– absoluutsed
sagedused liidetakse (kasutatakse ka kumulatiivset suhtelist sagedust).
Kahemõõtmeline sagedustabel- mittepidev tunnus
Haridus
Laste arv Kesk-haridus
Keskeri-haridus
Kõrg-haridus
KOKKU
ei ole 23 28 32 83
1 26 18 18 62
2 25 22 20 67
3 30 35 29 94
4 ja enam 0 2 4 6
KOKKU 104 105 103 312
Pideva arvtunnuse väärtuste grupeerimisest
• Pidevate arvtunnuste korral peame kasutama väärtuste grupeerimist!
Tunnuse väärtuste grupeerimisel on sobiv • valida klasside pikkused võrdsetena; • klassipiirideks ümmargused arvud; • klasside arv suurusjärgus kuupjuur kuni ruutjuur
objektide arvust, enamasti aga mitte rohkem kui 20 klassi.
• Vajadusel võib otsmised klassid jätta lahtiseks.
Sagedustabel – pidev arvtunnus
Brutopalk (EEK) SagedusSuhteline
sagedus Kumulatiivne sagedus
kuni 5000 52 17% 52
5000-7000 54 17% 106
7000-9000 49 16% 155
9000-11000 56 18% 211
11000-13000 46 15% 257
13000-15000 55 18% 312
KOKKU 312 100% 312
Diagrammidest ja tabelitest• Graafikud on eelkõige illustreerivad, alati ei ole sagedused
märgitud ning täpseid väärtusi on raske leida.• Ringdiagrammina esitatud andmeid loevad inimesed üldiselt
ebatäpsemalt kui tulpdiagrammis esitatud andmeid.• Mustvalge väljaprindi korral on oluline kasutada mustreid, mitte
värve.• Graafik ei tohi olla ülekujundatud ega üleselgitatud.• Üldiselt kasutatakse mittearvulistele (kvalitatiivsetele) tunnustele
ringdiagrammi, arvulistele tulpdiagrammi. • Iga töösse lisatud graafik peab omama väärtust ehk lihtsustama
info lugemist või esitama uudse kokkuvõtte. Graafik, mis on annab samaväärse info juba esitatud tabeli või tekstiga, ei oma mõtet.
• Töös ei esitata elementaarseid tabeleid ja diagramme (info, mis tekstina oleks lühem või samaväärne), samuti peaks vältima info kordamist.
Valimi arvuline kirjeldamine paiknemiskarakteristikud (statistikud)
• Mood (Mode)– Mood võib olla nii arvuline kui mittearvuline.– Mood võib tunnusel ka puududa - näiteks siis, kui on tegemist
ühtlase jaotusega. – Moode võib olla ka mitu - siis on jaotus bimodaalne.
Miinimum ja maksimum (Minimum and Maximum)
• Aritmeetiline keskmine (Average)
• Mediaan (Median)
• Kvartiilid (Quartiles)
Keskmine
• Aritmeetiline keskmine – liidetakse kõikide objektide tunnuse
x väärtused ning jagatakse objektide arvuga. Keskmine on tundlik üksikute väärtuste suhtes.
• Geomeetriline keskmine - leidmiseks korrutatakse kõik väärtused (n väärtust) omavahel ja võetakse saadud korrutisest n-juur.
• Kaalutud keskmine - anname igale väärtusele mingi kaalu, korrutame iga väärtuse talle antud kaaluga, liidame kõik korrutised ning jagame kaalude summaga.
KvartiilidMediaan jaotab variatsioonrea kaheks osaks: alumiseks
(siia kuuluvad mediaanist väiksemad väärtused) ja ülemiseks (kuhu kuuluvad mediaanist suuremad väärtused).
• Variatsioonrea alumise poole mediaani nimetatakse alumiseks ehk esimeseks kvartiiliks,
• variatsioonrea ülemise poole mediaani – ülemiseks ehk kolmandaks kvartiiliks.
• Mediaan ja kvartiilid jaotavad variatsioonrea neljaks osaks, millest igasse kuulub (ligikaudu) veerand kõigist variatsioonrea liikmetest.
Kvintiilid ja detsiilid
• Kvintiilid jagavad variatsioonrea viieks võrdseks osaks.
• Detsiilid jagavad variatsioonrea kümneks võrdseks osaks.– Kvintiile ja detsiile kasutatakse palju
majanduses.» Näiteks: Tulukvintiilid ja –detsiilid.
Valimit kirjeldav statistika - hajuvuskarakteristikud 1
•Haare (Range) = maksimum-miinimum• Kvartiilidevaheline haare (Interquartile range)
tunnuse ülemise ja alumise kvartiili vahe.
•Dispersioon (Variance) (tähistame s2)= hälvete (üksikväärtuse
ja keskmise erinevus) ruutude keskmine
•Standardhälve (Standard deviance) (tähistame s) = ruutjuur dispersioonist.
•Variatsioonkordaja
n
ii xx
ns
1
22 )(1
1
Hajuvuskarakteristikud 2
•Variatsioonikordajat kasutatakse tunnuste hajuvuse võrdlemisel, variatsioonkordaja avaldub standardhälbe ja aritmeetilise keskmise suhtena, üldiselt avaldatakse %-na.
Kui variatsioonkordaja on umbes 50%, siis tunnus normaalse hajuvusega (keskmine kirjeldab tegelikku tüüpilist väärtust), kui tunduvalt üle 50%, siis tunnus liiga hajus, kui tunduvalt alla 50%, siis tunnus väga vähe hajus. Kui kõik tunnuse kõik väärtused valimis on samad, siis v on 0%.
x
sv
Kahe tunnuse ühine käitumine
• Sõltuvad tunnused - ühe tunnuse käitumise järgi saab hinnata teise tunnuse käitumist
– Mis suunas on sõltuvus?– Kui tugev on sõltuvus?
• Tunnustevahelise seoste tüübid:– Statistiline sõltuvus – kõige üldisem, määrab vaid, kas on
sõltuvus või mitte, suunda ega tugevust ei saa leida. – Korrelatiivne sõltuvus – leitav vaid arvulistele tunnuste
puhul, määrab sõltuvuse suuna ja tugevuse– Erinevad korrelatsioonikordajad.
– Funktsionaalne sõltuvus – leitav vaid arvulistele tunnustele, määrab lisaks suunale ja tugevusele ka funktsionaalse sõltuvuse.
HajuvusdiagrammHajuvusdiagramm (ehk korrelatsiooniväli) - hajuvusdiagrammile kantakse kõik valimi objektid. Punkti x-koordinaadiks on esimese tunnuse väärtus ja y-koordinaadiks teise tunnuse väärtus. Kui hajuvusdiagrammil punktid paiknevad tõusvas või langevas “pilvekeses”, siis viitab see ühisele tendentsile tunnuste käitumises.
15
20
25
30
35
40
53 54 55 56 57 58 59
Tööhõive määr (%)
SKP
jook
sevh
inda
des
(milj
ard
kr)
30
32
34
36
38
40
42
44
46
45 47 49 51 53 55 57 59
Lineaarne korrelatsioonikordaja
• Lineaarne ehk Pearsoni korrelatsioonikordaja r kasutab hajuvusdiagrammi informatsiooni ning on kõige levinum kordaja. Excel'is r=correl(X,Y)
• Korrelatsioonikordaja r omab tähendust vaid pidevatele ja normaaljaotusega tunnustele!
• Mida lähemal on r absoluutselt ühele, seda tugevamalt on tunnused omavahel seotud.
n
i
n
iii
n
iii
yyxx
yyxxr
1 1
22
1
)()(
))((
Lineaarne korrelatsioonikordaja
Omadused:– Väärtus asub –1 ja 1 vahel, -1≤r≤1.– Kui tunnused on kasvavalt seotud on r>0.– Kui tunnused on kahanevalt seotud, on r<0.– Kui tunnused on sõltumatud, siis r =0.– Nõrk seos: kordaja |r|< kui 0.3– Keskmine seos: kordaja 0.3< |r| < 0.7l.– Tugev seos: kordaja |r|> 0.7.
Lineaarne korrelatsioonikordajaPuudused:
– Mõjutub erinditest (paar erindit võivad “venitada” kordaja suureks, kuigi tegelikult on seos nõrk) – erind välja jätta
– Mõjutub kolmandast tunnusest ehk punktid moodustavad mingi kolmanda tunnuse suhtes tõusva (langeva) pilve – uurida kordajaid kolmanda tunnuse väärtuste kaupa
– Tunneb ära vaid lineaarse seose, muu seose korral (ruutfunktsionaalne seos vms) võib anda tulemuseks nõrga või olematu sõltuvuse.
Kõigil juhtudel on üldjuhul probleem nähtav hajuvusdiagrammilt.
Regressioonanalüüs
• Mudel
• Vähimruutude meetodil
• Excelis ei pea seda ise arvutama vaid lisame trendline (kui tahame ka kordajaid näha tuleb teisel lipikul need linnukestega märkida).
• Regressioonsirge (a ja b leidmise järel)
• Excelis veel võimalik lähendada kõrgemat järku polünoomiga, logaritmfunktsiooniga, astmefunktsiooniga.
ebaXY
n
iii
n
ii bxaye
1
2
1
2 ))((
baxy
Vajadusel loe juurde
Statistika (ja tõenäosusteooria) on tänapäeval kasutust leidnud paljudel aladel ja seetõttu ilmub ka raamatuid hulgi. Mõned on rohkemilukirjandus, teised liiga teoreetilised. Soovitan peamiselt 2 raamatut, mis mõlemad rohkete näidetega. Mis ei tähenda, et teised õpikud ei sobiks, võibolla pole parim lihtsalt mulle kätte sattunud.
• Helmo Käerdi "Statistika" Sisekaitseakadeemia. Väga hästi kirjutatud, sisaldab vajalikke lisasid, tasub lugeda ka teisi sama autori raamatuid. Norida võiks, et ei vihjagi arvutiga lahendamisele.• Natalja Jurevits "Rakendusstatistika" Tartu Kutsehariduskeskus. Sisult statistika Excelis, rohkelt näiteid. Ei käsitle tõenäosusteooriat. Norida võiks, et tuleb ka kontrollida, kas on ikka normaaljaotus jne enne kui kasutada normaaljaotusel põhinevaid analüüse.