20
Arvulised (kvantitatiivsed) Mittearvulised (kvalitatiivsed) Pidevad Diskreetsed Järjestatavad Nominaalsed Kaal Valuutakurss Vanus ... Kodulehe külastajate arv Klientide arv päevas Laste arv peres Haridustase Rahulolule hinnang Aadress Lemmiktoode Binaarsed Sugu Tunnuste tüübid

Tunnuste t üü bid

  • Upload
    frye

  • View
    107

  • Download
    6

Embed Size (px)

DESCRIPTION

Tunnuste t üü bid. Arvulised (kvantitatiivsed). Mittearvulised (kvalitatiivsed). Pidevad. Diskreetsed. Järjestatavad. Nominaalsed. Kaal Valuutakurss Vanus. Kodulehe külastajate arv Klientide arv päevas Laste arv peres. Haridustase Rahulolule hinnang. Aadress Lemmiktoode. - PowerPoint PPT Presentation

Citation preview

Page 1: Tunnuste t üü bid

Arvulised (kvantitatiivsed) Mittearvulised (kvalitatiivsed)

Pidevad Diskreetsed Järjestatavad Nominaalsed

KaalValuutakurss

Vanus...

Kodulehe külastajate arv

Klientide arv päevas

Laste arv peres

Haridustase

Rahulolule hinnang

AadressLemmiktoode

Binaarsed

Sugu

Tunnuste tüübid

Page 2: Tunnuste t üü bid

• Statistikas on oluline andmete täpne esitamine. • Andmetabel (objekt-tunnus maatriks):

– Iga rida esindab ühte uuritavat objekti (tema mõõtmistulemusi)

– Iga veerg (tulp) esindab ühte tunnust Andmetabel ei ole informatiivne, ennekõike suuremate

uuringute korral.• Kirjeldav statistika on andmete esitamine

kokkuvõtlikul, sisutihedal, ülevaatlikul kujul,• Arvulised näitajad (keskmine, ...);• Graafiline esitus (tabelid, diagrammid, ...).

• Kirjeldav statistika on andmeanalüüsi esimene etapp.

Andmetabel

Page 3: Tunnuste t üü bid

Sagedustabel

• Sagedustabel - võtab andmetabelist kokku mitmel objektil mingit väärtust esineb ehk esitab vastava sageduse. Peame teadma: – milliseid väärtusi tunnus võib omandada– ja kui sageli iga väärtus esines (...mitmel üliõpilasel on hallid

silmad...).• Absoluutne sagedus (sagedus) – väärtusele vastav

objektide arv,• Suhteline sagedus (sageduste osakaal) - sagedus jagatakse

objektide koguarvuga.• Kumulatiivne sagedus (sageduste summa)– absoluutsed

sagedused liidetakse (kasutatakse ka kumulatiivset suhtelist sagedust).

Page 4: Tunnuste t üü bid

Kahemõõtmeline sagedustabel- mittepidev tunnus

  Haridus

Laste arv Kesk-haridus

Keskeri-haridus

Kõrg-haridus

KOKKU

ei ole 23 28 32 83

1 26 18 18 62

2 25 22 20 67

3 30 35 29 94

4 ja enam 0 2 4 6

KOKKU 104 105 103 312

Page 5: Tunnuste t üü bid

Pideva arvtunnuse väärtuste grupeerimisest

• Pidevate arvtunnuste korral peame kasutama väärtuste grupeerimist!

Tunnuse väärtuste grupeerimisel on sobiv • valida klasside pikkused võrdsetena; • klassipiirideks ümmargused arvud; • klasside arv suurusjärgus kuupjuur kuni ruutjuur

objektide arvust, enamasti aga mitte rohkem kui 20 klassi.

• Vajadusel võib otsmised klassid jätta lahtiseks.

Page 6: Tunnuste t üü bid

Sagedustabel – pidev arvtunnus

Brutopalk (EEK) SagedusSuhteline

sagedus Kumulatiivne sagedus

kuni 5000 52 17% 52

5000-7000 54 17% 106

7000-9000 49 16% 155

9000-11000 56 18% 211

11000-13000 46 15% 257

13000-15000 55 18% 312

KOKKU 312 100% 312

Page 7: Tunnuste t üü bid

Diagrammidest ja tabelitest• Graafikud on eelkõige illustreerivad, alati ei ole sagedused

märgitud ning täpseid väärtusi on raske leida.• Ringdiagrammina esitatud andmeid loevad inimesed üldiselt

ebatäpsemalt kui tulpdiagrammis esitatud andmeid.• Mustvalge väljaprindi korral on oluline kasutada mustreid, mitte

värve.• Graafik ei tohi olla ülekujundatud ega üleselgitatud.• Üldiselt kasutatakse mittearvulistele (kvalitatiivsetele) tunnustele

ringdiagrammi, arvulistele tulpdiagrammi. • Iga töösse lisatud graafik peab omama väärtust ehk lihtsustama

info lugemist või esitama uudse kokkuvõtte. Graafik, mis on annab samaväärse info juba esitatud tabeli või tekstiga, ei oma mõtet.

• Töös ei esitata elementaarseid tabeleid ja diagramme (info, mis tekstina oleks lühem või samaväärne), samuti peaks vältima info kordamist.

Page 8: Tunnuste t üü bid

Valimi arvuline kirjeldamine paiknemiskarakteristikud (statistikud)

• Mood (Mode)– Mood võib olla nii arvuline kui mittearvuline.– Mood võib tunnusel ka puududa - näiteks siis, kui on tegemist

ühtlase jaotusega. – Moode võib olla ka mitu - siis on jaotus bimodaalne.

Miinimum ja maksimum (Minimum and Maximum)

• Aritmeetiline keskmine (Average)

• Mediaan (Median)

• Kvartiilid (Quartiles)

Page 9: Tunnuste t üü bid

Keskmine

• Aritmeetiline keskmine – liidetakse kõikide objektide tunnuse

x väärtused ning jagatakse objektide arvuga. Keskmine on tundlik üksikute väärtuste suhtes.

• Geomeetriline keskmine - leidmiseks korrutatakse kõik väärtused (n väärtust) omavahel ja võetakse saadud korrutisest n-juur.

• Kaalutud keskmine - anname igale väärtusele mingi kaalu, korrutame iga väärtuse talle antud kaaluga, liidame kõik korrutised ning jagame kaalude summaga.

Page 10: Tunnuste t üü bid

KvartiilidMediaan jaotab variatsioonrea kaheks osaks: alumiseks

(siia kuuluvad mediaanist väiksemad väärtused) ja ülemiseks (kuhu kuuluvad mediaanist suuremad väärtused).

• Variatsioonrea alumise poole mediaani nimetatakse alumiseks ehk esimeseks kvartiiliks,

• variatsioonrea ülemise poole mediaani – ülemiseks ehk kolmandaks kvartiiliks.

• Mediaan ja kvartiilid jaotavad variatsioonrea neljaks osaks, millest igasse kuulub (ligikaudu) veerand kõigist variatsioonrea liikmetest.

Page 11: Tunnuste t üü bid

Kvintiilid ja detsiilid

• Kvintiilid jagavad variatsioonrea viieks võrdseks osaks.

• Detsiilid jagavad variatsioonrea kümneks võrdseks osaks.– Kvintiile ja detsiile kasutatakse palju

majanduses.» Näiteks: Tulukvintiilid ja –detsiilid.

Page 12: Tunnuste t üü bid

Valimit kirjeldav statistika - hajuvuskarakteristikud 1

•Haare (Range) = maksimum-miinimum• Kvartiilidevaheline haare (Interquartile range)

tunnuse ülemise ja alumise kvartiili vahe.

•Dispersioon (Variance) (tähistame s2)= hälvete (üksikväärtuse

ja keskmise erinevus) ruutude keskmine

•Standardhälve (Standard deviance) (tähistame s) = ruutjuur dispersioonist.

•Variatsioonkordaja

n

ii xx

ns

1

22 )(1

1

Page 13: Tunnuste t üü bid

Hajuvuskarakteristikud 2

•Variatsioonikordajat kasutatakse tunnuste hajuvuse võrdlemisel, variatsioonkordaja avaldub standardhälbe ja aritmeetilise keskmise suhtena, üldiselt avaldatakse %-na.

Kui variatsioonkordaja on umbes 50%, siis tunnus normaalse hajuvusega (keskmine kirjeldab tegelikku tüüpilist väärtust), kui tunduvalt üle 50%, siis tunnus liiga hajus, kui tunduvalt alla 50%, siis tunnus väga vähe hajus. Kui kõik tunnuse kõik väärtused valimis on samad, siis v on 0%.

x

sv

Page 14: Tunnuste t üü bid

Kahe tunnuse ühine käitumine

• Sõltuvad tunnused - ühe tunnuse käitumise järgi saab hinnata teise tunnuse käitumist

– Mis suunas on sõltuvus?– Kui tugev on sõltuvus?

• Tunnustevahelise seoste tüübid:– Statistiline sõltuvus – kõige üldisem, määrab vaid, kas on

sõltuvus või mitte, suunda ega tugevust ei saa leida. – Korrelatiivne sõltuvus – leitav vaid arvulistele tunnuste

puhul, määrab sõltuvuse suuna ja tugevuse– Erinevad korrelatsioonikordajad.

– Funktsionaalne sõltuvus – leitav vaid arvulistele tunnustele, määrab lisaks suunale ja tugevusele ka funktsionaalse sõltuvuse.

Page 15: Tunnuste t üü bid

HajuvusdiagrammHajuvusdiagramm (ehk korrelatsiooniväli) - hajuvusdiagrammile kantakse kõik valimi objektid. Punkti x-koordinaadiks on esimese tunnuse väärtus ja y-koordinaadiks teise tunnuse väärtus. Kui hajuvusdiagrammil punktid paiknevad tõusvas või langevas “pilvekeses”, siis viitab see ühisele tendentsile tunnuste käitumises.

15

20

25

30

35

40

53 54 55 56 57 58 59

Tööhõive määr (%)

SKP

jook

sevh

inda

des

(milj

ard

kr)

30

32

34

36

38

40

42

44

46

45 47 49 51 53 55 57 59

Page 16: Tunnuste t üü bid

Lineaarne korrelatsioonikordaja

• Lineaarne ehk Pearsoni korrelatsioonikordaja r kasutab hajuvusdiagrammi informatsiooni ning on kõige levinum kordaja. Excel'is r=correl(X,Y)

• Korrelatsioonikordaja r omab tähendust vaid pidevatele ja normaaljaotusega tunnustele!

• Mida lähemal on r absoluutselt ühele, seda tugevamalt on tunnused omavahel seotud.

n

i

n

iii

n

iii

yyxx

yyxxr

1 1

22

1

)()(

))((

Page 17: Tunnuste t üü bid

Lineaarne korrelatsioonikordaja

Omadused:– Väärtus asub –1 ja 1 vahel, -1≤r≤1.– Kui tunnused on kasvavalt seotud on r>0.– Kui tunnused on kahanevalt seotud, on r<0.– Kui tunnused on sõltumatud, siis r =0.– Nõrk seos: kordaja |r|< kui 0.3– Keskmine seos: kordaja 0.3< |r| < 0.7l.– Tugev seos: kordaja |r|> 0.7.

Page 18: Tunnuste t üü bid

Lineaarne korrelatsioonikordajaPuudused:

– Mõjutub erinditest (paar erindit võivad “venitada” kordaja suureks, kuigi tegelikult on seos nõrk) – erind välja jätta

– Mõjutub kolmandast tunnusest ehk punktid moodustavad mingi kolmanda tunnuse suhtes tõusva (langeva) pilve – uurida kordajaid kolmanda tunnuse väärtuste kaupa

– Tunneb ära vaid lineaarse seose, muu seose korral (ruutfunktsionaalne seos vms) võib anda tulemuseks nõrga või olematu sõltuvuse.

Kõigil juhtudel on üldjuhul probleem nähtav hajuvusdiagrammilt.

Page 19: Tunnuste t üü bid

Regressioonanalüüs

• Mudel

• Vähimruutude meetodil

• Excelis ei pea seda ise arvutama vaid lisame trendline (kui tahame ka kordajaid näha tuleb teisel lipikul need linnukestega märkida).

• Regressioonsirge (a ja b leidmise järel)

• Excelis veel võimalik lähendada kõrgemat järku polünoomiga, logaritmfunktsiooniga, astmefunktsiooniga.

ebaXY

n

iii

n

ii bxaye

1

2

1

2 ))((

baxy

Page 20: Tunnuste t üü bid

Vajadusel loe juurde

Statistika (ja tõenäosusteooria) on tänapäeval kasutust leidnud paljudel aladel ja seetõttu ilmub ka raamatuid hulgi. Mõned on rohkemilukirjandus, teised liiga teoreetilised. Soovitan peamiselt 2 raamatut, mis mõlemad rohkete näidetega. Mis ei tähenda, et teised õpikud ei sobiks, võibolla pole parim lihtsalt mulle kätte sattunud.

• Helmo Käerdi "Statistika" Sisekaitseakadeemia. Väga hästi kirjutatud, sisaldab vajalikke lisasid, tasub lugeda ka teisi sama autori raamatuid. Norida võiks, et ei vihjagi arvutiga lahendamisele.• Natalja Jurevits "Rakendusstatistika" Tartu Kutsehariduskeskus. Sisult statistika Excelis, rohkelt näiteid. Ei käsitle tõenäosusteooriat. Norida võiks, et tuleb ka kontrollida, kas on ikka normaaljaotus jne enne kui kasutada normaaljaotusel põhinevaid analüüse.