21
STATISTIKA Simona PUSTAVRH, ŠC Novo mesto 1 1. OSNOVNI POJMI Definicija 1: Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov v določenem prostoru in času. Množičen pojav: ocenjevanje dijakov merjenje višin dijakov branje knjig dijakov smučanje v Sloveniji merjenje krvnega tlaka promet skozi določeno križišče mesečne plače zaposlenih serijska proizvodnja določenega izdelka 2 Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje, kodiranje in razvrščanje podatkov, urejanje in grafično prikazovanje podatkov, povzemanje in sprejemanje zaključkev (odkrivanje lastnosti in zakonitosti populacije in napovedovanje vrednosti). 3 Definicija 2: Populacija je množica, ki jo želimo statistično proučiti. Statistična enota je en element populacije. Populacijo lahko sestavljajo živa bitja, predmeti, dogodki. Opredelitev populacije: stvarno (kdo ali kaj spada v populacijo in kdo ne) geografsko (kje je populacija opazovana) časovno (kdaj je zajeta) 4

1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

STATISTIKA

Simona PUSTAVRH,ŠC Novo mesto

1

1. OSNOVNI POJMI

Definicija 1:Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov vdoločenem prostoru in času.

Množičen pojav:ocenjevanje dijakovmerjenje višin dijakovbranje knjig dijakovsmučanje v Slovenijimerjenje krvnega tlakapromet skozi določeno križiščemesečne plače zaposlenihserijska proizvodnja določenega izdelka

2

Osnovne naloge statistike:zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje)čiščenje, kodiranje in razvrščanje podatkov,urejanje in grafično prikazovanje podatkov,povzemanje in sprejemanje zaključkev (odkrivanje lastnosti inzakonitosti populacije in napovedovanje vrednosti).

3

Definicija 2:Populacija je množica, ki jo želimo statistično proučiti. Statističnaenota je en element populacije.

Populacijo lahko sestavljajo živa bitja, predmeti, dogodki.

Opredelitev populacije:stvarno (kdo ali kaj spada v populacijo in kdo ne)geografsko (kje je populacija opazovana)časovno (kdaj je zajeta)

4

Page 2: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Definicija 3:Vzorec je podmnožica (del) populacije. Vzorec je slučajen, če imajo vseenote populacije enako možnost (enako verjetnost) biti izbrane v vzorec.

Slučajni vzorec predstavlja (reprezentira) celotno populacijo.

Enostavno slučajno vzorčenje: žrebanje (loterijski način)vzorci s ponavljanjem (enota, ki je bila že izbrana v vzorec, jeponovno izbrana),vzorci brez ponavljanja (enota, ki je bila že izbrana v vzorec, ne morebiti ponovno izbrana).

5

Definicija 4:Preučevano lastnost (značilnost) enote imenujemo statističnaspremenljivka. Vrednost statistične spremenljivke je lastnost eneopazovane enote in jo imenujemo podatek.

PRIMER 1Statistične spremenljivke: višina dijaka, ocena dijaka.

Definicija 5:Parameter je statistična karakteristika populacije.

PRIMER 2Parametri: povprečna višina dijakov, povprečna ocena dijakov.

Število enot populacije označimo z N.

6

Glede na način izražanja podatke ločimo na:opisne (ali kvalitativne): vrednosti le opišemo z besedami in jih nemoremo ovrednotiti numerično (npr. spol, kraj bivanja, barvaavtomobila),vrstne (ali ordinalne): vrednosti lahko uredimo le po velikosti,njihova razmerja pa nimajo pomena (npr. šolska ocena, doseženomesto na tekmi, zadovoljstvo z malico),številske (ali kvantitativne): vrednosti izrazimo numerično oz.številsko. Ločimo diskretne in zvezne številske podatke.

Nezvezne (ali diskretne): zaloga vrednosti končna ali neskončnamnožica realnih števil (npr. število prometnih nesreč, št. prebranihknjig, št. dijakov v razredu).Zvezne: zavzamejo lahko vsako vrednost iz nekega intervala (npr.višina ali teža dijaka, višina žepnine, cena knjig).

7

PRIMER 3V tabeli so zbrani nekateri podatki slučajnega vzorca dijakov Šolskegacentra Novo mesto v šolskem letu 2009/2010:

Zap.št. Spol Letnik Št. bratov/sester Višina (cm)1. moški 1 1 174,32. ženski 3 2 169,73. ženski 1 0 164,24. moški 2 2 182,95. moški 3 3 186,26. moški 4 1 180,17. ženski 4 0 172,88. moški 2 1 177,7

8

Page 3: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Odgovorite na naslednja vprašanja:1 Kaj je v tem primeru populacija? S katerimi pogoji je opredeljena

(stvarno, časovno, krajevno)?2 Kaj je statistična enota? Kako velik je vzorec?3 Katere statistične spremenljivke so predstavljene v tabeli?4 Kakšna je posamezna spremenljivka glede na način izražanja?5 Katere parametre populacije bi lahko določili?

9

PRIMER 4Izvedeti želimo, kakšno je mnenje dijakov na ŠC Novo mesto o malici všol. letu 2008/2009. Ker je število dijakov okoli 3000, ne moremo vprašativsakega, zato se odločimo, da bomo oblikovali vzorec velikosti 200 dijakov,ki bo dobro predstavljal celo populacijo. Ali bi bil v ta namen ustrezenvzorec, ki bi zajemal prvih 200 dijakov, ki pridejo v torek zjutraj v šolo?

10

Kdo zbira podatke?

šolebolnišnicepodjetja

...SURS (uradna (državna) statistika)EUROSTAT (evropska statistika)EPICENTER, NINAMEDIA (javnomnenjske raziskave)

...

Programski paketi za obdelavo podatkov:Excel, SPSS, SAS, Minitab, Mathlab, S-Plus, . . .

11

2. UREJANJE PODATKOV

Spoznali bomo:ranžirno vrstogrupiranje podatkov

12

Page 4: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

RANŽIRNA VRSTA

Ranžirno vrsto predstavljajo po velikosti urejeni številski podatki.Uporabljamo jo za urejanje majhnega števila številskih podatkov.

Vsakemu podatku določimo zaporedno mesto v ranžirni vrsti, ki gaimenujemo rang.

Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang.Izračunamo ga kot povprečje rangov, ki bi jih podatki imeli, če bi bilirazlični med seboj.

13

PRIMER 5Pot do šole. 12 dijakov smo vprašali, koliko časa porabijo za pot do šole.Rezultati v minutah so

20, 38, 28, 35, 30, 40, 22, 32, 35, 32, 45, 35.

Zapiši podatke v ranžirno vrsto in jim določi rang.

Rešitev:

Čas (min) 20 22 28 30 32 32 35 35 35 38 40 45Rang

14

GRUPIRANJE PODATKOV

PRIMER 6Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mlekaso porabili v prejšnjem tednu. Zbrani podatki v litrih so:

1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 44,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,66,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8

Ali so podatki dovolj pregledni, da lahko povemo kaj o porabi mleka?

15

Grupiranje: združevanje podatkov v skupine (razrede):najprej določimo skupne lastnosti enot v posameznih razredih (od 5do 20 razredov),vsaka enota mora biti v natanko enem razredu (ne sme se zgoditi, dabi ista enota ustrezala lastnostim dveh razredov ali pa da za kakšnoenoto ne bi obstajal razred, v katerega bi jo uvrstili),enote porazdelimo po razredih.

16

Page 5: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

I. Grupiranje številskih spremenljivk v r razredov:

Najmanjša vrednost, ki še sodi v i-ti razred: xi ,minNajvečja vrednost, ki še sodi v i-ti razred: xi ,max

(Absolutna) frekvenca razreda fi : število enot v i-tem razredu

Frekvenčna tabela ali frekvenčna porazdelitev: predstavitev razredov inpripadajočih frekvenc:

Razred Vrednost spr. fi1. x1,min − x1,max f12. x2,min − x2,max f2...

...r. xr ,min − xr ,max fr

Skupaj / N

Frekvenčna porazdelitev številske spremenljivke

17

PRIMER 7Poraba mleka. 50 slovenskih družin v neki vasi smo vprašali, koliko mlekaso porabili v prejšnjem tednu. Zbrani podatki v litrih so:

1,1 1,7 1 0,5 0,9 2,1 2,3 2,3 2,6 3,1 3,7 3,9 3,1 2,5 3,3 3,3 3,9 3,8 4,1 44,3 4,4 4,4 5,1 5,9 5,3 5,2 5,7 4,7 4,3 4,2 4,3 4,7 4,2 7,1 7,2 7,5 7,5 7,66,3 6,2 6,1 6,9 8,1 8,2 8,5 9,3 9,2 9,1 9,8

Zbrane podatke grupiraj v pet razredov in vsakemu razredu določifrekvenco.

18

Rešitev:Razred Poraba mleka v l fi

1. 0−pod 22. 2−pod 43. 4−pod 64. 6−pod 85. 8−pod 10

Skupaj /

19

Kaj lahko izračunamo za grupirane podatke?

Relativna frekvenca f ◦i : delež enot v i-tem razredu glede na število vsehenot N, ki smo jih opazovali:

f ◦i =fiN

Strukturni odstotek fi %: relativna frekvenca f ◦i pomnožena s 100 %:

fi % = f ◦i · 100 %

20

Page 6: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Kumulativna frekvenca Fi : število enot, ki imajo manjše vrednosti odspodnje meje i-tega razreda:

F1 = 0 in Fi = Fi−1 + fi−1 (za i > 1)

Relativna kumulativna frekvenca F ◦i : delež vseh opazovanih enot, kiimajo manjše vrednosti od spodnje meje i-tega razreda:

F ◦i =FiN

21

Spodnja meja xi ,s in zgornja meja xi ,z razreda: zgornja meja razredai-tega razreda enaka spodnji meji (i + 1)-vega razreda:

xi ,z = xi+1,s

Zvezna spremenljivka: xi ,s = xi ,min in xi ,z = xi ,max

Celoštevilska spremenljivka(dve zaporedni celi števili se razlikujeta za1 - enotski razmik):

xi ,s = xi ,min − 0, 5

xi ,z = xi ,max + 0.5

22

Širina razreda di : razlika med zgornjo in spodnjo mejo razreda

di = xi ,z − xi ,s

Sredina razreda xi : aritmetična sredina spodnje in zgornje meje razreda:

xi =xi ,s + xi ,z

2

Z grupiranjem enot v frekvenčne razrede dodelimo vsem enotam v i-temrazredu isto vrednost xi , s čimer izgubimo nekaj natančnosti pri obdelavipodatkov.

23

PRIMER 8Poraba mleka - nadaljevanje. Za grupirane podatke iz primera o porabimleka izračunaj f ◦i , fi%, Fi , F ◦i , xi ,s , xi ,z , di , xi .

Rešitev:

Raz. Poraba mleka (l) fi f ◦i fi% Fi F ◦i xi,s xi,z di xi1. 0−pod 2 52. 2−pod 4 133. 4−pod 6 164. 6−pod 8 95. 8−pod 10 7

Skupaj / 50

Excel: grupiranje: FREQUENCY, nato CTRL-SHIFT-ENTER

24

Page 7: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

PRIMER 9Starost oseb. V okulistični ambulanti so včeraj pregledali 45 oseb.Njihove starosti v letih so:

33 32 34 37 18 12 36 38 22 24 27 27 28 29 21 24 25 27 23 15 3 4 16 1315 41 17 19 8 44 45 6 2 7 38 26 25 47 42 25 48 31 35 35 33

Podatke grupiraj v razrede, kot so oblikovani v tabeli, nato pa za vsakrazred izračunaj f ◦i , fi%, Fi , F ◦i , xi ,s , xi ,z , di , xi .

25

Rešitev:

Raz. Starost fi f ◦i fi% Fi F ◦i xi,s xi,z di xi1. 1−102. 11−203. 21−304. 31−405. 41−50

Skupaj /

26

II. Grupiranje opisnih podatkov

Za vsak razred lahko določimo le relativno frekvenco in strukturni odstotekvsakega razreda.

Razred Lastnost spr. fi f ◦i fi %1. lastnost 1 f1 f ◦1 f1 %2. lastnost 2 f2 f ◦2 f2 %...

......

...r. lastnost r fr f ◦r fr %

Skupaj / N 1 100

Frekvenčna porazdelitev opisne spremenljivke

27

PRIMER 10Potniki na vlaku. Na vlaku so želeli ugotoviti strukturo potnikov.Razdelili so jih na dijake, študente, delavce, brezposelne in upokojence.Zbrani podatki so:

dijak dijak dijak delavec brezposelen brezposelen brezposelen upokojenecupokojenec dijak dijak dijak dijak dijak dijak dijak študent študent študentštudent delavec delavec delavec delavec dijak dijak dijak dijak dijak dijakštudent študent študent študent študent študent dijak dijak dijak dijakdijak študent študent študent delavec delavec dijak dijak dijak dijakdelavec delavec delavec delavec delavec delavec brezposelen brezposelenbrezposelen študent študent študent delavec delavec delavec upokojenecupokojenec brezposelen brezposelen študent študent študent upokojenecupokojenec delavec upokojenec upokojenec študent študent študentštudent dijak dijak dijak dijak dijak upokojenec upokojenec upokojenecupokojenec

Oblikuj frekvenčno porazdelitev podatkov, nato pa za vsak razredizračunaj f ◦i in fi %.

28

Page 8: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Rešitev:Razred Potniki fi f ◦i fi %

1. dijak2. študent3. delavec4. brezposelen5. upokojenec

Skupaj /

Excel: COUNTIF (pogoj je posamezna kategorija)

29

3. GRAFIČNO PRIKAZOVANJE PODATKOVHistogram je prikaz grupiranih številskih podatkov v pravokotnemkoordinatnem sistemu s stolpci, kjer vsak stolpec ustreza enemu razredu.Če so razredi enako široki, so višine stolpcev premosorazmerne sfrekvencami razredov, sicer so s frekvencami premosorazmerne ploščinepravokotnikov.

7

9

16

13

5

0

2

4

6

8

10

12

14

16

18

0 - 2 2 - 4 4 - 6 6 - 8 8 - 10

Poraba mleka v l

Št.

dru

žin

Excel: Stolpični diagram (zmanjšamo presledke med stolpci, primeren zaprikaz zveznih številskih podatkov) 30

Frekvenčni poligon je linijski poligon v pravokotnem koordinatnemsistemu, ki povezuje točke, katerih abscise so enake sredinam frekvenčnihrazredov, ordinate pa frekvencam: (xi , fi). Da grafikon povežemo zabscisno osjo, dodamo še točki (x0, 0) in (xr+1, 0).

5

7

9

13

0 0

16

0

2

4

6

8

10

12

14

16

18

-1 1 3 5 7 9 11

Poraba mleka v l

Št.

dru

žin

Excel: Črtni diagram (primeren za prikaz vrstnih in številskih podatkov)

31

Strukturni stolpec uporabljamo za prikaz strukturnih odstotkov.Narišemo stolpec poljubne širine in poljubne višine. Višino stolpcaproglasimo za 100 %, nato pa jo razdelimo v razmerju strukturnihodstotkov. Posamezne dele stolpca ponavadi šrafiramo ali pobarvamo zrazličnimi barvami, zato za pojasnitev dodamo legendo.

0%

20%

40%

60%

80%

100%

Od

sto

tek

upokojenci

brezposelni

delavci

študenti

dijaki

Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)

32

Page 9: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Tudi strukturni krog uporabljamo za prikaz strukturnih odstotkov. Deleženot v posameznem razredu je prikazan s krožnim izsekom. Velikostsrediščnega kota za vsak razred izračunamo kot odstotek polnega kota:fi % · 360◦. Tudi strukturni krog opremimo z legendo.

33,3%

25,6%

18,9%

8,9%

13,3%

dijaki

študenti

delavci

brezposelni

upokojenci

Excel: Tortni diagram (primeren za prikaz vrstnih in opisnih podatkov)

33

Prikaz s stolpci je podoben histogramu, uporabljamo pa ga lahko zaprikaz grupiranih opisnih ali številskih podatkov. Širina stolpca jepoljubna, višina stolpca pa je premosorazmerna s frekvenco razreda.

0

5

10

15

20

25

30

35

dijaki študenti delavci brezposelni upokojenci

Šte

vilo

ose

b

Excel: Stolpični diagram (primeren za prikaz vrstnih in opisnih podatkov)

34

PRIMER 11Spodnji grafikon prikazuje zaslužke dijaka preko študentskega servisa venem letu. Primerjaj zaslužke dijaka po mesecih.

35

PRIMER 12Spodnji grafikon prikazuje iste zaslužke dijaka preko študentskega servisa venem letu kot prejšnji grafikon. V čem je razlika? Kaj lahko zdaj povemoo višinah zaslužkov dijaka po mesecih?

36

Page 10: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

4. SREDNJE VREDNOSTI

Srednja vrednost je mera za osredinjenost podatkov. Pove, kje senahajajo podatki. Obravanali bomo tri srednje vrednosti:

medianamodusaritmetična sredina (povprečje)

37

MEDIANA

Definicija 6:Mediana (ali središčnica) je srednja vrednost, od katere ima polovicaenot manjše ali enake vrednosti, polovica pa večje ali enake. Označili jobomo z Me.

Mediano za majhno število podatkov najhitreje določimo tako, da podatkenajprej uredimo po velikosti v ranžirno vrsto, nato izračunamo mesto, nakaterem se nahaja mediana: N+1

2 . Če ta vrednost ni celo število, jemediana povprečje sosednjih dveh vrednosti.

38

PRIMER 13Določi mediano zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultatkomentiraj.

PRIMER 14Določi mediano zamud avtobusa v šestih dneh: 2, 2, 6, 7, 10, 15 min.Rezultat komentiraj.

Mediana je določena z mestom v ranžirni vrsti, zato ekstremno veliki (alimajhni) podatki ne vplivajo na njeno vrednost.

Excel: MEDIAN

39

MODUS

Definicija 7:Modus (ali gostiščnica) je srednja vrednost, ki je enaka tisti vrednostispremenljivke, ki se najpogosteje pojavlja. Označili ga bomo z Mo.

PRIMER 15Določi modus zamud avtobusa v petih dneh: 2, 2, 6, 7, 10 min. Rezultatkomentiraj.

Med podatki je lahko tudi več modusov (tiste vrednosti, ki seenakomnogokrat pojavljajo največkrat).

Excel: MODE

40

Page 11: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

ARITMETIČNA SREDINA

Definicija 8:Aritmetična sredina (povprečje) je srednja vrednost, ki jo dobimo tako,da vsoto vseh vrednosti spremenljivke delimo s številom enot v populacijiN. Označili jo bomo z µ ali x :

µ =x1 + x2 + · · ·+ xN

N ali µ =ΣN

i=1xiN

Excel: AVERAGE

41

PRIMER 16Izračunaj aritmetično sredino zamud avtobusa v petih dneh: 2, 2, 6, 7, 10min.

1 Rezultat komentiraj.2 Kako bi se spremenila aritmetična sredina, če bi vsakemu podatku

prišteli 5 min?3 Kako bi se spremenila aritmetična sredina, če bi podatek pomnožili s

5?4 Kolišna bi bila vsota podatkov, če bi vsakega nadomestili z

aritmetično sredino?5 Od vsakega podatka odštej aritmetično sredino. Kolikšna je vsota teh

vrednosti?

42

Lastnosti aritmetične sredine:Če vsakemu podatku prištejemo isto vrednost a, a > 0, se tudiaritmetična sredina poveča za a. Če vsakemu podatku odštejemo a,se aritmetična sredina zmanjša za a.Če vsak podatek pomnožimo z a, se tudi aritmetična sredina pomnožiz a.Če vsak podatek nadmestimo z aritmetično sredino, ostane vsotapodatkov nespremenjena.Če od vsakega podatka odštejemo aritmetično sredino (izračunamoodklon od aritmetične sredine), je vsota vseh odklonov enaka 0.

PRIMER 17Ali je smiselno izračunati aritmetično sredino spremenljivke spol ali paspremenljivke kraj bivanja? Odgovor obrazloži.

43

PRIMER 18V skupini je 5 dijakov. Njihova povprečna starost je 15 let. Kaj lahkosklepamo?

1 Da je največ dijakov starih 15 let.2 Da so vsi dijaki stari približno 15 let.3 Da so vsi dijaki stari 15 let.4 Da je polovica dijakov starih manj kot 15 let, polovica pa več kot 15

let.5 Da je vsota starosti vseh otrok v skupini 75 let.

PRIMER 19Povprečna ocena pisne naloge iz matematike petih dijakov je 3,2. Kajlahko poveš o ocenah pisne naloge posameznih dijakov?

44

Page 12: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

5. RAZPRŠENOST PODATKOV

Razpršenost (ali variabilnost) je lastnost podatkov, da lahko zavzamejorazlične vrednosti. Podatki so lahko bolj ali manj razpršeni, kar je videti nasliki:

Obravnavali bomo naslednje mere za razpršenost:variacijski razmikstandardni odklon (standardna deviacija)medčetrtinski razmik

45

VARIACIJSKI RAZMIK

Definicija 9:Variacijski razmik je razlika med največjo in najmanjšo vrednostjo vpopulaciji. Označimo ga z VR.

VR = xmax − xmin

PRIMER 20Izračunaj variacijski razmik zamud avtobusa v petih dneh: 2, 2, 6, 7, 10min. Rezultat komentiraj.

Excel: VR = MAX - MIN (izračunamo, ker ni posebnega ukaza)

46

STANDARDNI ODKLON

Definicija 10:Standardni odklon (ali standardna deviacija) je enaka korenu povprečjakvadratov odklonov vrednosti od aritmetične sredine. Označimo ga s σ:

σ =

√ΣN

i=1(xi − µ)2

NZa uporabo je bolj preprosta formula:

σ =

√ΣN

i=1x2i

N − µ2

Dokaz.

47

PRIMER 21Izračunaj standardni odklon zamud avtobusa v petih dneh: 2, 2, 6, 7, 10min.

1 Rezultat komentiraj.2 Kaj bi se zgodilo s standardnim odklonom, če bi vsem vrednostim

prišteli 5 min?3 Kako bi se spremenil standardni odklon, če bi vsak podatek pomnožili

s 5?

Če vsakemu podatku prištejemo a, se standardni odklon ne spremeni.Če vsak podatek pomnožimo z a, a > 0, se tudi standardni odlklonpomnoži z a.

Excel:standardni odklon: STDEVP

48

Page 13: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Uporaba žepnega računala

Vnos podatkov:vključimo statistiko (na ekranu se izpiše STAT ali S ali SD)vsak podatek posebej vnesemo tako, da ga vtipkamo, nato papritisnemo tipko DATA (ali D ali x)

Branje rezultatov:število podatkov: tipka naritmetična sredina: tipka xstandardni odklon: tipka σn

PRIMER 22S pomočjo žepnega računala izračunaj aritmetično sredino in standardniodklon zamud avtobusa v petih vožnjah: 2,2,6,7,10 min. Rezultataprimerjaj s prejšnjima rezultatoma.

49

Kaj pove standardni odklon?Spoznajmo najprej normalno porazdelitev podatkov:

50

Primeri normalno porazdeljenih podatkov:IQ ljuditeža odraslih ljudičas, ki ga potrebuje avtobus od Novega mesta do Ljubljanedolžina žebljev pri serijski proizvodnji

Splošno:Če je porazdelitev podatkov približno normalna (simetričen histogram), sepribližno 2

3 podatkov nahaja na intervalu [µ− σ, µ+ σ].

51

ARITMETIČNA SREDINA IN STANDARDNI ODKLONGRUPIRANIH PODATKOV

PRIMER 23Dijaki v T1A, T1B in T1C so pisali pisno nalogo iz matematike.Povprečna ocena dijakov iz T1A je 3,4, povprečna ocena v T1B je 3,2, vT1C pa 2,9. Kolikšna je povprečna ocena dijakov vseh treh razredov?

52

Page 14: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Aritmetična sredina (povprečje) grupiranih podatkov(tudi tehtana aritmetična sredina):

µ =f1x1 + f2x2 + · · ·+ fr xr

N ali µ =Σr

i=1fixiN

Standardni odklon grupiranih podatkov:

σ =

√Σr

i=1fix2i

N − µ2

53

Pri izračunu si pomagamo z razširjeno frekvenčno porazdelitvijo:

razred vrednost fi xi fixi fix2i

1. x1,min − x1,max f1 x1 f1x1 f1x21

2. x2,min − x2,max f2 x2 f2x2 f2x22

......

......

...r. xr ,min − xr ,max fr xr fr xr fr x2

rSkupaj / N / Σr

i=1fixi Σri=1fix2

i

54

PRIMER 24Poraba mleka - nadaljevanje primera. Izračunaj aritmetično sredino instandardni odklon porabe mleka 50 slovenskih družin prejšnji teden v nekivasi. Rezultat obrazloži.

Rešitev: Frekvenčno tabelo dopolnimo s stolpcema fixi in fix2i :

razred poraba mleka v l fi xi fixi fix2i

1. 0−pod 2 5 12. 2−pod 4 13 33. 4−pod 6 16 54. 6−pod 8 9 75. 8−pod 10 7 9

Skupaj / 50 /

55

Aritmetična sredina:

Standardni odklon:

Obrazložitev rezultata:

56

Page 15: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

PRIMER 25Starost oseb - nadaljevanje primera Izračunaj aritmetično sredino instandardni odklon starosti oseb, ki so bile včeraj pregledane v okulističniambulanti. Rezultat obrazloži.

Rešitev:

razred starost fi xi fixi fix2i

1. 1−10 6 5,52. 11−20 8 15,53. 21−30 14 25,54. 31−40 11 35,55. 41−50 6 45,5

Skupaj / 45 /

57

Aritmetična sredina:

Standardni odklon:

58

6. KVARTILI IN ŠKATLA Z BRKI

Definicija 11:Trije kvartili razdelijo številske podatke v ranžirni vrsti v štiri skupine:

prvi kvartil Q1 je tista vrednost, od katere je 25 % podatov manjših(ali enakih) in 75 % podatkov večjih (ali enakih) - nahaja se naN+1

4 -tem mestudrugi kvartil Q2 je tista vrednost, od katere je 50 % podatov manjših(ali enakih) in 50 % podatkov večjih (ali enakih) (tudi mediana) -nahaja se na 2(N+1)

4 -tem mestutretji kvartil Q3 je tista vrednost, od katere je 75 % podatov manjših(ali enakih) in 25 % podatkov večjih (ali enakih) - nahaja se na3(N+1)

4 - tem mestu

Če vrednosti N+14 , 2(N+1)

4 in 3(N+1)4 niso celoštevilske, vzamemo za kvartil

povprečje sosednjih vrednosti.

59

S pomočjo kvartilov lahko nazorno pokažemo razpršenost podatkov tako,da narišemo škatlo z brki, za katero potrebujemo poleg kvartilov šenajmanjšo in največjo vrednost med podatki.

Škatlo z brki imenujemo tudi okvir z ročaji ali grafikon kvartilov (ang.box-and-whiskers plot ali box-plot).

Definicija 12:Medčertinski razmik Q je razlika med tretjim in prvim kvartilom. (MedQ1 in Q3 se nahaja 50 % podatkov.)

60

Page 16: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

PRIMER 26V T1A so dijaki zbrali podatke o številu ur, ki so jih prejšnji teden preživeliza računalnikom. Zbrani podatki so:

2, 2, 3, 4, 5, 6, 6, 7, 7, 8, 9, 10, 11, 11, 12, 12, 15, 15, 16, 17, 18, 21, 21,21, 22, 24, 25, 28, 30, 30, 34

1 Izračunaj vse tri kvartile in jih obrazloži.2 Izračunaj medčetrtinski razmik.3 Nariši škatlo z brki.

61

Rešitev:

62

PRIMER 27Na zdravniškem pregledu so stehtali 17 dijakov manjšega razreda. Njihoveteže v kg so:

50, 52, 53, 55, 56, 56, 60, 61, 64, 64, 65, 67, 71, 72, 73, 73, 80

1 Izračunaj vse tri kvartile in jih obrazloži.2 Izračunaj medčetrtinski razmik.3 Nariši škatlo z brki.

63

Rešitev:

64

Page 17: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

PRIMER 28Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjemgrafikonu. Kaj lahko sklepaš iz slike?

65

PRIMER 29Primerjaj osebne dohodke moških in žensk v nekem podjetju na spodnjemgrafikonu. Kaj lahko sklepaš iz slike?

66

7. POVEZANOST OPISNIH SPREMENLJIVK INKONTINGENČNA TABELA

Definicija 13:Kontingenčna ali dvorazsežna tabela prikazuje podatke po vrednostih dvehopisnih spremenljivk hkrati.

PRIMER 30Z anketo smo želeli raziskati zadovoljstvo srednješolcev s šolsko malico,zato smo anketirali 225 dijakov. Rezultati so zbrani v tabeli:

Zadovoljstvo/Letnik 1. letnik 2. letnik 3. letnik 4. letnikZadovoljen 35 45 35 20Nezadovoljen 15 15 10 50

Kaj lahko povemo o zadovoljstvu anketiranih dijakov z malico? Ali semnenja razlikujejo po letnikih?

67

Struktura anketiranih dijakov po zadovoljstvu s šolsko malico za vsakletnik:

1. l. % 2. l. % 3. l. % 4. l. % Sk. %Zadov. 35 45 35 20 135Nezadov. 15 15 10 50 90Skupaj 50 60 45 70 225

68

Page 18: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Grafični prikaz strukture

69

8. POVEZANOST ŠTEVILSKIH SPREMENLJIVK

PRIMER 31Voznik beleži število kilometrov, ki jih prevozi s svojim avtomobilom, inporabo goriva pri vsaki vožnji. Ugotoviti želi, kako je poraba gorivapovezana s številom prevoženih kilometrov.

Kateri statistični spremenljivki nastopata v primeru?Ali bo pri različnih vožnjah, ko bo prevozil enako število kilometrov,vedno porabil enako količino goriva?Koliko goriva bo porabil za vožnje, pri katerih bo prevozil manj km, vprimerjavi z vožnjami, pri katerih bo prevozil več km?Razmisli, kaj vpliva na porabo goriva.

70

Spremenljivka X : število prevoženih kilometrovSpremenljivka Y : količina porabljenega goriva

Povezanost med številskima spremenljivkama X in Y imenujemokorelacija.

Povezanost spremenljivk lahko prikažemo v pravokotnem koordinatnemsistemu, če eno od spremenljivk proglasimo za neodvisno in drugo zaodvisno. Tako dobljeni diagram imenujemo razsevni diagram.

71

Razsevni diagram:

Razsevni diagram

Excel: Raztreseni (XY)

72

Page 19: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Linearna povezanost

Spremenljivki X in Y sta povezani linearno, če točke v razsevnemdiagramu ležijo na isti premici ali pa se od nje bolj ali manj odklanjajo(ovalna oblika množice točk v razsevnem diagramu).

Premico, ki se najbolj prilega točkam, imenujemo regresijska premica.

Ločimo pozitivno in negativno linearno povezanost.

73

Pozitivna linearna povezanost: večje vrednosti spremenljivke X sopovezane z v povprečju večjimi vrednostmi spremenljivke Y . (regresijskapremica je naraščajoča)

74

Negativna linearna povezanost: večje vrednosti spremenljivke X sopovezane z v povprečju manjšimi vrednostmi spremenljivke Y . (regresijskapremica je padajoča)

75

Ni povezanosti

76

Page 20: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

PRIMER 32Voznik je za 12 voženj zabeležil število prevoženih kilometrov in porabogoriva v litrih. Rezultati so prikazani v tabeli:

Pot (km) 20 35 60 35 65 50 40 25 25 45 10 15Gorivo (l) 2,5 3,8 6 4 5,5 4 3,5 2,5 3 4 1,8 2

a) Nariši razsevni diagram (v zvezek in z Excel ali z Graph). Ali je medspremenljivkama opaziti linearno povezanost?

b) Določi enačbo regresijske premice (z Excel ali Graph). Premico vriši vrazsevni diagram.

c) Koliko goriva bo v povprečju porabil voznik za 42 km?

77

Rešitev:

78

79

PRIMER 33Poraba električne energije. Dijak je doma 7 tednov beležil tedenskoporabo električne energije. Podatki v kWh so zbrani v tabeli:

Zap. št. (k) teden kWh1 1. teden 1092 2. teden 983 3. teden 1024 4. teden 1035 5. teden 956 6. teden 907 7. teden 92

a) Nariši linijski diagram (v zvezek in z Excel ali Graph). Katera krivuljabi se prilegala porabi električne energije?

b) Določi enačbo te krivulje (z Excel ali Graph). Vriši jo v diagram.c) Kolikšno porabo električne energije lahko pričakujemo 8. teden?

80

Page 21: 1. OSNOVNI POJMImat.sc-nm.si/files/Statistika_prosojnice.pdf · 2009-10-28 · Osnovne naloge statistike: zbiranje podatkov (anketiranje, opazovanje, merjenje, štetje) čiščenje,

Rešitev: a)

Excel: Črtni grafikon

b) Enačba linearnega trenda je y = −2, 6429x + 109.

c) Napoved za 8. teden: y = −2, 6429 · 8 + 109 = 87, 9 kWh.

81

Nelinearna povezanost

PRIMER 34Ali spodnji grafikon prikazuje linearno povezanost spremenljivk?

82

PRIMER 35Ali spodnji grafikon prikazuje linearno povezanost spremenljivk?

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10

Leto

Viš

ina

kakt

usa

(m

m)

83

PRIMER 36Ali spodnji grafikon prikazuje linearno povezanost spremenljivk?

0

100

200

300

400

500

600

700

0 2 4 6 8 10 12 14

MesecV

red

no

st d

eln

ice

(EU

R)

84