31
Vprašanja in odgovori za ustni izpit Statistike maLa maLca OPOZORILO! Odgovori, ki so napisani k vprašanjem niso popolni, tako kot tudi seznam vprašanj ni popoln. Vprašanj je namreč nešteto, zato naj ti listi ne bodo edini vir vašega znanja. Z njimi si lahko le pomgate, nikakor pa se nanje ne zanašajte preveč. Predvsem si morate zapomniti, da je statistika natančna veda in da kakršnokoli bluzenje ni dovoljeno. Veliko sreče z izpitom vam želim! I. UVODNA TEORIJA 1. Kaj je statistika? Kako jo delimo? STATISTIKA je aplikativna, uporabna matematika, ki se ukvarja z zbiranjem, organiziranjem, sumiranjem, prikazom in analizo podatkov, iz česar potem podajamo ZAKLJUČKE in ODLOČITVE. Operira s števili in simboli, odkriva odnose med njimi. Je torej nek znansetveni jezik, ki nam pomaga pri opisovanju in napovedovanju mnogih znanstvenih pojavov. Delimo jo na: - DESKRIPTIVNO/OPISNO statistiko, ki opisuje vzorce, ki jih preučujemo. Sem spada prikazovanje podatkov, izračunavanje mer centralne tendence, mer razpršenosti, tudi korelacije, asimetrija, oblike distribucij,... - INDUKTIVNO statistiko, ki pa se ukvarja s sklepanjem na lastnosti populacije na podlagi podatkov, ki jih dobimo iz vzorca., s tehnikami, ki analizirajo! Zajema vzorčenje, ocenjevanje parametrov in odločanje. Poznamo tudi delitev na podlagi nivoja variabel, torej kvalitativna in kvantitavna, oziroma nominalna, ordinalna, intervalna in racionalna. Poleg tega ločimo tudi parametrično in neparametrično statistiko ter delitev na vzorčno in populacijsko. Mi smo se pri statistiki najprej ukvarjali z deskriptivno statistiko, in sicer smo obdelali mere centralne tendence, mere razpršenosti, oblike distribucij, vrste distribucij, verjetnosti. Nato smo se posvetili inferenčni statistiki, kjer smo se ukvarjali z vzorčenjem, ocenjevanjem populacijskih parametrov na podlagi vzorčnih statistik, z odločanjem v zvei s populacijo, nato pa še z raznimi testi, ki so nam pri tem odločanju pomagali (hi - kvadrat in anova). Nato smo se posvetili korelacijam, povezavam med dvema ali večimi variablami. Vse to spada pod parametrijsko statistiko, na koncu pa smo se posvtili še neparametričnim testom in multivariatnim metodam. 2. Populacija in vzorec Statistike ponavadi zanima neka populacija, to je skupina osebkov, ki jo preučujemo. V večini primerov je ta le prevelika in zato iz nje izberemo nek vzorec, ter iz njegovih lastnosti sklepamo na lastnosti populacije. Populacija je lahko končna (ljudje rojeni 28. februarja 1979) ali neskončna (ljudje rojeni 28. februarja kateregakoli leta). Tako govorimo o parametrih in ocenah. Parametri so statistike (na primer aritmetična sredina) celotne populacije. Ker pa nam parameter ponavadi ni znan (iz zgoraj naštetih vzrokov), pa uporabljamo oceno parametra. To dobimo tako, da statistiko izračunamo na nekem reprezentativnem vzorcu in to statistiko uporabimo kot oceno parametra. 3. Opiši znanstveni proces: PROBLEM GENERALIZACIJA HIPOTEZA ANALIZA PODATKOV RAZISKAVA ZBIRANJE DOLOČITEV PODATKOV MERITVENIH POSTOPKOV 4. Opiši znanstveno metodologijo: Avtorske pravice pridržane! Stran: 1

Skripta Za Statistiko[1]

  • Upload
    mirko

  • View
    216

  • Download
    4

Embed Size (px)

DESCRIPTION

Statistika

Citation preview

Page 1: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

OPOZORILO! Odgovori, ki so napisani k vprašanjem niso popolni, tako kot tudi seznam vprašanj ni popoln. Vprašanj je namreč nešteto, zato naj ti listi ne bodo edini vir vašega znanja. Z njimi si lahko le pomgate, nikakor pa se nanje ne zanašajte preveč. Predvsem si morate zapomniti, da je statistika natančna veda in da kakršnokoli bluzenje ni dovoljeno. Veliko sreče z izpitom vam želim! I. UVODNA TEORIJA 1. Kaj je statistika? Kako jo delimo? STATISTIKA je aplikativna, uporabna matematika, ki se ukvarja z zbiranjem, organiziranjem, sumiranjem, prikazom in analizo podatkov, iz česar potem podajamo ZAKLJUČKE in ODLOČITVE. Operira s števili in simboli, odkriva odnose med njimi. Je torej nek znansetveni jezik, ki nam pomaga pri opisovanju in napovedovanju mnogih znanstvenih pojavov. Delimo jo na: - DESKRIPTIVNO/OPISNO statistiko, ki opisuje vzorce, ki jih preučujemo. Sem spada prikazovanje podatkov, izračunavanje mer centralne tendence, mer razpršenosti, tudi korelacije, asimetrija, oblike distribucij,... - INDUKTIVNO statistiko, ki pa se ukvarja s sklepanjem na lastnosti populacije na podlagi podatkov, ki jih dobimo iz vzorca., s tehnikami, ki analizirajo! Zajema vzorčenje, ocenjevanje parametrov in odločanje. Poznamo tudi delitev na podlagi nivoja variabel, torej kvalitativna in kvantitavna, oziroma nominalna, ordinalna, intervalna in racionalna. Poleg tega ločimo tudi parametrično in neparametrično statistiko ter delitev na vzorčno in populacijsko. Mi smo se pri statistiki najprej ukvarjali z deskriptivno statistiko, in sicer smo obdelali mere centralne tendence, mere razpršenosti, oblike distribucij, vrste distribucij, verjetnosti. Nato smo se posvetili inferenčni statistiki, kjer smo se ukvarjali z vzorčenjem, ocenjevanjem populacijskih parametrov na podlagi vzorčnih statistik, z odločanjem v zvei s populacijo, nato pa še z raznimi testi, ki so nam pri tem odločanju pomagali (hi - kvadrat in anova). Nato smo se posvetili korelacijam, povezavam med dvema ali večimi variablami. Vse to spada pod parametrijsko statistiko, na koncu pa smo se posvtili še neparametričnim testom in multivariatnim metodam. 2. Populacija in vzorec Statistike ponavadi zanima neka populacija, to je skupina osebkov, ki jo preučujemo. V večini primerov je ta le prevelika in zato iz nje izberemo nek vzorec, ter iz njegovih lastnosti sklepamo na lastnosti populacije. Populacija je lahko končna (ljudje rojeni 28. februarja 1979) ali neskončna (ljudje rojeni 28. februarja kateregakoli leta). Tako govorimo o parametrih in ocenah. Parametri so statistike (na primer aritmetična sredina) celotne populacije. Ker pa nam parameter ponavadi ni znan (iz zgoraj naštetih vzrokov), pa uporabljamo oceno parametra. To dobimo tako, da statistiko izračunamo na nekem reprezentativnem vzorcu in to statistiko uporabimo kot oceno parametra. 3. Opiši znanstveni proces: PROBLEM GENERALIZACIJA HIPOTEZA ANALIZA PODATKOV RAZISKAVA ZBIRANJE DOLOČITEV PODATKOV MERITVENIH POSTOPKOV 4. Opiši znanstveno metodologijo:

Avtorske pravice pridržane! Stran: 1

Page 2: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Psihologija vedno operira z nekimi problemi, zato je zelo pomembno, da jih najdemo, detektiramo in seveda čimbolje formuliramo. 1. Detekcija - če je problem slabo formuliran, so nadaljni korani zelo težavni. 2. Kolekcija vseh podatkov, Potrebno je opredeliti načine, metode zbiranja podatkov. Te metode so zelo

dodelane in občiutljive 3. Analiza - ureditev, kondenzacija, sistematiziranje. Gre za pripravo podatkov, za prvo obdelavo, za

izračunavanje osnovnih parametrov, za zgoščevanje poatkov in nadaljne postopke, če so le - ti potrebni.

4. Screening - lahko tabularični ali grafični 5. Interpretacija ali pojasnjevanje 6. Zaključevanje - toje ugotavljanje, v kolikšni meri smo pojasnili zadeve, če česa ne pojasnimo, iščemo

vzreoke, zakaj! Z zaključevanjem nikoli ne končamo, saj se ponovno odpre nov problem. Pri zannstveni metodologiji je zelo pomembn povezava med teorijo in metodo. Dobra metoda temelji na dobri teoriji, skupaj pa data nato dober rezultat. 5. Kako lahko delimo variable? VARIABLA - vrednost, pri kateri se posamezniki med seboj razlikujejo - KONSTANTA - vedno zavzame enakto vrednost - DISKRETNA - variabla, ki lahko zavzame le določene vrednosti in ne vmesnih - KONTINUIRANA - variabla, ki lahko teoretično vedno zavzame katerokoli vrednost med dvema danima. Lestvice števil delimo takole: 1. NOMINALNE - imamo le imena za vsako posamezno vrednost. Te vrednosti niso v nikakršnem

vrstnem redu. Primer: nogometno moštvo - vsakega poimenujemo s svojo številko, nihče ni pred/za drugim.

2. ORDINALNE - vrednosti so že razporejene v nekem vrstnem redu, vendar pa razlike med njimi niso enake. Takšni so na primer rezultati krosa, kjer ne objavimo časov, temveč le mesto, ki ga tekmovalec doseže. Če je bil Miha prvi, Janez drugi in Peter tretji ne vemo, ali so pritekli vsi v isti sekundi, ali so bile med njimi minutne razlike.

3. INTERVALNE - interval med vrednostmi je enak - tako bi bilo, če bi vsi tekmovalci na krogi pritekli ob polnih minutah - razlika od prvega do drugega bi bila ena minuta, prav tako od drugega do tretjega,... Vendar pa tu še nimamo absolutne ničle in zato ne moremo uporabljati razmerij.

4. RAZMERNOSTNE - imamo absolutno ničlo, zato lahko uporabljamo razmerja. Prime je Kelvinova T skala - Celzijeva se začne pri absolutni vrednosti 273 in zato spada med intervalne lestvice.

Kadar govorimo o kvalitativnih in kvantitativnih variablah, so nominalne in ordinalne enačbe označene kot KVANTITATIVNE, intervalne in racionalne pa kot KVALITATIVNA. Variable pa lahko konec koncev ločimo tudi na odvisne in neodvisne. OSNOVE MATEMATIKE, ki jih moramo poznati, preden se začnemo resneje ukvarjati s statistiko SEŠTEVANJE - lastnosti: a + b = b + a (a + b) + c = a + (b + c) a + (-b) = a - b a - (-b) = a + b MNOŽENJE - lastnosti: a * b = b * a (a * b)*c = a * (b*c) (a + b)*c = a*c + b*c (a + b)*(c + d) = a*c + a*d + b*c + b*d (a + b) **2 = a**2 + 2*a*b + b**2 (a - b) **2 = a**2 - 2*a*b + b**2 a**2 = a*a a**3 = a*a*a

Avtorske pravice pridržane! Stran: 2

Page 3: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

a**4 = a*a*a*a SUMACIJSKI ZNAK - lastnosti Znak sigma nam pove, da moramo sešteti vse vrednosti x od indeksa, ki je napisan pod znakom, do števila, ki je napisan nad njim. Ta znak torej pove, a moramo sešteti vse X-e, ki imajo indekse od 1 pa tja do 16. Σ Xi = X1 + X2 + ... + Xn Σ(c*Xi) = c * ΣXi ΣC = N*C Σ (x + y + z) = Σx + Σy + Σz Σ prvih N naravnih števil = N*(N+1)/2 Σ (x*y) ≠ Σx * Σy Funkcije: Če vsaki vrednosti x ustreza neka vrednost y, potem rečemo, da je y=f(x). Lahko imamo pri enem x eno ali več vrednosti y. Graf = slikovni prikaz nekega odnosa X - abscisa Y - ordinata 0 = izhodišče Celotna ravnina se deli na štiri kvadrante. Enačba je stavek napisan v obliki A=B, kjer je A leva stran enačbe, B pa desna. Obema stranema lahko prištevamo in odštevamo enako število, lahko jih delimo, množimo z enakim številom, razen z 0! Neenačba je enačba, v kateri nastopajo neenakostni simboli (<>). Pri teh izjavah velja enako kot pri enačbah, le v primeru množenja ali deljenja z negativnim številom se obrne neenakost. 6. Kako zaokrožujemo? Vedno zaokrožimo na najbližjo številko. Primer: 14,54 zaokroži na eno decimalko - rezultat je 14,5 14,56 zaokorži na eno decimalko - rezultat je 14,6 Če pa imamo šrevilko 5, zaokrožimo tako, da je na zadnjem mestu parna številka. 14,55 zaokroži na eno decimalko - rezultat je 14,6 7. Kdaj uporabimo znanstveno notacijo? Ko imamo števila, ki vsebujejo precej ničel in podobno, ga lahko zapišemo s potenco števila 10. Tako je na primer 14 000 enako 14*10**3. Zakaj? 14 000 = 14 * 1000 1000 pa je 10**3 oziroma 10*10*10 V primeru, da imamo decimalna števila, pa uporabljamo negativne potence števila 10. Tako je 0,014 enako 14 * 10 **(-3), saj moramo število 14 deliti s 1000, da dobimo takšno decimalko. 8. Kaj so pomembna mesta? Pomembna mesta so mesta, ki popolnoma določajo število. Število 45300 ima pet pomembnih mest, saj ga določajo ena štirica, ena petica, ena trojka in dve ničli. V primeru, da imamo število, kjer so ničle spredaj, pa le-teh ne štejemo kot pomembna mesta. 0,0018 in tako le dve pomembni mesti. ZAKAJ? 0,0018 lahko zapišemo kot 18 * 10**(-3), torej imamo le dve pomembni mesti in sicer 1 in 8. Tudi 45300 bi lahko zapisali kot 4,53 * 10**3, samo to število ni več popolnoma enako prejšnjemu ravno zaradi pomembnih mest. Prej smo govorili o kontinuiranih številih. Če torej zapišemo 4,53 *10**3, bi to število zavzemalo vrednosti od 4,525*10**3 do 4,535*10**3, če pa zapišemo 45300, to število sega od 45299,5 do 45300,5. Tako vidimo, da število ni enako, zato ničle zadaj štejemo kot pomemba mesta, tiste spredaj pa ne.

Avtorske pravice pridržane! Stran: 3

Page 4: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

9. Kako računamo s pomembnimi števili? Ko množimo, ima rezultat toliko pomembnih mest, kot število z manj pomembnimi mesti. Primer: 73,24*4,52 = 331 (3 pomembna mesta, kot 4,52) POZOR!!!! V primeru 8,416 * 50, ko je 50 NATANČNA VREDNOST, rezultat zaokrožimo na 4 pomembna mesta. Pri natančnih vrednostih napreč ne štejemo pomembnih mest, ker jih imajo nešteto. Če imamo 50 hiš, to ne pomeni, da jih je lahko tudi 49,999999. NE! Imamo jih 50 in to je to. Lahko bi napisali 50,00000000000000000000000000000000000000000, pa še in še ničel bi lahko napisali, pa jih nikoli ne bi bilo dovolj. Zapomnimo si torej - NATANČNE VREDNOSTI IMAJO NEŠTETO ŠTEVILO POMEMBNIH MEST! Pri seštevanju je nekoliko drugače. Rezultat ima toliko pomembnih mest ZA DECIMALKO, kolikor tiste število, ki jih ima manj. Tu moramo spet paziti na natančne vrednosti! Primer: 3,16 + 2,7 = 5,9 II. FREKVENČNE DISTRIBUCIJE in PRIKAZ REZULTATOV 1. Opiši postopek obdelave podatkov! Rezultati, ki jih dobimo z neko raziskavo niso razvrščeni po velikosti ali po kakršnemkoli vrstnem redu, temveč so v vrste zbrani po naklučju. Takšnim rezultatom, ki so torej še popolnoma neobdelani, pravimo VRSTIČNI PODATKI. Da se v zmedi števil lažje znajdemo, jih je najbolje razporediti po velikosti, ponavadi jih razporedimo od najmanjšega do največjega. Takšnim podatkom pravimo POLJE/ARRAY. Razlika med največjim in najmanjšim podatkom je obseg. Nekatere vrednosti se pojavljajo večkrat, zato se odločimo, da rezultate prikažemo v obliki FREKVENČNE DISTRIBUCIJE. To so distribucije vseh vrednosti, ki se pojavljajo z določeno frekvenco. Gre za to, da za vsako izmed vrednosti preštejemo, kolikokrat se pojavlja in tako vsaka vrednost dobi določeno frekvenco. Frekvenca je torej količina, ki pove, kolikokrat se neka vrednost pojavlja. Precej bolj pregledno je, če vse vrednosti razvrstimo v neke razrede, pravimo, da GRUPIRAMO podatke. Skupaj združujemo po več vrednosti in nato razredu pripišemo neko frekvenco, ki je vstota frekvenc vseh vsebpvanih vrednosti. Nazadnje sledi še GRAFIČNI PRIKAZ dobljenih skupin. 2. Pravila za formiranje razredov! Ko govorimo o pravilih formiranja razredov se moramo najprej spoznati z osnovnimi pojmi. RAZREDNI INTERVAL - simbol, ki definira razred. Omejen je z mejami. SPODNJA MEJA - najnižja vrednost, ki še spada v razred. Pri tem pazimo, da je ta vrednost enaka pravemu podatku. Če imamo torej med rezultati same cele vrednosti, mora biti tudi meja razreda cela vrednost. ZGORNJA MEJA - največja vrednost, ki še spada v razred (čeprav je morda med podatki ni). Tudi ta je seveda enaka pravim podatkom. NATANČNA SPODNJA MEJA - Od spodnje meje odštejemo pol enote in dobimo natančno spodnjo mejo. Ta vrednost ni enaka pravemu podatku, torej če so pravi podatki cela števila, bodo natančne vrednosti polovičke. NATANČNA ZGORNJA MEJA - Zgornji meji prištejemo pol enote. Tudi ta vrednost ni enaka pravemu podatku. ZAKAJ NATANČNE MEJE? Interval 60 - 62 pravzaprav sega od 59,5 do 62,5, saj vrednost 60 zavzema interval od 59,5 do 60,5, vrednost 62 pa sega od 61,5 do 62,5. ODPRT INTERVAL - je interval, ki nima obeh mej. Tak je na primer interval, ki zavzema vse vrednosti nad 30. Takšen interval uvedemo takrat, ko imamo nad določeno vrednostjo tako majhno frekvenco, da bi bilo nesmiselno tvoriti nadaljne razrede.

Avtorske pravice pridržane! Stran: 4

Page 5: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

VELIKOST RAZREDA - je razlika med obema natančnima mejama razredi. Ponavadi naj bi imeli vsi razredi enako velikost. PREDSTAVNIK RAZREDA - je srednja točka razreda, ki pa MORA BITI ENAK PRAVI VREDNOSTI. Dobimo jo tako, da seštejemo obe meji in vsoto delimo z 2. Pri kakršnemkoli nadaljnem računanju se ne oziramo več na posamezne vrednosti znotraj razreda, temveč si predstavljamo, da frekvenca razreda sodi kar k predstavniku razreda. GRUPIRANJE! 1. Kot prvo je potrebno določiti obseg, torej razliko med največjo in najmanjšo vrednostjo. 2. Celoten obseg razdelimo na enake dele. Večinoma se držimo dveh pravil: • število razredov naj bi bilo 5 do 20 • velikosti intervala naj bi bile 1, 2, 3, 5, 10 ali 20 3. Za vsak razred preštejemo frekvence Vedno pa moramo paziti naslednje: Predstavnik razreda in meje so enake PRAVIM REZULTATOM! Natančne meje razreda niso enake pravim rezultatom. Rzredi naj bodo ravno prav veliki - če so preveliki, izgubimo preveč informacij o razpršitvi, če so premajhni, pa samo grupiranje nima pomena, saj preglednost ni dovolj boljša. 3. Prednosti in pomanjkljivosti grupiranja? Prednost je predvsem, da je pregled boljši, pomanjkljivost pa je v izgubi podatkov. 4. Kakšne grafične prikaze poznamo in kaj je pri njih pomembno? Precej enostaven je HISTOGRAM, to je graf, kjer si pomagamo s stolpci. Na absciso nanašamo interval (od natančne spodnje do natančne zgornje meje), nato pa nanašamo frekvenco. Višina stolpca pomeni torej frekvenco, širina pa velikost intervala. Prednost histograma je, da je precej pregleden, na žalost pa daje precej odsekano sliko. Histogram dostikrat uporabljamo pri nominalnih podatkih. To odsekanost nato popravi POLIGON, kjer na absciso nanašamo srednje vrednosti, nato pa na ordinato njim odgovarjajoče frekvence. Te točke nato povežemo in slika je že bolj podobna pravi. Paziti pa moramo, da vlečemo ravne, ostre črte in ne zaokrožujemo grafov, kar radi počnemo. Črte lahko zaoblimo, če imamo za to neko teoretsko podlago. Prednost poligona je tudi v tem, da lahko nanesemo po dva ali več krivulj na isti graf. Pri tem moramo seveda paziti, da je N pri obeh distribucijah enak. Če sta Numerusa različna, si pomagamo z relativnimi frekvencami. Tu raje prikazujemo intervalne in racionalne spremenljivke. Pri obeh grafih moramo paziti na to, da je razmerje med Absciso in Ordinato 4:3. Pri prikazu si lahko pomagamo tudi s strukturnimi stolpci ali s strukturnimi krogi, pitami. Te načine uporabljamo pri nominalnih podatkih. 5. Kaj je kumulativna frekvenčna distribcuija in ogiva? Spoznati pa se moramo tudi s kumulativno frekvenčno distribucijo. Kumulativna frekvenčna distribucija na spodnjo mejo nam pove, koliko je vrednosti pod spodnjo mejo nekega razreda. To frekvenco dobimo tako, da seštejemo vse frekvence prejšnjih razredov. Kumulativna frekvenca na zgornjo mejo pa nam pove, koliko vrednosti je pod zgornjo mejo tega razreda, torej moramo prejšnji kumulativni frekvenci prišteti še frekvenco trenutnega razreda. Imamo pa še kumultaivno frekvenco sredine razreda, ki pa jo dobimo tako, da kumulativno frekvenci na spodnjo mejo prištejemo polovico frekvence trenutkega razreda. Ko rišemo kumulativne ogive moramo vedeti, da je tu razmerje med Absciso in Ordinato 3:4. K. ogivo na spodnjo mejo narišemo tako, da na abscisi označimo natančne spodnje vrednosti in nato na ordinato nanašamo pripadajoče kumulativne frekvence. Pri K. ogivi na zgornjo mejo pa imamo na abscisi natančne zgornje meje. Vse opisane grafe lahko narišemo tudi, ko imamo relativne frekvence, paziti moramo le, da vrednost ne preseže 100 %. Ko imamo na ordinati že vrednost 100%, ne smemo narisati puščice navzgor, saj nad to vrednostjo ne more biti nič.

Avtorske pravice pridržane! Stran: 5

Page 6: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

6. Kakšne krivulje poznamo? Krivulj je več vrst. Kot prvo je lahko krivulja simetrična ali pa asimetrična v katerokoli stran (levo ali desno). Glede na število maksimumov ločimo unimodalne, bimodalne in multimodalne distribucije. Poznamo še distribucije J in U oblike. 7. Kaj so prednosti grafičnih prikazov? - takoj opazimo posebne karakteristike distribucije, kar samo iz številčnega prikaza ni možno - opazimo morebitne napake, ki jih naredimo - zelo hitro lahko razberemo modus - lepo prikažejo razmerja - to pa ne velja za 3D grafe, ki spremenijo razmerja, zato jih raje ne uporabljamo III. POLOŽAJ POSAMEZNIKA V SKUPINI Če na izpitu izvemo le število točk, ki smo jih dosegli, s tem najverjetneje nismo zadovoljni. Hočemo vedeti tudi, kakšen je bil rezultat drugih, v kateri del spadamo - med boljše/slabše? Kot prvo nam veliko pove že ABSOLUTNI RANG (Rx). Ta nam pove, kateri po vrsti smo, ne glede na to, koliko ljudi je opravljalo test. Tu ne smemo pozabiti na vezane range. Če torej več ljudi zasede isto mesto, dobijo vsi isti rang, kateri pa je odvisno od mesta, na katerem so in od števila teh ljudi. Na primer, da smo prve tri range že oddali, ko prideta na vrsto dva z enakim številom točk. Če di se le malo razlikovala, bi en dobil 4, drugi pa 5 točk. Ker sta si enaka, jima obema damo enak rang in sicer povprečje obeh, to pa je 4,5. Če bi bili na tem mestu trije, bi morali dobiti povprečje četrega, petega in šestega mesta, torej bi dobili vsi rang 5. ENOSTAVNO! Dostikrat nam sam absolutni rang ne pove dovolj, sploh če ne vemo, koliko ljudi je reševalo test. Zato si pomagamo z relativnim rangom (P), ki ga izračunamo: P= (R-0,5)/N 0,5 odštejemo zato, ker mora biti R zvezna spremenljivka (1 sega od 0,5 do 1,5). Lahko pa računamo tudi obratno: R= P*N + 0,5 Včasih se zgodi, da želimo izračunati, kolikšen rang bi imel nekdo z določenim številom točk, ki pa na jih med rezultati ni. Takrat si pomagamo z naslenjo formulo: (R - R0)/(R1 - R0) = (X - X0)/(X1 - X0) X pomeni vrednost, katere rang iščemo, R je njen rang. X0 pomeni najbližjo vrednost, ki je pod X, R0 je njen rang. X1 pomeni najbližjo višjo vrednost, R1 je njen rang. Razlika med enim rangom nižje in enim višje je ponavadi 1, saj rangom dajemo zaporedna naravna števila. Zato je torej R1 - R0 kar enako 1, torej dobimo iz zgornje enačbe: R = R0 + (X - X0)/(X1 - X0) Za grupirane podatke lahko celotno formulo zapišemo takole: (R - Fo) /f o = (X - Xo)/i kar lahko zapišemo tudi: R = Fo + (f o(X - Xo))/i kjer je f = frekvenca razreda, v katerem je vrednost i= razredni interval Xo pa je natančna spodnja meja Fo je spodnji rang razreda

Avtorske pravice pridržane! Stran: 6

Page 7: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Če narišemo K. ogivo, lahko iz nje odčitamo, koliko odstotkov vrednosti je bilo pod vrednostjo, ki nas zanima.. Tako lahko najdemo precentil - to je vrednost, pri kateri je imel določen odstotek ljudi manjši rezultat. Xp (percentil) = Xo + [ (X1 - Xo)*(Rp - Ro)] / (R1 - Ro) Pri grupiranih podatkih: Xp (percentil) = Xo + [ i*(Rp - Fo)] / fo Percentili torej delijo rezultate na 100 delov. Govorimo o Centilih. Imamo pa še kvartile, ki delijo podatke na štiri dele. Tako velja: Q1 = X0.25 Q2 = X0.50 Q3 = X0.75 Q4 = X1.00 Drugi kvartil pa je hkrati tudi mediana - mera centralne tendence, ki jo bomo spoznali kasneje. Poznamo tudi decile, ki pa delijo podatke na decet delov. Tako velja: D1 = X0.10 D2 = X0.20 D3 = X0.30 D4 = X0.40 D5 = X0.50 D6 = X0.60 D7 = X0.70 D8 = X0.80 D9 = X0.90 Vse dane vrednosti pa lahko odčitamo iz kumulativne ogive. III.a RELATIVNA ŠTEVILA Relativna števila so primerna zato, ker nam omogočajo LAŽJO PRIMERJAVO. Poznamo pa več vrst relativnih števil: 1. Strukturna števila 2. Koeficienti (kvocienti) 3. Indeksi STRUKTURNA ŠTEVILA ... so proporci in procenti. Gre za to, da primerjamo del s celoto, ali pa da primerjamo rezultate na večih vzorcih ali na večih testih. KOEFICIENTI / KVOCIENTI Gre za raznavrstne podatke, kjer imamo neko enoto. Poznamo osnovne in recipročne kvociente. OSNOVNI - 7,4 zdravnika /1000 prebivalcev RECIPROČNI - 135,1 prebivalcev/zdravnika (delimo 1000 s 7,4) INDEKSI Tu imamo istovrstne podatke, kjer ni enote, želimo pa na primer primerjati z nekim začetnim stanjem ali s povprečjem. Baza je lahko stalna ali pomična (tu govorimo o verižnih indeksih). I = lani/letos (na primer)* 100% ISTA OSNOVA - stanje primerjamo vsako leto z istim stanjem. Primer je na primer, ko računamo indekse 92 do 93, nato 92 do 94,... PREMIČNA OSNOVA - VERIŽNI INDEKS - vsakič primerjamo s stanjem, ki je bilo prej - leto 93 primerjamo z 92, 94 s 93,... Skupni indeks nato izračunamo kot zmnožek vseh. iskupni = 100 * Π (ii/100) Povprečni verižni indeks pa računamo s pomočjo geometrične sredine. _ i = 100 m isk/100 Povprečno relativno število iz različnih vzorcev vedno računamo ponderirano:

Avtorske pravice pridržane! Stran: 7

Page 8: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

__ rš = Σ(ršj*nj)/Σnj IV. MERE CENTRALNE TENDENCE 1. Kaj so to mere centralne tendence? To so vrednosti, katerim se rezultati približujejo. Ponavadi je okoli teh vrednosti gostota rezultatov največja, posebej v normalnih ali vsaj približno normalnih distribucijah. Vendar pa mera centralne tendence ni sinonim za povprečje - povprečje je namreč le ena izmed teh mer. 2. Katere mere centralne tendence poznaš? Naštej lastnosti in načine izračunavanja vsake posebej! Najbolj pogosto uporabljana in tudi najbolj znana mera centralne tendence je zagotovo ARITMETIČNA SREDINA. Dobimo jo tako, da seštejemo vse rezultate in dobljeno vrednost delimo z Numerusom. Kadar jo računamo iz podatkov, ki so razporejeni v frekvenčno distribucijo, vsako vrednost pomnožimo seveda tudi z odgovarjajočo frekvenco, ter šele nato seštevamo in delimo. Podobno je pri grupiranih podatkih, le da tu uporabimo namesto posamičnih vrenosti kar sredine razreda. Te pomnožimo s frekvenco razreda in ponovno delimo z Numerusom (ne s številom razredov!). Osnovna formula je torej: M = Σ(x)/N za grupirane podatke pa se spremeni v: M = (Σfx)/N Lahko imamo več skupin, za katere poznamo aritmetične sredine in Numeruse. Če želimo izračunati skupno aritmetično sredino, si pomagamo s tehtano aritmetično sredino. To dobimo tako, da vsako M skupine pomnožimo z N te skupine, vse seštejemo, nato pa vse delimo s celotnim N. Formula je torej: M = (ΣNk * Xk)/N LASTNOSTI ARITMETIČNE SREDINE: 1. Suma odklonov okoli aritmetične sredine je 0! Σ (X - M) = 0 2. Suma kvadratov odklonov okoli aritmetične sredine je minimum! Σ (X - M)**2= 0 3. Lahko računano tehtano aritmetično sredino, tako da M vsake skupine pomnožimo s pripadajočim N, nato vse seštejemo in delimo s skupnim N. 4. Aritmetično sredino lahko računamo tudi tako, da od vsakega X odštejemo neko konstanto, izračunamo aritmetično sredino dobljenih vrednosti, nato pa le - tej prištejemo konstanto. Aritmetično sredino lahko uporabljamo na RACIONALNEM IN INTERVALNEM nivoju. Naslednja tudi precej pogosta in uporabna mera centralne tendence je MEDIANA. Uporabljamo jo takrat, ko kakšni ekstremni rezultai aritmetično sredino zelo spremenijo, saj ta mera ni tako občutljiva na ekstreme. To je vrednost, pod in nad katero imamo polovico vseh rezultatov. Kadar imamo naparno število rezultatov, je mediana kar srednji rezultat. Ko pa je število rezultatov parno, vzamemo srednji dve števili in kot mediano vzamemo njuno srednjo vrednost. Če imamo takšen primer: 7, 7, 7, 8, 8, 8, 9, 9, 10, 10; torej mediana nastopi med drugo in tretjo sedmico. Tu ne moremo reči, da je mediana kar 8, saj se te tri osmice enakomerno razporedijo po intervalu od 7,5 do 8,5. Spodnji vrednosti moramo torej prišteti dve tretjini intervala, kar je torej 0,66. Mediana v tem primeru je torej 7,5+0,66 = 8,16! Pri grupiranih podatkih pa določamo mediano po naslednjih korakih: 1. Določimo kumulativne frekvence za vse razrede 2. Izračunamo vrednost N:2 in pogledamo, v katerem razredu se nahaja ta rezultat. 3. Vzamemo spodnjo mejo tega razreda in interpoliramo, kar pomeni, da moramo interval razdeliti na f delov, nato pa najti ravno tisti rezultat, ki je na sredini.

Avtorske pravice pridržane! Stran: 8

Page 9: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Formula izgleda takole: Me = SM + ((N/2 - cf)*i)/f kjer cf pomeni kumulativno frekvenco f pomeni frekvenco razreda, kjer naj bi bila mediana Mediana nam torej deli celotno distribucijo na dva enako velika dela, torej gre pravzaprav za 50. percentil. Mediano lahko uporabljamo tudi na ORDINALNEM nivoju. Naslednja mera centralne tendence je MODUS. To je najbolj pogosta vrednost, torej vrednost, ki se največkrat pojavlja. V eni distribuciji imamo lahko več modusov, zato govorimo o uni-, bi- ali multimodalni distribuciji. Lahko pa se zgodi, da distribucija sploh nima modusa (če imajo vse vrednosti isto frekvenco), ali pa, da se le ta nahaja med dvema vrednoszima. Če imata dve vrednosti, ki sta skupaj enako frekvenco, potem vzamemo za modus srednjo vrednost med njima. Na modus vpliva le frekvenca, ne pa tudi numerus. Pri grupiranih podatkih vzamemo za modus kar sredino razreda, ki ima največjo frekvenco. Modus lahko uporabljamo na vseh nivojih. Imamo pa še tri zelo redko uporabljane mere centralne tendence. Prva takšna mera je GEOMETRIČNA SREDINA, to je N-ti koren produkta N števil. Uporablja se pri indeksih, pri izračunavanju mere hitrosti nekih sprememb. Pogoj, da sploh lahko pristopimo k računanju katrekoli G je, da so vse vrednosti pozitivne. Nadalje poznamo HARMONIČNO SREDINO, ki se uporablja takrat, ko računamo povprečje nekih odnosov, ulomkov. Če tedaj računamo M pride do napak, ker ne upoštevamo količine. Izračunamo jo kot recipročno aritmetično sredino recipročnih vrednosti. Za boljšo predstavljivost naj raje zapišem formulo: Ponavadi velja, da je H < G < M. Enaki so takrat, ko so vse vrednosti x enake. Zadnja mera centralne centendce, ki jo bomo spoznali pa bo POVPREČNA KVADRATNA SREDINA, ki jo namesto M uporabljamo takrat, ko imamo velike ekstreme, saj je precej manj občutljiva nanje kot M. Izračunamo jo kot aritmetično sredino kvadriranih vrednosti x. 3. Kdaj uporabljamo glavne tri mere centralne tendence, kaj so njihove prednosti in pomanjkljivosti? Aritmetična sredina ima nedvomno precejšnjo prednost pred drugima dvema, saj nam omogoča precej nadaljnih izračunov, poleg tega je dobro definirana. Občutljia je na vse podatke, kar pa je hkrati tudi njena pomanjkljivost, saj to pomeni, da jo naključni ekstremni podatki zelo izkrivijo. Uporabimo jo takrat, ko je distribucija vsaj približno simetrična, ko želimo vedeti center gravitacije. Vendar pa moramo vedeti, da lahko to mero uporabljamo le na intervalnem ali racionalnem nivoju. Kadar so torej vrednosti na nižjih nivojih, se moramo izračunu M kar lepo izogniti. Mediana je zelo hitro izračunljiva, zato jo uporabljamo, kadar nimamo časa za računanje M. Mediana zamenja M tudi takrat, ko imamo ekstremne vrednosti, ko je torej distribucija izkrivljena, ali pa, če je nepopolna, torej če imamo na koncu odprt interval. Zelo je uporabna tudi tedaj, ko nas zanima, na kateri strani distribucije ležijo rezultati. Merski nivo, kjer že lahko uporabljamo mediano je ordinalni. Prednost mediane je, da sicer zavzema vse podatke, a ni občutljiva na njihovo odstopanje, temveč le na N. Na nominalnem nivoju nam lahko pomaga le modus, ki je groba, hitra ocena. Izračunamo ga pa tudi tedaj, ko nas zanima najpogostejši rezultat. Pomanjkljivost le-te mere je v tem, da upoštevamo le rezultate modalnih razredov. To lahko tudi korigiramo z interpolacijo s pomočjo sosednjih dveh razredov. 4. Razmerja med temi tremi merami v različnih distribucijah! Pri popolnoma simetrični distribuciji so vse tri mere enake. Če imamo distribucijo, ki je asimetrična v desno, bo najmanjši modus, nato mediana, aritmetična sredina, ki pa je najbolj pod vplivom ekstremov, pa

Avtorske pravice pridržane! Stran: 9

Page 10: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

bo največja. Pri asimetričnosti v levo bo seveda ravno obratno - najmanjša bo M, nato mediana, največjo pa bo modus. V. MERE RAZPRŠENOSTI 1. Kaj je variiranje? Rezultati, iz katerih dobimo mere centralne tendence, se zbirajo k tem vrednostim. Vendar pa vsi rezultati hkrati težijo tudi k neki razpršitvi. Ko govorimo o variiranju torej govorimo o tendenci rezultatov po oddaljevanju od mer centralne tendence. Prav vsak vzorec ima kot karakteristiko variranje rezultatov. Samo podatek o merah centralne tendence nas lahko popolnoma zavede in dve popolnoma različni skupini proglasimo za enaki. 2. Kako delimo mere razpršenosti? Delimo jih na CENTRALNO in DISTANČNO orientirane. Centralno orientirane so povprečni odklon, standardna deviacija in varianca, distančno pa obseg, interkvartilni in percentilni razmik. Za centralno orientirane je značilno, da upoštevajo distance in da se opirajo na centralne mere. 3. Katere so glavne mere razpršenosti? Kako jih izračunamo in kaj so njihove osnovne lastnosti? Najbolj osnova mera, ki nam govori o razpršenosti je TOTALNI INTERVAL, ki je pravzaprav razlika med največjim in najmanjšim rezultatom v vzorcu. Njegovi pomanjljivosti sta, da ga ekstremi zelo preoblikujejo in pa da narašča z N (večinoma). Pri velikih vzorcih je zelo nestabilen, zato naj bi ga uporabljali le na vzorcih, ki so manjši ali enaku 10. Če so podatki homogeni je ta mera precej veljavna. Nekoliko bolj veljavna mera je POVPREČNI ABSOLUTNI ODKLON, ki je aritmetična sredina absolutnih vrednosti odklonov. Za razliko od TI ta zavzame vse podatke, vendar pa zanemari predznak. Če bi ga namreč upoštevali, bi dobili 0. Vendar pa se v statistiki raje izgobamo absolutnih vrednosti. Zato si pomagamo v VARIANCO, kjer namesto absolutnih vrednosti uporabimo kvadrate odklonov. Formula za izračun je: Zakaj N-1 in ne N? Če delimo z N-1 dobimo nepristrano oceno populacijske variance, če pa delimo z N, je ta ocena pristranska. N pomeni numerus, torej število podatkov, N-1 pa je število stopenj svobode, torej število vrednosti, ki lahko prosto variirajo. Če varianco korenimo, dobimo bolj pogosto uporabljano mero, imenovano STANDARDNA DEVIACIJA. Lastnosti SD: 1. Minimalna je takrat, ko jo računamo okoli AS 2. V normalni distribuciji velja: AS ± SD 68.27% AS ± 2SD 95.45% AS ± 3SD 99.73% 3. Lako računamo tehtano SD. Zelo redko uporabljani meri sta INTERKVARTILINI RAZMAK in PERCENTILNI RAZMAK. Gre za mere razpršitve, ki temeljijo na izračunih kvantilov. Formuli: Q = (Q3 - Q1) P = P90 - P10 Če interkvartilni raznak razpolovimo, dobimo semiinterkvartilni razmak. 3. Kako računamo varianco iz grupiranih podatkov in kaj so posledice grupiranja? Kot prvo izberemo nek razred nekje na sredini, ki mu damo oznako 0, nato pa razredi nad njim dobijo zaporedne oznake 1, 2, 3, ... pod njim pa -1, -2, -3, ... Te dobljene vrednosti pomnožimo z dano frekvenco, nato pa jih kvadriramo in ponovno pomnožimo s f. Nato si pomagamo s formulo:

Avtorske pravice pridržane! Stran: 10

Page 11: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Vendar pa z grupiranjem pride do nekih sprememb. Znotraj intervala namreč nimamo več pravih podatkov o razpršitvi, ampak se obnašamo, kot da so podatki notri enakomerno razporejeni. Zato ponavadi dobljena aritmetična sredina ni prava aritmetična sredina, mi pa kljub temu računamo variacijo okoli te vrednosti. Kot pa vemo že od prej, so odkloni okoli katerekoli vrednosti večji kot odkloni okoli AS, zato je torej nova varianca večja kot prava. Če so razredi majhni, je razlika zanemarljiva, če pa so veliki, uporabimo Sheppardovo korekcijo: Sedaj, ko poznamo tako M kot SD se lahko lotimo še ene mere, ki določa položaj posameznika v skupini, to pa je STANDARDNI SKOR, ki ga dobimo: Če poznamo AS in SD lahko torej za vsak rezultat izračunamo, na katerem delu distribucije je. Tako tudi vemo, koliko je večjih/manjših rezultatov. S pomočjo teh vrednosti so podatki med seboj lažje primerljivi - lahko primerjamo med seboj posameznike na istem testu ali pa rezultate enega posameznika na večih testih. Iz z-tabel nato odčitamo p-vrednost, ki nam pove, na katerem delu leži dani rezultat. 4. Kaj je koeficient variacije? Če poznamo AS in SD lahko posamezne SD primerjamo med seboj samo, če so AS enake. Če pa so različne, jih moramo nekako standardizirati: Koeficient je zelo uporaben, če čelimo vedeti, v kateri skupini je variacija večja ali v kateri lastnosti ista skupina bolj variira. 5. Kdaj uporabljamo posamezne mere variacije in kaj vpliva na odločanje o uporabi le teh? Na odločanje vpliva brzina izračuna, stabilnost mere (kar je v nasprotnem razmerju) in pa to, katere nadaljne izračune potrebujemo. Obseg uporabimo takrat, ko nimamo časa, ali pa potrebujemo informacije o ekstremih. Kvartilni razmik računamo takrat, ko imamo le informacijo o mediani, imamo nepopolno ali zelo asimetrično distribucijo z ekstremi. Uporabimo ga tudi takrat, ko želimo rezultate srednje polovice. Povprečni absolutni odklon uporabimo takrat, ko imamo razne ekstreme, ki SD preveč izkrivijo (ker so tam razlike kvadrirane), ko potrebujemo točnost, a ni časa za SD. Ko imamo podatek o MD v normalni distribuciji, pa lahko SD ocenimo sami iz MD. MD = SD *4/5 Q = SD*2/3 Va. MOMENTI, ASIMETRIJA IN SPLOŠČENOST 1. Kaj so momenti, kakšne momente poznamo? Momenti so skupina deskriptivnih statistik, ki so blizu družinama M in SD. Gre za odkone od nekih vrednosti - od AS ali od 0. Imamo štiri vrste momentov: 1. OKOLI VREDNOSTI A ... je pravzaprav osnovna formula za vse momente 2. ZAČETNI X1 = M 3. CENTRALNI m1 = 0, m2 = varianca 4. BREZDIMENZIONALNI a1 = 0, a2 = 1 2. Odnosi med momenti! S pomočjo nekaterih formul lahko iz enih momentov izračunamo druge. 3. Kako računamo asimetrijo?

Avtorske pravice pridržane! Stran: 11

Page 12: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Asimetrija je stopnja odstopanja od simetričnosti ND. Pri ugotavljanju mere asimetrije si pomagamo s tretjim brezdimenzionalnim momentom, zato temu koeficientu rečemo tudi MOMENT KOEFICIENT ASIMETRIJE. Pri simetričnih distribucijah je ta koeficient 0, oziroma pri zanemarljivo asimetričnih od 0.5 do - 0.5. Če je koeficient pozitiven, je distribucija pozitivno asimetrična, če je negativen, pa je negativno asimetrična. Zakaj? Pri pozitivno asimetrični distribuciji imamo namreč veliko več, in tudi večje odklone v desno stran, torej imamo več pozitivnih odklonov. Pri negativni pa je obratno, saj imamo več odklonov na levi strani, ki prinaša negativne odklone. Slika: Lahko pa si pomagamo s še enim koeficientom asimetrije, ki mu pravimo Pearsonov koeficient asimetrije, ki pa sloni na že omenjenih odnosih med M, Me in Mo pri normalnih in asimetričnih distribucijah. 4. Kako računamo sploščenost? Sploščenost je mera odstopanja koničnosti/sploščenosti gldene na ND. Pri merjenju si pomagamo s četrtim brezdimenzionalnim momentom. Pri normalni distribuciji ta doseže vrednost 3. Če je dobljen koeficient večji od 3, je distribucija leptokurtična, če pa je manjši od 3, je platokurtična. Imamo pa še kvartilni in 10-90 percentilni koeficient: VI. OSNOVE TEORIJE VERJETNOSTI 1. Naštej definicije verjetnosti! SUBJEKTIVNA - nanaša se na lastno prepričanje o možnem dogodku v prihodnjosti. KLASIČNA/MATEMATIČNA - verjetnost je razmerje med številom iskanih dogodkov in vseh možnih dogodkov, ki so enako možni. ... ali: Če se nek dogodek lahko zgodi na h načinov v N ponovitvah, je verjetnost tega dogodka h/N Vendar pa ta definicija ni dobra, ker uporablja sinonim. RELATIVNO - FREKVENČNA - ocena verjetnosti nekega je že relativna frekvenca tega dogodka. Z večanjem števila poskusov je ta ocena bližje in bližje pravi verjetnosti. Verjetnost je torej limita, h kateri se približuje relativna frekvenca z večanjem N. 2. Kaj je to pogojna verjetnost? Pogojna verjetnst je verjetnost dogodka A pod pogojem, da se je prej že zgodil dogodek B. Ker se je dogodek B že zgodil se torej spremeni vzorčni prostor. Kaj pa je vzorčni prostor? To je mreža vseh možnih izzidov, iz katere enostavno odčitamo verjetnost vsakega izmed dogodkov. Formula za neodvisna dogodka: Splošen obrazec: 3. Kaj je to kombinirana verjetnost? Kombinirana verjetnost je verjetnost, da bo en osebek hkrati v dveh skupinah, da se torej zgodita dva dogodka. Poznamo pa tudi izključujoča se dogodka, kar pomeni, da se - v primeru, da se zgodi eden, drugi ne more več. 4. Razloži pravilo adicije in multiplikacije! Kadar nas zanima verjetnost, da se zgodi eden ali drugi dogodek, je verjetnost disjunkcije vsota obeh verjetnosti (aditivnost). Če pa želimovedeti verjetnost, da se zgodita dva dogodka hkrati (govorimo o konjunkciji), pa je verjetnost produkt obeh verjetnosti. 5. Kaj je matematično upanje? Matematično upanje je zmnožek vrednosti in verjetnosti. Gre torej za aritmetično sredino vzorca velikosti N, kjer se neke vrednosti X pojavljajo z določenimi frekvencami. 6. Kaj so permutacije in kombinacije?

Avtorske pravice pridržane! Stran: 12

Page 13: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Permutacije uporabljamo tedaj, ko imamo n objektov in jih želimo razporediti po nekem redu. Lahko jih razporedimo na n! načinov, kjer n! pomeni zmnožek vseh števil od n in nižje. V primeru, da imamo n objektov, pa moramo iz njih izbrati r objektov in jih razporediti kakorkoli, imamo n!/(n-r)! možnosti. Pri komibacijah pa vrstni red ni pomemben, računamo pa jih: VII. VERJETNOSTNE DISTRIBUCIJE 1. Kakšne distribucije poznaš? Distribucije delimo na: - VZORČNE - dobimo jih, ko opazujemo, kako se parametri vseh možnih vzorcev distribuirajo. Lahko jih dobimo za katerikoli parameter. - VERJETNOSTNE - opisujejo pojav z vidika verjetnosti. So distribucije verjetnosti za vsak X. - FREKVENČNE - dobimo jih, ko obdelujemo podatke in za vsako izmed vrednosti preštejemo, kolikokrat se pojavlja. Verjetnostne distribucije so lahko naprej diskretne ali kontinuirane. Diskretna verjetnostna distribucija lahko zavzame diskretni set vrednosti X z verjetnostmi p. Ta naj bi bila idealna frekvenčna distribucija. Pri kontinuirani distribuciji je X kontinuirana variabla. 2. Kaj veš o normalni distribuciji? Normalna distribucija je KONTINUIRANA in doseže maksimum, ko je z enak 0. Njene glavne lastnosti so: Poleg tega pa še: 1. Simetričnost - M, Me in Mo so enaki 2. Maximalna vrednost y je dosežena, ko je z=0, to je 0.3982 3. Asimptotičnost - vedno bolj in bolj se približuje osi x, a je nikoli ne doseže, poleg tega pa se razteza v neskončnost na obeh straneh. 4. Infleksija pri ± 1 - takrat preide iz konvekse v konkavno 5. ± z............68.26% ±2z...........95.44% ±3z...........99.73% Pogoji, da dobimo takšno distribucijo so: 1. Normalno distribuiranje variable 2. Velik N 3. Enaki pogoji za vse preizkušance 4. Heterogenost v iskani in homogenost v vseh drugih lastnostih Enačba normalne krivulje je: 3. Kaj veš o binomski distribuciji? Tudi binomska distribucija je KONTINUIRANA verjetnostna distribucija. Osnovna enačba je binomski izrek, pri razčlenitvi pa si lahko pomagamo s Pascalovim trikotnikom: Nastane s kombinacijo faktorjev, katerih pojavljanje je enako verjetno, normalna distribucija pa ne! Njene lastnosti so: 4. Odnos med tema dvema distribucijama!

Avtorske pravice pridržane! Stran: 13

Page 14: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Binomska distribucija se z večanjem N približuje normalni, vendar je nikoli ne doseže. To lahko vidimo že iz lastnosti obeh - če je torej tretji moment binomske distribucije enak 0, potem četrti kljub temu ni enak 3 (ker morata biti p in q enaka 0.5, če pa to vstavimo v formulo, rezultat ni enak 3). Normalna distribucija pa je klub temu lahko aproksimacija za binomske verjetnosti. 5. Poissonova distribucija in značilnost x-osi! Ta distribucija pa je diskretna verjetnostna distribucija, kar pomeni, da je os x diskretna. Formula: Lastnosti: Značilna je za redke dogodke: Np < 5 N>50. 6. Kakšen pa je odnos med Poissonovo in binomsko: podobnosti in razlike? Ko je p zelo majhen, se približata. Enaki pa ne moreta biti že zaradi razlik v oseh x (diskretnost oziroma kontinuiranost). Vedno moramo biti pozorni na izhodiščne pogoje - značilnost x-osi, v tem se razlikujeta. 7. Zakaj so te tridistribucije za psihologe tako pomembne? Zato, ker se pojavi, ki jih psihologi merimo, pogosto tako distribuirajo, ali pa vsaj predpostavljamo, da se. VII. TEORIJA VZORČENJA 1. Kaj je teorija vzorčenja? Teorija vzorčenja je študija odnosa med vzorcem in populacijo, ki je zelo uporabna za oceno populacijskih parametrov. Uporabna je pri ugotavljanju, če dva vzorca izhajata iz iste populacije in ali je razlika med dvema vzorcema pomembna, v kolikšni meri nek vzorec odslikava poulacijo. Pomaga nam pri izvjanju zaključkov o populaciji. Ta teorija določa mejo velikosti vzorcev - ti morajo biti dovolj veliki, da so bolj reprezentativni. Najbolj reprezentativen vzorec je tisti, ki ima N kot Npopulacije. vendar pa je preučevanje prevelikih vzorceh precej drago, poseben problem pa imamo tedaj, ko s testiranjem uničujemo objekte (na primer, če moramo odpirati konzerve hrane, da stehtamo vsebino). 2. Reprezentativni vzorci! Populacija so vsi člani skupine, katere lastnost merimo. Skupina je lahko tudi neomejena, ali pa zelo velika, zato vzamemo ponavadi omejeno število primerkov, ki pa mu rečemo vzorec. Statistike tega vzorca so ocene parametrov. Z vzorčenjem se ikvarja posebno področje metodologije, to je načrtovanje eksperomenta. NAČRT EKSPERIMENTA = kako opredeliti vzorec, da bo reprezentativen EKSPERIMENTALNI NAČRT = opredeljije načrt in evalvacijo rezultatov Vzorec naj bi bil iz populacije izvlečen slučajno. Vzorčimo lahko na več načinov: - SLUČAJNO VZORČENJE - iz populacije izbiramo vsak n-ti člen na podlagi tabele slučajnih števil. Vendar pa moramo paziti, da ta seznam, iz katerega vlečemo ni pristranski (na primer seznam telefonskih naročnikov, kjer so določeni ljudje izpuščeni). Sluičajni vzorec pomeni, da ima vsak objekt v populaciji enkao možnost, da je izbran v vzorec. - PROCENTUALNO/STRATISFICIRANO VZORČENJE - procentualno mora biti v vzorcu enako podskupin kot v populaiji. Vendar pa je tu problem, če so kake skupine zelo majhne, ali pa če imamo množice, ker teh odstotkov ne poznamo dobro. V vsakem primeru naj bi bil vzorec reprezentativen, kar pomeni, da mora čimbolje predstavljati populacijo. Ravno zato se odločamo za slučajni izbor - vsak član populacije ima enako možnosti vključitve v vzorec. Vzorčimo lahko z ali brez nadomeščanja. Ko nadomeščamo, to pomeni, da izbrani objekt ponovno vrnemo v izbor in je lahko ponovno izbran. S tem simuliramo neskončno množico. 3. Kaj so napake vzorčenja?

Avtorske pravice pridržane! Stran: 14

Page 15: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Napake vzorčenja so razlike med parametrom in oceno. Ponavadi pa ne poznamo populacijskega parametra, zato napake ne moremo izračunati. lahko pa naredimo neko izjavo, ki nam pove, kolikšna napaka se lahko veže ob oceno. Napake se s ponavljanjem pode enakimi pogoji izničijo. 4. Kaj so vzorčne distribucije? Vzorčne distribucije so distribucije statistik vzorcev, ki jih naključno vlečemo iz populacije. Dobimo jih, ko opazujemo, kako se distribuirajo parametri vseh možnih vzorcev. Izhodišče je vzorčenje vseh možnih vzorcev neke velikosti in distribucija parametrov za vse te vzorce. Iz populacije torej izbiramo vse možne vzorce in za vsakega izračunamo določeno statistiko. Distribucija, ki jo dobimo naj bi bila primerna za ocenjevanje populacijskega parametra. Vzorci med seboj variirajo, ta variacija pa je odvisna od pouplacije in sestavljenosti. Če iz vzorca zaključujemo na populacijo, moramo upoštevati vse slučajne variacije. Variabilnost vzorcev je maksimalna, ko je maksimalna tudi variabilnost v populaciji. Če izbiramo večje vzorce, je standardna napaka vzorčne distribucije manjša, kar pomeni, da je ocena parametra bolj UČINKOVITA. Manjši vzorci - več jih je in okoli parametra se razporejajo tako, kot je v resnici, torej imamo boljšo oceno standardne deviacije. 5. Katere vzorčne distribucije smo obdelali? Vzorčne distribucije statistik so lahko normalno distriburane (na primer vzorčne distribucije aritmetičnih sredin) ali pa močno izkrivljene (vzorčne distribucije korelacijskih koeficientov). Kot prvo smo spoznali VD aritmetičnih sredin. Aritmetična sredina te VD je tudi populacijska aritmetična sredina. Standardno deviacjo te VD izračunamo pri končni množici tako: pri neskončni pa: Če je distribucija normalna, ima stndardna deviacija vzorčne distribucije takšne lastnosti, kot standardna deviacija. Pri vzorčni distribuciji proporcec je aritmetična sredina VD enaka pravemu proporcu v populaciji. Če pa želimo namesto proporcev imeti števila, uporabljamo formule: Včasih pa nas zanimajo distribucije razlik med dvema statistikama. Če vlečemo vzorce iz dveh populacij, ki imata enako aritmetično sredino, bi morala biti aritmetična sredina teh razlik med dvema vzorcema enaka 0. 7. Kaj je standardna napaka? Standardna napaka je standardna deviacija vzorčne distribucije. V primerih, ko se N več od 30 in je vzorčna distribucija približno normalna, velja naslednje: Pri velikih vzorcih je ta napaka manjša. 8. Kaj je teorem centralne meje? Če je N več od 30, se aritmetične sredine razporejajo v obliki normalne distribucije, čeprav morda v populaciji ni takšne distribucije. IX. OCENJEVANJE PARAMETROV 1. Kaj je teorija ocenjevanja parametrov? Teorija ocenjevanja parametrov se ukvarja z ocenjevanjem parametrov populacije na podlagi statistik vzorca. Te teorija si pomaga tudi s teorijo vzorčenja. Gre za del inferenčne statistike.

Avtorske pravice pridržane! Stran: 15

Page 16: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

2. Kaj so lastnosti ocen? NEPRISTRANOST - nepristramo oceno dobimo s ponavljanjem meritev. Nepristrana ocena ne stremi v pre ali podcenjevanju. Pristrana ocena se razlikuje od parametra, primer je varianca, ki jo računamo samo z N in ne z N - 1. DOSLEDNOST - ocena je dosledna, če se z večanjem N približuje pravemu parametru. UČINKOVITOST - se nanaša na standardno napako. Večja je ta napaka, manj učinkovita je ocena. ZMOGLJIVOST 3. Kakšne ocene poznamo? Kot prvo imamo TOČKOVNO OCENO, kjer je statistika vzorca ocena populacijskega parametra. Lahko pa določimo tudi INTERVALNO OCENO. Najdemo namreč neko območje, znotraj katerega z veliko verjetnostjo leži parameter. Slednje ocene so bolj zanesljive. 4. Kaj je interval zaupanja, meje zaupanja in kako jih dobimo? Kaj so osnovne enote? Interval zaupanja je območje, znotraj katerega se z določeno verjetnostjo nahaja nek populacijski parameter. Meje zaupanja so vrednosti, ki to območje omejujejo. Interval zaupanja dobimo s pomočjo že znane standardne napake. Osnovna formula za izračun intervala zaupanja je: Nato pa obstajajo seveda manjše razlike med posameznimi parametri: • aritmetične sredine • proporci • standardne deviacije Verjetnost, da je parameter znotraj tega parametra je pri z=1.96 95%, pri z=2.58 99% itd. Osnovne enote intervala zaupanja so torej: • nivo tveganja (z-vrednost) • standardna napaka • sam parameter (aritmetična distribucija VD) 5. Kaj je verjetnostna napaka? Verjetnostna napaka je meja intervala, ki zavzema 50% distribucije. X. ODLOČANJE 1. Kaj je teorija odločanja? Teorija odločanja je del inferenčne statistike, ki se ukvarja z ocenjevanjem hipotez. Pri tem ocenjevanju si pomagamo z večimi postopki, ki so navedeni spodaj. Pomembna je zato, ker nam daje eksperimentalno delo veliko podatkov, ki zahtevajo primerjavo, evalvacijo dveh ali več parametrov. 2. Kaj je statistična odločitev in kaj hipoteza? Statistična odločitev je odločitev v zvezi s populacijo na osnovi vzorca. Včasih naredimo predpostavke v zvezi s populacijo in temu pravimo hipoteza. Hipoteza je podlaga, domena, podmena, nek stavek, ki še ni dokazan, a je znanstveno sprejemljiv, mi pa se trudimo dokazati ga. 3. S kakšnimi hipotezami imamo opravka pri odločanju? Ničelna hipoteza vedno predpostavlja, da je populacijski parameter enak vzorčni statistiki, oziroma, da ni pomembne razlike med parametri populacij, iz katerih vzorca izhajata. To hipotezo vedno skušamo zavreču, kajti dokazati je nikoli ne moremo. Po Fisherju je ničelna hipoteza vsaka hipoteza, ki jo želimo preveriti. Kakšnakoli druga hipoteza (ponavadi nasprotje ničelne) pa je alternativna. 4. Kako preizkušamo H0? Pomagamo si s testi pomembnosti, to so statistične procedure, ki nam pomagajo do odločitve, ali naj proglasimo razlike med statistikami za naključje ali za posledico razlik med skupinama.

Avtorske pravice pridržane! Stran: 16

Page 17: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Ti testi nam povejo verjtnost, da se neka razlika pojavi slučajno. Če je ta verjetnost majhna, pomeni, da razlika ni slučajna in torej zavrnemo H0. 5. Kakšne napake lahko naredimo? Obstajajo štiri možnosti: Če ničelna hipoteza drži, jo lahko: - potrdimo, torej se odločimo pravilno - zavržemo, kar pomeni, da naredimo ALFA napako Če ničelna hipoteza ne drži, jo lahko: - potrdimo, torej naredimo napako tipa BETA - zavržemo, torej se ne zmotimo ALFA napako naredimo takrat, ko zavrnemo H0, ko je le-ta pravilna. Vejetnost te napake je odvisna od nivoja pomembnosti. BETA napaka se zgodi, ko potrdimo H0, ki je v resnici napačna. Odvisna je od N in dejanske razlike med populacisjkima paramwetroma. Če manjšamo eno napako, večamo drugo, razen v primeru, ko zvečamo N in se torej zmanjšata obe. 6. Kaj je nivo pomembnosti? Nivo pomembnosti je maksimalni riziko napake tipa alfa. Ta nivo raziskovalec ponavadi določi vnaprej. Če je verjetnost manj ali enaka 5%, to pomeni, da je razlika pomembna na 5% ravni. Ko izbiramo nivo pomembnosti, izbiramo nivo tveganja. Če izberemo 5% nivo, to pomeni, da je 5% verjetnosti, da se v odločitvi zmotimo. 7. Kaj so enosmerni in kaj dvosmerni testi in kdaj jih uporabljamo? Dvosmerni testi so imenovani tudi nedirektni in jih uporabljamo takrat, ko nas zanima, ali obstaja razlika med dvema parametroma, ne glede na smer. Polovico verjetnosti napake imamo na eni, polovico na drugi strani. Pri 5% nivoju imamo torej v zgornjem in v spodnjem delu po 2,5% verjetnosti napake. Lahko se zanimamo tudi za smer razlike. Tako je H0: razlika med AS je več od nič (na primer). Takrat je vsa vrednost na eni strani. 8. Kaj je moč testa? Moč testa je verjetnost potrditve pravilne hipoteze in je torej večja, če je verjetnost beta napake manjša. 9. Kako testiramo pomembnost pri malih vzorcih? Problem malih vzorcev je v tem, da njihove distribucije niso niti približno normalne, kot smo predpostavili pri velikih. Namesto z vrednosti izračunamo t s pomočjo formule: Z večanjem stopenj svobode se t-distribucija bliža normalni, drugače pa so vrednosti p odvisne od stopenj svobode. t - DISTRIBUCIJA je simetrična, a bolj sploščena od normalne. Z večanjem df postaja bolj in bolj koničasta in pri veliem df je blizu nd. 10. Kaj so stopnje svobode? Stpnje svobode so ptevilo neodvisnih opazovanj v vzorcu - število parametrov, ki morajo biti izmerjeni. Gre za mero prostosti variiranja parametrov. 11. Kako računamo razliko med dvema aritmetičnima vzorcema pri velikih vzorcih? NEODVISNI O statistično pomembni razliki govorimo tedaj, ko ni slučajna in najverjetneje res obstaja. Če lahko parametru prištejemo in odštejemo 3 standardne napake, pa vseeno ne zavzamemo vrednosti 0, to pomeni, da je razlika zagotovo pomembna. Razlike med pari vzorceh lahko vnašamo v vzorčno distribucijo in sredina te dobljene distribucije je prava razlika med vzorcema. Kot prvo moramo dobiti skupno varianco in sicer nepristransko oceno le-te, nato pa izračunamo še standardno napako ter t-vrednost:

Avtorske pravice pridržane! Stran: 17

Page 18: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Psihologi imamo kriterij 1,96 in če je dobljeni t večji od tega pomeni, da je razlika statistično pomembna (glej pogoje za t-test). Lahko testiramo tudi pomembnost razlike med aritmetično sredino in pa neko fiksno vrednostjo. Takrat izračunamo standardno napako: Če je v intervalu M ± SE naša fiksna vrednost, potem razlika ni pomembna. Če nas zanima, ali razlika dveh aritmetičnih sredin statistično pomemno odstopa od neke fiksne vrednosti, potem uporabimo tole formulo: ODVISNI Če sta variabli, ki ju obravnavamo povezani, potem si pomagamo z enačbo: 12. Kako računamo razliko med aritmetičnimi sredinami malih vzorcev? Formule za male teste so bolj natančne in jih zato lahko uporabljamo tudi na velikih. Obratno pa ne smemo postopati. Pomagamo si s t- distribucijo, kjer se kriterij kritične vrednosti t menja glede na število rezultatov. Pogoj za uporabo t-testa je homeoscedastičnost varianc, zato moramo kot prvo preveriti, ali se varianci pomembno razlikujeta. To naredimo z F razmerjem: Če ta razlika ni statistično pomembna, izračunamo skupno standardno deviacijo, in nato še standardno napako: S pomočjo že znane formule izračunamo t-vrednost, za df pa velja: df = (N1 - 1) + (N2 - 1) ODVISNI Pri odvisnih si pomagamo z metodo razlik, kjer se kot vzorec vzamejo individualne razlike parov. S to metodo si pomagamo lahko tudi, če ne poznamo mere povezanosti in sicer takole: • poiščemo razliko v vsakem paru • izračunamo skupno razliko s formulo: • izračunamo oceno variance ter t vrednost: Kot vidimo, korelacija zmanjša varianco. 13. Kaj so predpogoji za uporabo t-testa? Kot prvo, morajo biti vzorci iz populacije z normalno distribucijo, veljati pa mora tudi homogenost varianc. Ta pogoj lahko izpustimo, ko imamo podobna vzorca ali podobne oblike populacije. 14. Kaj naredimo, če so razlike med variancami statistično pomembne? V primeru, da razlika med variancama je statistično pomembna, si pomagamo s Cohran Coxovo aproksimacijo in sicer je najprej potrebno izračunati standardno napako po formuli: ...in t, ter df, nato pa pogledamo obe t vrednosti, za obe df. S pomočjo teh vrednosti izračunamo korigirano kritično vrednost t: Velja enako: če je dobljeni t večji od kritičnega, je razlika pomembna. Lahko si pomagamo tudi z aproksimacijo Welcha, ki je korigiral df: ... nato pa zaokrožimo. 15. Kaj naredimo, če distribucije niso normalne?

Avtorske pravice pridržane! Stran: 18

Page 19: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Če je N velik, se distriucija že dovolj približa normalni, da lahko uporabljamo zgoraj omenjene metode. Nenormalnost se pri velikih N ne pozna. Pri dvosmernem testu se tudi pri malih vzorcih ne pozna drastično, če niso normalni. Zatakne pa se pri enosmernih testih, kjer si pomagamo z neparametričnimi testi. 16. Kako si pomagamo pri kombinaciji dveh testov? Razlika se lahko pri večih testih ponovi v isto smer, a nikoli ni statistično pomembna. Pomagamo si z nomogramom, to je nek grafični prikaz verjetnosti. Obe p vnesemo na nomogram (vsako na svoj rob) in potegnemo črto. Iz diagonal se nato odčita približno verjetnost. 17. Kako je pri velikih vzorcih proporcev? Standardno napako dobimo s pomočjo formule: NEODVISNI Izračunamo standardno napako: Da lahko to izračunamo, pa potrebujemo skupni p: In nato še z-vrednost: Pogoj za to je velik N in ne preveč ekstremen p. pN>5 je pogoj. ODVISNI Računamo lahko na dva načina in sicer lahko izračunamo standardno napako: in nato če t-vrednost, ali pa si pomagamo s tabelami. Takrat je standardna napaka enaka: kjer sta a in d proporca, kjer pride do spremembe. Pogoj za uporabo tega testa je, da vsota obeh celic presega 10. 18. Mali vzorci? NEODVISNI Kot prvo izračunamo skupen p: Nato pa še standardno napako razlike s pomočjo le-tega: t-vrednost je enaka: ODVISNI Korelacija spremeni izgled. Sestavimo 2x2 tabelo in izračunamo SE: Temu testu pravimo McNemarov test spremembe. t-vrednost dobimo: 19. Kakšne so težave pri delu s proporci? Če so vzorci preveliki ali premajhni dobimo nenatančno sliko. Če za nek odstotek povečamo neko vrednost, ne dobimo iste vrednosti, če nazaj zmanjšamo za isti odstotek. 20. Pomembnost razlik med variancami! Pri variancah si lahko pomagamo z razliko ali z razmerjem. Distribucija teha razmerij je F-distribucija, kjer imamo stopnje svobode: Imamo dve nepristrani oseni variance in sicer: F razmerje je razmerje, kjer je zgoraj VEČJA varianca. V tabeli pa imamo verjetnosti za enosmerno testiranje, zato jih podvojimo. ODVISNI Lahko se zgodi, da imamo povezane podatke, če na primer testiramo isto skupino pred in po nekem vplivanju nanje. Če je varianca kasneje večja, to pomeni, da je to vplivanje bolj razpršilo podatke. Če pa se zmanjša to pomeni, da jih je združila, da so odgovori postali bolj uniformni.

Avtorske pravice pridržane! Stran: 19

Page 20: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

21. Kaj veš o F-distribuciji in kašno je razmerje med F in t? F distribucija je distribucija razmerij varianc in je asimetrična v desno. Z večanjem stopenj svobode se približuje normalni. F je t**2. 22. Kaj moramo paziti pri zaključevanju? Ne moremo se brez podlage zatekati h kavzalnim zaključkom. Statistično pomembna razlika ne pove dovolj in če stvar ni statistično pomembna, ne pomeni, da ne obstaja. H0 nikoli ne potrdimo - lahko ugotovimo, da so razlike, ne da niso. Statistično ni tudi praktično pomembno. XI. HI - KVADRAT 1. Kaj je hi-kvadrat? Hi - kvadrat je mera diskrepance med teoretskimi (pričakovanimi) in empiričnimi (opazovanimi) frekvencami. Teoretske frekvence so tiste, ki jih pričakujemo glede na teorijo verjetnosti, glede na našo ničelno hipotezo. Empirične so tiste, ki jih dejansko dobimo s preizkušanjem in pogosto odstopajo od pričakovanih. Te razlike med obema so lahko tudi zanemarljive in ko nas zanima, če je razlika pomembna, uporabimo hi-kvadrat. Osnovna formula za izračun hi-kvadrata je: Če dobimo sumljivo majhno vrednost hi-kvadrata, je prav tako lahko prišlo do napak. 2. Kako testiramo pomembnost hi-kvadrata? Kot prvo na osnovi H0 določimo teoretske frekvence, nato uporabimo osnovno formulo. Če je dobljeni hi-kvadrat manjši od kritičnega, ki ga razberemo iz tabele, potem razlike NISO POMEMBNE, torej hipoteze ne zavrnemo. Večjo vrednost zavzame hi-kvadrat pri isti df, bolj je pomembna diskrepanca. Z večanjem N ponavadi večamo tudi hi-kvadrat, saj prištevamo več in več razlik (ki pa so še kvadrirane). Ko računamo t.i. goodness of fit postopamo takole: - določimo natančne zgornje meje intervalov - za te vrednosti določimo z vrednosti - iz tabel normalne distribucije odčitamo p, ki nam pomeni kumulativen proporc - z odštevanjem izračunamo p, ga pomnožimo z N in dobimo pričakovane frekvence Kot teoretsko distrbucijo lahko vzamemo katerokoli. Stopnje sovobode pri posameznih distribcuijah so: pri Poissonovi distribuciji imamo N-2 stopenj svobode, pri normalni distribuciji N-3 in pri pravokotni N-1. 3. Kako postopamo v kontingenčnih tabelah? Kontingenčne tabele so tabele z opazovanimi frekvencami, ki imajo lahko h vrstic in k stolpcev. V vsaki celici lahko določimo teoretske frekvence po naslednji formuli: Končne frekvence so marginalne vsote. Stopnje svobode računamo: (fv*fs)/N, kjer fv pomeni marginalno vsoto frekvenc v vrsticah, s pa pomeni v stolpcih. 4. Kdaj uporabimo Yatesovo korekturo? Uporaba te korekture je nujno potrebna takrat, ko imamo število stopenj svobode 1, ali ko so teoretske frekvence manjše od 5. Ko korigiramo moramo vse opazovane frekvence, ki so večje od teoretskih zmanjšati za 0.5, vse manjše od teoretskih pa povečamo. S tem torej zmanjšamo diskrepanco in tako zmanjšamo tudi hi-kvadrat. Lahko si pomagamo tudi s posebno formulo: Včasih pa majhne frekvence kar združujemo, da nam ni potrebno uporabiti te korekcije. 5. Kaj so pogoji in pomembna značilnost hi-kvadrata?

Avtorske pravice pridržane! Stran: 20

Page 21: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Pomemna značilnost hi-kvadrata je, da ima lastnost aditivnosti - lahko seštejemo nekaj hi-kvadratov, stopnje svobode vseh pa prav tako seštejemo, in ponovno odčitamo iz tablice - pomembnost se lahko spremeni. Glavno je, da teoretske frekvence niso premajhne: - če imamo več kot 20% teoretskih f manj od pet, spajamo celice - pri tabelah 2x2 ne sme biti niti ena pričakovana frekvenca manj od 5 - ko so tabele večje lahko hi-kvadrat računamo le, če ima manj kot 20 % celic teoretsko frekvenco manj od 5 in nobena celica nima manjše od 1. Če tega ni, moramo spajati celice pri 2x2 tabelicah mora biti N>40, če pa se giba med 20 in 40 imamo še dodatni pogoj - teoretske f morajo biti vsaj 5 - pri zelo majhnem N uporabimo Fisherjev test, s katerim se izognemo konstantnim zaokroževanjem in približkom. - pri df = 1 je obvezna Yatesova korekcija - delamo s frekvencami, ne s % - Σteoretskih frekvenc = Σempiričnih frekvenc (vsaj približno) - vključimo vse dogodke - merimo pojav/nepojav - vsak posameznik le enkrat Lahko ga uporabljamo na kateremkoli nivoju in pri kakršnikoli distribuciji. 6. Kako lahko uporabljamo hi-kvadrat - na kakšnih vzorcih? Ko imamo en vzorec lahko ugotavljamo, v kolikšni meri odstopajo dobljene frekvence od pričakovanih. V 2xk tabelo vpišemo prave f in pričakovane, ki jih dobimo s pomočjo H0. Če H0 predpostavlja normalno distribucijo, uporabimo goodnes of fit, če pričakujemo pravokotno, razdelimo N na k delov in damo vsem celicam enako teoretsko frekvenco in tako dalje. Če je hi-kvadrat majhen, razlike niso statistično pomembne, torej pravimo, da se distribucija ujema s pričakovano. Če pa presežemo kritično vrednost hi-kvadrata, pravimo, da so razlike pomembne. Če je hi-kvadrat manjši od števila stopenj svobode, hipotezo o distribuciji potrdimo. Pri dveh ali večih neodvisnih vzorcih oblikujemo 2x2 ali 2xk tabelo. Teoretske frekvence predpostavimo s pomočjo formule: (Σ fv*Σfs)/N Pri 2x2 tabelah si pomagamo z Yatesom, ki smo ga že omenjali. Vrednost hi-kvadrata nam ne pove nič o smeri odstopanj, o tem, katere skupine se pomembno in katere nepomembno razlikujejo. Tu si pomagamo s pogledom v tabelo. Hi kvadrat test lahko uporabimo tudi pri dveh odvisnih vzorcih in sicer nas zanima, če obstaja korelacija med rezultati skupine pred in po nekem posegu. Upoštevamo tiste rezulčtate, ki se spremenijo in si pomagamo s formulo: 7. Hi-kvadrat test in korelacije! Hi-kvadrat test govori o povezanosti dveh variabel in če je ta vrednost pomebna, je tudi povezanost pmebna. Samo velikost korelacije dobimo s fi ali kontingenčnim koeficientom. rezultate, katerih povezanost želimo ugotoviti, vnesemo v kontingenčno tabelo. Stpnje svobode, katere poiščemo v tabeli izračunamo: (v - 1)(s - 1), kjer v pomeni število vrstic, s pa število stolpcev. 8. Kakšna je distribucija hi-kvadrata? Pri različnih df imamo različne oblike distribucije. Na splošno so distribucije asimetrične v desno, z večanjem df pa se bližajo ND. Hi-kvadrat ne more biti nikoli negativen, vedno je večji od 0. 9. Aplikacija na test pomembnosti razlik med proporci! Pri 2x2 tabeli velja, da je hi-kvadrat enak z na kvadrat. Ko nas zanimajo neodvisni proporci, si pomagamo s formulami:

Avtorske pravice pridržane! Stran: 21

Page 22: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Pri odvisnih pa: 10. Zakaj je hi-kvadrat pomemben za psihologe? Zelo pomemben je zato, ker ga lahko uporabljamo na nominalnih podatkih, od njega pa dobimo veliko informacij - o XII. KORELACIJA in REGRESIJA 1. Kaj je korelacija in kaj predikcija? Med variablami pogosto obstaja nek odnos, ki ga preizkušamo prikazati tudi matematično. Tedaj si pomagamo s korelacijo in regresijo. Regresija je napovedovanje vrednosti odvisne spremenljivke na podlagi neodvisne spermenljivke in poznanega odnosa med njima. Korelacija je mera povezanosti med obema (ali večimi) variablami, ki nam torej pove nek odnos med njima. Pove nam, kako dobro regresijska enačba opiše odnos. Že iz grafičnega prikaza lahko razberemo približno velikost korelacije in smer. čE JE KORELACIJA 0, NE MOREMO NAPOVEDOVATI, SAJ NAM x NE POVE NIČ O y. 2. Prilagajanje krivulj in napovedovanje! Govorimo o iskanju aproksimativnih krivulj. Kot prvo je potrebno zbrati podatke, ki jih nato parno vnesemo v graf imenovan scatter plot. Na podlagi tega lahko prostoročno črto, ki bi najbolj ponazarjala odnos. To je aproksimativna krivulja. Imamo več možnih krivulj, katera pa najbolje ustreza, razberemo iz diagrama. Najenostavnejša je premica Y = a + bX, kjer naklon (b) izračunamo: (Y2-Y1)/(X2-X1); a je odsek na osi y. Vendar pa je bolj natančna in zato večkrat uporabljana metoda najmanjših kvadratov. Iščemo krivuljo, ki bo najbolj ustrezala našim točkam in bodo kvadrirana odstopanja od nje dala najmanjšo vrednost. Vsaka točka od dane premice lahko odstopa za nek d, mi pa iščemo premico, ki bo dala najmanšjo vsoto kvadratov teh d. Če imamo podano enačno premice, lahko zakaterikoli X izračunamo pripadajočo vrednost Y, ki bo seveda tem bolj natančna, tem boljša bo korelacija. 3. Normalne enačbe in vrednosti a in b! Normalni enačbi krivulje, ki najbolj ustreza našim točkam sta: ΣY = aN + bΣX ΣXY = aΣX + bΣX**2 Vrednosti a in b dobimo: ΣY ΣX**2 - ΣXY a = NΣX**2 - (ΣX)**2 NΣXY - (ΣX) ΣY b= NΣX**2 - (ΣX)**2 __ __ Če enačbo krivulje izrazimo z odkloni (majhen y = Y - Y in x = X - X ) Σxy Σxy y= Σx**2 * x = Σx**2 * y 4. Kakšne so lahko korelacije? Imamo: • pozitivne in negativne • linearne in nelinearne • mnotone in nemonotone • pozitvno in negativno pospešene • popolna/je ni/nepopolna

Avtorske pravice pridržane! Stran: 22

Page 23: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Če ugotovimo, da je koeficient linearne povezanosti 0, to lahko pomeni, da korelacije ni, ali pa je nelinearna. V psihologiji je praktično nemogoče dobiti popolno povezanost zaradi velike variabilnosti merjenih pojavov. 5. Kako delimo totalno varianco? Razloži vse pojme! Totalno varianco delimo na nepojasnjeno in pojasnjeno. Totalna varianca je odvisna od odstopanja pravih vrednosti Y od njihove aritmetične sredine. Pojasnjena varainca je varianca napovedanih vrednosti Y' od aritmetične sredine. Pojasnjena ji pravimo zato, ker vse vrednosti - kot že vemo variirajo okoli centralnih mer. Drugo ime za to varianco je tudi varianca napovedanih vrednosti. Nepojasnjena varianca je varianca razlik med dobljenimi in napovedanimi vednostmi. Nepojasnjena ji pravimo zato, ker mi pričakujemo, da je ni, saj pričakujemo, da so naše napovedi najboljše. Pravimo ji tudi rezidualna varianca, ker gre za neke ostanke, torej odstopanja med napovedmi in pravimi Y.Imamo še tretje ime zanjo, to je standardna napaka napovedi. Ta standardna napaka je seveda manjša, če imamo večjo povezanost, saj so v primeru večje povezanosti ocene bližje pravim vrednostim. SN ocene ima podobne lastnosti kot SD. Če ob regresijski premici na razdalji ene Snocene v obe smeri potegnemo vzporednici,dobimo obseg, ki zajemo 68 % rezultatov. SN le pri nelinearni povezanosti prikrojena: 6. Kaj je to rezidual? Rezidual je ostanek, je razlika med napovedanimi in pravimi vrednostmi Y. 7. Kaj je koeficient determinacije in kaj eta-kvadrat? Eta kvadrat je odnos med pojasnjeno in totalno varianco in nam torej pove, koliko variacije Y lahko pojasnimo z variacijo X. Pri linearni korelaciji je ta vrednost kar enaka r**2, kar je imenovano tudi koeficient determinacije. Eta-kvadrat je zato lahko indikator nelinearne povezave. Če je eta-kvadrat večja od koeficienta determinacije, je razlika v nelinearni povezanosti. V primeru, ko je eta kvadrat enaka 0, je vsa varianca nepojasnjena, če je enaka 1, je vsa pojasnjena, torej je povezanost popolna. 8. Kako računamo eta-kvadrat? μ lahko kot prvo izrazimo z ulomkom pojasnjena/totalna varianca. Imamo pa še nadaljno formulo: Kot lahko vidimo, zgornji izraz vključuje tudi formulo za varianco med skupinama, kakršno uporanljamo pri anovi. μ lahko uporabimo, ko je ena variabla na intervalnem, druga pa tudi na nominalnem nivoju. Če imamo x vrednost dihotomno, imamo pravzaprav enako vrednost kot biserialni koeficient. Ta vrednost, ki jo dobimo nato variira od 0 do 1, v splošnem pa je večja od r (ker je tudi indikator nelinearne povezanosti). 9. Kako pridemo do koeficienta korelacije na podlagi pojmov variance? Koeficient determinacije je pojasnjena varianca deljena s totalno. Ta koeficient je r**2. Govori nam le o velikosti, ne pa tudi o smeri povezanosti. Če ga korenimo, dobimo tako negativne, kot pozitivne vrednosti. Sega lahko od -1 do +1, nanj pa ne vpliva,ali je NV X ali Y. Koeficient korelacije je torej koren koeficienta determinacije. Y je odvisen od Y' in od napake: r dobimo torej: 10. Z regresijsko terminologijo razloži, kako pridemo do pojma korelacije! Formuli za linijo najmanjših kvadratov lahko zapišemo: y = (r * Sy * x)/Sx in x= (r*Sx*y)/Sy

Avtorske pravice pridržane! Stran: 23

Page 24: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

V primeru, ko sta nakolona (r*Sy/Sx in r*Sx/Sy) enaka, je r lahko le + ali -1. V tem primeru sta obe liniji identični in korelacija je popolna. Če je r enak 0, se premici oravokotno sekata. r**2 = a*b Imamo torej regresijsko premico, na kateri imamo vse ocene, ki jih določamo. Te ocene se okoli lastne aritmetične sredine distribuirajo razpršeno, govorimo o POJASNJENI VARIANCI. Vendar pa se tudi prave vrednosti distribuirajo okoli te povprečne vrednosti, tedaj govorimo o TOTALNI varianci. Razmerje med tema dvema variacijama - torej razmerje med variiranjem ocen in pravih vrednosti, je koeficient determinacije. Če to korenimo, dobimo koeficient korelacije. Če je korelacija popolna, bi morali biti obe varianci enaki, saj so torej ocene enake pravim vrednostim. 11. Načini izračunavanja Pearsonovega koeficienta korelacije! Kot prvo si lahko pomagamo s produkt moment formulo: V formuli lahko vidimo simetrijo med X in Y. Naprej si lahko pomagamo s standardiziramo kovarianco: Naslednja formula, ki jo lahko uporabimo, je formula z z-vrednostmi: Če sta Zx in Zy v istem vrstnem redu, je ta vrednost maximalna, minimalna pa je, če je vrstni red obrnjen - tedaj imamo negativno korelacijo. Če so te vrednosti brezsmiselno nametane, je korelacijo 0. Vzroki - maximalna korelacija: ΣZxZy = ΣZx**2 = ΣZy**2 = N - 1 minimalna: ΣZxZy = - (N-1) Še pred Pearsonom se je uporabljala enačba: Če bi bila povezanost maximalna, bi bil ta koeficient 0. Majhen rezultat dobljen iz te formule je govoril o visoki pozitivni povezanosti, nekoliko večji o tem, da ni povezanosti in zelo visok rezultat je pričal o visoki negativni povezanpsti. Rezultat se giblje od 0 do 4, veliko lažje pa ga interpretiramo, če uporabimo formulo: Ta ima lastnosti, da nam vrednost 0 pove, da ni povezanosti, velikost koeficienta kaže na količino povezanosti, predznak pa kaže smer. Maksimalna vrednost je lahko 1, minimalna pa -1. Iz tega se potem izpelje Pearson z z vrednostmi. 12. Zakaj se zgornja formula imenuje produkt moment formula? To ime dobi zato, ker gre za množenje centralnih momentov x in y. 13. Kaj so pogoji Pearsonovega koeficienta korelacije? Za računanje r vrednosti moramo imeti neodvisna opazovanja, najmanj intervalni nivo. Meri le linearno povezanost. Pogoj za uporabo je tudi HOMEOSCEDASTIČNOST in pa normalna razporeditev rezidualov, ni pa potrebna ND vrednosti. Če tem pogojem ni zadoščeno, si moramo pomagati z drugimi meramo korelacije, ki bodo opisane v naslednjem poglavju. 14. Korelacijska in regresijska vzorčna teorija! Poopulacijski koeficient korelacije označimo z rho, r je le ocena. Vzorčna distribucija r-ov je pri rho=0 simetrična, pri večjem ali manjšem populacijskem koeficientu, pa je izrazito asimetrična. Zato moramo računati pomembnost koeficienta glede na populacijski koeficient. Zakaj je pri neničelnem rho distribucija nesimetrična? Ker ima r v obe smeri omejitev (±1) in če Modus ni na sredi, pride do asimetrije. Slika: Rho = 0

Avtorske pravice pridržane! Stran: 24

Page 25: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Rho = 0 Pomagamo si s Fisherjevo transformacijo! ta nam r-vrednosti pretvori tako, da se normalno dostribuirajo. Pomembnost razlik med dvema korelacijskima koeficientoma računamo: Pri regresiji imamo H0: a1 = A1 in to preverimo: 15. Fisherjeve z-vrednosti! Pearsonov r transformiiramo zato, ker je vzorčna distribucija preveč izkrivljena. Z z-vrednostmi dobimo normalno distribuirane vrednosti, ki se distribuirajo okoli vrednosti 0 z deviacijo 1. 16. Kaj lahko deformira r? Grupiranje r vrednosti ne spremeni. Nelinearnost lahko deformira r. Če sami izbiramo objekte glede na rezultate (na primer poberemo le najboljše na nekem testu) znižamo korelacijo. 17. Interpretacija korelacije! Mnogokrat napačno interpretiramo in sicer s brez podlage določamo kavzalno zvez (Y je vzrok/posledica X). To ni vedno res, morda obstaja neka druga V, ki vpliva na oboje. 18. Kaj je kovarianca? Kovarianca je suma produktov odklonov X od aritmetične sredine vseh X in Y od aritmetične sredine Y ulomljeno z N. XII. DRUGE MERE KORELACIJE 1. Katere mere korelacij uporabljamo za koreliranje rangov, opiši postopke in povej pogoje uporabe! Pri rangiranju r ni primeren, ker imamo le vrstni red, za r pa so pomembne z vrednosti, to pa so razlike. Druge mere korelacije so manj natančne od r, zato jih uporabljamo le, ko ni pogojev za r. Kadar nimamo vezanih rangov najraje uporabljamo SPEARMANOV RHO, ko si pomagamo z diferencami rangov. Osnovna formula je: Ko je Σd**2 enaka 0, je torej korelacija popolna, rho doseže vrednost 1. Imamo N-2 stopenj svobode. Razlika s Pearsonom je v drugačni interpretaciji. Tukaj pride do disperzije dobljenih podatkov, pri Pearsonovem koeficientu pa je predpostavka o normalnosti že vključena. Rho je poseben primer Pearsonovega r-a. Če računamo po formuli: dobimo identičen rezultat. Pri vezanih rangih sicer lahko uporabvljamo rho, a če jih je preveč, ga raje pustimo. Lahko uporabljamo korekcijo, ki zmanjša vrednost rho in ga tako približa r. Rho lahko sega od -1 do +1 POMEMBNOST: Če je N manjši od 10, obstajajo tablice za kritične vrednosti, nad tem N pa računamo po formuli: Za majhne N je rho bimodalno distribuiran. Z večanjem N se distribucija pibližuje normalni. Ko imamo več vezanih rangov si lažje pomagamo s Kendallovim koeficientom rang korelacije - τ (TAU). Spet imamo dve seriji podatkov na ordinalnem nivoju. Sam postopek temelji na naravnem zaporedju. Vse X vrednosti razporedimo v naravno zaporedje, nato pa primerjamo zaporedne y med seboj. Če sta y-na v naravnem zaporedju damo oceno 1, če v inverznem -1 in če sta enaka 0. Vrednost 0 damo tudi tedaj, ko imamo na x ali y vezane range. Pokazatelj urejenosti povezave je S, ki je vsota vseh teh vrednosti. Če je S pozitiven, imamo pozitivno korelacijo. Formula za τ je: τ = S / S max, kjer je Smax enak N(N-1)/2. Drugače je pri vezanih rangih, kjer je formula bolj zapletena:

Avtorske pravice pridržane! Stran: 25

Page 26: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Vezane vrednosti zamenjamo s povprečnim rangom. Ta koeficient lahko uporabljamo tudi tedaj, ko je ena variabla dihotomna in sicer jo umetno pretvorimo v umetne range. POMEMBNOST: Če so vezani rangi samo na Y, uporabimo formulo: pri čemer je aprokcimacija τ: Z rangi pa lahko računamo tudi KENDALLOV KOEFICIENT KONKORDANCE W. Tega uporabljamo tedaj, ko imamo večje število ocenjevalcev, ki rangirajo iste objekte. W testira odnos med realno in maksimalno stopnjo ujemanja. Za vsakega ocenjevalca izračunamo sumo rangov, ki ji rečemo Ri. Če je ujemanje popolno, so sume rangov ocenjevanih m, 2m, 3m, ... Totalna suma rangov je torej: mN(N+1)/2 skupna suma rangov je lahko: m(N+1)/2, kjer je m število ocenjevalcev, N pa število objektov. Skladanje med ocenjevalci se kaže kot variiranje sume rangov. Maximalno variiranje pomeni maximalno skladanje in obratno. Sam koeficient izračunamo po formuli: Če imamo tudi vezane range, od Smax odštejemo T = (Σ(t**2-t))/12 Kendalov koeficient konkordance lahko sega le od 0 do 1. Če pa imamo več kot 2 ocenjevalca, ne more biti W nikakor 0. Lahko ga tudi pretvorimo v rho: 2. Na čem temelji Kendallov τ? Izhodišče je iskanje naravnega zaporedja. 3. Kaj je poliserialna korelacija in katere koeficiente poznamo? ??O poliserialni korelaciji govorimo tedaj, ko imamo eno intervalno in eno dihototomno spremenljivko. Kot prvo imamo TOČKOVNO BISERIALNI KOEFICIENT, ki ga uporabljamo takrat, ko imamo eno spremenljivko na intevalnem in eno naravno dihotomizirano variablo (na primer moški-ženska). Praviloma ne doseže 1, saj so dihotomizirane številke nenatančne. Izpeljan je iz r za ta poseben primer in sicer iz formule: Formula za točkovno biserialni koeficient pa je: kjer sta p in q proporca števila primerov v obeh kategorijah variable y. Alternativni obrazc je: POMEMBNOST: Računamo jo s t-testom: Sega od -1 do +1, a skrjnih vrednosti ne doseže, če ni p=0.5. Če imamo v osnovi kontiniurano variablo, pa smo jo mi umetno dohotomizirali, uporabimo BISERIALNI KOEFICIENT. Ta je ponavadi večji od točkovnega. Uporabljamo ga pri bolj okrnjenih, asimetričnih distribucijah. Formula zanj je: Pri velikem N si lahko pri iozračunu POMEMBNOSTI pomagamo s: Odnos med točkovnim in biserialnim: 4. Katere koeficiente lahko uporabimo v kontingenčnih tabelah? Koeficient KONTINGENCE C uporabljamo pri nominalnih ali ordinalnih spremenljivkah. Pomagamo si s hi-kvadratom: Maximalna vrednost je enaka: Pravo vrednost C dobimo, če C delimo s Cmax. C lahko sega od 0 do 1, vendar 1 nikoli ne doseže. C ne zahteva simetrije.

Avtorske pravice pridržane! Stran: 26

Page 27: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Pri 2 naravno dihotomiziranih variablah pa uporabimo PHI KOEFICIENT Φ, pri katerem si prav tako pomagamo s hi-kvadratom: Za oba koeficienta velja, da sta pomembna, če je pomemben hi-kvadrat. Lahko pa računamo tudi s pomočjo p: Tudi ta izraz je poseben odraz r. Phi koeficient lahko sega od -1 do +1, a to lahko dosežemo le , če sta obe p=0.5. Če to ne velja, imata obe distribuciji različno obliko in je popolno ujemanje nemogoče. Omenim naj še TETRAHORIČNI koeficient, ki ga uporabljamo pri dveh umetno dihotomiziranih variablah, ki sta v osnovi normalno distribuirani in kontinuirani.. Uporabljamo aproksimacijo koeficienta, ki pa je dobra predvsem, če velja p=q=0.5 za obe variabli. Formula: POMEMBNOST lahko računamo s hi-kvadrat, če pa je populacijski r=0, lahko uporabimo: 5. Naštej vse korelacijske koeficiente in povej, na katerem nivoju jih uporabljamo ter obseg! Pearsonov r - intervalni ali racinalni med -1 in +1 Pearsonov rho - ordinalni med -1 in +1 Kendallov tao - ordinalni, lako je ena tudi nominalna, dihotomizirana med -1 in +1 Kendallov W - ordinalni - več serij ordinalnih razporeditev med 0 in +1 Točkovno biserialni - naravno dihotmizirana in intervalna ali višja med -1 in +1 Biserialni - umetno dihotomizirana in intervalna med -1 in +1 Kontingenca C - nominalen nivo med 0 in +1 Fi - koeficient - naravno dihotomizirani med -1 in +1 Tetrahorični - umetno dihotmizirani ( v osnovi ND, kontinuiranost) med -1 in +1 6. Kaj je razlika med C in Φ? C ali koeficient kontingence se uporablja pri večih vrednostih v kontingenčni tabeli, ne le, ko imamo dihotomizirane variable, fi pa se uporablja le tedaj, ko imamo 2x2 tabelo (naravno dihotomizirani). Fi koeficient lahko doseže tudi negativno povezanost, C pa ne. 7. Kosinus pi korelacija in pogoji zanjo! To je pravzaprav tetrahorični koeficient, pogoj sta torej dve umetno dihotomizirani variabli. Mi imamo le formulo za aproksimacijo tega koeficienta. 8. Glede na kaj ločujemo korelacijske postopke? Ločimo jih glede na nivo variable, na katerih lahko računamo korelacijo. XIII. MULTIPLA IN PARCIALNA KORELACIJA 1. Kaj je to parcialna korelacija? Včasih nas zanima korelacija med neodvisno in odvisno variablo z izključitvijo vpliva ostalih, ki lahko vplivajo na oboje. Ostale variable, ki bi lahko vplivale, moramo torej držati konstantne, pri vseh objektih naj bi bila enaka vrednost te variable. Da to lahko umatno naredimo si pmagamo s koeficientom parcialne korelacije: POMEMNBOST računamo s t-testom: 2. Kaj je multipla korelacija? To je mera povezanosti med tremi ali večimi variablami. Odvisnim variablam rečemo KRITERIJ, neodvisnim pa PREDIKTOR. Ponavadi imamo več prediktorjev, ki vplivajo na en kriterij. Koeficient multiple korelacije je: in lahko sega od 0 do 1. Če ga kvadriramo, dobimo koeficient multiple determinacije, ki ima torej enako vlogo kot r**2 pri korelaciji z dvema V. SN ocene je:

Avtorske pravice pridržane! Stran: 27

Page 28: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Vsak prediktor ima lahko različno težo, zat določimo tudi ponderje: Iz tabele: 3. Multipla regresija! Pri treh variablah (en kriterij in dva prediktorja) uporabimo formulo: b-ji so konstante. Rezultat, ki ga dobimo je neka ravnina, ne več krivulja. Pri več kot dveh prediktorjih pa imamo že večrazsežnostni prostor. XIV. ANALIZA VARIANCE 1. Kaj je analiza variance? Analiza variance je metoda deljenja variacije, ki smo jo opazovali na različne dele, ki bodo posledica različnih faktorjev. V osnovi se analiza variance uporablja za testiranje pomembnosti razlik med večimi vzorci. H0 je, da vzorci izhajajo iz populacij z enako AS. 2. Potek analize variance! Celotno variacijo v skupini lahko delimo na variacijo zaradi NV (to je med skupinama) in zaradi OV (to je znotraj skupin). Tako imamo 3 vrste variacije: - TOTALNA = vsota kvadratov odklonov vsakega mejenja od M - ZNOTRAJ SKUPINE = vsota kvadratov deviacij vsakega merjenja od M skupine - povzročajo jo individualne razlike in razne napake merjenja. - MED SKUPINAMI = vsota kvadratov deviacij vsake vzorčne M od skupne M (suma kvadratov odklonov pravih rezultatov) V osnovi lahko rečemo, da če so variacije med skupinami manjše kot znotraj njih, to ni pomembno. Tadva dela - variacija znotraj in med - sta med seboj neodvisna. 3. Matematični modela ANOVE! Xjk = ηj + Εjk (Vrednost x dobimo z vsoto prave arotmetične sredine in neke napake) 4. Potek analize variance! Izračunamo vse posamezne variacije s pomočjo formul: Stopnje svobode so: - totalna N - 1 - znotraj N - k - med k - 1 kjer k pomeni število vzorcev, N pa število vseh osebkov. Nato delimo variacijo znotraj in med s pripadajočimi stopnjami svobode in tako dobimo dve vrednosti ocene variance ali MS (mean square). Nazadnje določimo še F vrednost: F = MSb/MSw Pogledamo v F tabele in če naš F preseže kritičnega, je pomembna razlika med vzorci. V sumarni tabeli analize variance napišemo variacije, stopnje svobode, MS, F razmerje in p 5. Pogoji analize variance! - slučajni vzorec - enake variance (prej preverimo z F testom) - če to ne drži si lahko pomagamo s transformacijo

Avtorske pravice pridržane! Stran: 28

Page 29: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

- ND v vzorcu (testiramo z goodnes of fit) - ADITIVNOST raznih faktorjev - OS je intervalna, NS pa nominalna 6. Kakšen je odnos med analizo (F) in t testom (t)? Analizo variance uporabljamo tedaj, ko imamo več kot dva vzorca. Če bi delali več t testov, bi dobili večjo mejo slučajnosti. t-test je za slučajne vzorce, če pa mi izmed vseh vzorcev izberemo dva, to ni slučajno. S t-testi izgubljamo na natančnosti variance, ki bi jo morali računati za vse skupine. Kadar imamo dve skupini, lahko dokažemo, da je f=t**2: 7. Kaj je rezidual? Rezidual je napaka, je razlika XV. NEPARAMETRIČNI TESTI 1. Kdaj in zakaj uporabljamo neparametrične teste? Neparametrične teste uporabljamo: • ko imamo variable na nominalnem ali ordinalnem nivoju, ko imamo na primer le predznak ali rang • ne zaključujemo o parametrih populacije • vzorčna disribucija ni odvisna od predopstavk o distribuciji • ko imamo zelo majhne vzorce Ti testi pridejo na vrsto zato, ker parametričnih zaradi nezadostnih pogojev ne moremo uporabiti. Posledice uporabe teh testov so: • izguba informacij • manjša moč • manjša učinkovitost moči 2. Katere naparametrijske vzorce poznamo za en vzorec? NOMINALNI NIVO Uporabljamo lahko uporabljamo BINOMSKI test, in sicer izračunamo pričakovane verjetnosti glede na H0, nato izračunamo aritmetično sredino in standardno deviacijo po formulah: Nato pa se lotimo še z testa, kjer računamo razliko, odstopanje doblene vrednosti od pričakovane aritmetične sredine. Poleg tega si lahko pomagamo tudi s hi-kvadratom, o katerem smo že govorimili (primerjamo goodness of fit). ORDINALNI: Test homogenega niza, Kolmogorov-Smirnov test, Test točke spremembe INTERVALNI: Test simetričnosti porazdelitve 3. Kaj uporabimo pri dveh vzorcih, ki sta odvisna? NOMINALNI: Na nominalnem nivoju lahko uporabimo McNemarov test pomembnosti sprememb, to je hi-kvadrat test za dva odvisna vzorca. Pomagamo si s formulo: ORDINALNI: Na ordinalnem nivoju uporabimo Test predznaka, ki je lahko eno ali dvosmeren. Vzamemo pare in za vsakega označimo, ali je drugi v paru večji (+), manjši (-) ali enak (0). Po H0 naj bi bila razlika med + in - enaka 0. Osnovna ideja je, da je polovica razlik + in polovica -. Nato oblikujemo 2x2 tabelo in izračunamo hi-kvadrat z Yatesom. Lahko pa tudi s formulo:

Avtorske pravice pridržane! Stran: 29

Page 30: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

Na tem nivoju lahko uporabimo še Wilcoxonov test ekvivalentnih parov. INTERVALNI: Na tem nivoju uporabljamo Walshev test in randomizacijski test ekvivalentnih parov. 4. Kaj uporabimo pri dveh neodvisnih vzorcih? NOMINALNI: Kot prvo lahko uporabljamo hi-kvadrat za dva neodvisna vzorca (kontingenčne tabele), lahko pa si pomagamo tudi s Fisherjevim testom natančne verjetnosti. ORDINALNI: Medianski test uzvedemo tako, da določimo skupno mediano obeh vzorcev. H0 je, da ni razlike med Me. Temelji, da bo v obeh vzorcih enako objektov nad in pod mediano. Ko torej določimo skupno Me, označimo vrednosti nad njo s + pod njo pa z -. Oblikujemo 2x2 tabelo in izvedemo hi-kvadrat. 5. Več odvisnih vzorcev? Cohranov Q test lahko uporabljamo že na nominalnem nivoju. 6. Neodvisni vzorci? Na nominalnem nivoju lahko uporabljamo hi-kvadrat, na ordinalnem pa tudi Razširjeni medianski test. Določimo skupno mediano, spet označimo + in -, nato pa spet oblikujeo kntingenčno tabelo in hi-kvadrat. XVI. MULTIVARIATNE METODE 1. Kako poteka faktorska analiza? Namen te analize je iz večih manifestnih spremenljivk dobiti manj latentnih, ki pa med seboj ne bodo korelirale. Želimo najti te latentne spremenljivke, nato pa še odnose med latentnimi in manifestnimi. Snovna faktorska enačba: kjer je F vrednost na posameznem faktorju, U pa unikvitetni faktor, značilen za posamezno variablo. h je KOMUNALITETA, delež variance, skupen vsem s je SPECIFIČNOST - lastna spremenljivki, a ni posledica napake e je NAPAKA s + e = uUNIKVITETA POTEK: 1. Najprej izločimo faktor, ki največ pojasnjuje, sledi naslednji in tako dalje. Vsak naslenji faktor pojasni tisti del variance, ki ga prejšnji ni. 2. Podatke damo v SPSS in dobimo ven: - LASTNE VREDNOSTI: pove, koliko variance pojasni nek faktor - odstotek variance, ki jo faktor pojasni (delimo lastno vrednost s številom spremenljivk 3. Določiti moramo, koliko faktorjev bomo obdržali. V zvezi s tem imamo tri kriterije: - KAISER GUTTMANOV obdrži faktorje, ki imajo lastno vrednost nad 1 - Določimo odstotek variance, ki ga morajo pojasniti vsi faktorji in potem izločimo ostale, ki pojanujejo "odvečno" - Cattellov scree test/test drobirja - na graf nanašamo lastne vrednosti faktorjev in od najmanjšega potegnemo premico. Faktorji, ki se dvignejo nad to premico veljajo, jih vzamemo. 4. Dobimo matrike faktorske strukture, v kateri so korelacije med faktorji in manifestnimi spremenljivkami. Lahko izračunamo kumunaliteto ali lastne vrednosti faktorjev. 5. Računamo reproducirane korelacije, torej korelacije brez faktorjev, ki smo jih izločili. 6. Zadnji korak je interpretacija, določanje imena faktorjev. Ime določamo glede na variable, s katerimi faktor variira. Da si to olajšamo, si pomagamo z rotacijamo, ki nam faktorje in skupine variabel bolj

Avtorske pravice pridržane! Stran: 30

Page 31: Skripta Za Statistiko[1]

Vprašanja in odgovori za ustni izpit Statistike maLa maLca

približajo. Poznamo pravokotne in poševnokotne rotacije. Pri pravokotnih ohrnimo kot med F in zato ostanejo korelacije med njimi 0. Poševnokotne spremenijo kot in zato zčnejo faktorji korelirat. rotacija ne spremni odnosov med variablami, temveč med variablami in F. Matematično so tako rotirane kot nerotirane variable enakovredne, a ratirane lažje interpretiramo. 2. Katere multivariatne metode še poznamo? KANONIČNA KORELACIJSKA ANALIZA Imamo dva seta variabel - odvisne in neodvisne spremenljivke. Asnaliza jih med seboj tako ponderira, da najbolje razloži korelacijo. Išče latentno variablo, ki je v osnovi variiranj za oba seta. rezultat je serija ponderjev, ki povejo, v kolikšni meri vsaka variabla korelira z latentno. ANALIZA GLAVNIH KOMPONENT Pogledamo vse variable in izberemo tiste, ki med seboj najbolj korelirajo. Dobimo glavne komponente. DISKRIMINANTNA ANALIZA Iščemo neodvisno variablo, s katero najbolje dosežemo ločevanje med dvema skupinama. HIERARHIČNA CLUSTER Združujemo najbolj podobne enote skupaj. MULTIDIMENZIONALNO SKALIRANJE Matriko razdalj med objekti predstavimo v prostoru. LOGISTIČNO LINEARNI MODELI Imamo odnose med variablami na nominalnem nivoju - analiza kontingenčnih tabel, ko imamo več kot dve variabli. Logaritmiramo in dobimo linearne faktorje. VZORČNO MODELIRANJE Postavimo model odnosov, predpostavimo vpliv latentnih faktorjev na manifestne in to nato preverjamo. Dodatki k odgovorom Katje Zakrajsek na ustna vprasanja pri statistiki V/3 Zakaj je pri ocenjevanju standardne deviacije populacije na osnovi vzorcnega v imenovalcu namesto N, N -1 (po Petzu, 1997, str. 125)? Aritmeticna sredina vzorca bo imela redko isto vrednost kot aritmeticna sredina populacije. Vemo, da je vsota kvadriranih odklonov najmanjsa od njihove aritmeticne sredine. Tako bo vsota kvadriranih odklonov manjsa pri odklonih od vzorcne kot pri odklonih pri populacijske aritmeticne sredine. S tem bo tudi standardna deviacija populacije, kar zakljucujemo na podlagi vzorcnega rezultata, manjsa kot je v resnici v populaciji. To korigiramo s tem, da delimo povprecne kvadrirane odklone z N - 1 (s tem namrec standardno deviacijo povecamo).

Avtorske pravice pridržane! Stran: 31