47
STATISTIKA Statistika se ukvarja z zbiranjem, klasificiranjem in analizo numeriènih podatkov. Matematièna statistika je veja matematike, s katero se ukvarjajo poklicni matematiki in statistiki in jo tudi razvijajo. Njena naloga je preuèevanje in iskanje novih metod za raziskovanje masovnih pojavov. Druge vede jo uporabljajo za obdelavo podatkov, ki jih pridobijo na svojih podroèjih. S to obdelavo se ukvarjajo strokovnjaki na podroèjih nekaterih ved. Znanje osnovnih statistiènih metod je nujni del psihološke stro kovne izobrazbe. Služi lahko za raziskovanje in dokazovanje in je potrebno za empiriène raziskave eksperimentov. Statistika omogoèa zelo racionalne postopke obdelave podatkov. Omogoèa najbolj eksakten in jedernat opis, njena naloga pa je tudi urejanje in prikazovanje podatkov v tabelariènem ali grafiènem zapisu. Omogoèa nam tudi generalizacijo, ki je eden od bistvenih ciljev znanosti, zagotavlja pa tudi doloèeno stopnjo zaupanja v vsak sprejet sklep ali zakljuèek. Vpogled v povezanost med pojavi, ki jih merimo, je za znanost zelo pomemben. Konèni cilj vsake znanosti je predvidevanje in napovedovanje pojavov, kar omogoèa statistika. Pri uporabi statistike lahko pride tudi do napak. Pri nekaterih raziskavah uporaba statistike ni potrebna. Nekatere podatke lahko obdelamo brez uporabe statistike. Uporabljamo jo lahko samo pod doloèenimi pogoji. Njena uporaba pa sama po sebi še ne zagotavlja uspešnosti raziskave; èe so podatki slabi, je obdelava brez vrednosti. Za veljavnost podatkov je odgovoren naèin njihovega zbiranja in naèin naèrtovanja eksperimenta. Èe statistika ni pravilno uporabljana, lahko pride do njene zlorabe. Psihologi naj bi se usposobili, da bi obvladali osnovne pojme, postopke, se seznanili s statistiènim mišljenjem in z njegovo pomoèjo prišli do zakljuèkov, se nauèili, v katerih pogojih se statistiko lahko uporablja, spoznali primere pravilne logiène obdelave podatkov na podroèju psihologije... Deskriptivna statistika Ukvarja se z opisovanjem pojavov, katerih numeriène podatke je najprej uredila in obdelala. Z njo kratko in jasno opišemo pojav, s katerim smo se v raziskavi ukvarjali. Uporabljamo jo za merjenje: srednjih vrednosti (najbolj obièajen nivo v skupini), mer variabilnosti (razpršitev numeriènih podatkov v danih nizih), mer korelacije (jakost in kvaliteto medsebojne povezanosti ali kovariranje razliènih pojavov). K njej prištevamo tudi razliène obdelave, ki nam omogoèajo prim erjanje posameznih skupin ali posameznika s skupino, ki ji pripa da.

statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Embed Size (px)

Citation preview

Page 1: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

STATISTIKA

Statistika se ukvarja z zbiranjem, klasificiranjem in analizonumeriènih podatkov.

Matematièna statistika je veja matematike, s katero se ukvarjajopoklicni matematiki in statistiki in jo tudi razvijajo. Njenanaloga je preuèevanje in iskanje novih metod za raziskovanjemasovnih pojavov. Druge vede jo uporabljajo za obdelavo podatkov,ki jih pridobijo na svojih podroèjih. S to obdelavo se ukvarjajostrokovnjaki na podroèjih nekaterih ved.

Znanje osnovnih statistiènih metod je nujni del psihološke strokovne izobrazbe. Služi lahko za raziskovanje in dokazovanje in jepotrebno za empiriène raziskave eksperimentov.

Statistika omogoèa zelo racionalne postopke obdelave podatkov.Omogoèa najbolj eksakten in jedernat opis, njena naloga pa jetudi urejanje in prikazovanje podatkov v tabelariènem aligrafiènem zapisu. Omogoèa nam tudi generalizacijo, ki je eden odbistvenih ciljev znanosti, zagotavlja pa tudi doloèeno stopnjozaupanja v vsak sprejet sklep ali zakljuèek.

Vpogled v povezanost med pojavi, ki jih merimo, je za znanostzelo pomemben. Konèni cilj vsake znanosti je predvidevanje innapovedovanje pojavov, kar omogoèa statistika.

Pri uporabi statistike lahko pride tudi do napak. Pri nekaterihraziskavah uporaba statistike ni potrebna. Nekatere podatke lahkoobdelamo brez uporabe statistike. Uporabljamo jo lahko samo poddoloèenimi pogoji. Njena uporaba pa sama po sebi še ne zagotavljauspešnosti raziskave; èe so podatki slabi, je obdelava brezvrednosti. Za veljavnost podatkov je odgovoren naèin njihovegazbiranja in naèin naèrtovanja eksperimenta. Èe statistika nipravilno uporabljana, lahko pride do njene zlorabe.

Psihologi naj bi se usposobili, da bi obvladali osnovne pojme,postopke, se seznanili s statistiènim mišljenjem in z njegovopomoèjo prišli do zakljuèkov, se nauèili, v katerih pogojih sestatistiko lahko uporablja, spoznali primere pravilne logièneobdelave podatkov na podroèju psihologije...

Deskriptivna statistika

Ukvarja se z opisovanjem pojavov, katerih numeriène podatke jenajprej uredila in obdelala. Z njo kratko in jasno opišemo pojav,s katerim smo se v raziskavi ukvarjali.

Uporabljamo jo za merjenje: srednjih vrednosti (najbolj obièajen nivo v skupini), mer variabilnosti (razpršitev numeriènih podatkov v danihnizih), mer korelacije (jakost in kvaliteto medsebojne povezanosti alikovariranje razliènih pojavov).

K njej prištevamo tudi razliène obdelave, ki nam omogoèajo primerjanje posameznih skupin ali posameznika s skupino, ki ji pripada.

Page 2: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Inferenèna statistika

Njene metode nam pomagajo sklepati o merah v populaciji, ki smojih dobili na reprezentativnem vzorcu te populacije.

Uporabljamo jo za oceno standardnih napak, ki smo jih dobili navzorcu. Standardna napaka je verjetni povpreèni odklonstatistiène mere reprezentativnega vzorca od mere populacije. Tiodkloni nastajajo zaradi delovanja sluèajnih ali nesluèajnihstandardnih dejavnikov. Odklone lahko vedno ocenimo z nekonatanènostjo.

Raziskava

Statistièna masa predstavlja množico variabilnih elementov istevrste ali pa elemente s skupnimi obeležji.

Populacija je skupina posameznikov, ki imajo skupna obeležja. Zjasno definicijo mora biti toèno opredeljena. Definicija ne smeizpustiit katerega izmed posameznikov, enot ali pojavov, ki tejpopulaciji tudi pripada. Skupine, ki predstavljajo populacijo, sopo svoji sestavi, pestrosti in številènosti zelo razliène. Lahkoso sestavljene iz veèih stratumov ali plasti (spol, starost...).Glede na naravo raziskave je vèasih treba definirati tudi te, daugotovimo, ali se rezultati med seboj razlikujejo.

Podatkov za psihološke raziskave nikoli ne preizkušamo na celotnipopulaciji, ker bi jih težko in dolgo zbirali. Zato jih zbiramona vzorcih. Ti morajo biti skrbno izbrani (sploh, èe delamoposplošitev). biti morajo reprezentativni; predstavljati morajodefinirano populacijo oz. biti tisti njen del, ki ima vse njenebistvene karakteristike. Reprezentativnost vzorca je odvisna odnjegove velikosti in naèina izbire.

Velikost vzorca doloèa število èlanov populacije, ki bi lahkobili vkluèeni vanj. Veèji vzorec je bolj reprezentativen. Imelnaj bi vsaj 100 enot populacije. Le tako bi ga lahko imeli zazadovoljivega za statistièna sklepanja. Statistiène metode zamale vzorce se razlikujejo od tistih za velike. Z zbiranjemvzorcev se ukvarja teorija reprezentativne metode.S pomoèjo velikih vzorcev se da dokazati veliko. Reprezentativnivzorec je reprezentativen za eno samo toèno doloèeno populacijo.Njegov temeljni princip je, da ima vsaka enota enako možnostpriti vanj (zato je potreben register vseh èlanov populacije).Psihološke pojave v okviru populacije ali stratumov opazujemo zmajhnimi, omejenimi vzorci.

Velikost populacije je obièajno konèna in znana, težko pa jedobiti njen natanèen opis, ker se vsaka masa nepretrgoma spreminja (fluktuacija).

Podatki, ki jih zberemo na vzorcu, so toènejši, èe v definicijovkljuèimo tudi namen raziskovanja.Pri raziskovanju moramo biti nepristranski. Izbira èlana populacije ne sme biti odvisna od drugega èlana ali raziskovalca.Prizadevati si je treba, da se delež èlanov neke vrste pri vzorcuglede na populacijo ne spremeni.

Page 3: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Reprezentativnost vzorca zagotovimo tako, da izbiramo èlanesistematièno ali pa po sluèajnostnem naèelu. Oba sta vezana naregister, ki mora biti sestavljen sistematièno.Metoda sluèajnostnega izbora je podobna loteriji. Zbiramonakljuène številke èlanov populacije (iz registra), dokler nezberemo dovolj velikega vzorca.Metoda sistematiènega izbora poteka tako, da iz tabele vzamemovsakega n-tega èlana. 1. èlana izberemo nakljuèno, interval pa jeodvisen od velikosti vzorca, ki ga želimo.

Statistièno sklepanje temelji na numeriènih podatkih. Èe sopodatki zbrani na nereprezentativnih vzorcih, lahko uporabimo ledeskriptivno statistiko za opis pojavov na danem vzorcu.

Do zlorabe pride, èe je vzorec : 1. pristranski - ene enote imajo veè možnosti, da pridejo vanjod drugih, 2. namerni - raziskovalec namerno izbira èlane z doloèenimikarakteristikami, 3. priložnostni - vzeto tisto, kar je prio roki; upravièena jeuporaba pri eksploraciji metod ali pri urjenju in izuèevanjuštudentov.

Statistièno sklepanje

Numerièni podatki vseh èlanov populacije in zmetodami izraèunanestatistiène mere bi bili parametri (populacijsko statistiènemere). Parametri resnièno obstajajo, èetudi jih ne raèunamo. Zvzorènimi vrednostmi ocenjujemo parametre. Z njimi raèunamopopulacijske mere. Èe bi imeli podatke iz vse populacije, bi samoz deskriptivno statistiko priši do prave vrednosti.

Parametrièna statistika

Pri psihološkem raziskovanju je pogost cilj ocenitev parametrov(srednja mera, razpršenost, korelacije...). Tu gre za metodologijo deskriptivne statistike. Osnova je Gaussova krivulja.

Èlovek je predmet psihologije. Njegovo obnašanje in karakteristike so odvisni od biloških in družbenih dejavnikov. Psihologijaprouèuje masovne pojave, ki nastajajo z navzkrižnim delovanjemobeh podroèij. Ti pojavi so raznovrstnio, veèplastni... Idealnimodel za prouèevanje in pojasnjevanje teh pojavov je matematièniproblem normalne krivulje.

Na absciso nanašamo vrednosti, ki predstavljajo merjeni pojav, naordinato pa (oièajno) pogostnost pojavljanja razmer. Normalnekrivulje v naravi in družbi ni. Številne psihološke pojave lahkopreuèujemo s pomoèjo njenega modela, ker domnevamo, da naj bibile mere teh pojavov normalno porazdeljene (spoznavne funkcije,osebnostne dimenzije...). Njene prognoze veljajo samo z doloèenoverjetnostjo.

Neparametrièna statistika

Uporabljamo jo pri pojavih, pri katerih ne predpostavljamo normalne porazdelitve numeriènih podatkov v populaciji. Nekateri jo

Page 4: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

oznaèujejo kot statistko, ki ni odvisna od distribucije. Njenemetode ne temeljijo na normalni krivulji. Pri njej porazdelitev vto krivuljo ni upravièena (primer: stališèa).

Ponekod se podatki porazdelijo v obliki U krivulje, J krivulje...Kadar dobimo take distribucije, ne moremo uporabiti metod parametriène statistike. Metode neparametriène statistike so ofd njenihpraviloma manj popolne in dognane.

Osnovni pojm merjenj v statistiki

Pri empiriènih raziskavah uporabljamo merjenje in kvantifikacijo.Merimo lahko èlovkovo osebnost, emocije, stališèa, zaznavanje...Malo je podroèij, kjer bi merjenje in kvantifikacijo težko izvedli (primer: motivacija).

Statistika je moèno povezana s psihometrijo, ki se ukvarja sproblemi merjenja v psihologiji in izdelavo merskih instrumentov.Poznavanje statistike je pomembno za sestavljanje psihološkihtestov. Z merjenjem išèemo frekvence (pogostnosti) in mere(skore). Frekvence dobimo s preštevanjem, mere pa z mersko lestvico inštrumenta, s katerim smo merili. Pri vsakem merjenju imamopredmet merjenja (pojav, ki ga merimo), merski instrument(sredstvo za merjenje; vprašalnik, aparat ali kako drugo standardizirano sredstvo, ki je sestavljeno iz elementov) in merskolestvico. Naloge so lahko razliène tako po obliki kot tudi povsebini. Po opravljenem testiranju za vsakega testirancaizraèunamo mero. Numerièni podatek dobimo tako, da preštejemopravilne odgovore. Rezultate testa pretvorimo s pomoèjo merskelestvice (skale), ki je standardiziran numerièni sistem, spomoèjo katerega standardiziramo merjenje.

Merjenje je pripisovanje nmeiènega podatka posamezniku za nekpojav ali pa pripisovanje nueriènega podatka posameznemu aliveèjemu številu pojavov.

Merske lestvice so lahko bolj ali manj obèutljive. Obèutljivostje odvisna od števila enot na lestvici (pri psihologiji obièajnotudio od št. vprašanj). Z bolj obèutljivo lestvico dobimo veènivojev merjenega pojava. Za bolj variabilne pojave potrebujemobolj obèutljivo lestvico.

Mere so lahko dane na kontinuiranem ali diskontinuiranem nizu.Kakšen je niz, je odvisno od narave merjenja.Kontinuirani nizi so za rezultate tistih meritev, ki jih lahkoprikažemo na neprekinjenem nizu; vrednosti lahko prikažemo stoèkami na št. premici (na primer èas, dolžina...).Nimamo takonatanènih instrumentov, da bi lahko izmerili katerokoli dimenzijo. Pri veèini pojavih merjenja si lahko tako predstavljamoveèino osebnostnih dimenzij.Nekontinuirane nize dobimo pri tistih predmetih, ki imajo samodoloèena števila in se jih ne da neprekinjeno postaviti na toèkena št. premici. V nekaterih primerih izražamo mere samo s celimišt. V psihološkem merjenju le redko dobimo diskontinuirane nize.Mero, ki pripada disk. nizu lahko predstavimo na premici z enosamo toèko. Med temi toèkami ni vmesnih prehodov. Mera na kont.nizu, ki pokriva dimenzijo, je predstavljena z intervalom. Realnevrednosti merjenega pojava obstajajo vzdolž celotne dimenzije, znjeno popmoèjo pa vseeno ne moremo izmeriti vsake vrednosti

Page 5: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

pojava.

Nivoji merjenja se pojavijo, ker merjenja ne moremo nikoli opraviti z isto natanènostjo. Odvisni so od narave pojava in spremenljivk. Vsak nivo ima lahko spremenljivke. Popolnost merjenjarazložimo z množino informacij. Veèja, ko je popolnost, veèje št.informacij dobimo. Obstajajo štirje nivoji merjenja: nominalni,ordinalni, intervalni in pa razmernostni (racionalni).Nominalna lestvica je lestvica, pri kateri se številke uporablajoza prikaz kvalitete merjenega pojava. Med kategorijami ni nerazmerja niti kvalitete. Njihov pomen je zgolj simbolièen. Merjenja v ožjem smislu besede pri tej lestvici sploh ni. Uporabljase, kadar raziskujemo med seboj neodvisne kategorje. Pri podatkih, ki jih dobimo, lahko uporabimo nekatere statistiène metode.Pri nominalnem merjenju nekatere kategorije (dober - slab)oznaèimo s št., a s tem ne skušamo izraziti kvalitete pojavov. Èejemljemo merjenje v širšem smislu, lahko zanj uporabimo nominalnolestvico.Ordinalna lestvica je lestvica zaporedja. To je najbolj primitivna lestvica merjenja. O predmetu merjenja daje le pièle podatke(vrstni red). Zanjo je znaèilno to, da ne poznamo velikostinjenih enot; razdalje med zaporednimi rangi so razlièno velike. Spomoèjo ordinalnega merjenja ugotovimo samo, kaj je veèje oz.manjše od drugega. Nekatere pojave lahko merimo samo z ordinalnolestvico; poteze znaèaja. V teh primerih naredimo primerjavovsakega z vsakim ali s stopnjo pogostosti pojavljanja.Intervalna lestvica je lestvica z ekvivalentnimi enotami. Razmakmed njimi je ves èas enak. Velikost lestvice in nièelna toèka staarbitralni (odvisni od naše izbire). Nièla je relativna in vsakposamezni merski instrument ima na lestvici svoje enote. Daje naminformacijo o tem, kaj je veèje in za koliko od drugega. Nisorazmerja med merami, ker lestvica nima absolutne nièle. Veèinamerjenj pri psihologiji se opravi na intervalnem nivoju. Nièelnetoèke in enote so poljubno izbrane, odvisne so od vprašanj natestih. Nièelna vrednost je samo relativna; testiranec jo pokažele v odnosu do testa. Absolutno nièlo si je zelo težko predstavljati.Razmernostna lestvica je lestvica z ekvivalentnimi in ekvidistantnimi enotami. Ima absolutno nièlo. Zagotavlja nam maksimalnošt. informacij, ki jih z merjenjem lahko dobimo; dobimo tudipodatek, kolikokrat je ena mera veèja ali manjša od druge. Vpsihologiji se ne uporablja (nekateri trdijo, da je taka Fecherjeva lestvica).Od nivoja merjenja je odvisna izbira statistiènega postopka, kiga lahko uporabimo pri naši raziskavi.

UREJANJE IN PRIKAZ PODATKOV

Kadar je podatkov veliko, jih uredimo. Njihovo urejanje se reducira na kvalitativno in kvantitativen prikaz podatkov. Obièajnojih prikažemo v tabeli, ki je najbolj ugodne oblike za obdelavo(tabela frekvenène distribucije).

Podatki na intervalnih lestvicah pripadajo klontinuiranim nizom.Oblikujemo pogostnostno porazdelitev teh podatkov; kvantitativno.Celokupnoi število mer v takem nizu je obièajno enakoštevilutestirancev (N-numerus).

Da postavimo frekvenèno distribucijo, moramo najprej ugotoviti

Page 6: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

najveèji in najmanjši dosežšek in doloèiti interval. Natodoloèimo število razredov. To se obièajno giblje med 10 in 20,kadar je podatkov malo, lahko todi do 5. Za velikost razrednegaintervala lahko vzamemo vsako pozitivno celo število, ki naj bopo možnosti liho. Ko smo doloèili interval, doloèimo še spodnjomejo najnižjega razreda v distribuciji. To lahko naredimo na veènaèinov: - najmanjšo vrednost v nizu vzamemo za spodnjo mejo najnižjegarazreda, - najmanjšo vrednost vzamemo za sredino najnižjega razreda, - množimo velikost intervala z zaporednimi celimi števili,dokler ne dobimo rezultata, ki je najbližje najnižji vrednosti vrazredu.Vedno izberemo tisto, ki nam da najbolje razporejene podatke. Koje vse to narejeno, oblikujemo kolone in rezultate tabeliramo.Vèasih doloèimo tudi srednjo vrednost razreda (X'), ki je reprezentant vseh rezultatov znotraj posameznega razreda. Toène mejeposameznih razredov (0.5) vzamemo takrat, kadar želimo grafiènoprikazati našo distribucijo; s tem prikažemo njeno neprekinjenost. Vedno predvidevamo, da so rezultati v posameznem razreduenakomerno porazdeljeni in koncentrirani na njegovo sredino.Postavi se vprašanje, ali je sredina razreda res povpreèna sredina razreda. Èe vzamemo sredino razreda kot reprezentanta tehrezultatov, se lahko pojavijo napake. Absolutno toène mere dobimole iz nerazvršèenih rezultatov. Toènost žrtvujemo za èim lažjoobdelavo podatkov. Paziti moramo, da z napako ne prestopimo mejetolerance. V celoti se vplivi napak pri posameznih razredih medseboj v celoti unièijo.

Namen grafiènega prikazovanja je èim razumljivejši prikaz podatkov. Obièajno podatke prikazujemo s krivuljami ali liki razliènihoblik. Izbira naèina grafiènega prikazovanja je odvisna od naravepodatkov in namena, ki ga imamo z njimi.Naèini grafiènega prikazovanja podatkov so frekvenèni poligon,histogram, krivulja kumulativnih frekvenc in krivulja kumulativnih odstotkov. Prikaz mora biti vedno natanèen.Frekvenèni poligon (pogostnostni mnogokratnik) je zlomljenazaprta èrta, ki jo dobimo tako, da toèke, ki jih dobimo v koordinatnem sistemu povežemo med seboj. Širina poligona (b) naj bo zaeno veèja od števila prvotno danih razredov. Višina poligona (h)naj bo po možnosti 60 - 80% širine poligona. Graf seveda prilagodimo tudi željeni toènosti, od te je odvisna velikost intervalov.Frekvenène poligone, ki jih dobimo pri vzorcih manjših od 100,navadno "polepšamo", ker obièajno ne dobimo normalne porazdelitve. To poènemo zato, da dobimo verjetno sliko porazdelitvemer, ki bi jih dobili na velikem vzorcu. Ob "poliranju" je dobronavesti tako stari kot tudi novi poligon.

f + 2f + f -1 +1 f = ------------- 4

Pri grafiènem prikazu primerjalnih poligonov nanesemo na abscisorazpored intervalov, ki so skupni vsem skupinam. Razdelitev naordinati doloèimo na osnovi ene same najvišje frekvence. Pojavise tudi težava razliènega numerusa v posameznih skupinah. Torešimo s tem, da frekvenco izrazimo v odstotkih (pri risanju jihzaokrožimo na eno enoto).Histogram je metoda, pri kateri rišemo stolpce eden zraven druge

Page 7: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

ga. Višina stolpca je odvisna od frekvence v razredu, širina paje enaka širini razrednega intervala. Zanj je bistveno to, davsak stolpec s svojo velikostjo toèno prikazuje število primerovv distribuciji, ki jo želimjo grafièno prikazati. Osnovni principi za risanje poligona ostajajo isti tudi za risanje histograma.Edina razlika je v tem, da v histogramu nanašamo natanène višinestolpca na zgornjo in spodnjo mejo razreda. Praviloma histogramuporabljamo kot frekvenèni poligon, razen pri primerjavifrekvenènih distribucij.Distribucijo frekvenc lahko prikažemo tudi s kumulativnimi frekvencami (Kf oz. F). To so frekvence, ki se kopièijo od zaèetkadistribucije do njenega konca. Graf kumulativnih frekvencnarišemo tako, da zaènemo na spodnji meji najnižjega razreda invrednosti nanašamo na zgornje meje razredov. Višina grafa jeenaka numerusu.Krivulja kumulativnih odstotkov se od prejšnje razlikuje po tem,da nanašamo namesto frekvenc odstotke, ki jih zaokrožimo na enodecimalko natanèno. Z njimi lahko primerjamo razliène vzorceglede na njihove dosežke.

Percentili in percentilni rangi

Èe testiramo manjše število testirancev, dobimo pregled tuditako, da vrednosti rangiramo od najmanjše do najveèje. Vsakienoti v ranžirni vrsti pripišemo zaporedno število, ki ga taenota v vrsti ima. Kadar se pojavi veè istih vrednosti, vzamemosrednji rang (dobimo vezani rang). Rang ima vse lastnosti statistiènih znakov; varira in vsaka enota ima svojega. O enoti dajedrugaèno informacijo kot le vrednost znaka (iz njega samegavrednost ni razvidna). Rang moramo vedno navajati v zvezi sštevilom enot populacije. Razlika med zaporednimi rangi je vednoena; to ne prikaže stvarne razlike med vrednostmi.

Percentile in percentilne range uporabljamo za izraèunavanjedrugih statistiènih mer. Ugotavljamo lahko mesto ali položaj, kiga posameznik zavzema v skupini ali vzorcu. Z njimi kvantitativnoklasificiramo, kategoriziramo in selekcioniramo.Percentil je mesto v distribuciji pod katerim se nahaja doloèenodstotek primerov. Percentilni rang je mesto oz. položaj, ki gaima posameznik na odstotni lestvici glede na rezultat, ki ga jedosegel pri merjenju v skupini preizkušanev, ki ji tudi sampripada. Obe meri lahko ugotavljamo iz katerekoli vrstefrekvenène distribucije (rektangularna - vse mere enako frekvenco).

P - percentil p odstotek primerov pod percentilom

PR (X) - percentilni rang za preizkušanca, ki je dosegel X toèk

P = d d - 1. decil 10 1 1

P = Me Me - mediana 50

P = Q Q - 1. kvartil 25 1 1

Page 8: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

P = Q Q - 3. kvartil 75 3 3

Iz definicije percentila sledi, da lahko za vsakega posameznikaizraèunamo mesto, ki ga ima na odstotni lestvici skupine (èe sosodelovali vsi njeni èlani). Percentilni rangi nam omogoèajoprimerjanje posameznikov iste skupine med seboj, ker višji percentilni rangi pomenijo boljše dosežke.

p * N - Kf P = SM + ---------- * i p f

100 X - SMPR (X) = --- * ( Kf + ------ * f ) N i

SM - toèna spodnja meja razredap - odstotek primerov pod iskanim percentilomN - skupno število primerov v distribucijiKf - kumulativna frekvenca do razreda, v katerem je iskani percentilf - frekvenca v razredui - razredni interval

Mere centralne vrednosti

Rezultati, ki jih dobimo pri merjenjih, imajo obièajno tendencozgostitve okrog neke vrednosti. Meram, ki izražajo to tendenco,pravimo mere centralne vrednosti. Èe je vzorec reprezentativen,dobimo dobro oceno mere srednje vrednosti v populaciji. Merorednje vrednosti jemljemo tudi kot referenèno toèko, s kateroprimerjamo rezultate posameznikov. Uporabljamo jo tudi za opisdistribucije. Vrdsnost, ki jo imamo za reprezentanta, je rezultatfaktorjev, ki imajo enak vpliv na vse enote. Individualni faktorji imajo vpliv na posamezne enote. Manjši ko so individualnivplivi, bolj reprezentativna je mera sr. vrednosti (in obratno).Èe je variabilnost prevelika oz èe populacija ni zakljuèena, jeizraèun mere srednje vrednosti brezpredmetna.

Mere sr. vrednosti so mediana, modus, aritmetièna, harmonièna ingeometrièna sredina. Katero raèunamo je odvisno od narave spremenljivke in namena izraèunavanja. Vsaka izmed njih je uporabnale v doloèenih pogojih. Izmed aritmetiène sredine, mediane inmodusa še najveè uporabljamo aritmetièno sredino, saj jo zahtevaveèina psiholoških spremenljivk. Obèutljiva je na velikost vsakega posameznega rezultata, ker predstavlja težišèe vseh mer vnizu. Mediano uporabljamo kadar pogoji ne dovoljujejo uporabearitmetiène sredine. To je mera položaja merskih rezultatov vnizu. Odvisna je od števila podatkov, ne pa tudi od njihovevelikosti. Najmanjkrat je uporabljan modus - samo takrat, kadarne moremo uporabiti prejšnjih dveh. Je najmanj zanesljiva merasr. vrednosti. Predstavlja najbolj tipièni podatek, ki se pojavlja v nizu.

Mediana (Me, Medn, C) je toèka nad katero in pod katero se nahaja50% rezultatov. Èe jo išèemo iz nerazvršèenega niza mer, jih

Page 9: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

moramo najprej rangirati od najnižje do najvišje.

N + 1Me = ------- mesto mediane 2

Èe so podatki urejeni, jih grupiramo v razrede in potemizraèunamo mediano.

N --- - Kf 2Me = SM + -------- * i f

Èe Me na N/2 ni v nobenem razredu (je na meji med razredoma), namstolpec Kf toèno pokaže N/2, s tem pa tudi toèno mejo, v katerise nahaja Me. Me lahko raèunamo ne glede na obliko distribucije.Grafièno jo doloèimo iz ugive.

Modus (Mo, D) je najmanj zanesljiva mera srednje vrednosti. Jaerezultat, ki se najbolj pogosto pojavlja. Najbolje se ga doloèiiz niza surovih rezultatov. lahko dobimo celo veè modusov. Izdistribucije ga je dobiti težje; lahko ga le ocenimo. To lahkoizvedemo na temelju sredine razrednega intervala kjer je frekvenca najveèja, ali pa tudi z ostalimi merami sr. vrednosti. Èe sedve ali veè sosednjih vrednosti pojavlja enako pogosto in jenjihova vrednost frekvenc veèje od ostalih, lahko vzamemo za Mopovpreèje teh vrednosti. Kadar so take vrednosti med seboj oddaljene, ne moremo uporabiti sr. vrednosti; dobimo 2 surova modusa.Kot surovi modus lahko vzamemo sredino razreda z najveèjo frekvenco. Temu razredu damo ime modalni razred.

f - f o -1Mo = SMo + ----------------- * i 2f - f - f o -1 +1

Doloèimo ga lahko tudi s pomoèjo histograma. S pomoèjo Me in M gadoloèimo na naslednji naèin:

Mo = 3 * Me - 2 * M

Èe dobimo za modus decimalno št., ga zaokrožimo. PomanjkljivostMo je v tem, da ni obèutljiv za mejne frekvence. Pri veèmodalnihdistribucijah je en modus absolutni; tisti, okrog katerega jenajveèja frekvenca pojavljanja. Èe imamo razredov preveè, nedobimo gostitev. Dobra stran Mo je v tem, da dobro reprezentiranajbolj pogoste vrednosti populacije in da nanj ne vplivajoskrajne vrednosti. Spreminja se, èe spreminjamo širino razredov. Jeedina ustrezna mera sr. vrednosti, kadar gre za diskontinuiranenize mer ali mere ugotovljene na nominalni lestvici. _Aritmetièna sredina (M, X, SV) ima poleg praktiènega pomena tudidoloèene prednosti pred ostalimi merami sr. vrednosti. Skoraj vsetehnike obdelave statistiènih podatkov se v psihološkem merjenjunanašajo na aritmetièno sredino. Da jo lahko raèunamo, morajobiti mere ugotovljene z intervalno ali racionalno lestvico,zahtevana pa je tudi predvidevana normalna porazdelitev. Raèunamo

Page 10: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

jo lahko iz surovih podatkov ali frekvenène distribucije.

1 NM = --- * E X N i=1 i

Iz frekvenènih distribucij se M izraèunava na 3 naèine: direktno,z uvedbo pomožnega znaka ali metodo kumulativ.

E f * X'1. M = ---------- N

M, ki jih raèunamo iz frekvenènih distribucij, bodo boljnatanène, kadar je i manjši. Za unimodalne in ne preveè asimetriène distribucije dobimo tudi pri veèjih i dovolj natanèno M.Pri leo asimetriènih distribucijah dobimo sistematièno premajhne,pri desno pa sistematièno prevelike M. Zato raje uporabljamodruge metode.Kadar uvedemo pomožni znak, ga oznaèimo z u in po potrebi z y. Vpoljubni razred distribucije postavimo vrednost tega znaka 0. Vrazrede vpišemo vrednosti (-1,-2... in +1,+2...). rezultat niodvisen od naše izbire izhodišèa. Frekvence v vsakem razredumnožimo z vrednostjo u in izraèunamo vsoto vseh produktov. Po temM izraèunamo na naslednji naèin:

E u * fM = X + i * --------- X - sredina razreda z u=0 0 N 0

Po metodi kumulativ izraèunamo M s pomoèjo naslednjega obrazca:

u u - vsota vseh kumuliranih vred-M = X + i * --- nosti do vkljuèno predzadnje 0 N X - sredina najvišjega razreda 0

Aritmetièna sredina izkoristi vse podatke, ki jih dobimo. Zaraditega ni primerna za populacijo, ki ni dovolj homogena.

1. Kadar na vse rezultate v distribuciji vplivamo z neko konstanto, se bo enako spremenila M.

1. x -> x+c 2. x -> x*c M -> M+c M -> M*c

2. Vsota odklonov vseh X od njihove M je enaka 0.

E (X - M) = 0 i

3. Vsota kvadratnih odklonov vseh X je od M minimalna.

2E (X - M) = min. i

S je rezultat splošnih vplivov, e pa rezoltat individualnih. Èeso e pozitivni, zvišajo X nad rezultat splošnih vplivov in obrat

Page 11: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

no. obièajno je vsota e enaka 0. Aritmetièna sredina vplivov vsehrezultatov X je rezultat splošnih vplivov.

X = S + e i i E X iE X = N * S S = -------- = M i N

Da bi lahko izraèunali skupno M iz veèih M, moramo imeti medsebojno homogenost vzorcev. Pripadati morajo isti populaciji posameznikov. Taki dajo iste statistiène mere, ki se med seboj razlikujejo le na podlagi sluèajnostnih faktorjev. Statistiène merepridobljene na nehomogenih populacijah se med seboj pomembnostatistièno razlikujejo. Ne smemo jih statistièno obdelovatiskupaj; s pomoèjo parametriènih metod deskriptivne statistike.Èe so vzorci enako moèni, dobimo njihovo skupno M s tem, da posamezne M seštejemo in delimo s številom vzorcev:

E M iM = ------ N

Èe so vzorci razliènega obsega, izraèunamo tehtano M tako, da privsaki delni populaciji njeno M pomnožimo s ponderjem, ki je enakštevilu enot delne populacije:

E N * M k kM = ----------- E N k

Strukturni odstotki (P%) so po svoji naravi tudi mere povpreèja.Tudi iz njih lahko pri veèih populacijah izraèunamo strukturne odstotke za celotno populacijo. Poznamo tudi strukturni delež(proporc).

E N * P % j jP% = ------------ E N j

fP% = --- * 100 N

Geometrièna sredina (GM) je definirana kot n-ti koren produktovvseh rezultatov. Najveèkrat jo uporabljamo kot mero hitrostisprememb; za oznaèitev spreminjanja vrednosti v èasovnih enotah.Narašèajo ali upadajo lahko za neko konstantno vrednost ali nekkonstanten odstotek.

n ____________________GM = -v x * x * x *...* x 1 2 3 n

1

Page 12: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

log GM = --- * E log X n i

GM lahko smiselno uporabimo le pri lestvicah, pri katerih nièelnatoèka ni arbitrarna (ima empirièni pomen). Odstotna stopnjaprirasta ali upada je pri zaporedjumer konstantna. Pri številihje pomembno, da so razmerja med dvema zaporednima številoma vnekem nizu konstantna. To število ni arbitrarno v primeru, kotudi nièelna toèka merske lestvice ni arbitrarna. V tem primerulahko opravimo samo transformacije, ki razmerja med števil nespremene.

Harmonièna sredina (HM) za n vrednosti števil je njihovo številodeljeno z vsoto njihovih reciproènih vrednosti. Uporabljamo jozlasti tam, kjer gre za izraèunavanje povpreène hitrosti.

nHM = ------- 1 E --- X i

Èe je prevožena razdalja konstantna, spreminja pa se èas, jepovpreèna hitrost enaka harmonièni sredini, kadar pa je èaskonstanten, spreminja pa se razdalja, pa aritmetièni sredini.

Mere razpršenosti (variacije)

Distribuirane rezultate lahko opišemo z mero centralne tendence.Še bolje jih opišejo mere razpršenosti - opisujejo variiranjeokrog nekega povpreèja (lahko je veèje ali manjše). Variacijanekega pojava je posledica neke tendence, ki je po smeri delovanja enaka kopièenju rezultatov okrog srednje vrednosti. Vrednostiposameznega znaka se zaradi individualnih vplivov odklanjajo odcentralne vrednosti. Z merjenjem variacije merimo moè individualnih vplivov. Poznamo veè mer variabilnosti: razmike (variacijski,delni...) in odklone (standardni...).

Razmiki

Variacijski razmik (VR) je enak razmiku med najveèjim innajmanjšim rezultatom v nizu plus ena. Predstavlja število možnihrezultatov.

VR = x - x + 1 max. min.

Je najbolj groba mera razpršenosti rezultatov. Odvisen je samo oddveh rezultatov, ki sta ekstremna. Kot mera razpršenosti je primajhnem vzorcu zelo nezanesljiv; tudi takrat, kadar nekaterirezultati niso bili doseženi. Variabilnost naj bi bila neodvisnaod velikosti populacije.Kvartilni razmik (QR) je razlika med 1. in 3. kvartilom. Zajemasrednjih 50% podatkov.

QR = Q - Q 3 1

Page 13: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

V primerjavi z VR je stabilnejši in zanesljivejši, ker nanj nevplivajo ekstremne vrednosti.Decilni razmik (DR) je enak razliki med 9. in 1. decilom (interdecil - interval med dvema deciloma). Zajema 80% vseh rezultatov.

DR = d - d 9 1

Odkloni

Kvartilni odklon (Q) je enak polovici kvartilnega razmika (razdalja: interkvartilni rang).

Q - Q 3 1Q = --------- 2

Je mera razdalje kvartilnih toèk od mediane. Dobro meri razporedrezultatov okrog sredine distribucije. Èe pridemo do rezulttov,ki so blizu skupaj, bo Q majhen. Èe je distribucija asimetrièna,potem razdalji med med 1. in 3. kvartilno toèko ter mediano nistaenaki. V tem primeru nam razdalji dasta podatek o odmiku odsimetrije. Èe prištejemo k vsakemu rezultatu konstanto, se Q nespremeni. Èe vse rezultate pomnožimo, se bo zveèal na C*Q.Povpreèni absolutni odklon (PO) upošteva vse rezultate. Raèunamoga ali od M ali od Me.

E (abs.(X - M)) iPO = ----------------- M N

E (abs.(X - Me)) iPO = ------------------- Me N

Po od aritmetiène sredine je povpreèje absolutnih vrednosti vsehodklonov od aritmetiène sredine, PO od mediane pa povpreèje vsehabsolutnih vrednosti odklonov mer od mediane.

2 * N * N X X v m v mPO = -------------- * ( ---- - ----) 2 N N N v m

N - število rezultatovN - št. rezultatov nad M vN - št. rezultatov pod M mX - vsota rezultatov nad M vX - vsota rezultatov pod M m

Page 14: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

V povpreèj se rezultati za PO odklanjajo od M.

S standardno deviacijo (G-sigma) merimo jakost vpliva indivisualnih faktorjev. Raèunamo jo, èe predpostavljamo normalno porazdelitev rezultatov merjenioh z intervalno lestvico. Lahko jo uporabimo za deskriptivno statistièno mero variabilnosti in pri nadaljni analizi merjenega pojava; tudi pri inferenèni statistiki.Tudi standardni odklon predstavlja povpreèek odklonov od meresrednje vrednosti.

2 E (X - M) 2 iG = ------------- N

Raèunamo jo lahko iz individualnih podatkov ali frekvenène distribucije.

1 2 2G = --- * E X - M N i 2 2 2 N * E X' - (E X')X' = X - C : G = --------------------- 2 N

Iz frekvenène distribucije jo lahko doloèimo na tri naèine:direktno, z uvedbo pomožnega znaka ali s pomoèjo kumulativ.1. direktno:

2 E f * (X' - M)G = ----------------- N

2. z uvedbo pomožnega znaka:

2 2 2 i 2 ( E f * u )G = ---- * ( E f * u - ------------- ) N N

u - pomožni znak

3. s pomoèjo kumulativ:

2 2 2 i uG = ---- * ( 2 * v + u - ---- ) N N

u - vsota kumuliranih frekvenc do vkljuèno predzadnjev - vsota kumulacij kumuliranih frekvenc do vkljuèno predzadnje

Zaradi grupiranja rezultatov prihaja pri intervalu, ki je veèjiod ena do napake. Ta pri izraèunavanju standardne deviacijedobiznaèilnosti sistematiène napake. Tako izraèunana standardna

Page 15: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

deviacija je vedno nekoliko veèja od svoje dejanske vrednosti. Toje zato, ker vzamemo sredino razreda kot reprezentanta vsehrezultatov v razredu. Èe je razredov veè kot 10, je ta napakaobièajno zanemarljiva. Èe jih je malo, moramo izraèunano standardno deviacijo korigirati z napako zaradi grupiranja. To naredimo s pomoèjo naslednjega obrazca:

2 2 2 iG = G - ---- Sheppardova korektura k 12

G - varianca iz frekvenène distribucijeG - korigirana varianca k

Omenjeni popravek upravièeno uporabljamo takrat, kadar je distribucija vsaj približno normalna.Populacijskih statistiènih mer ne raèunam iz populacije. v tenamene uporabljamo podatke zbrane na izbranih vzorcih. Takastatistièna mera je vedno le ocena parametra. Èe uporabimo varianco sluèajno izbranega vzorca za oceno variance v populaciji,dobimo boljšo oceno, èe delimo kvadrat vsote vseh odklonov rezultatov od aritmetiène sredine s številom rezultatov manj 1(število stpenj prostosti).

2 E ( X - M ) 2 iG = --------------- N - 1

Ta obrazec uporabljamo pri metodah inferenène statistike, insicer pri delu z majhnimi vzorci.Pri izraèunavanju variance najprej oblikujemo kvadrate odklonovod referenène toèke. Najprimernejša referenèna toèka jearitmetièna sredina. Èe želimo dobiti mero variabilnosti na vsehodklonih, nam varianca da najmanjšo možno vrednost oz. najmanjšimožni kvadrirani odklon. Ta metoda pri vsakem vzorcu izpolnjujekriterij uresnièitve vseh najmanjših kvadratov odklonov.

1. X -> X + C: G -> G

Èe prištejemo ali odštejemo vsakemu rezultatu isto konstanto, sevarianca oz. odklon ne spremeni.

2 2 22. X -> X * C: G -> C * G

Èe vsako individualno vrednost pomnožimo z isto konstanto, bonova varianca enaka stari pomnoženi s kvadratom konstante.Pri normalni porazdelitvi rezultatov je v intervalu M+/-G 68.27%vseh vrednosti, v intervalu M+/-2*G 95.45%, v M+/-3*G pa 99.37%vseh vrednosti.

Odnosi med meram v normalni distribuciji:G = 1.2533 * POG = 1.4826 * QPO = 0.7976 * GPO = 1.183 * Q

Page 16: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Q = 0.6745 * GQ = 0.845 * PO

Skupno variacijo iz delnih populacij lahko raèunamo le, èe popznamo vsa števila enot, aritmetiène sredine in variance posameznihdelnih populacij.

2 1 2 1 2G = --- * E N * G + --- * E N * (M - M) N k k N k k

2 2G = M + G G - na raèun razlik med skupinama 2 M M - na raèun individualnih razlik G

Skupna varianca iz varianc delnih populacij je enaka vsoti povpreèja variacij v delnih populacijah in variance delniharitmetiènih sredin. 1. del izvira iz variacije vrednosti vdelnih populacijah, 2. pa gre na raèun razlik med aritmetiènimisredinami v delnih populacijah. Velikost variance aritmetiènihsredin bo veèja, èe se aritmetiène sredine v posameznih populacijah bolj razlikujejo med seboj.

Koeficient variabilnosti (KV) je enak razmerju med standardnodeviacijo in aritmetièno sredino. Predstavlja odstotno vrednoststandardne deviacije z aritmetièno sredino kot osnovo.

GKV = 100 * --- M

Relativna mera variabilnosti nam pove, katera spremenljivka boljodstopa in v katerem primeru so individualne razlike veèje. Èeprimerjamo med seboj aritmetièno sredino in standardni odklon, jerezultat lažje predstavljiv. Pri testih znanja in uèinka nemoremo priti do natanène slike. To ne velja z afizikalne infiziološke teste, ker pri njih pridemo do absolutnih nièel.poveèanje aritmetiène sredine brez ustreznega poveèanja standardne deviacije spremeni koeficient variabilnosti. Zato se zdikoeficient variabilnosti zelo nestabilna mera variacije.Nièelna toèka je doloèena z najlažjmi nalogami. Èe dodajamo šelažje naloge, se to podre. Aritmetièna sredina nam pove, kolikoje neka skupina napredovala od doloèene arbitrarne vrenosti. Èe vtestu narašèa težavnost nalog, se ne spremeni le koeficientvariabilnosti, ampak tudi aritmetièna sredina. Koeficient variabilnosti je še najbolj primeren za primerjanje neke skupine naistem testu. Èe bi vzeli za mero odklona povpreèni absolutniodklon, bi dobili indeks odklona (variacije).

Binomska in normalna distribucija

Razvoj statistiène teorije se zaène v 17. stoletju ob iskanjuprincipov sluèajnih dogodkov. S tem se je ukvarjal zlasti Bernulli. V publikaciji Ars conjugandi že 1723 poda rešitve teh problemo. Primere statistiène aproksimacije išèejo zaèetek 18. stoletja(1*2*3*4*...), ker so zelo pomembne pri verjetnostnem raèunu.Danes lahko rešujemo probleme z naslednjimi strukturami:

Page 17: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

dogodek (e) se zgodi ali ne zgodi, e ima verjetnost (p), e ima svoj komplementarni dogodek (q = 1 - p), èe opazujemo n poskusov, izid enega ne vpliva na izide drugih, v nizu n poskusov je sluèajna spremenljivka x, pri kateri sezgodi dogodek e; x je diskretna spremenljivka.

P - verjetnost, da se bo pri n dogodkov zgodilo x istih rezultatov. 2 2n = 2: p + 2pq + q = 1

3 2 2 3n = 3: p + 3 * p * q + 3 * p * q + q = 1

Verjetnosti si sledijo kot èleni binoma, zato imenujemo te porazdelitve kot binomske. Z narašèanjem n postaja izraèunavanjeverjetnosti težavno.

n! n nK = --------------- = ( ) = ( ) n,x (n - x)! * x! x n - x

P - verjetnost, da se bo zgodil dogodek e pri n posk. x-krat. n,x

P - pri vseh primerih n,n

P - pri vseh primerih komplementarni dogodek n,0

nP = p n,n nP = q n,0

Èe se e dogodek zgodi pri x poskusih, se mora komplementarnizgoditi pri 1-x poskusih. Verjetnost, da se e ddogodek pri nposkusih zgodi x-krat, je:

x n-xp * q

n x n-xP = ( ) * p * q n,x x

Binomska distribucija že kaže lepo aproksimacijo zvonasti obliki.Èe bi šel n preko vseh meja, bi prišli do normalne krivulje.

Obrazec za normalno krivuljo so zasnovali že v 18. stoletju, natose izgubi in zopet ga odkrijejo v 19. stoletju.

-1 x - n 2 --- * ( ------- ) 1 2 su = ------------- * e

Page 18: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

_______ v 2 * PI * s

u - ordinata v toèki xn - (ni) aritmetièna sredina populacijes - standardna deviacija

Porazdelitev napak merjenja in ponovnih merjenj se zelo približanormalni krivulji. Ta opazovanja pripeljejo do teorije napak.Sprva se je normalna krivulja uporabljala v astronomiji, kasnejejo prenesejo tudi na druga podroèja. Menili so, da èlovekoveduševne in moralne znaèilnosti slede zakonitostim, ki sledenormalni krivulji; narava teži k povpreènemu èloveku. Normalnaporazdelitev je odvisna od mnogih spremenljivk, ki imajo enakovelik uèinek. Dobimo jo pri veèih merjenjih neselekcioniranepopulacije. Ne moremo ji pripisati narevne zakonitosti. Uporabljase le kot matematièno-statistièni model, ki ima doloèene zelougodne lastnosti in si z njim lahko pomagamo pri zbiranju, opisovanju in zakljuèevanju empirièno zbranih podatkov. Znak, ki gamerimo, se lahko zdi že sam po sebi enakomerno porazdeljen; lahkoda je bil instrument, s katerim smo merili, sestavljen tako, dadobimo normalno porazdelitev. Zato še ne moremo zakljuèevati, daje katerakoli znaèilnost že sama po sebi normalno porazdeljena.Normalno distribucijo lahko uporabimo kot model za porazdelitevrezultatov v populaciji, statistiènih mer, doloèevanje pogostostipojavljanja dogodka, kot pripomoèek za ugotavljanje verjetnosti.Kot model za porazdelitev rezultatov v populaciji lahko opisujeneskonèno populacijo opazovanj. Praviloma še ne moremo trditi, daje neka spremenljivka normalno porazdeljena. Preprièati se moramo, ali naša istribucija ne odstopa od normalne. Veliko številospremenljivk ne kaže normalne porazdelitve. Oblika distribucijeje pogosto odvisna od populacije.

Obrazec za normalno krivuljo nam daje gostoto verjetnosti zavrednosti, ki jo lahko zavzame pri X. Je simetrièna okrog aritmetiène sredine populacije (n). Tako imata vrednosti pri x+a in x-aisto gostoto verjetnosti. Razporeditev je unimodalna (vse meresredine v isti toèki). Standardni odklon je enak razdalji medaritmetièno sedino in prevojno toèko krivulje (2. odvod v tejtoèki je enak niè). Maksimum se nahaja pri aritmetièni sredini(1. odvod je enak niè). Z bližanjem x plus oz. minus neskonènostise gostota verjetnosti bliža nièli. Veliki odkloni od povpreèjaimajo neznatno verjetnost pojavljanja.Nimamo samo ene normalne distribucije. Njena lega na abscisi sespreminja v odvisnosti od aritmetiène sredine. Njena širina sespreminja s standardno deviacijo. Normalno krivuljo tako opišemo:N (aritmetièna sredina, standardna deviacija) oz. N (N,s).S pomoèjo linearne transformacije lahko poljubno normalno porazdelitev prepišemo v neko doloèeno krivuljo. S tem jo prevedemona skupni imenovalec in to nam omogoèa primerjanje. To transformacijo navadno opravimo tako, da za aritmetièno sredino vzamemovrednost niè, za standardno deviacijo pa vrednost ena. Za vsakoposamezno transformacijo pripišemo vrednost z. Ta je enak:

v populaciji: v vzorcu:

X - n X - M i i iz = -------- z = --------

Page 19: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

s G i

Tako odklon individualnih razlik izrazimo od aritmetiène sredinev enotah standardne deviacije. Tako nastane naslednja enaèbanormalne krivulje (s=1):

-1 2 --- * z 1 2u = --------- * e _______ V 2 * PI

Plošèina pod to normalno distribucijo je enaka 1. Ordinata jetako odvisna samo od z.

-1 x - n --- * ( ------- ) 1 2 sT (x) = -------------- * e _______ V 2 * PI * s

T (x) (fi od x) je gostota relativne frekvence za krivuljo pri x.

0 xF (x) = S T (x) * dx -oo

0F (x) je kumulativna relativna frekvenca pojavov do vrednostifunkcije x. Dejansko pomeni plošèino do te vrednosti.

0 +ooF (x) = S T (x) * dx = 1 -oo

Relativno frekvenco v konènem razmiku od ene do druge vrednostix-a lahko izraèunamo, èe poznamo funkcijo za relativno kumulativno frekvenco v normalni porazdelitvi.

x 0 2f (x < x < x ) = S T (x) * dx 1 2 x 1

S pomoèjo normalne distribucije lahko izraèunamo frekventost aliverjetnost nekega pojava. Standardizirano normalno porazdelitevpridružimo empirièni le zato, ker z njo lahko poišèemo nekatererazlage. Položaj rezultata je enak tako v standardni kot v empirièni normalni porazdelitvi. Tako lahko doloèimo, koliko rezultatov je pod oziroma nad danim rezultatom. Primerjamo lahko tudirezultate posameznika pri dveh testih.Èe želimo izvedeti, kolikoodstotkov neke vrste je manjših ali enakih x, vstavimo v obrazecza izraèun z vrednosti zgornjo mejo intervala in obratno. Zarešitev problema tega tipa potrebujemo rezultat, aritmetiènosredio in standardno deviacijo. Pri dveh distribucijah lahkoprimerjamo rezultate obeh skupin. z vrednost nam vedno pove,

Page 20: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

kolikšen odstotek nekih rezultatov se v normalni distribucijinahaja nad oz. pod danim rezultatom.

Pravilne distribucije so normalne in simetriène, nepravilne panesimetriène in kurtiène.Normalna distribucija je simetrièna, unimodalna in mezokurtièna.Nesimetriène se gostijo proti enemu izmed ekstremov; lahko soasimetriène v desno (gostijo na levi) oz. pozitivno asimetrièneali na levo (gostijo na desni) oz. negativno asimetriène. Èe jedistribucija konièasta, govorimo o leptokurtiènosti, èe pa jepoložna pa o platikurtiènosti. Po obliki je lahko distribucijatudi bimodalna, U ali J distribucija, pravokotna (rektangularna -frekvenca rezultatov je v vseh razredih enaka).Vzroki za nastop odklonov so zelo razlièni. Do asimetrije lahkopride zaradi nereprezentativnosti vzorca, prelahkih ali pretežkihtestov, lastnosti, ki ni normalno porazdeljena. Veèmodalno distribucijo lahko dobimo, kadar merimo lastnosti pri dveh razliènihskupinah, ki sta združeni v eno. Prihaja tudi do vpliva napak, kinastopajo zaradi konstrukcije testov.

Empirièno ugotovljena se od normalne razlikuje v tem, da je lahkoasimetrièna, zašiljena ali splošèena.Distribucija je lahko asimetrièna v levo (negativen odklon) ali vdesno (pozitiven odklon).

Surovi podatki: Distribucija: 3 3 E (X - M) E f * (X - M)As = ----------- As = --------------- 3 3 N * G N * G

3As = M z

Kadar je asimetrija manjša od niè, nanjo vplivajo negativniodkloni st. dev. moèneje kot pozitivni. Asimetrija je negativna.Asimetrija nam pove, kako zelo se naša distribucija odklanja odteoretiène normalne distribucije.

As = (Q + Q - 2 * Me) / (Q - Q ) 3 1 3 1

As = (d + d ) / 2 - Me 9 1

As = 3 * (M - Me) / G

iz lege centralnih vrednosti (M, Me in Mo) že lahko sklepamo,kakšno distribucijo imamo. Pri simetrièni so vse enake. Priasimetriji v desno je Mo najmanjši, M pa najveèja. Pri asimetrijiv levo je M najmanjša, Mo pa najveèji. Razdalja med Mo in Me jepribližno dvakrat veèja od razdalje med Me in M.Splošèenost (Spl) nam pove, koliko je distribucija splošèenanapram normalni. Èe je veèja od 0, je distribucija boljkonièasta, èe pa je manjša od niè, pa bolj splošèena od normalne.

Surovi podatki:

Page 21: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

4 E (X - M)Spl = ----------- - 3 4 N * G

1Spl = --- * 4 G 2 1 4 M 3 M 2 4 * ( --- * E X - 4 * --- * E X + 6 * --- * E X - 3 * M ) - 3 N N N

Distribucija:

4 E f * (X - M)Spl = --------------- - 3 4 N * G

4 E z 4Spl = ----- - 3 = M N z

Splošèenost omogoèa primerjavo distribucij med seboj.

Q - Q 3 1 QSpl = -------------- = ------- 2 * (d - d ) d - d 9 1 9 1

Normalna krivulja ima pri tej formuli splošèenost 0.263. Prikonièasti je veèja, pri splošèenih pa manjša od tega.

Odstopanje od normalne distribucije je lahko posledica vzorèenja,slabega testa, lastnosti merjenega pojava (ni normalna porazdelitev), vpliva napak (posldica testa in njegove uporabe).Èe je test prelahek ali pretežak za skupino testirancev, bodistribucija asimetrièna. Èe je prelahek, bo asimetrièna v desno,èe pretežak pa v levo.Vèasih merimo lastnosti, ki v populaciji niso normalno porazdeljene, a mi tega ne vemo. Nekateri faktorji so v tem primerumoènejši od drugih (obtežena kocka). Distribucija bo najmanjasimetrièna in konièasta na raèun kombinacij, ki dajejo prednostne rezultate. Take distribucije so na primer J; obnašanje vdružbi. Vzroki pojavljanja se zelo razlikujejo med seboj. Tudiselekcija in slabo izbrani testi lahko povzroèe J distribucijo.Asimetriène krivulje sreèamo v medicinski statistiki(umrljivost). Nenormalna U distribucija ima najveè elemento naekstremih. Dobimo jo pri heterogenih skupinah, v socialni psihologiji ali pri merjenju osebnostnih lastnosti.Test je lahko slabo sestavljen, ali pa pride do napak pri njego

Page 22: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

vem izvajanju. Tudi èasovna omejenost pri rešeanju je lahkofaktor, ki ne da normalne distribucije.

Transformacija podatkov

vsak test ima svojo mersko lestvico. Na rezultate vplivatežavnost nalog. Zato ne moremo primerjati rezultatov, ki jihdoseže posameznik na dveh testih ali skupina na enem.Transformacije so linearne ali nelinearne. Po linearnih se oblikadistribucije ne spremeni. Distribucija se samo pomakne vzdolžlestvice. Pri nelinearni transformaciji obliko distribucijenasilno spremenimo z normaliziranjem empirièno dobljene distribucije. Odnosi med testiranci niso veè ohranjeni.Pri z transformaciji je z rezultat odklon od aritmetiène sredinev enoti stendardne deviacije. To je dvakratna linearna transformacija. Pri transformaciji lahko upoštevamo tako M kot G ali pavsako posebej. z vrednost nam takoj pove, kakšen je položajtestiranca. Obièajno velja, da je testna vrednost enaka vsakiželjeni srednji vrednosti standardizacijskega vzorca plus željenastandardna deviacija standardizacijskega vzorca krat z.

X = M + G * z

McCallovo transvormacijo pogosteje imenujemo T transformacija. Jenelinearne vrste. Ima to lastnost, da porazdelitev, ki odstopa odnormalne, normalizira. Dobimo jo tako, da v distribuciji za vsakona sredino razreda kumulirano frekvenco doloèimo proporc. Natopoišèemo z vrednosti za vsak proporc. T vrednosti vsakega razredadobimo tako, da od 50 odštejemo 10 z in dobljeno vrednostzaokrožimo na celo število.

T = 50 - 10 * z

Spremeni se oblika distribucije. Treba je biti pozoren pri interpretaciji. Dobljene T vrednosti imajo aritmetièno sredino 50 instandardno deviacijo 10. Za direktno uporabo T transformacijemora biti distribucija že normalna.

Stanine (standard nine) transformacija je zasnovana na istemprincipu kot T transformacija. Njena lestvica je omejena na 9enot.Stanine vrednost: 1 4% 2 7% 3 12% 4 17% 5 20% 6 17% 7 12% 8 7% 9 4%

V psihometriji se najveèkrat uporabljajo linearne transformacije.Potekajo veèinoma prek z vrednosti.

1 1z = --- * X - --- * M G i G x x x

Page 23: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Standardizirani rezultati imajo negativne vrednosti in velikoštevilo decimalk. Dvakratno standardizacijo z vrednosti uporabimo, da bi surov rezultat lahko postavili na lestvico, ki že imadoloèeni aritmetièno sredino in standardno deviacijo.

žblj' - transformirani rezultat

G x'X' = --- * (X - M ) + M = M + z * G G i x x' x' x x' x

Za novo vrednost aritmetiène sredine najpogosteje izberemo 100ali 50, za novo vrednost standardne deviacije pa 10. Tako ima naprimer T lestvica 100 enot, velikost ene znaša eno desetinostandardne deviacije.

T = 10 * z + 50 i i

Lestvica zaobsega prevelik razpon, enota je proti standardnideviaciji zelo malhna.C lestvica ima 11 enot. Te zajemajo eno polovico standardnedeviacije. Obseg lestvice je šest standardnih deviacij,aritmetièna sredina je pet. Teoretièno obsega 5.5 standardnihdeviacij (od -2.75 do +2.75).

C = 5 + 2 * z i i

Èe dajo vrednosti z veèjo vrednost od 10 ali manjšo od 0, jihzaokrožimo nanju.C %10 1 Stamine dobimo s krajšanjem C vrednosti.9 3 Intrervala 10 in 9 ter 1 in 0 združimo.8 7 Stamine oznaèujemo razlièno. Znmanjša se7 12 možnost razlikovanja ekstremnih vrednos-6 17 ti. Numerièna vrednost stamine je:5 204 17 C = 5 + 2 * z3 12 i2 71 3 Vse enote veèje od 8.5 zaokrožimo na 90 1 in vse manjše od 1.5 na 1.Stan lestvica ima 10 enot, njena aritmetièna sredina je enaka5.5, standardna deviacija pa 0.5.

St = 2 * z + 5.5 i

Lestvica standardnih šolskih ocen ima razpon 6 standardnih deviacij in enoto veliko 1.2 standardne deviacioje. Spodnja in zgornjameja sta odprti. Aritmetièna sredina je navadno 3, spreminja seod ocenjevalca do ocenjevalca, prav tako nièelna toèka.Ocene: %5 3.54 243 452 24

Page 24: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

1 3.5

Transformacije so linearne in nelinearne. Nelinearne spremenijooblike distribucije in odnose med psamezniki. Èe vidimo medrazmiki pomemben vir informacij, ne smemo izvesti nelinearnetransformacije. Normalizacije nenormalnih porazdelitev so zahtevne, pride lahko do velikih napak. Pri nelinearni transformaciji velja veèina zakljuèkov le zanje same, ne tudi za prvotnevrednosti mer. T in Stanine transformaciji nista problematièni,kadar je originalna distribucija normalna.

Hi kvadrat porazdelitev

Imamo standardizirano normalno porazdelitev zaritmetièno sredino0 in standardno deviacijo 1. Kvadrat neke z vrednosti oznaèimokot hi kvadrat vrednost.

2 2X = z 1

Èe bi za nakljuèno izbrane z vrednosti ugotovili neskonèno velikohi kvadrat vrednosti, bi dobili neskonèno lestvico. Celotniploskvi porazdelitve pod to krivuljo pripišemo vrednost 1. Vrednost hi kvadrat nam pokaže verjetnost, s katyero bi se ta vrednost znašla v danem intervalu. Èe izberemo nakljuèni med sebojneodvisni z vrednosti, je hi kvadrat enak vsoti obeh.

2 2 2X = z + z 2 1 2

èe kvadriramo n z vrednosti in jih seštejemo, dobimo hi kvadratteh vrednosti.

2 2 2 2X = z + z + ... + z n 1 2 n

Hi kvadrat porazdelitve se med seboj razlikujejo po tem, daseštevamo razlièno število kvadratv z vrednosti.df je število stopenj prostosti. Pove nam, kakšno je število zvrednosti, ki jih mi lahko svobodno izberemo. Te pridejo v vsoto,ki sestavlja distribucijo hi kvadrat vrednosti. Z veèanjem df sedistribucija približuje normalni porazdelitvi. interval med dvemahi kvadrat vrednostima nam pove verjetnost, da se ta X vrednostznajde v tem intervalu.Srednja vrednost hi kvadrat porazdelitve z df=n je enaka df,standardna deviacija pa je enaka kvadratnemu korenu iz dveh df.Asimetrija je enaka kvadratnemu korenu iz 8/df. Neka hi kvadratvrednost, ik gre proti neskonènosti, je s pomoèjo obrazca povezana z z vrednostjo v standardni normalni porazdelitvi.:

2 X - df dfz = --------- df -> oo _______ V 2 * df

Page 25: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Aproksimacija, kadar je št. stopenj prostosti veèje ali enako 30: ____________M = V 2 * df - 1

G = 1 ___X = V 2 * X ___________ ____________z = V 2 * X * X - V 2 * df - 1

Èe pripada neka hi kvadrat distribucija z n stopnajami prostostineki hi kvadrat porazdelitvi z m stopnjami prostosti, in ta hikvadrat neki drugi hi kvadrat porazdelitvi, je vsota teh hikvadrat porazdelitev enaka hi kvadrat in njena df je enaka vsotin in m.Èe iz neke sluèajno porazdeljene spremenljivke z m=0 in G=1izberemo neko z vrednost, iz hi kvadrat distribucije z n stopnjami prostosti pa neko hi kvadrat vrednost, lahko definiramo tvrednost kot:

zt = ------- n _____ I 2 I X I I n I I --- V n

Èe oblikujemo neskonèno distribucijo teh koeficientov, dobimo tporazdelitev. Je bolj konièasta od normalne, je simetrièna,unimodalna s srednjo vrednostjo 0. Njena razpršitev (G) je enakakvadratnemu korenu iz n ulomljeno z n-2. Z veèanjem št. prostostipostaja podobna normalni.

M = 0 _________G = I n I I ------- V n - 2

Pri F porazdelitvi imamo dve stopnji prostosti. Imamo hi kvadrats n stopnjami prostosti in od nje neodvisno hi kvadrat z m stopnjami prostosti. Kvocient med obema hi kvadrat vrednostimapomnižen z obratno vrednostjo kvocienta med njenima stopnjamaprostosti daje F vrednosti.

2 X n mF = ---- * --- (n,m) 2 n X m

Odvisne so od dveh stopenj prostosti. F porazdelitve so kontinuirane, asimetriène, gredo od 0 do neskonènosti.

2

Page 26: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

F = t (1,n) n

Korelacije

Pogosto je potrebno ugotavljati odnos med razliènimi sposobnostmi; ali so povezane ali neodvisne.Kjer je odnos med dvema variablama linearen, izrazimo korelacijos produkt koeficient korelacijskim koeficientom (r). Ponekod jeodnos stalen; polmer in obseg kroga (o=2*PI*r). v teh odnosih sez eno sprremenljivko spremeni tudi druga. Èe imajo vsi testirancina dveh razliènih testih enak položaj, je odnos med merjenimaspremenljivkama popoln in r=1.

Korelacija je lahko mera odnosa, ujemanja med rangi ali razmerja.Mera odnosa: kadar visoke vrednosti ene spremenljivke odgovarjajovisokim vrednostim druge, je korelacija blizu +1, kadar pa visokevrednosti ene spremenljivke odgovarjajo nizkim druge, je korelacija blizu -1. Pozitivna vrednost oznaèuje pozitivno povezanost,negativna pa negativno.Pri korelaciji kot meri ujemanja med rangi primerjamo rangetestirancev na razliènih testih. Pozitivna korelacija nam pove,da je velik del ene variable povezan z velikim delonm druge,negativna pa, da je velik del ene variable povezan z majhnimdelom druge. Glede na stopnjo variable ugotavljamo moè povezanosti.

Produkt moment korelacijski koeficient je imenovan tudi Bravais-Pearsonov koeficient. Kaže nam, koliko je sprememba ene spremenljivke poveazana s spremembo druge. Pri tem so produkti odklonovmera soglasja med individualnimi vrednostmi spremenljivk. Èe jesoglasje popolno, ima vsota produktov najveèjo vrednost. Vplivudrugaènih enot se izognemo z deljenjem s standardno deviacijo.Koeficient je povpreèni produkt standardne deviacije rezultatov xin y vrednosti. je mera odnosa, ki je konstantna za dano vrstopodatkov. Pearsonov r lahko raèunamo samo pod doloèenimi pogoji:lestvica merjenja mora biti intervalna ali racionalna, distribucija mora biti simetrièna, povezanost med spremenljivkama morabiti linearna. Raèunamo lahko tudikoeficient eta kvadrat. Èe staz r enaka, je korelacija linearna, sicer je eta vedno veèji.

X - vrednosti 1. spremenljivkeY - vrednosti 2. spremenljivkex - odklon danega X od aritmetiène sredine vseh vrednosti Xy - odklon danega Y od aritmetiène sredine vseh vrednosti Y

E ( x * y )r = ------------- xy N * G * G X Y

E z * z X Yr = ---------- xy N

E ( x * y )r = --------------------- xy __________________

Page 27: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

I 2 2 V ( E x ) * ( E y )

E ( x * y )C = ------------- N

Cr = ------- xy G * G X Y

Kovarianca (C ali c) je povpreèna vrednost produktov odklonovvariabel od njihovih aritmetiènih sredin.

N * E (X * Y) - (E X) * (E Y)r = ------------------------------------------ xy ________________________________________ I 2 2 2 2 V (N * E X - (E X) ) * (N * E Y - (E Y) )

Determinacijski koeficient nam pove, koliko faktorjev je skupnih:

2r xy

Povezanst med spremenljivkami, ki niso bile izmerjene na intervalni ali racionalni lestvici, izraèunamo drugaèe.Pri normalnem dihotomnem merjenju izrazimo le prisotnost aliodsotnost znaka. To navadno šifriramo z 0 in 1. Govorimo o dvehvrstah dihotomije; naravni in umetni. Pri naravni v osnovi spremenljivke ni kontinuuma. Umetna ima za osnovo normalno vrsto. Vtem primeru predpostavljamo, da bi z izdelavo boljših, boljkontinuiranih tehnik, dobili bolj natanène rezultate. Rezultate vtem primeru razdelimo na tiste pod in tiste nad aritmetiènosredino. Merski inštrument, ki ga uporabljamo, nam daje samodihotomne mere.Pri ordinalnem merjenju nam podatki predstavljajo ranžirno vrston zaporednih rangov. Ugotovimo jih lahko na njihovi lestvici, alipa mere, do katerih smo prišli pri merjenju, pretvorimo v range.Pri intervalnem in razmernostnem merjenju imajo razdalje že tudiempirièni pomen. Èe je merjenje intervalno, ima arbitrarno nièlo.Èe želimo korelirati dve spremenljivki med seboj, morata bitimerjeni vsaj na intervalnem nivoju, normalno porazdeljeni inlinearno povezani, da ju lahko koreliramo s produkt momentom.

x narav.dihotomna umet.dihot. ordinalna interv.,razm. nar.dih. FIy umet.dih. r (tet) ordinalna r (rb) RO ali TAU int.,raz. r (pb) r (b) r

FI, r (pb) in RO so specialni obrazci, ki so algebrajièno izvedljivi iz produkt moment korelacijskega koeficienta.r (tet) in r (b) sta korelacijska koeficienta, ki dajeta oceno zaprodukt moment korelacijski koeficient, na katerem je zasnovan,ne moremo pa ga izpeljati iz njega.r (rb) in THETA nista ne algebrajsko in ne konceptualno povezana

Page 28: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

s produkt moment korelacijskim koeficientom.Èe je x naravno, y pa umetno dihotomizirana spremenljivka znormalno porazdelitvijo v osnovi, je najbolj smiselno, da pozabimo na predpostavko o normalni porazdelitvi y in raèunamo FIkoeficient.Èe je x umetno dihotimizirana, y pa ordinalno merjena spremenljivka, raèunamo rang biserialni (r (rb)) koeficient.

Pri Fi koeficientu sta obe spremenljivki normalno dihotomnoodmerjeni; imata vrednosti 1 in 0.

p - p * p xy x yFI = ------------------- ________________ I p * q * p * q V x x y y

p - proporc oseb, ki imajo toèkovno vrednost x enako 1 xq - proporc oseb, ki imajo toèkovno vrednost x enako 0 xp - proporc oseb, ki imajo toèkovno vrednost y enako 1 yq - proporc oseb, ki imajo toèkovno vrednost y enako 0 yp - proporc oseb, ki imajo pri obeh spremenljivkah toèkovno xy vrednost enako 1

Podatke lahko uredimo tudi v kontingenèno 2*2 tabelo.

x 1 0 Ey 0 a b a+b 1 c d c+d E a+c b+d a+b+c+d

b * c - a * dFI = -------------------------- ________________________ V (a+b)*(a+c)*(b+d)*(c+d)

b+d a+cp = ----- q = ----- x N x N

a+b c+dp = ----- q = ----- y N y N

bp = --- xy N

Kadar spremenljivke dihotomiziramo, jih razdelimo na tiste nad intiste pod mediano...

+ ->Me a b

Page 29: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

<Me c d

Ta postopek se veèkrat uporablja pri psihometriji.FI bo maksimalno vrednost dosegel, kadar bo p (x) enak p(y), oz.takrat, kadar bo a+b enako b+d (a in d enaki 0). Minimalno vrednost bo dosegel, kadar bo a+c enako a+b (c in b enaki 0), oz.kadar bo q(x) enako p(y).

Toèkovno biserialni koeficient korelacije - r (pb) primerjanaravno diohotomno in intervalno ali razmernostno merjeno spremenljivko. Raèunamo ga na razliène naèine. _ _ X - X __________ 1 0 I n * nr = -------- * I 1 0 pb G I--------- x V n*(n-1) _ _ X - X ____________ 1 I n * nr = -------- * I 1 pb G I----------- x I n * (n-1) V 0 _ _ X - X ____________ 0 I n * nr = -------- * I 0 pb G I----------- x I n * (n-1) V 1 _ _ X - X 1 ___r = ------- * I p pb G I--- x V q

M - M p q ______r = -------- * V p * q pb G t

M - M p t _____r = -------- * I p pb G I--- t V t_X - aritmetièna sredina x pri osebah, ki imajo y = 1_1X - aritmetièna sredina x pri osebah, ki imajo y = 0_0X - aritmetièna sredina vseh xn - število oseb z y = 1 1n - število oseb z y = 0 0n - število vseh oseb

Page 30: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

p = n(1)/Nq = n(0)/NM - aritmetièna sredina višjih vrednosti pM - aritmetièna sredina nižjih vrednosti qt - vsi testni rezultatiG - standardna deviacija vseh testnih rezultatov t

Biserialni koeficient korelacije - r(b) raèunamo, kadar je enaspremenljivka vsaj intervalno merjena in vsaj približno normalnoporazdeljena, druga pa umetno dihotomizirana, v osnovi zvezna innormalno porazdeljena, s prvo v linearni zvezi.

M - M n 1 0 1r = ------- * ------------------- b G ____________ x u * V n * (n - 1)

u - ordinata v standardizirani normalni distribuciji nad kateroleži 100*n(1)/n% plošèine pod normalno krivuljo.

M - M 1 0 p * qr = -------- * ------- G u x

M - M p q p * qr = --------- * ------- b G u t

Odnos med r(b) in r(pb):

____________ V n(1) * n(0)r = --------------- * r b u * n pb

u * nr = -------------- * r pb ____________ b V n(1) * n(0)

Tetratolièni koeficient korelacije - r(t) raèunamo, kadar sta obespremenljivki ordinalni, podani z dvema vrednostima, kontinuirani, linearno povezani, normalno porazdeljeni.

2 X * X' * r a*d - b*c t----------- = r + ------------- 2 t 2 N * z * z'

Page 31: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

X, X' - sigma razdelitev od sredine do toèke, ki razmejuje proporc obeh kategorijz, z' - višina skrajnih ordinat v obeh poljih

x 0 1y 1 a b 0 c d

_______ V a * dr = cos (PI * ---------------) cos PI _____ _____ V a*d + V c*d

_______ V a * dr = cos (180 * ---------------) cos PI _____ _____ V a*d + V c*d

Èe sta b in c enaka 0, bo korelacija popolnoma negativna, èe pasta enaka 0 a in d, bo korelacija popolna. èe zveze med spremenljivkama ni, bo b*a anako a*d, korelacija bo enaka 0.Na ta naèin dobimo dober približek, èe dihotomiziramo s pomoèjomediane. Teh obrazcev ne moremo dobiti, kadar sta (a+c)/N ali(b=d)/N veèja od 0.7 ali manjša od 0.3.Spearmanov koeficient korelacije - r(s) ali RO je v principuprodukt moment korelacija med prvimi N števili.

2 6 * E dr = 1 - ---------- s N*N*(N-1)

d ali D - razlika mede rangoma v prvi in drugi variabli za vsakega posameznika.

Ta obrazec izpeljemo iz obrazca za produkt moment korelacijo.Uporabljamo ga, èe rangi niso vezani. Rangkorelacijski koeficientje uporaben pri ordinalnih podatkih ali pri intervalnih, katerihbivariantna oblika ne dovoljuje izraèunavanja produkt momentkorelacije.

kendallov koeficient - TAU ne zahteva normalne porazdelitve inenakih razdalj med števili.Eno izmed spremenljivk uredimo po rangih. Preštejemo št., ki sepri rangih 2. spremenljivke pojavljajo v nenaravnem in naravnemvrstnem redu. Razliko med njimi oznaèimo z S. TAU je razmerje medto vsoto in maksimalno možno vsoto.

STAU = ---- S = N * (N-1) / 2 S max max

Kendallov in rang korelacijski koeficient med seboj nista primerljiva. Tudi Kendallov zahteva nevezane range.

Rang biserialni koeficient - r(rb) ouporabljamo, kadar je x

Page 32: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

naravno dihotomizirana, y pa odmerjena z ordinalno lestvico. Je vtesni zvezi s Kendallovim koeficientom.

P - Qr = ------- rb n * n 0 1

P - št. ujemanj (št. spremenljivk z x=0, ki so po rangu nadspremenljivkami z x=1)Q - št. zamenjav (št. spremenljivk z x=1, ki so po rangu nadspremenljivkami z x=0)

Kadar nimamo vezanih rangov, bi vrednost rang biserialnega koeficienta lahko ugotovili:

2r = --- * (M - M ) rb n 0 1

n - število parov merM(0,1) - aritmetièna sredina tistih spremenljivk, ki imajo vdihotomizirani variabli vrednost 0 oz. 1

Regresija

V psihologiji skušamo predvideti ravnanje v novih situacijah.Taka napovedovanja so možna le, kadar poznamo odnos med znakompreiktorjem in kriterijem. kot izraz za ta odns uporabljamopraviloma korelacijski koeficient. Predpostavljamo, da obstajamed predikatorjem in kriterijem linearna zveza. Z vrednostjopredikatorja lahko napovedujemo vrednost kriterija. Natanènostpredvidevanja je v veliki meri odvisna od tega, kako velika jekorelacija med prediktorjem in kriterijem.

Najpreprostejši odnos med linearno merjenima spremenljivkama jelinearen:

y = b*x + a

Premica, ki oznaèuje funkcionalni odnos med dvema variablama, jeregresijska. a in b sta regresijski konstanti.Z regresijskim raèunom skušamo najti premico, ki najbolje opišekorelacijske toèke.Y-Y' nam pove, kako velika je napaka napovedi, èe vzamemo nekodoloèeno premico kot regresijsko. Doloèiti moramo regresijskopremico, ki najbolje predstavlja trend vseh toèk. Vsota napakvseh napovedi naj bi bila po možnosti èim manjša. Obstajajoštevilne premice, za katere je vsota odklonov enaka niè. Zatoizberemo kot kriterij za regresijsko premico vsoto kvadriranihodklonov. 2E (Y _ Y') = min i i

Šele to, da od regresijske premice jemljemo pravokotne odklone,nam da optimalno regresijsko premico; ki minimalizira vsotokvadratnih napak napovedi.

Page 33: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Y'= b * X + a i i

a = M - b * M y x

G yb = r * ---- xy G x

Y' = b * X + a yx yx

X' = b * X + a xy xy

Obe regresijski premici se sekata v koordinatai z aritmetiènimsredinama. z vrednosti standardiziranih vrednosti se sekata vizhodišèu koordinatnega sistema. Korelacija je enaka 0, kadar staregresijski premici pravokotni.

G y _ _Y' = r * ---- * (X - X) + Y xy G x

Y' je napovedana vrednost udeleženca v kriteriju Y. X je doseženavrednost na 1. spremenljivki.

G yy' = r * ---- * x xy G x

z' = r * z y xy x

Èe je korelacija poppolna, so napovedane z vrednosti enake tistim, ki smo jih uporabili za napovedovanje. Pri negativni korelaciji -1 imajo z vrednosti numerièno enake vrednosti, a razliènepredznake. __________r = V b * b xy xy yx

Korelacijski koeficient je geometrièna sredina obeh regresijskihkoeficientov.

Kadar napovedujemo y iz znanih x vrednosti, govorimo o regresijiz y na x.

G yb = r * ---- yx xy G x

Page 34: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

a = M - b * M yx y yx x

Y'= b * X + a yx yx

G yy'= r * ---- * x xy G x

z'= r * z y xy x

Regresija z x na y:

G xb = r * ---- xy xy G y

a = M - b * M xy x xy y

X'= b * Y + a xy xy

G xx'= r * ---- * y xy G y

z'= r * z x xy y

Tud na napoved se veže napaka (napaka napovedi). Odkloneresniènih vrednosti od napovedanih oznaèimo z e.

e = Y - Y' napaka napovedi

e = Y - b * X - a

e raste z nenatanènostjo naših napovedi. Kot mero obremenitvenapovedi z napako uporabimo standardno deviacijo n napak napovedi. 2 2 E eG = ----- e N 2 2 E (y - y')G = ------------ e N _____________G = G * V 1 - r * r y iz x

Page 35: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

e(yx) y xy xy

_____________G = G * V 1 - r * r x iz y e(xy) x xy xy

Standardni odklon nam pri normalni porazdelitvi da informacijo otem, koliko % se nahaja v mejah standardne deviacije.

Pri neki bivariantni normalni porazdelitvi x in y spremenljivk sex in y spremenljivke same zase porazdele normalno. Pri vsakiposamezni x vrednosti se ustrezne y vrednosti porazdele z normalno varianco G(yx) na kvadrat.Pri tem je aritmetièna sredina napovedana vrednost y, standardnanapaka napovedi pa standardna deviacija. G(yx) so za vse x enake.Èe ugotovimo za vsako x vrednost aritmetièno sredino y, se tenahajajo na neki premici; regresijski premici.Te zahteve so izpolnjene, èe imamo bilateralno normalno pporazdelitev. Pri vsakem poljubnem x je porazdelitev y normalna instandardni odklon je enak standardni napaki napovedi. Standardnanapka napovedi je v tem primeru neodvisna od x. Približno 95% yse nahaja v intervalu y' +/- 1.96 * G(e); interval zaupanja. Vintervalu y' +/- 2.58 G(e) se nahaja 99%.

r(xy) je mera korespondence z dveh vidikov. Raèunamo ga zato, daugotovimo, ali obstaja nesluèajna korelacija med dvema spremenljivkama in kakšna je. Korelacija je obièajno pomembna, kadar senahaja med +/- 0.70 in+/- 1. Nizka je navadno, kadar se nahajamed +/-0.20 in +/- 0.40. Nepomembna je obièajno med 0 in +/-0.20. Pri tem doloèanju pomembnosti je treba biti previden. Opomembnosti korelacije moramo odloèati na podlagi narave spremenljivk, pomembnosti korelacijskega koeficienta, numerusa,variabilnosti skupin, koeficientov merskih instrumentov,namena... Standardna napaka korelacijskega koeficienta r(xy) -G(r) nam pove,, s kakšno natanènostjo lahko ocenimo nek individualni rezultat, èe poznamo eno njegovo vrednost.Koeficient determinacije (d) nam pove, kolikšen del variance vodvisni spremenljivki lahko pojasnimo z delovanjem istih faktorjev, ki pogojujejo variabilnost v neodvisni spremenljivki.

2d = r xy

Èe ga množimo s 100, nam da odstotek pojasnjene variance. Nepojasnjena je standardna napaka ocene. Z narašèanjem koeficientakorelacije raste koeficient determinacije v obliki parabole.Koeficient alienacije (k) je enak: _____________k = V 1 - r * r xy xy

Krivulja, ki kaže, kako se z narašèanjem koeficienta korelacijezmnjšuje koeficient alienacije izgleda kot del krožnice.Indeks uèinkovitosti napovedi (E) je enak: _____________E = 100 * ( 1 - V 1 - r * r ) xy xy

Pove nam, kolikšno je v % zmanjšanje napake napovedi v primerjavi

Page 36: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

s slepim ugibanjem.

Ponovitev

S korelacijo opazujemo soodvisnost oz. sovariiranje pojavov. Èesta dva pojava v soodvisnosti, kažejo elementi v grafu nekopravilno razporejenost. Analiza sovariranja (korelacije) je nadeskriptivnem nivoju. LAhko jo delamo z analizo grafov, a ta ninajbolj primerna. Zanima nas, kako tesno sta povezani dve variabli.

E z * z x yr = --------- xy N - 1

E (X - M ) * (Y - M ) x yr = --------------------- (N - 1) * G * G x y

N * E X * Y - E X * E Yr = ------------------------------------------ ________________________________________ I 2 2 2 2 V (N * E X - (E X) ) * (N * E Y - (E X) )

Pri oceni korelacijskega koeficienta lahko pride do napak zaradipodvzorcev. Zato je treba pregledati grafièe odnos med variablami, ker morda nastopajo intervenirajoèe variable.

Korelacijska analiza išèe odnose. na osnovi teh skušamo napovedovati vrednost (obnašanje) ene variable na osnovi vrednosti druge.Tako interpolacija napoveduje znotraj znanih podatkov, ekstrapolacija pa zunaj njih. Predvsem ekstrapolacija zahteva izraèunregresijske premice. Za obe je potrebna doloèena zanesljivostpodatkov. Znotraj psiholoških metod je obièajna interpolacija.Do regresijske premice pridemo z matematièno metodo najmanjšihkvadratov.

Y = b * X - a

Vso variabilnost pri tem zreduciramo na eno premico.

C E X * Y - (E X * E Y)/N xyb = ------------------------- = ----- yx 2 2 G E X - (E X) /N x

E Y - b * E X yxa = ---------------- yx N

Kovarianca nam prikaže kovariranje dveh variabel. Regresijskopremico lahko napeljemop skozi toèko, v kateri sta M obeh variabel, in toèko, kjer seka os y. Regresijski premici se z veèanjem

Page 37: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

korelacije bližata ena drugi; kot med njima se manjša.

G G y xb = r * ---- b = r * ---- yx G G x y 2r = b * b xy yx

z'= r * z x y

z'= r * z y x

Pri napovedi se zgodi doloèena napaka, ki je odvisna od tesnostizveze, ki jo izraža korelacijski koeficient. Tej napaki pravimoresidual. Residuali variirajo. Povpreèna napaka je enaka 0. Zatoto napako izražamo z varianco residuala oz. st.napako ocenetoènosti napovedi.

2 E ( Y - Y')G = ------------- y,x N - 1

2 E ( X - X')G = ------------- x,y N - 1

Parcialna korelacija je uporabljana, kadar skušamo iz korelacijemed dvema variablama izloèiti vpliv drugih.

r - r * r 12 13 23r = --------------------------- r med 1 in 2 z izloè.3 12,3 ________________________ I 2 2 V ( 1 - r ) * ( 1 - r ) 13 23

r - r * r 12,4 13,4 23,4r = ------------------------------ r med 1 in 2 z izloè.3 in 4 12,34 __________________________ I 2 2 V ( 1 - r ) * ( 1 - r ) 13,4 23,4

Multipla korelacija skuša pojasniti dogajanje na eni variabli zdogajanjem na veèjem št. drugih variabel. Tako je napoved lahkobolj toèna. Odnos, ki ga apliciramo, je linearen. Hitro pridemodo zelo visokih korelacijskih koeficientov. Zanimivo postane, vkolikšni meri posamezna variabla doprinaša k vrednosti kriterijske variable.

Page 38: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Y' = a + b * X + b * X + ..... + b * X 1 1 2 2 n n

z' = BETA * z + BETA * z 1 2 2 3 3

r - r * r 12 23 13BETA = --------------- 2 2 1 - r 23

r - r * r 13 12 23BETA = --------------- 3 2 1 - r 23

Multipla analiza je 1. multivariantna statistièna tehnika.Izraèunamo lahko prostorsko regresijsko premico.

Pomembno je ugotavljanje statistiène pomembnosti korelacije. Èeželimo koeficient normalizirati, ga normaliziramo prek Fechnerjeve z transformacije.

1 1z = --- * ln (1 + r) - --- * ln (1-r) r 2 2

1G = --------- z _______ r V N - 3

Uporabljamo jih, kadar želimo ugotoviti interval zaupanja v r,kadar dobljeni parameter dobimo iz vzorca in ne populacije. Naosnovi podatkov parametrov vzorca skušamo doloèiti interval, vkaterem se bodo nahajali parametri populacije (interval zaupanjaparametra). Napovemo standardno napako ocene parametra vzorca.Pri vzorèenju namreè potegnemo iz populacije vzorce in parametriteh se razlikujejo od populacijiskih.Za korelacijo odèitamo ali izraèunamo Fisherjevo z vrednost.Izraèunamo standardno dev. te vrednosti in jo množimo z z, dadobimo interval zaupanja v r.

Statistièno pomembnost r dobimo z t vzorèno distribucijo. ____________ I N - 2t = r * I ----------- SS = df = N - 2 V 1 - r * r

To je distribucija vseh možnih r v vzorcih neke populacije. Jesimetrièna in podobna normalno. Èe je vrednost t veèja odkritiène vrednosti v tabelah, je r pomemben.Išèemo lahko tudi statistièno pomembno razliko med dvema r.Pomembnost razlike preverjamo prek z distribucije.

z - z

Page 39: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

r(1) r(2)z = ----------------------------------- ________________________________ V 1 / (N(1) - 3) + 1 / (N(2) - 3)

Pri tej distribuciji pomenijo kritiène vrednosti kritiène vrednosti norm. distr. Èe je z veèji od kritiène vrednosti v tabelah,je razlika pomembna.Za korelirane podatke raèunamo statistièno pomembnost razlik ponaslednji formuli: _____________________ (r - r ) * V (N - 3) * (1 + r ) 12 13 23t = ----------------------------------------------- ___________________________________________ I 2 2 2 V 2 * (1 - r - r - r + 2 * r * r * r ) 12 13 23 12 13 23

Èe je dobljeni t veèji od tistega iz tabel, pomembnost velja.

Na dveh variablah na ordinalnem nivoju raèunamo rang korelacije.Spearmanov postopek je poseben postopek produkt moment korelacije. 2 6 * E dRO = 1 - ----------------- N * (N * N - 1)

Poseben primer so vezani rangi. Tako pride namreè do doloèenegazamika oz. pristranosti.

2 6 * E (d + T(x) + T(y))RO = 1 - ------------------------- k N * (N * N - 1)

3 E (t -t)T(x) oz. T(y) = ---------- 12t - število vrednosti v vezanem rangu.

Pomembnost RO do N = 10 preverjamo v posebnih tabelah, nad N = 10pa uporabimo obrazec t distribucije: _______________ I N - 2t = RO * I ------------- SS = df = N - 1 V 1 - RO * RO

Kendallov TAU je podoben Spearmanovemu postorku. Podatki sourejeni po eni veriabli, iz neurejenosti povezav po drugi ugotovimo odnos. Vedno rangiramo od nižje k višji vrednosti inštejemo naravna (+1) in nenaravna zaporedja (-1).

S S - št. naravnih zaporedijTAU = ----- S = N*(N - 1)/2 - št. možnih zap. S max max

Page 40: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Pri vezanih rangih na 1. variabli se zaporedje vrednoti z 0, na2. variabli pa pišemo povpreèni rang. Ta TAU je po tem:

STAU = ------------------------------------------------ ______________________________________________ V N/2 * (N - 1) - T(x) * (N/2 * (N - 1) - U(y)

T(x) = 1/2 * E (u * (u - 1)) u, t - vrednost rangaU(y) = 1/2 * E (t * (t - 1))

Statistièna pomembnost TAU:

abs.(S) - 1 N * (N - 1) * (2 * N + 5)z = ------------- G = --------------------------- G 18

RO uporabljamo, kadar direktno rangiramo, TAU pa, kadar nekenižje vrednosti pretvaramo na ordinalni nivo (niz vrednosti vrange).

Pri veèjem št. ranžirnih vrst uporabljamo Kendallov koeficientkonkordance w.

S = m * (N + 1)/2 N - št. razliènih rangov 2 m - št. ranžirnih vrstS = E (R - M ) j R

2 2 m * (N - N)S = ------------- max 12

Sw = ----- S max

Èe so rangi vezani, od S(max) odštejemo T: 3 E (t - t)T = ----------- 12

Statistièno pomembnost navadno odèitamo iz Friedmanovih tabel.

Korelacije nominalnih vrednosti raèunamo s koeficientom kontingence C in FI koeficientom.

2 2 (f(e) - f(t))X = E --------------- f(t)

_________ _______ I 2 I k - 1

Page 41: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

I X C = I -----C = I ------- max V k I 2 ______ V N + X I 1 k = I ---- V RC RC - število stolpcev oz. tabel

C raèunamo samo iz simetriènih tabel.

FI se uporablja samo za 2*2 tabele. ______ I 2 I XFI = I ---- V N

B * C - A * DFI = ------------------------------------------ _______________________________________ V (A + B) * (C + D) * (B + D) * (A + C)

0 11 A B0 C D

p - p * p xy x yFI = ------------------ _______________ I p * q * p * q V x x y y

Poliserialni koeficienti korelacije se uporabljajo, kadarraèunamo korelacijo med dvema tipoma variabel.

Point biserialni korelacijski koef. raèunamo na intervalni innominalno dihotomni variabli. Dobimo ga po klasiènem obrazcu zaprodukt moment. _ _ X X p - q _______r = ---------- * V q * p pbi G t

p,q - proporca št. primerov v obeh razr. dih. var. _____________________ I N - 2t - r * I ------------------- SS = df = N - 2 pbi V 1 - r(pbi) * r(pbi)

Z x je možna perfektna predikcija na y, èe se p in q ne prekrivata, z y na x pa perfektna predikcija ni mogoèa.Biserialni koef. predpostavlja, da je dihotomna var. nasilnodihotomizirana. _ _ X - X p q p * q

Page 42: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

r = -------- * ------- y - vrednost p v tabelah bi G y t

_ _ X - X p t pr = -------- * --- bi G y t ________ 1 I p - qG = --- * I ------- r(bi) y V N

Tetrakolièni koef. kor. uporabljamo, kadar sta obe variablinasilno dihotom. in imata normalno porazdelitev. Giblje se med+/- 1.

180r = cos ( ------------------------- ) t __________________ 1 + V (B * C) / (A * D)

____________________________ 1 I p(i) * q(i) * p(j) * q(j)G = ------- * I --------------------------- r(t) Y * Y V N i j

Kadar imamo kombinirano intervalno in lahko tudi nominalno variablo, uporabljamo eta kvadrat koef. _ 2 E E (Y - Y ) 2 ij j3 = 1 - ---------------- _ 2 E (Y - Y) ij

Statistièno pomembnst spoznavamo prek F distribucije.

Verjetnost

Verjetnost je definirana z vrednostmi od 0 do 1. 0 pomeni absolutno neverjetnost, 1 pa absolutno verjetnost. Poznamo subjektivno, matematièno in empirièno (statistièno) verjetnost.Pri subjektivni verjetnosti vedno obstaja še en izhod. Pri maematièni verjetnosti govorimo o izbranem primeru med ostalimiprimeri. Empirièna verjetnostje relativna verjetnost dogodka.

Binomska distribucija je definirana z binomskimi izhodi veèjegašt. dogodkov. Verjetnost dogodka se definira z: n(p + q) n - št. binarnih dogodkov

Pascalov trikotnik doloèa ulomek, ki nam pove verjetnost nekegadogodka. Z njim definiramo verjetne izhode. Možno število izhodovje število dogodkov + 1. Za simetrièno binomsko distribucijo,

Page 43: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

kjer je p enak q, velja:

M = n/2G = n/4As = 0Spl=-2/n

Vzorèenje

Vzorèenje je vedno sukcesiven proces, kjer z definiranjem posameznih stopenj skušamo dobiti vzorec, ki èim bolj odslikavapopulacijo; njegovi parametri ne odstopajo bistveno od populacijskih.Da bi validirali naèin vzorèenja, izbrani vzorec razdelimo na dvapodvzorca. Èe je bil naèin vzorèenja korekten, razlika med podvzorcema ne bo velika. Razliko med obema M oznaèimo z d in izrazimo v enotah ene izmed obeh G. Odstotek prekrivanja distribucijobeh podvzorcev, da lahko govorimo o isti skupini, je zelovprašljiv.Ocenjevanje parametrov se zaène z ocenjevanjem parametrov vsehmožnih vzorcev. Manjši ko je vzorec, veèje št. razliènih vzorcevlahko potegnemo iz populacije. Distribucija aritmetiènih sredinvzorcev je pri vwelikih vzorcih manjša kot pri majhnih, kjer sear. sredine vzorcev razpršijo. Distribucija vseh ar. sredin vsehvzorcev neke populacije je T-distribucija. Z veèanjem numerusavzorca se t-distribucija približuje normalni distribuciji, zmanjšanjem numerusa je vse bolj splošèena. Kadar ocenjujam parameter, išèemo odnos med parametrom vzorca in populacije. Ta odnosocenjujeo glede na st. napako ocene parametra. Pri ar. sredini jeto st. deviacija T-distribucije. Navadno ne govorimo o velikostivzorca, ampak stopnjah svobode; št. elementov v distribuciji, kilahko prosto variirajo. Èe ocenjujemo odnos med aritmetiènimasredinama, imamo podane odklonske podatke vsakega elementa odsredine. Stopnje svobode so pri doloèanju ar. sredin enake N-1.Pri oceni st. dev. moramo poznati obe st. dev. Ta odnos se distribuira v obliki F-distribucije. potrebujemo stopnjo svobode zast. deviaciji, ki je enaka N-1. F-dstribucija je distribucijavseh možnih razmerij med st. dev. v populacijami.Pri ocenjevanju parametrov lahko zakljuèimo resnièno ali napaèno.Resniènost ali napaènost doloèimo v odnosu na nulto hipotezo; taje lahko rsnièna ali napaèna. Z vidika nulte hipoteze v naraviobstajajo naslednje možnosti:

Stanje v naraviZakljuèek Nulta resnièna Nulta napaènaNulta resnièna korektno beta napaka (tip 2)Nulta napaèna alfa napaka (tip 1) korektno

Stopnja rizika znotraj psihologije je najbolj stabilna pri psihofiziki (10%), vse bolj nestabilni so socialno psihološki fenomeni; pri njih bi bilo treba upoštevati 1% riziko.Pri veèjih vzorcih lahko ocenjujemo parameter vzorca že z zdistribucijo. Primerjava pride v poštev, èe skušamo ugotoviti alidva vzorca pripadata isti populaciji ali èe je vzorèenje korektno. St. napaka ocene ar. sredin skupin se oceni s st. napakovzorca:

GG = ----

Page 44: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

x __ V N

Ko imamo st. napako obeh skupin, kombiniramo obe st. napaki vskupno in iz kombinirane st. dev. napak izrazimo razliko medobema ar. sredinama. Dobljeno vrednost preverimo v tabelahT-distribucije. Èe je standardizirana razdalja med ar. sredinama vvelikem vzorcu, kjer uporabimo z distribucijo, veèja od 1.96, jerazlika med obema ar. sredinama statistièno pomembna. Èe jevzorec majhen, uporabimo T-distribucijo.Odnos med st. dev. se distribuira v obliki F-distribucije. Imamodvoje stopenj svobode, v števcu je vedno veèja st. dev., v imenovalcu manjša. Èe je razmerje veèje od kritiènega iz tabel, jerazlika pomemebna.Parametra, ki definirata pomembnost razlik med dvema M ali G, staT in F parametra. Z F parametrom lahko statistièno zakljuèimopomembnost parametrov.

Eksperiment izvira iz agronomije. Ta razvije sistem vzorèenja.Poiskati jebilo treba odvisno variablo. To preverjanje ni samosebi namen. Predpogoj za eksperimentalni pristop k preverjanjuneke hipoteze je neka teorija, ki jo želimo preveriti. Teorije solahko deskriptivne, analogne ali kvantitativne.Eksperiment je znanstvena metoda, pri kateri naèrto variiramoneodvisno variablo. Pri eksperimentu psiholog izhaja iz teorije,ki jo empirièno preverja. Izhodišèe iz nulte hipoteze predpotavlja, da variiranje neodv. var. na bo vplivalo na odv. Iz populacije vzamemo vzorec in ga nakljuèno razdelimo na dva podvzorca,ki ju izpostavimo razliènim pogojem in rezultate preverjamo.Podskupine lahko dobimo tudi tako, da po neki relevantni variabliišèemo enake pare. Èe nimamo možnosti izenaèenja parov, enaèimoskupini; pomagamo si z generatorjem sluè. št. in enaèimo parametre. Pristop sukcesivnih pogojev zahteva en vzorec ljudi, kigredo skozi 2 eksp. pogoja. Designi oz. naèrti raziskav medsubjekti so tisti, pri katerih vzorèimo 2 subjekta oz. skupini.Èe je nièelna hipoteza zavrnjena, moramo postaviti hipotezo, davzorca pripadata 2 razliènima skupinama, ki sta nastali zaradivpliva neodv. var.Ali so razlike pomembne preverjamo prek distribucije razlik. Taima svoje M in G. Neka m je statistièno pomembno razlièna, kadarje njen standardizirani položaj manjši od 5-odstotnega rizika;kadar je takih M v populaciji vseh M vsaj 95%. Ta distribucija jekonèna.K raziskovanju lahko pristopimo tudi s trditveno hipotezo. neodvisno var. lahko fineje variiramo z veèjim št. skupin. Bolj ko jenaèrt kompliciran, bolj izkušen mora biti eksperimentator. Nekateri poskusi so ireverzibilni. Èe posameznika izkljuèimo iz eksperimentalnega postopka, moramo to dobro utemeljiti. Kompleksennaèrt se zaène z veèjim št. eksp. pogojev. Pri enem pogoju jedesign enosmeren (ena neodv. var), pri dveh dvosmeren (dve neodv.var.)... Pri veèih neodv. var. moramo preverjati tudi interakcijomed njimi. Èe interakcije ni, so pojavi vzporedni. Topejši ko sokoti med grafi, veèji je interakcijski efekt. Te efekte preverjamo z analizo variance; variance preverjamo med sabo. Med sabopreverjamo totalno varianco, varianco med skupinami in variancoznotraj skupin. Seštevek slednjih dveh mora dati totalno varianco. Razmerje med varianco med skupinami in varianco znotrajskupin nam da pomembnost razlik, ki jo preverjamo v F-distribuciji. Totalna varianca je varianca rezultatov vsehsubjektov ne glede na to, kateremu vzorcu pripadajo. Varianca

Page 45: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

znotraj skupin je seštevek varianc vseh vzorcev; variiranje okoliM vzorca. Varianca med skupinami je varianca vseh M skupin okoliskupne M. Varianco raèunamo na osnovi standardiziranih razlik. Koraèunamo varianco med skupinami, razlike ponderiramo. Na koncupreverimo veljavnost. Za vsako sumo kvadratov odklonov izraèunamopovpreèni kvadrat;

suma kvadratnih odklonov df:med skupinami; N skupin - 1------------------------ znotraj skupin; N skupni - N skupin stopnje svobode totalna varianca; N skupni - 1

Z odnosom med vr. med in znotraj skupin dobimo F razmerje. Èe jef veèji od kritiènega, vzorci ne pripadajo isti skupini. Var.znotraj grup pogosto imenujemo var. napake. Kadar vzorci nisoenako veliki, je težje izraè. stopnje svobode za tot. varianco.Analiza varianca med dvema skupinama:

_ _ 2 (X - X ) 1 2 ___ 2 2F = ------------ t = V F G - skupna G 2 2 s G * --- s N

Pomembnost tu preverjamo prek t-distribucije. Uporabljamo ga tudiza pomembnost razik med dvema M. Stat. pomembnost t-ja preverimov tabelah t-testa (df=N-1).Kadar so razlièn irezultati dobljeni na isti struktur, so boljzanesljivi in lahko zanemarimo napako, ki nastane zaradi razlikmed strukturami.

2 2 2G = G + G - 2 * r * G * G s 1 1 12 1 2

Èe imamo znotraj variable veè eksperimentalnih pogojev, moramoupoštevati vrianco veèih eksp. pogojev.

Multivariantne metode

Multipla regresija je izvajana na koreliranih kriterijskih spremenljivkah, združimo jih v konèno spremenljivko. Pri diskriminantni analizi so kriterijske spremenljivke nominalne. Skušamougotoviti diskriminativno funkcijo, ki doloèa, po èem se razporejajo elementi v razliène skupine. Pove nam, na kateri toèki jeverjetno prelom med skupinami. Tako dobimo skupinsko spremenljivko. Pri analizi variance imamo veè neodvisnih spremenljivk,odvisna je intervalna ali racionalna.

Probit/logit regresija je podobna diskriminantni analizi. Odvisnaspr. je nominalna dihotomna. Èe so tudi neodv. spr. na nominalnem nivoju, delamo loglinearno analizo. Analizo poti uporabljamopri spremenljivkah, ki niso nujno odvisne. Eksogene so neodvisne,endogene ostale. Ugotovimo, kakšen model bi najbolje opisalujemanje variabel.Faktorska analiza išèe iz dveh ali veèih manifestnih spremenljivklatentne. Išèemo vzorce korelacij. Podobna je komponentna analiza.

Page 46: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

Vzroèni modeli z latentniomi spremenljivkami (modeli strukturnihenaèb) išèejo odnose med latentnimi spremenljivkami. Spet imamoopravka z eksogenimi in endogenimi spremenljivkami.Komponentna analiza analizira skupno medsebojno vplivanje latentnih spremenljivk na manifestne in obratno.

Pri faktorski analizi išèemo kakakteristiène korene odnosov;povezava variabel, ki razlagajo odnose v matriki. Išèemo vektor,v katerem bodo vrednosti, katerih medsebojni produkti bodo dalivrednost èim bliže tej matriki. Vsak naslednji faktor je manjpomemben. Doloèiti moramo, kateri faktorji so še pomembni. Todoloèanje ni statistièno doloèeno. Teoretièno je faktorjev toliko, kolikor je manifestnih spremenljivk. Obièajno se održe faktorji, katerih lastna vrednost je veèja od 1. Lahko izloèimotoliko faktorjev, da je kumulativna frekvenca pojasnjene varianceveèja od 50 ali 66%. Score test je nanašanje faktorjev na abscisoin pojasnjenih varianc na ordinato. Skozi višje faktorje skušamopotgniti premico. Kar odstopa od nje, je pomembno. Pri rotacijidobimo bolj èisto sliko faktorjev.Èe seštejemo vse nasièenosti, dobimo lastne vrednosti faktorjev.Faktorske nasièenosti so korelacije. Èe kvadriramo faktorskenasièenosti in jih seštejemo za vsako variablo, dobimo komunalitete. Kvadrat korelacije med variablama dobimo tako, da množimoposamezne nasièenosti in jih seštejemo. Faktorski skor koeficientnam pove, kakšen je faktorski skor za posameznika. S pomoèjo tehizraèunamo posameznikov rezultat.

Neparametrijska statistika

V primerih, ko ne merimo na merskih instrumentih, preverjamorezultate s pomoèjo neparametrijskih preizkusov; dobivamorazliène frekvence primerov in preverjamo, èe pripadajo istipopulaciji.Neparametrijski preizkusi so na dveh ali veè vzorcih, podatki soodvisni ali neodvisni. Generalni neparametrijski preizkus je hikvadrat. Izhaja iz primerjave empiriènih in teoretiènih frekvencmed sabo. Uporabljamo ga pri preverjanju normalnosti distribucije, pri preverjanju N * k tabel, raèunanju koeficientov C inFI.Pri dveh neodvisnih vzocih uporabljamo test nehomogenega niza(run test, Wald wolfowitzov test), median test, test sume rangov(Wilcoxonov, Mann-Whitney U test, Siegel-Turkeyev test). Pri dvehodv. vzorcih uporabljamo test predznakov (sign), Wilcoxov testekvivalentnih parov (mached-pairs). Za veè neodv. vzorcev uporabljamo razširjeni median test, Kruskal-Valisov test. Za veèodvisnih vzorcev uporabljamo Friedmanov test, Fergusonov test.

Median test se javlja kot test predznakov za dva neodvisna vzorca. Pri njem išèemo skupno Me; kar je nad njo, oznaèimo s +, podnjo, z -. Na osnovi njihovega št. raèunamo hi kvadrat med obemavzorcema. Èe imamo 2 odv. vzorca, poišèemo skupno Me in uporabimoz distribucijo.

abs. (D) - 1z = -------------- D - št. predznakov, ki jih je manj ___ V N

Razširjeni median test bazira na hi kvadrat N * k tabelèi. Išèemo

Page 47: statistika - bajec_bostjan.tripod.combajec_bostjan.tripod.com/statistika.pdf · Inferenèna statistika Njene metode nam pomagajo sklepati o merah v populaciji, ki smo jih dobili na

skupne Me in spet vpisujemo predznake (SS = (N - 1) * (k - 1)).Test sume rangov se uporablja na neodv. vzorcih. Rangiramo rezultate v obeh vzorcih in išèemo z vrednost. Wilcoxonov test ekvivalentnih parov prav tako išèe z vrednosti.Pri vseh testih moramo vedeti, kakšni so vhodni podatki, kakšneso kritiène vrednosti in kako jih preverjamo. Uporabljamo nultohipotezo.