51
Univerza v Mariboru Ekonomsko-poslovna fakulteta Maribor Metode raziskovanja Majda Bastič Maribor, oktober 2006

Metode raziskovanja

  • Upload
    lytuyen

  • View
    248

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Metode raziskovanja

Univerza v Mariboru Ekonomsko-poslovna fakulteta Maribor

Metode raziskovanja

Majda Bastič

Maribor, oktober 2006

Page 2: Metode raziskovanja

2

Predgovor Kako se lotiti raziskave je pogosta dilema, s katero se soočajo tako študenti na dodiplomskem kot na podiplomskem študiju. Raziskovalna metodologija je v ekonomiji in managementu zelo obsežna in se neprestano razvija, zato je nemogoče vso njeno bogastvo strniti v en predmet in prikazati v eni knjigi. Namen tega gradiva je prikazati tisti del raziskovalnega procesa, ko se raziskovalec sooči z analizo zbranih podatkov, da bi odgovoril na zastavljeno raziskovalno vprašanje. Poznavanje v gradivu predstavljenih kvantitativnih metod bo pomagalo raziskovalcem pri izboru najustreznejše metode in pri pravilni interpretaciji dobljenih rezultatov. Glede na predvideni obseg predmeta smo se pri prikazu metod osredotočili na predpostavke, na katerih temelji metoda, potrebni podatki in interpretacijo rezultatov, dobljenih s programom SPSS. Pri pisanju metod, pojasnjenih v točkah 4.1, 4.2, 5, 6.1 sem si delno pomagala s teksti, ki sta jih napisali prof. dr. Polona Tominc in dr. Gabrijela Leskovar Špacapan.

Majda Bastič Maribor, oktober 2006

Page 3: Metode raziskovanja

3

1 UVOD.................................................................................................................. 4

2 ANALIZA PODATKOV ....................................................................................... 5

2.1 Vrste skal za merjenje vrednosti spremenljivk .................................................................................... 6

2.2 Pomembnejši parametri in statistike..................................................................................................... 6

2.3 Zanesljivost vzorca ................................................................................................................................. 8

2.4 Transformacija podatkov..................................................................................................................... 11

3 KLASIFIKACIJA STATISTIČNIH METOD........................................................ 12

4 UGOTAVLJANJE RAZLIK MED ARITMETIČNIMI SREDINAMI ..................... 14

4.1 Domneve ................................................................................................................................................ 14

4.2 Parametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma............ 16 4.2.1 Dva neodvisna vzorca ........................................................................................................................ 16 4.2.2 Dva odvisna vzorca............................................................................................................................ 18 4.2.3 Analiza variance (ANOVA)............................................................................................................... 19

4.3 Neparametrični testi ............................................................................................................................. 21 4.3.1 Neparametrični testi za en vzorec ...................................................................................................... 21 4.3.2 Neparametrični testi za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za neodvisna vzorca .............................................................................................................................................. 22 4.3.3 Neparametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za odvisna vzorca 24

5 ANALIZA ODVISNOSTI MED ŠTEVILSKIMI SPREMENLJIVKAMI................ 27

5.1 Enostavna regresija .............................................................................................................................. 27

5.2 Multipla regresija ................................................................................................................................. 30

5.3 Diskriminantna analiza ........................................................................................................................ 32 5.3.1 Diskriminantna analiza z dvema skupinama...................................................................................... 33 5.3.2 Multipla diskriminantna analiza......................................................................................................... 34

6 ANALIZA MEDSEBOJNE ODVISNOSTI.......................................................... 40

6.1 Analiza skupin (Cluster analysis) ........................................................................................................ 40

6.2 Faktorska analiza – metoda glavnih komponent ............................................................................... 44

KAZALO SLIK ......................................................................................................... 51

KAZALO RAZPREDELNIC...................................................................................... 51

Page 4: Metode raziskovanja

4

1 Uvod V družboslovju običajno pojasnjujemo pojave, za katere smatramo, da se v času in prostoru pojavljajo množično (slovenska podjetja, inovativna podjetja v razvijajočih se gospodarstvih, inovativna podjetja v tržno usmerjenih gospodarstvih). Množični pojav, ki je opredeljen krajevno, časovno in stvarno, imenujemo statistična množica. Posameznim pojavom, ki izpolnjujejo opredelitvene pogoje, pravimo statistične enote (kupec izdelka X, inovativno podjetje). Statistične enote imajo najrazličnejše značilnosti. Proučevane značilnosti statističnih enot pa imenujemo spremenljivke. Pri proučevanju množičnega pojava potrebujemo podatke o proučevanih spremenljivkah, ki jih običajno ni in jih moramo zbrati sami. Z ustreznimi metodami in modeli zbrane podatke transformiramo v informacije, s katerimi poskušamo razložiti proučevani pojav. Pri proučevanju teh pojavov bi bilo idealno, če bi razpolagali s podatki o proučevanih spremenljivkah za vse enote statistične množice. V večini primerov to zaradi omejenega časa in stroškov, namenjenih raziskavi ni možno. Zato zberemo podatke le za podmnožico statistične množice, ki jo imenujemo vzorec. Vzorec je torej samo del statistične množice. Z analizo zbranih podatkov o pojavu na enotah v vzorcu želimo razložiti proučevani pojav za celotno statistično množico. Raziskovalnega procesa se moramo lotiti sistematično, da ne bi prezrli nobenega pomembnega koraka, kar bi nas lahko napeljalo do napačnega zaključka. Kumar (2005) priporoča splošni raziskovalni model, ki je sestavljen iz dveh delov, to sta načrtovanje in izvedba raziskave, ki ju je nadalje razčlenil na osem faz. V njih opredelimo cilj raziskave in izberemo najboljšo raziskovalno pot, s katero bomo dosegli zastavljeni cilj. Raziskovalni model torej sestavlja:

Načrtovanje raziskave 1. opredelitev raziskovalnega problema (proučevanega pojava) 2. izdelava koncepta raziskave 3. izdelava instrumenta za zbiranje podatkov 4. izbira vzorca 5. pisanje raziskovalnega predloga

Izvedba raziskave 6. zbiranje podatkov 7. obdelava podatkov 8. pisanje raziskovalnega poročila

1. Opredelitev raziskovalnega problema je ena najpomembnejših faz raziskovalnega procesa.

V njej opredelimo cilj raziskave, to je kaj bomo proučevali. Cilj raziskave mora biti čim natančneje in jasneje opredeljen, saj je od nje odvisna vsebina ostalih faz raziskovalnega procesa.

2. Z izdelavo koncepta raziskave pojasnimo, kako bomo poiskali odgovore na zastavljena raziskovalna vprašanja. V tej fazi poleg samega koncepta opredelimo še kaj in kako bomo merili, strategijo vzorčenja, okvir analize in njen časovni okvir.

3. Vsako sredstvo, s katerim zbiramo podatke za raziskavo, se imenuje 'raziskovalno orodje' ali 'raziskovalni instrument'. Najpogosteje uporabljeni raziskovalni instrumenti za zbiranje podatkov so načrt intervjuja, vprašalnik, navodila za izvedbo intervjuja. Če za raziskavo načrtujemo uporabo primarnih podatkov, izdelamo instrument za zbiranje podatkov sami ali uporabimo takega, ki je bil že uporabljen v drugih raziskavah. Če pa načrtujemo

Page 5: Metode raziskovanja

5

uporabo sekundarnih podatkov (že zbranih podatkov v druge namene) izdelamo dokument, v katerega se vpisujejo potrebni sekundarni podatki.

4. Natančnost in zanesljivost naših ugotovitev je v veliki meri odvisna tudi od načina, kako smo izbrali vzorec. Najpomembnejši cilj pri izbiranju vzorca je, ob upoštevanju stroškov raziskave, minimiziranje razlik med vrednostmi, ki jih dobimo iz vzorca, in tistimi, ki veljajo za statistično množico. Osnovno načelo vzorčenja je z relativno majhnim številom izbranih statističnih enot dobiti z visoko verjetnostjo dokaj realno sliko o proučevani statistični množici. Teorija vzorčenja temelji na dveh pomembnih načelih, to je na načelu nepristranosti in načelu maksimalne natančnosti. Pri izbiri vzorčenja izbiramo med slučajnim, ne-slučajnim in mešanim vzorčenjem. V okviru prvih dveh obstaja več strategij vzorčenja. Poznavanje teh strategij, njihovih prednosti in slabosti omogoča uporabniku izbiro najboljše strategije glede na postavljeni cilj raziskave in raziskovalna vprašanja.

5. Rezultate prvih štirih faz, v katerih so bila opravljena potrebna pripravljalna dela za uspešno izvedbo raziskave, strnemo v raziskovalnem predlogu. V njem je natančno opisan raziskovalni problem in detajlno predstavljen načrt raziskave, s katero bomo dobili odgovore na zastavljena raziskovalna vprašanja.

6. Potem ko smo opravili prve štiri faze in njihove rezultate strnili v raziskovalnem predlogu pričnemo s samo raziskavo. Ta prične z zbiranjem podatkov, ki jih bomo uporabili pri iskanju odgovorov na zastavljena raziskovalna vprašanja. Zbiranje podatkov je odvisno od vrste potrebnih podatkov (primarni, sekundarni) in od izbranega raziskovalnega instrumenta. Zbiranje podatkov ne glede na izbrano metodo poraja nekaj etičnih problemov.

7. V fazi obdelave podatkov se zbrani podatki obdelajo v informacije, s katerimi bomo poskušali dati zanesljive odgovore na zastavljena raziskovalna vprašanja. Metode, ki jih bomo uporabili pri obdelavi zbranih podatkov so odvisne od: • vrste zbranih podatkov (opisni, numerični) • načina predstavitve dobljenih rezultatov zainteresiranim javnostim V teoriji se raziskave delijo v kvantitativne in kvalitativne. Večino dejansko opravljenih raziskav v ekonomiji je težko razvrstiti le v eno skupino, saj le-te uporabljajo tako kvalitativne kot kvantitativne metode.

8. Raziskava se konča s pisanjem raziskovalnega poročila, ki je za mnoge najtežje opravilo v tem procesu. V poročilu seznanimo zainteresirano javnost, kaj smo proučevali, kaj smo odkrili in kateri zaključki sledijo našim ugotovitvam.

V tem gradivu se bomo pretežno ukvarjali z metodami in modeli, s katerimi obdelujemo zbrane podatke v informacije, torej s sedmo fazo opisanega raziskovalnega modela.

2 Analiza podatkov Izvedba same raziskave prične z zbiranjem podatkov o spremenljivkah za statistične enote. Vrsta podatkov in njihovih značilnosti določa nabor razpoložljivih metod za njihovo obdelavo. Zato si poglejmo, kaj moramo vedeti o podatkih, da bi lahko korektno opravili samo raziskavo. Podatki so lahko številski (numerični, kvantitativni, metric) ali opisni (kvalitativni, non-metric). Številski podatki so merljivi, kot so prihodek, starost (zvezni številski podatki) ali člani družine, število podjetij (nezvezni ali diskretni). Kadar imamo opravka s številskimi podatki, razmišljamo o njihovi povprečni vrednosti: kolikšen je povprečni prihodek, povprečna starost, itd. Opisni podatki so števni podatki. Z njimi opisujemo spol, kraj

Page 6: Metode raziskovanja

6

preživljanja dopusta, velikost podjetja (majhno, srednje, veliko). V primeru, ko imamo opisne podatke, razmišljamo o deležih: kolikšen je delež majhnih podjetij med vsemi slovenskimi podjetji. Posebna vrsta opisnih podatkov so ordinalni (izobrazba, velikost podjetja). Te opisne podatke je mogoče glede na njihov pomen urediti po vrstnem redu (velika, srednja, mala podjetja).

2.1 Vrste skal za merjenje vrednosti spremenljivk Poznamo štiri različne skale za merjenje vrednosti spremenljivk v družboslovju. To so nominalna, ordinalna, intervalna in razmernostna skala. Te skale omogočajo merjenje tako subjektivnih odgovorov kot merjenje odgovorov, ki se lahko merijo z veliko natančnostjo. Izbira skale, s katero bomo merili vrednosti opazovane spremenljivke, je odvisna od cilja raziskave. Opisne spremenljivke merimo na

• nominalni skali, ki omogoča razvrščanje enot po določeni skupni značilnosti. Statistične enote razvrščamo v skupine tako, da imajo enote, razvrščene v isto skupino, isto značilnost. Spol merimo na nominalni skali. Enote razvrstimo po spolu v dve skupini (1= moški, 2=ženski spol).

• ordinalni skali, ki ima vse lastnosti nominalne skale in še lastnost, da so skupine razvrščene po določenem kriteriju. Po velikosti lahko razvrstimo podjetja v tri skupine (1=velika, 2=srednja, 3=mala podjetja). Tudi po dohodku lahko statistične enote razvrstimo v več skupin in spremenljivko merimo na ordinalni skali (1=podpovprečen, 2=povprečen, 3=nadpovprečen dohodek).

Številske spremenljivke merimo z metričnimi skalami:

• intervalna skala ima vse lastnosti ordinalne skale in še lastnost, da uporablja enoto mere. Med svojo začetno in končno točko je razčlenjena na enako velike intervale. Začetna in končna točka ter število intervalov so pri tej skali poljubno določeni. Celzijeva in Fahrenhajtova skala sta primera intervalne skale. Ker sta začetna in končna točka poljubno določeni, ta skala ni absolutna.

• Razmernostna skala ima vse lastnosti predhodno opisanih skal in še lastnost, da je njena začetna točka nič in se ne spreminja. Zato je skala absolutna, razlika se vedno meri od točke nič. Spremenljivke, kot so dohodek, starost, teža se merijo z razmernostno skalo. Za vrednosti teh spremenljivk velja še, da je dohodek 200.000 SIT dvakrat večji od dohodka 100.000 SIT ali oseba, ki je stara 20 let je dvakrat starejša od osebe, stare 10 let. Te lastnosti nima nobena od predhodno obravnavanih skal.

2.2 Pomembnejši parametri in statistike Parameter je neka številska ali opisna značilnost statistične množice. Če pa to značilnost ugotavljamo s pomočjo vzorca jo imenujemo statistika. Parameter ima stalno vrednost, dokler se ne spremeni proučevana značilnost statistične množice. Iz statistične množice lahko tvorimo veliko različnih vzorcev, zato je statistika spremenljiva vrednost, ki je odvisna od izbranega vzorca. Npr. povprečni osebni dohodek vseh zaposlenih v Sloveniji je parameter, povprečni osebni dohodek v vzorec izbranih zaposlenih v Sloveniji pa statistika.

Page 7: Metode raziskovanja

7

S statistično analizo želimo dobiti zanesljive ugotovitve o proučevanem množičnem pojavu, zato proučujemo ta pojav na celotni statistični množici ali na vzorcu. Tudi če ga proučujemo na vzorcu, moramo imeti v vzorcu dovolj statističnih enot. Zato imamo za vsako spremenljivko veliko število podatkov. Pri opisovanju značilnosti ni smiselno navajati vseh zbranih vrednosti za spremenljivko, temveč uporabljamo v ta namen vrednosti, ki najbolje predstavljajo zbrane vrednosti določene spremenljivke. Take vrednosti so srednje vrednosti, mere variabilnosti ter mere asimetrije in sploščenosti. Srednje vrednosti Najpogosteje uporabljene srednje vrednosti so aritmetična sredina, mediana, modus. Aritmetična sredina je najpomembnejša srednja vrednost. Računamo jo iz vseh zbranih podatkov za spremenljivko, zato je njena predstavitvena (reprezentačna) vrednost vprašljiva, če so med podatki tudi taki, ki se bistveno razlikujejo od ostalih podatkov. Modus je srednja vrednost, okrog katere je največja gostitev vrednosti. Mediana ali središčnica predstavlja tisto vrednost, pri kateri ima polovica enot statistične množice ali vzorca manjše, polovica pa večje vrednosti od mediane. Glavna pomanjkljivost mediane je njena neobčutljivost na spremembe vrednosti. Njena vrednost se spremeni šele, ko vrednosti preidejo iz ene polovice v drugo. Mere variabilnosti Z merami variabilnosti proučujemo razlike med vrednostmi spremenljivke (variacijski razmik) ter med vrednostmi spremenljivke in vnaprej določeno vrednostjo, ki je lahko aritmetična sredina, mediana ali modus. Najpogosteje uporabljene mere variabilnosti so variacijski razmik, varianca in standardni odklon. Variacijski razmik je najenostavnejša mera variabilnosti, ki je enak razliki med najmanjšo in največjo vrednostjo spremenljivke. Varianca je povprečna napaka med dejanskimi vrednostmi spremenljivke in njeno aritmetično sredino. Izraža se v kvadratu osnovne mere. Zaradi tega se pogosteje uporablja standardni odklon, ki je enak kvadratnemu korenu iz variance in se izraža v enakih enotah kot spremenljivka in njena aritmetična sredina. Standardni odklon uporabljamo tudi kot mero reprezentativnosti aritmetične sredine. Manjši kot je standardni odklon (v primerjavi z aritmetično sredino) manjše so razlike med dejanskimi vrednostmi spremenljivke in njeno aritmetično sredino ter obratno. Če so vse vrednosti spremenljivke enake, tedaj je standardni odklon enak nič. Mere asimetrije in sploščenosti Za nadaljnjo analizo je koristno vrednosti spremenljivke urediti v obliki frekvenčne porazdelitve, ki nam pove, kolikokrat se pojavi določena vrednost, in nato frekvenčno porazdelitev prikazati v obliki histograma. Frekvenčne porazdelitve, prirejene različnim spremenljivkam, imajo različne oblike. Mnoge v tem gradivu obravnavane metode temeljijo na predpostavki, da so vrednosti spremenljivke porazdeljene po normalni porazdelitvi, ki je prikazana na sliki 2.1. V večini primerov obstajata dva razloga, zakaj konkretna porazdelitev ni normalna. To sta pomanjkanje simetričnosti (asimetrične porazdelitve) in zahtevane sploščenosti. Asimetričnost in sploščenost konkretne porazdelitve merimo z merami asimetrije in sploščenosti.

Page 8: Metode raziskovanja

8

Slika 2.1. Normalna porazdelitev

σ3y − σ2y − σ−y y σ+y σ2y + σ3y + Asimetrične porazdelitve (skewness) so lahko pozitivno asimetrične oziroma asimetrične v desno (večja gostitev je pri manjših vrednosti spremenljivke) ali negativno asimetrične oziroma asimetrične v levo (večja gostitev vrednosti je pri večjih vrednostih spremenljivke). Porazdelitve se razlikujejo med seboj tudi po svoji sploščenosti (kurtosis). Ene so bolj sploščene, druge bolj koničaste. Sploščenost porazdelitve primerjamo z normalno, ki je vzeta kot idealna. Pozitivne vrednosti koeficienta sploščenosti kažejo na koničasto porazdelitev, negativne pa na bolj sploščeno kot je normalna porazdelitev. O sploščenosti porazdelitve nam pove tudi vrednost standardnega odklona. Z večanjem njegove vrednosti postaja porazdelitev vedno bolj sploščena, z manjšanjem njegove vrednosti pa prehaja vedno bolj v koničasto porazdelitev. Za normalno porazdelitev velja, da sta koeficienta asimetričnosti in sploščenosti enaka 0. Za proučevano porazdelitev nam vrednosti teh dveh koeficientov povesta, za koliko se le-ta razlikuje od normalne porazdelitve.

2.3 Zanesljivost vzorca Merimo jo s standardno napako ocene aritmetične sredine. Zaradi lažjega razumevanja vzemimo, da ima statistična množica le 5 enot, s pomočjo slučajnih števil bomo v vzorec izbrali dve enoti. Pri teh pogojih bi lahko oblikovali 10 različnih vzorcev (število vseh možnih kombinacij) in za vsakega izračunali njegovo aritmetično sredino (vzorčna aritmetična sredina). Iz histograma vzorčnih aritmetičnih sredin bi ugotovili, da se le-te porazdeljujejo normalno, s povprečno vrednostjo, ki je enaka aritmetični sredini statistične množice, variiranje vzorčnih aritmetičnih sredin pa opisuje standardni odklon vzorčnih aritmetičnih sredin, ki ga imenujemo standardna napaka ocene aritmetične sredine xSE . Manjša kot je njena vrednost, manjša je variabilnost med vzorčnimi povprečnimi vrednostmi, boljši predstavnik statistične množice je vzorec, in obratno. Njena vrednost je določena z

nsSEx =

kjer je xSE standardna napaka ocene aritmetične sredine, s je standardni odklon vzorca in n število enot v vzorcu.

Page 9: Metode raziskovanja

9

Primer 2.1 Poglejmo primer, ko so študenti ocenjevali delo učitelja tudi po tem, kako dobro podaja snov, ki jo predava. Spremenljivko 'podajanje snovi' s simbolom K4 so ocenjevali na 7-stopenjski skali, kjer je 1 pomenila zelo slabo in 7 izjemno dobro podajanje snovi. Iz statistične množice študentov, ki so poslušali učiteljeva predavanja, smo naključno izbrali 214 študentov in jih prosili, da ocenijo podajanje snovi za ocenjevanega učitelja. Dobljenih 214 podatkov smo analizirali s programom SPSS 13. Rezultati analize so podani v razpredelnicah 2.1, 2.2. in sliki 2.2. Razpredelnica 2.1. Statistike za spremenljivko K4

Statistics

K4214

05,3411,089865,5000

6,001,31460

1,728-,651,166

-,004,3316,001,007,00

ValidMissing

N

MeanStd. Error of MeanMedianModeStd. DeviationVarianceSkewnessStd. Error of SkewnessKurtosisStd. Error of KurtosisRangeMinimumMaximum

V razpredelnici 2.1 so podane opisne statistike za spremenljivko 'podajanje snovi' s simbolom K4. Za njo smo dobili 214 odgovorov. Vsi anketirani študenti so odgovorili na to vprašanje (manjkajoče vrednosti=0). Iz razpredelnice nadalje odčitamo aritmetično sredino, ki je 5,34, mediano, ki je 5,5 in modus, ki je enak 6. Primerjava srednjih vrednosti, ki se med seboj razlikujejo, kaže na nesimetričnost porazdelitve, kar potrjuje tudi koeficient asimetričnosti (skewness), ki ni enak nič. Njegova negativna vrednost (-0,651) kaže na asimetričnost porazdelitve v levo. Nadaljnjo lastnost porazdelitve kaže koeficient sploščenosti (kurtosis), ki je -0,004. Njegova vrednost je skoraj enaka nič, kar kaže na veliko podobnost te porazdelitve normalni porazdelitvi. Variacijski razmik (range) je 6 in je enak razliki med najmanjšo (1) in največjo vrednostjo (7). Standardna napaka aritmetične sredine je 0,09. Njena majhna vrednost glede na vrednost aritmetične sredine kaže na zanesljivost vzorca in izračunanih statistik. Standardni odklon je 1,31.

Page 10: Metode raziskovanja

10

Razpredelnica 2.2. Frekvenčna in kumulativna porazdelitev za spremenljivko K4

K4

1 ,5 ,5 ,55 2,3 2,3 2,8

15 7,0 7,0 9,830 14,0 14,0 23,856 26,2 26,2 50,062 29,0 29,0 79,045 21,0 21,0 100,0

214 100,0 100,0

1,002,003,004,005,006,007,00Total

ValidFrequency Percent Valid Percent

CumulativePercent

V razpredelnici 2.2 je podana frekvenčna porazdelitev za spremenljivko 'podajanje snovi'. Iz nje je razvidno, da je največ študentov (62 ali 29 %) ocenilo učitelja po tej lastnosti z oceno 6 (modus). Grafični prikaz te porazdelitve in tej porazdelitvi prirejena krivulja normalne porazdelitve sta prikazani na sliki 2.2. Slika 2.2. Histogram in krivulja normalne porazdelitve za spremenljivko K4

8,006,004,002,000,00

K4

70

60

50

40

30

20

10

0

Freq

uenc

y

Mean =5,3411Std. Dev. =1,3146N =214

Histogram

Obrobna vrednost (outlier) je tista vrednost spremenljivke, ki se bistveno razlikuje od ostalih vrednosti in utegne vplivati na pristranost podatkom prirejenega modela. Kot primer obrobne vrednosti vzemimo primer sedmih ocenjevalcev kakovosti učbenika. Njihove ocene so 5, 4, 2, 5, 5, 5, 5. Že iz pregleda ocen vidimo, da ocena tretjega ocenjevalca bistveno odstopa od ostalih. Proučimo še njen vpliv na aritmetično sredino. Njena vrednost znaša 4,42, če upoštevamo vseh sedem ocen, oziroma 4,83, če ne upoštevamo ocene tretjega ocenjevalca. Razlika je 0,41 ali 9,3 %. Ko ima spremenljivka veliko vrednosti in zanjo vemo, da je normalno porazdeljena, je odkrivanje obrobnih vrednosti mnogo lažje, če njene vrednosti standardiziramo z

sxxz i

i−

=

kjer je zi standardizirana i-ta vrednost spremenljivke X, xi je i-ta vrednost spremenljivke X in s iz vzorca izračunani standardni odklon spremenljivke X. Pri normalni porazdelitvi vrednosti spremenljivke pričakujemo, da bo približno 5 % vrednosti večjih od 1,96, 1 % vrednosti večjih od 2,58, nobena vrednost pa ne bo večja od 3,29.

Page 11: Metode raziskovanja

11

Poglejmo uporabo tega pravila na primeru ocen učbenika, čeprav se zavedamo, da dobljena porazdelitev za ocene ni normalna. Standardizirane vrednosti spremenljivke ocena so podane v razpredelnici 2.3. Šest absolutnih vrednosti spremenljivke Z je manjših od 1,96, le ena njena absolutna vrednost je večja od 1,96, kar predstavlja 14 % in je več od 5 %. Razpredelnica 2.3. Standardizirane vrednosti spremenljivke ocena učbenika

x z 5 0,50395 4 -0,37796 2 -2,14180 5 0,50395 5 0,50395 5 0,50395 5 0,50395

2.4 Transformacija podatkov Kadar med vrednostmi proučevane spremenljivke nastopajo obrobne vrednosti ali porazdelitev vrednosti spremenljivke ni normalna, si lahko pomagamo tako, da:

• izločimo obrobne vrednosti • transformiramo podatke

Transformacija podatkov je v primerih, ko nismo sigurni, da statistična enota z obrobno vrednostjo ne spada v statistično množico, boljša alternativa. Najpogosteje uporabljene transformacije so:

• logaritmiranje vrednosti, ki je učinkovit način za zmanjšanje pozitivne asimetrije. Če so vrednosti spremenljivke, ki jo nameravamo transformirati, negativne ali nič, je treba predhodno izvesti transformacijo, po kateri nobena vrednost ne bo negativna ali nič. To dosežemo s prištevanjem dovolj velike konstante vsem vrednostim spremenljivke.

• Korenjenje vrednosti ima mnogo večji učinek na večje kot manjše vrednosti, kar pripomore, da se večje vrednosti bolj približajo srednjim vrednostim. Zato ta transformacija zmanjšuje pozitivno asimetrijo bolj kot logaritemska transformacija. Pri tej transformaciji moramo paziti na negativna števila, zato je potrebna predhodna transformacija, s katero odpravimo negativna števila, kar dosežemo na enak način kot je opisano pri logaritemski transformaciji.

• Recipročna transformacija je opredeljena z 1/xi. Po tej transformaciji postanejo največje vrednosti spremenljivke najmanjše in najmanjše največje. Spodnja meja transformiranih vrednosti je nič. Temu problemu se lahko izognemo, če izvedemo predhodno transformacijo, s katero vrednost spremenljivke odštejemo od vrednosti, ki je večja od največje vrednosti. Če strnemo obe transformaciji, je pravilo transformiranja

ixc1−

kjer je c > xmax in xmax je največja vrednost spremenljivke X. Omenjene transformacije so primerne tudi za zmanjševanje negativne asimetrije. V ta namen moramo predhodno transformirati vrednosti spremenljivke po pravilu: c – xi, kjer je c > xmax in xmax največja vrednost spremenljivke X.

Page 12: Metode raziskovanja

12

3 Klasifikacija statističnih metod Najpogostejša delitev statističnih metod je v dve skupini: univariatne in multivariatne metode. Univariatne metode so primerne za analizo podatkov, kadar proučujemo pri vsaki enoti le eno značilnost (spremenljivko). Multivariatne metode pa uporabimo za hkratno analizo več značilnosti, torej istočasno analiziramo več spremenljivk. Obe skupini metod se razlikujeta tudi v tem, da se univariatne metode ukvarjajo z analizo povprečij in variance, medtem ko se multivariatne analize osredotočajo na proučevanje ravni zveze med spremenljivkami (korelacija, kovarianca). Nadaljnja razčlenitev univariatnih metod je prikazana na sliki 3.1. Iz nje je razvidno, da je izbor ustrezne metode odvisen od:

1. vrste spremenljivke, ki jo analiziramo: številska ali opisna 2. od števila vzorcev 3. povezave med vzorci: neodvisni ali odvisni.

Dva vzorca sta neodvisna, kadar enote prvega vzorca niso vzete iz iste statistične množice kot enote drugega vzorca (npr. naključno izbrani kupci izdelka A tvorijo en vzorec, naključno izbrani, ki niso kupili izdelka A, pa drug vzorec). Dva vzorca sta odvisna, kadar so enote vzete iz iste statistične množice (npr. kupci izdelka A ocenjujejo dva atributa – za vsako enoto sta vrednost prvega in drugega atributa med seboj odvisni, ker sta dobljeni od iste osebe). Slika 3.1. Klasifikacija univariatnih statističnih metod

Nadaljnja razčlenitev multivariatnih metod je prikazana na sliki 3.2. Te metode je mogoče najprej razčleniti v dve skupini, to sta metode za proučevanje odvisnosti in metode za proučevanje medsebojne odvisnosti. Metode za proučevanje odvisnosti uporabimo, kadar proučujemo odvisnost med dvema množicama spremenljivk. V eni so odvisne spremenljivke, v drugi pa neodvisne. Nadaljnji izbor ustrezne metode za proučevanje odvisnosti pa je odvisen še od števila odvisnih spremenljivk. Tako tvorijo eno skupino metode za analizo odvisnosti med eno odvisno spremenljivko in eno ali več neodvisnimi spremenljivkami in drugo skupino metode za analizo odvisnosti med več odvisnimi in neodvisnimi

Page 13: Metode raziskovanja

13

spremenljivkami. Pri metodah za proučevanje medsebojne odvisnosti spremenljivke ne delimo na odvisne in neodvisne, temveč proučujemo odvisnost med vsemi proučevanimi spremenljivkami ali enotami, da bi medsebojno odvisne spremenljivke ali enote združili v skupine. Te metode se nadalje delijo v dve skupine, glede na to ali proučujemo medsebojno odvisnost med spremenljivkami (medsebojno odvisne spremenljivke združimo v novo spremenljivko ali faktor) ali proučujemo medsebojno odvisnost med statističnimi enotami ali subjekti (medsebojno odvisne oziroma podobne enote združimo v skupine ali klastre). Slika 3.2. Klasifikacija multivariatnih statističnih metod

Izbor ustrezne multivariatne metode je odvisen od tega

1. ali proučujemo odvisnost med dvema množicama spremenljivk ali medsebojno odvisnost znotraj ene množice spremenljivk.

2. Izbor ustrezne metode za proučevanje odvisnosti med dvema množicama spremenljivk je nadalje odvisen od števila spremenljivk v množici odvisnih spremenljivk in od vrste spremenljivke, kar je prikazano v razpredelnici 3.1.

3. Izbor ustrezne metode za proučevanje medsebojne odvisnosti pa je odvisen ali proučujemo medsebojno odvisnost med spremenljivkami ali med subjekti (statističnimi enotami).

Razpredelnica 3.1. Metode za proučevanje odvisnosti med spremenljivkami Odvisna spremenljivka(e) Neodvisne spremenljivke Metoda Številska Številske Mulitpla regresijska analiza Opisna Številske Diskriminantna analiza Številska Opisne Analiza variance Opisna Opisne Conjoint analiza Številske* Številske Kanonična korelacija Številske* Opisne Multipla analiza variance Opisne* Opisne Diskretna diskriminantna analiza *več odvisnih spremenljivk

Page 14: Metode raziskovanja

14

4 Ugotavljanje razlik med aritmetičnimi sredinami

4.1 Domneve Osrednje mesto v vzorčnem pristopu ima domneva, ki odraža raziskovalno vprašanje. Ko smo oblikovali vzorec in želimo odgovoriti na naše raziskovalno vprašanje, najprej opredelimo izhodiščno domnevo, ki jo imenujemo ničelna domneva (običajna oznaka je Ho). Kaj bi povedala ničelna domneva o sebi? Tole: »Jaz predstavljam takšno stanje, v katerem ni nobenih razlik med spremenljivkami, ki jih preučuješ.« Takšne ničelne domneve so na primer:

1. pri nekem predmetu se povprečna ocena študentov, ki obiskujejo vaje, ne razlikuje od povprečne ocene študentov, ki vaj ne obiskujejo.

2. V Sloveniji med moškimi in ženskami ni razlik v nagnjenosti k podjetništvu. 3. Med malimi in srednje velikimi podjetji ter velikimi podjetji v Sloveniji ni razlik v

povprečnem dobičku na delavca. Vsem tem ničelnim domnevam je skupno to, da vsebujejo trditev, da sta dve ali več stvari enakih ali pa da nista povezani med seboj. Ničelna domneva tako predstavlja izhodiščno točko in ciljno merilo, s katerim dejansko stanje primerjamo. Raziskovalna domneva pa je, v nasprotju z ničelno, trditev o neenakosti oziroma odvisnosti (običajna oznaka je H1). Za vsako od prej zapisanih ničelnih domnev lahko zapišemo več možnih raziskovalnih domnev. Na primer:

1. Pri nekem predmetu povprečna ocena študentov, ki obiskujejo vaje, ni enaka povprečni oceni študentov, ki vaj ne obiskujejo.

2. Nagnjenost k podjetništvu med moškimi in ženskami se v Sloveniji razlikuje. 3. Povprečni dobiček na delavca v malih in srednje velikih podjetjih je manjši kot

povprečni dobiček na delavca v velikih podjetjih v Sloveniji. O indirektni raziskovalni domnevi (ali dvostranski – two-tailed) govorimo takrat, kadar ne podamo nobenega odnosa, ampak le … se razlikuje… O direktni raziskovalni domnevi (ali enostranski – one-tailed) pa takrat, kadar razmerje natančneje opredelimo z odnosom … manjše kot… ali … večje kot… Zaradi vsega tega ima v raziskavah zato jasno oblikovana, kratka, lahko razumljiva raziskovalna domneva, ki jo mora biti možno preveriti, najpomembnejše mesto. Tabela 3.1.1 prikazuje tri ničelne domneve ter po eno od možnih enostranskih ter dvostranskih raziskovalnih domnev. Razpredelnica 4.1. Ničelna domneva ter raziskovalne domneve Ničelna domneva Dvostranska raz. domneva Enostranska raz. domneva Pri nekem predmetu se povprečna ocena študentov, ki obiskujejo vaje, ne razlikuje od povprečne ocene študentov, ki vaj ne obiskujejo.

Pri nekem predmetu povprečna ocena študentov, ki obiskujejo vaje, ni enaka povprečni oceni študentov, ki vaj ne obiskujejo.

Pri nekem predmetu je povprečna ocena študentov, ki obiskujejo vaje, višja kot povprečna ocena študentov, ki vaj ne obiskujejo.

V Sloveniji med moškimi in ženskami ni razlik v nagnjenosti k podjetništvu.

Nagnjenost k podjetništvu med moškimi in ženskami se v Sloveniji razlikuje.

Nagnjenost k podjetništvu med ženskami je v Sloveniji manjša kot nagnjenost k podjetništvu med moškimi.

Page 15: Metode raziskovanja

15

Med malimi in srednje velikimi podjetji ter velikimi podjetji v Sloveniji ni razlik v povprečnem dobičku na delavca.

Med malimi in srednje velikimi podjetji ter velikimi podjetji v Sloveniji so razlike v povprečnem dobičku na delavca.

Povprečni dobiček na delavca v malih in srednje velikih podjetjih je manjši kot povprečni dobiček na delavca v velikih podjetjih v Sloveniji.

Statistično značilne razlike Izraz značilne razlike (significantly different) je pri statističnem razlikovanju nujno prisoten. Poglejmo primer. Dodajmo ta izraz v prej zapisano raziskovalno domnevo pri drugem primeru. »V Sloveniji se nagnjenost k podjetništvu med moškimi in ženskami značilno razlikuje od nagnjenosti k podjetništvu med ženskami. Z izrazom značilno mislimo na to, da je razlika v nagnjenosti k podjetništvu med obema skupinama posledica nekega sistematičnega vpliva in ni nastala slučajno. V tem primeru je ta vpliv spol osebe. Domnevamo, da so vsi ostali faktorji, ki vplivajo na razlike med obema skupinama, nadzorovani. Kako gotovi pa smo lahko v to? Pomembno je reči, da kljub temu, da smo lahko precej gotovi v to, da so razlike med obema skupinama posledica vpliva spola, pa 100 % ali popolnoma gotovi, le ne moremo biti. Vzrokov je veliko. Na primer: v prvi skupini (moški) so bili v vzorec zajeti predvsem ljudje, pri katerih je podjetništvo družinska tradicija, pri drugi skupini (ženske) pa ne. Statistično neoporečni raziskovalec bi bil na takšne vplivne dejavnike pozoren sicer že pri oblikovanju vzorca. Kaj torej narediti? V statističnih raziskavah zato postavimo mejo za napako, ki je nismo mogli predvideti. To mejo oziroma nivo tveganja, ki smo ga pripravljeni prenesti, imenujemo stopnja značilnosti (significance level). Stopnja značilnosti je tveganje, ki je povezano s tem, da nismo 100 %-no gotovi, da je to, kar proučujemo v raziskavi, to, kar preverjamo. Če je stopnja značilnosti na primer 0,05 (običajen zapis je p < 0,05) to pomeni, da je 5 %-na možnost, da razlike, ki smo jih odkrili, niso posledica domnevnega vzroka (to je spola), pač pa nekih drugih neznanih vzrokov. Seveda to tveganje želimo zmanjšati, koliko se le da. Razpredelnica 4.2. Ničelna domneva in zaključki Naš zaključek Ničelno domnevo

smo sprejeliNičelne domneve nismo sprejeli

Pravilna Naš zaključek je pravilen. Naš zaključek je napačen. Naredili smo napako, ki jo imenujemo napaka I. vrste.

Ničelna domneva je

Nepravilna Naš zaključek je napačen. Naredili smo napako, ki jo imenujemo napaka II. vrste.

Naš zaključek je pravilen

Kaj se torej lahko zgodi, ko preverjamo ničelno domnevo? Izhodišče je, da je ničelna domneva, ki se nanaša na populacijo, lahko pravilna ali nepravilna. Tega seveda ne vemo, saj te domneve ne moremo preverjati direktno (to je na populaciji). Zgodi se lahko, da ničelne domneve v naši raziskavi bodisi ne zavrnemo ali pa jo zavrnemo. Razpredelnica 4.2 zajema možne odnose med značilnostjo ničelne domneve (to je, da je pravilna ali nepravilna) in našim zaključkom (da ničelno domnevo zavrnemo ali pa ne). Napaka I. vrste je prej opisana stopnja značilnosti.

Page 16: Metode raziskovanja

16

Kaj v bistvu želimo s pomočjo statističnega testiranja doseči? Naš center raziskave je raziskovalna domneva in ničelno domnevo želimo statistično značilno zavreči, torej ugotoviti, da ničelna domneva ni smiselna razlaga tega, kar proučujemo.

4.2 Parametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma

Poglejmo primer o proučevanju vpliva sredstev za izobraževanje prodajalcev na velikost njihove prodaje v dveh skupinah podjetjih: tistih, ki temu namenjajo manj kot 50 d.e. na prodajalca (skupina A) in tistih, ki namenjajo več kot 50 d.e. (skupina B). Koraki v raziskavi tega vprašanja bi bili takšni: 1. Upoštevajoč pravila slučajnega vzorčenja izberemo dva vzorca, v prvega smo izbirali med

podjetji, ki namenjajo manj kot 50 d.e. na prodajalca za izobraževanje, v drugega pa med podjetji, ki namenjajo več kot 50 d.e. Vzorca sta izbrana tako, da dobro predstavljata populacijo.

2. Izračunamo povprečno prodajo na prodajalca v obeh vzorcih. Obe povprečni vrednosti primerjamo s pomočjo določenega statističnega testa.

3. Sledi zaključek o tem, ali so razlike med obema povprečnima vrednostma nastale slučajno, ali pa so posledica »resničnih« oziroma statistično značilnih razlik med obema skupinama (kar bi pomenilo, da so rezultat različnega vlaganja v izobraževanje prodajalcev).

4. Zaključek, dobljen na osnovi vzorčnega pristopa, posplošimo na celotno populacijo, torej na vsa podjetja.

Vsak tip ničelne domneve je povezan z določenim tipom statističnega parametra in vsak tip statističnega parametra je povezan z določeno porazdelitvijo, katere značilnosti primerjamo z vzorčnimi podatki. Kako »deluje« statistični test? 1. Postavitev ničelne domneve. 2. Izbira stopnje značilnosti preizkusa. 3. Izbira primernega testa. 4. Izračun testne vrednosti. Je rezultat izbranega testa in jo izračunamo na določen način. To

je številska vrednost. 5. Izbira kritične vrednosti, ki jo potrebujemo, da vemo, kdaj ničelno domnevo zavreči.

Kritične vrednosti se nahajajo v tabelah oziroma nam jo poda računalniški program. 6. Primerjava izračunane testne vrednosti (v koraku 4) in kritične vrednosti (v koraku 5). 7. Če je izračunana vrednost ekstremnejša od kritične vrednosti, ničelne domneve ne

moremo sprejeti. 5. Če izračunana vrednost ne presega kritične vrednosti, ničelne domneve ne zavrnemo.

4.2.1 Dva neodvisna vzorca Za neodvisna vzorca uporabimo z-test za neodvisne vzorce takrat, kadar sta vzorca velika ali pa takrat, kadar je varianca iz osnovne statistične množice znana. Kadar imamo majhen vzorec, uporabimo t-test za neodvisne vzorce. Izračunano vrednost iz vzorčnih podatkov izračunamo v obeh primerih enako, razlikuje se le kritična vrednost.

Page 17: Metode raziskovanja

17

Primer 4.2.1 Poglejmo primer: želimo ugotoviti, ali obstajajo značilne razlike v povprečni porabi neke pijače na dan med prebivalci toplejšega, primorskega dela nekega področja in prebivalci hladnejšega, gorskega dela. Izbrali smo dva vzorca po 30 prebivalcev. Vzorčni podatki o porabi pijače na dan (v k.e.) so za vsakega od 30 prebivalcev zapisani v razpredelnici 4.3.

Razpredelnica 4.3. Vzorčni podatki o porabi pijače na dan (v k.e.)

Poraba prebivalcev gorskega dela Poraba prebivalcev Primorskega dela 7 5 5 5 3 4 3 4 7 4 2 3 3 6 1 4 5 2 2 10 9 5 4 7 3 10 2 5 4 6 8 5 5 7 6 2 8 1 2 8 7 8 5 1 12 8 7 9 8 4 15 9 5 7 5 3 4 8 6 6

Postavimo ničelno domnevo: Ho: μ1 = μ2 in raziskovalno domnevo H1: μ1 ≠ μ2. Z μ1 smo označili povprečno porabo pijače prebivalcev gorskega dela na dan, z μ2 pa povprečno porabo pijače prebivalcev primorskega dela na dan. Domneva je dvostranska. Izbira stopnje značilnosti je prepuščena nam, običajno je 0,05. Če značilnost razlik med povprečnima vrednostma ugotavljamo s t-testom s programom SPSS dobimo naslednje izpise:

Group Statistics

30 5,43 3,421 ,62530 5,53 2,063 ,377

skupina12

porabaN Mean Std. Deviation

Std. ErrorMean

Independent Samples Test

4,994 ,029 -,14 58 ,891 -,100 ,729 -1,560 1,360

-,14 48 ,892 -,100 ,729 -1,567 1,367

Equal variancesassumedEqual variancesnot assumed

porabaF Sig.

Levene's Testfor Equality of

Variances

t dfSig.

(2-tailed)MeanDiffer.

Std.ErrorDiffer. Lower Upper

95%Confidence

Interval of theDifference

t-test for Equality of Means

Iz izpisa odčitamo natančno verjetnost, da so razlike med obema skupinama nastale slučajno. Ta verjetnost je enaka 0,891. To nam dovoljuje zaključek, da razlike niso posledica kakega sistematičnega vpliva, pač so nastale slučajno. Zato ničelne domneve ne zavrnemo.

Page 18: Metode raziskovanja

18

4.2.2 Dva odvisna vzorca Kadar imamo dva odvisna vzorca, za analizo značilnih razlik med dvema povprečnima vrednostma uporabimo t-test za odvisne vzorce. Primer 4.2.2 Poglejmo primer: želimo analizirati uspešnost izobraževalnega tečaja za uporabo računalniškega programa v nekem podjetju, ki jo merimo s številom opravljenih nalog v časovni enoti. V ta namen smo izbrali v vzorec 25 zaposlenih in merili število opravljenih nalog v časovni enoti pred obiskom tečaja in po končanem tečaju. Torej imamo dva vzorca, v vsakem je 25 zaposlenih, vzorca pa sta odvisna, saj smo iste zaposlene anketirali pred in po tečaju. Vzorčni podatki o številu opravljenih nalog v časovni enoti so v razpredelnici 4.4. Razpredelnica 4.4. Podatki o številu opravljenih nalog

Pred 3 5 4 6 5 5 4 5 3 6 7 8 7 6 7 8 8 9 9 8 7 7 6 7 8 Po 7 8 6 7 8 9 6 6 7 8 8 7 9 10 9 9 8 8 4 4 5 6 9 8 12 Postavimo ničelno domnevo: Ho: μpo = μpred in raziskovalno domnevo H1: μpo > μpred. Z μpo in μpred smo označili povprečno število opravljenih nalog v časovni enoti po in pred usposabljanjem. Domneva je enostranska, saj domnevamo, da bodo delovni rezultati po opravljenem usposabljanju boljši kot so bili pred njim. Za ugotavljanje značilnosti razlik uporabimo t-test za odvisne vzorce, ki smo ga za primer 4.2.2 izvedli s programom SPSS in dobili naslednje izpise:

Paired Samples Statistics

6,32 25 1,725 ,3457,52 25 1,828 ,366

predpo

Pair1

Mean N Std. DeviationStd. Error

Mean

Paired Samples Correlations

25 ,051 ,810pred & poPair 1N Correlation Sig.

Paired Samples Test

-1,200 2,449 ,490 -2,211 -,189 -2,449 24 ,022pred - poPair 1Mean Std. Deviation

Std. ErrorMean Lower Upper

95% ConfidenceInterval of the

Difference

Paired Differences

t df Sig. (2-tailed)

S programom SPSS ne moremo izvesti enostranskega t-testa za odvisna vzorca. Zato se verjetnost 0,022 nanaša na dvostranski test. Pripadajoča verjetnost za enostranski test je torej 0,011. Ker je dobljena verjetnost manjša od stopnje značilnosti (0,05), ničelno domnevo

Page 19: Metode raziskovanja

19

zavrnemo in zaključimo, da razlike v povprečnem številu opravljenih nalog v časovni enoti niso nastale slučajno, pač pa kot posledica vpliva usposabljanja.

4.2.3 Analiza variance (ANOVA) To analizo oziroma statistični test uporabljamo takrat, kadar analiziramo značilnost razlik med povprečnimi vrednostmi za več kot dva vzorca, pri čemer so vzorci med seboj neodvisni. Analizo variance je primerno uporabiti v različnih situacijah. Tukaj se bomo ukvarjali le z enostavno analizo variance, kjer analiziramo le eno spremenljivko, imamo pa več kot dva vzorca (enostavno analizo variance imenujemo z angleškim izrazom tudi one-way analyis of variance). Ta metoda se imenuje tako zato, ker celotno variiranje vrednosti (merjeno z povprečnim kvadratnim odklonom vrednosti od aritmetične sredine = varianca) razdelimo na variiranje vrednosti zaradi razlik znotraj vzorcev in na variiranje vrednosti zaradi razlik med vzorci. Obe sestavini variance nato primerjamo med seboj. Primer 4.2.3 Poglejmo primer. Vodja trženja v nekem srednje velikem podjetju za proizvodnjo osvežilcev prostorov je oblikoval tri različne oglaševalne akcije za novo vrsto osvežilca. Testirati želimo uspešnost teh treh oglaševalnih akcij in v ta namen smo izbrali 30 velikih trgovin. Razdelili smo jih v tri skupine po 10 trgovin in v vsaki skupini izvedli po eno oglaševalno akcijo. Zabeležili smo prodajo po vsaki akciji. (Domnevajmo, da so trgovine enakovredne po obiskanosti, po kupni moči prebivalcev v njihovem okolišu, domnevajmo, da izvedba posamezne akcije v eni trgovini ne vpliva na prodajo v drugi ipd.) Podatki o prodaji v denarnih enotah (d.e.) v teh 30 trgovinah po vsaki od oglaševalnih akcij so v razpredelnici 4.5. Razpredelnica 4.5. Prodaja po izvedbi oglaševalskih akcij

Prodaja po prvi akciji

Prodaja po drugi

akciji

Prodajapo tretji akciji

87 87 8986 85 91 76 99 96 56 85 8778 79 8998 81 9077 82 89 66 78 96 75 85 96 67 91 93

Postavimo ničelno domnevo: Ho: μ1 = μ2 = μ3 in raziskovalne domneve H1: μ1 ≠ μ2 ≠ μ3. Z μ1, μ2 in μ3 smo označili povprečno prodajo po posamezni oglaševalski akciji v osnovni statistični množici. Za stopnjo značilnosti vzemimo vrednost 0,05. Za ugotavljanje značilnosti razlik uporabimo ANOVA test, ki ga bomo izvedli s programom SPSS in dobili naslednje izpise:

Page 20: Metode raziskovanja

20

Descriptives

prodaja

10 76,60 11,965 3,784 68,04 85,16 56 9810 85,20 6,197 1,960 80,77 89,63 78 9910 91,60 3,406 1,077 89,16 94,04 87 9630 84,47 9,951 1,817 80,75 88,18 56 99

123Total

N MeanStd.

DeviationStd.Error

LowerBound

UpperBound

95% ConfidenceInterval for Mean

Minimum Maximum

ANOVA

prodaja

1133,067 2 566,533 8,799 ,0011738,400 27 64,3852871,467 29

Between GroupsWithin GroupsTotal

Sum ofSquares df Mean Square F Sig.

V našem primeru je izračunana verjetnost (Sig.) manjša od 0,05, kar pomeni, da razlike v prodaji med tremi skupinami trgovin niso nastale slučajno, pač pa so posledica sistematičnega vpliva oglaševalske akcije na prodajo. Ker nas zanima, katere skupine podatkov se med seboj bistveno razlikujejo, smo opravili še dodatno analizo, ki se imenuje post hoc analiza. V njej primerjamo povprečje vsake skupine s povprečjema preostalih dveh skupin. Iz izpisa rezultatov te analize, ki smo jo naredili s Tukeyevo metodo, je razvidno, da značilne razlike obstajajo med prodajo po prvi in prodajo po tretji akciji, prodaja po drugi in tretji akciji ter prodaja po prvi in drugi akciji pa se med seboj značilno ne razlikujejo.

Multiple Comparisons

Dependent Variable: prodajaTukey HSD

-8,600 3,588 ,060 -17,50 ,30-15,000* 3,588 ,001 -23,90 -6,10

8,600 3,588 ,060 -,30 17,50-6,400 3,588 ,194 -15,30 2,5015,000* 3,588 ,001 6,10 23,90

6,400 3,588 ,194 -2,50 15,30

(J) akcija231312

(I) akcija1

2

3

MeanDifference

(I-J)Std.Error Sig.

LowerBound

UpperBound

95% ConfidenceInterval

The mean difference is significant at the .05 level.*.

Za ugotavljanje razlik med aritmetičnimi sredinami s t-testom morata biti izpolnjena pogoja o enakosti varianc in normalni porazdelitvi vrednosti spremenljivke. Program SPPS nam posreduje rezultate t-testa za primer, ko je pogoj o enakosti varianc izpolnjen in za primer, ko ta pogoj ni izpolnjen. Pojavi pa se vprašanje, kako ravnati, ko ni izpolnjen pogoj o normalni

Page 21: Metode raziskovanja

21

porazdelitvi vrednosti spremenljivke. Na voljo sta nam dve možnosti. Po eni poskušamo poiskati tako transformiracijo podatkov, po kateri bodo transformirani podatki normalno porazdeljeni. Če po tej poti ne uspemo rešiti našega problema, tedaj si pomagamo z neparametrični testi. Njihova dobra lastnost je, da zanje velja manj predpostavk kot za njihove primerljive parametrične teste.

4.3 Neparametrični testi Neparametrične teste uporabljamo za ugotavljanje razlik med povprečnimi vrednostmi za opisne spremenljivke, ki jih merimo na ordinalni skali ali za številske spremenljivke, katerih vrednosti niso normalno porazdeljene.

4.3.1 Neparametrični testi za en vzorec Pomemben pogoj pri izboru ustrezne metode je normalna porazdelitev vrednosti proučevane spremenljivke ali spremenljivk. Ali je ta pogoj izpolnjen lahko preverimo s Kolmogorov-Smirnovim testom in Shapiro-Wilkovim testom. V teh testih se primerjajo vrednosti proučevane spremenljivke z vrednostmi normalno porazdeljene spremenljivke z enako aritmetično sredino in standardnim odklonom, kot ga ima proučevana spremenljivka. Ko je test neznačilen (p > 0,05), tedaj se porazdelitev proučevane spremenljivke bistveno ne razlikuje od normalne porazdelitve. Proučevana spremenljivka ni normalno porazdeljena, ko je test statistično značilen (p < 0,05). Slabost teh testov je, da lahko za velike vzorce dobimo statistično značilen test tudi v primeru, ko je proučevana spremenljivka normalno porazdeljena. Zato si moramo pri velikih vzorcih, ko dobimo statistično značilen test, pomagati še s sliko porazdelitve in koeficientoma asimetrije in sploščenosti. Vzemimo, da smo s Kolmogorov-Smirnovim testom in Shapiro-Wilkovim testom ugotavljali, statistično značilnost razlik med porazdelitvijo vrednosti spremenljivke v1 in normalno porazdelitvijo. Rezultati obeh testov, dobljenih s programom SPSS, so podani v razpredelnici 4.6. Razpredelnica 4.6. Rezultati Kolmogorov-Smirnovega in Shapiro-Wilkovega testa

Tests of Normality

,135 20 ,200* ,938 20 ,219v1Statistic df Sig. Statistic df Sig.

Kolmogorov-Smirnova Shapiro-Wilk

This is a lower bound of the true significance.*.

Lilliefors Significance Correctiona.

V obeh testih je p > 0,05, kar kaže, da se porazdelitev vrednosti spremenljivke v1 bistveno ne razlikuje od normalne porazdelitve. V nadaljnjih raziskavah smemo vzeti, da je pogoj o normalni porazdelitvi spremenljivke v1 izpolnjen.

Page 22: Metode raziskovanja

22

4.3.2 Neparametrični testi za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za neodvisna vzorca

Mann-Whitneyev test in Wilcoxon rank-sum test uporabljamo za ugotavljanje razlik med dvema povprečnima vrednostma za neodvisna vzorca, ko proučevana številska spremenljivka ni normalno porazdeljena ali za opisne spremenljivke, merjene na ordinalni skali. Testa predstavljata neparametrična ekvivalenta parametričnemu t-testu. Pri obeh testih se vrednosti številske spremenljivke pretvorijo v range, tako da se najmanjši vrednosti pripiše rang 1, naslednji najmanjši rang 2, itd. Za izračun testne statistike se uporabijo vrednosti rangov. Pri Wilcoxon rank-sum testu je testna statistika Ws, ki je pri enako velikih skupinah enaka manjši od obeh vsot rangov skupine oziroma vsoti rangov manjše skupine, ko skupini nista enako veliki. Vrednost statistike Ws je statistično značilna pri p < 0,05, če je njena absolutna standardizirana vrednost z večja od 1,96. Njena standardizirana vrednost je opredeljena z:

sW

ss

SEWWz −

=

kjer je sW povprečna vrednost testne statistike in

sWSE njena standardna napaka. Njuni vrednosti izračunamo z:

21nnnW 211

s)( ++

=

121nnnnSE 2121

Ws

)( ++=

kjer sta n1 in n2 velikost prve oziroma druge skupine. Zelo podoben Wilcoxonov rank-sum testu je Man-Whitneyev test, ki temelji na testni statistiki U, opredeljeni za skupino i z:

i11

21i R2

1nnnnU −+

+=)(

kjer je Ri vsota rangov skupine i. Primer 4.3.2 Poglejmo primer, ko želimo proučiti vpliv ukrepov za povečanje zadovoljstva zaposlenih na letno število bolniških izostankov. V ta namen smo 20 izbranih podjetij razvrstili v dve skupini po 10 podjetij. Omenjeni ukrepi so se izvajali eno leto le v podjetjih, razvrščenih v drugo skupino. Podatki o letnem številu bolniških pred in po enoletnem izvajanju ukrepov so podani v razpredelnici 4.7. Ker podatki o številu bolniških niso normalno porazdeljeni, bomo uporabili neparametrični test za ugotavljanje značilnosti razlik v povprečnih vrednostih obeh skupin. Zaradi lažjega razumevanja so v četrtem in šestem stolpcu te razpredelnice navedeni rangi, ki pripadajo posameznim vrednostim spremenljivke, ki pa jih uporabniku programa SPSS ni potrebno računati.

Page 23: Metode raziskovanja

23

Razpredelnica 4.7. Podatki in rangi Podjetje Skupina Št. bolniških Rang Št. bolniških Rang

1 1 150 5 280 12 2 1 350 20 350 17 3 1 160 8,5 350 17 4 1 180 13 240 10 5 1 190 15,5 390 20 6 1 170 11 320 15 7 1 270 19 270 11 8 1 160 8,5 290 13 9 1 130 1,5 360 19

10 1 200 17,5 350 17 11 2 160 8,5 50 2 12 2 150 5 60 3,5 13 2 200 17,5 300 14 14 2 150 5 80 6 15 2 160 8,5 90 7 16 2 130 1,5 70 5 17 2 140 3 60 3,5 18 2 190 15,5 170 9 19 2 180 13 30 1 20 2 180 13 100 8

Če s programom SPSS opravimo neparametrični test za dva neodvisna vzorca za podatke v razpredelnici 4.7, dobimo rezultate, podane v razpredelnici 4.8 in 4.9. V razpredelnici 4.8 so podane vsote rangov za obe skupini pred in po izvedbi ukrepov in povprečne vrednosti rangov. Tako je vsota rangov za prvo skupino pred izvedbo ukrepov 119,5 in za drugo skupino 90,5. Povprečni rang za prvo skupino pred izvedbo ukrepov (bolpred) je 11,95 in za drugo 9,05. Na enak način razložimo rezultate v tej razpredelnici za spremenljivko bopo, to je za stanje po izvedbi ukrepov. Iz primerjave povprečnih vrednostih vidimo, da je povprečni rang za drugo skupino manjši v obeh primerih, to je pred in po izvajanju ukrepov za izboljšanje zadovoljstva zaposlenih. Zanima nas, ali so te razlike v povprečnih vrednostih rangov značilne. Odgovor najdemo v razpredelnici 4.9. Najprej je podana vrednost Mann-Whitneyeve statistike U in nato vrednost Wilcoxonove statistike Ws ter njena standardizirana vrednost. Absolutna vrednost spremenljivke z za stanje števila bolniških pred izvajanjem ukrepov je manjša od 1,96, za stanje po izvajanju ukrepov pa večja od 1,96. Pripadajočo stopnjo značilnosti za njene vrednosti najdemo v naslednji vrsti. Upoštevaje navedene rezultate smemo zaključiti, da se pred izvajanjem ukrepov prva skupina ni značilno razlikovala od druge skupine po letnem številu bolniških izostankov. To pa ne velja za število bolniških izostankov po opravljenih ukrepih. Tu je razlika med povprečnimi rangi značilna (z = |3,484|, α < 0,01), kar pomeni, da so ukrepi za izboljšanje zadovoljstva zaposlenih vplivali tudi na zmanjšanje letnega števila bolniških izostankov. Razpredelnica 4.8. Rangi in testne statistike

Page 24: Metode raziskovanja

24

Ranks

10 11,95 119,5010 9,05 90,502010 15,10 151,0010 5,90 59,0020

skupina12Total12Total

bolpred

bopo

N Mean Rank Sum of Ranks

Razpredelnica 4.9. Testne statistike

Test Statisticsb

35,500 4,00090,500 59,000-1,105 -3,484

,269 ,000

,280a

,000a

,288 ,000,144 ,000,013 ,000

Mann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)Exact Sig. [2*(1-tailedSig.)]Exact Sig. (2-tailed)Exact Sig. (1-tailed)Point Probability

bolpred bopo

Not corrected for ties.a.

Grouping Variable: skupinab.

4.3.3 Neparametrični test za ugotavljanje značilnih razlik med dvema povprečnima vrednostma za odvisna vzorca

Wilcoxon signed-rank test, ki ga uporabljamo za ugotavljanje značilnih razlik med povprečnima vrednostma dveh spremenljivk, ki smo jih dobili od istih subjektov (statističnih enot), je neparametrični ekvivalent parametričnemu t-testu za odvisne vzorce. Wilcoxon signed-rank test izhaja iz razlik med vrednostmi spremenljivk za iste enote, ki se glede na njihovo absolutno vrednost razvrščajo od najmanjše, ki dobi rang ena, do največje. Razlike, ki so enake nič, se pri razvrščanju ne upoštevajo. Tvorita se dve vsoti rangov, in sicer vsota rangov, ki pripadajo pozitivnim razlikam, in vsota rangov, ki pripadajo negativnim razlikam. Vrednost testne statistike T je enaka manjši od obeh vsot rangov. Vrednost statistike T je statistično značilna pri p < 0,05, če je njena absolutna standardizirana vrednost z večja od 1,96. Ta je opredeljena z:

TSETTz −

=

kjer je T povprečna vrednost testne statistike in TSE njena standardna napaka. Njuni vrednosti izračunamo z:

41nnT )( +

=

Page 25: Metode raziskovanja

25

241n21nnSET))(( ++

=

kjer n pomeni velikost vzorca. Podatki, podani v razpredelnici 4.7, nam omogočajo še analizo povprečnega letnega števila bolniških odsotnosti pred in po končanih ukrepih za vsako skupino posebej. Za skupino podjetij, v katerih so se ukrepi izvajali, lahko preverimo, ali so ukrepi vplivali na število bolniških izostankov, za skupino podjetij, v katerih se ukrepi niso izvajali, pa ali so razlike med številom bolniških odsotnosti med dvema časovnima trenutkoma, statistično značilne. Če opravimo Wilcoxon signed-rank test s programom SPSS za drugo skupino, kjer so izvajali ukrepe za izboljšanja zadovoljstva, dobimo rezultate, prikazane v razpredelnicah 4.10. V prvi razpredelnici (Descriptive Statistics) sta za drugo skupino podani aritmetični sredini letnih izostankov pred (bolpred) in po končanju izvajanja ukrepov (bopo). Povprečno število bolniških izostankov po izvajanju ukrepov se je zmanjšalo, zanima nas pa, ali je razlika med tema dvema aritmetičnima sredinama značilna. V drugi razpredelnici (Ranks) je v stolpcu N podano najprej število negativnih razlik med številom bolniških pred in po izvajanju ukrepov, nato povprečni rang za negativne razlike in povprečni rang za pozitivne razlike ter v zadnjem stolpcu še vsota rangov za negativne in vsota rangov za pozitivne razlike. Vrednost T statistike je enaka manjši vsoti rangov, v tem primeru je T = 8. Njena absolutna standardizirana vrednost, ki jo skupaj s stopnjo značilnosti najdemo v zadnji razpredelnici (Test statistics), je večja od 1,96, kar kaže na značilnost razlik med aritmetičnimi sredinami rangov. To potrjuje tudi stopnja značilnosti α, ki je manjša od 0,05. Za prvo skupino so ti rezultati podani v razpredelnicah 4.11. Razpredelnice 4.10. Rezultati Wilcoxon signed-rank test za drugo skupino podjetij

Descriptive Statisticsa

10 164,00 22,706 130 20010 101,00 79,505 30 300

bolpredbopo

N Mean Std. Deviation Minimum Maximum

skupina = 2a.

Ranksd

9a 5,22 47,001b 8,00 8,000c

10

Negative RanksPositive RanksTiesTotal

bopo - bolpredN Mean Rank Sum of Ranks

bopo < bolpreda.

bopo > bolpredb.

bopo = bolpredc.

skupina = 2d.

Page 26: Metode raziskovanja

26

Test Statisticsb,c

-1,990a

,047ZAsymp. Sig. (2-tailed)

bopo -bolpred

Based on positive ranks.a.

Wilcoxon Signed Ranks Testb.

skupina = 2c.

Razpredelnice 4.11. Rezultati Wilcoxon signed-rank test za prvo skupino podjetij

Descriptive Statisticsa

10 196,00 66,030 130 35010 320,00 47,842 240 390

bolpredbopo

N Mean Std. Deviation Minimum Maximum

skupina = 1a.

Ranksd

0a ,00 ,008b 4,50 36,002c

10

Negative RanksPositive RanksTiesTotal

bopo - bolpredN Mean Rank Sum of Ranks

bopo < bolpreda.

bopo > bolpredb.

bopo = bolpredc.

skupina = 1d.

Test Statisticsb,c

-2,527a

,012ZAsymp. Sig. (2-tailed)

bopo -bolpred

Based on negative ranks.a.

Wilcoxon Signed Ranks Testb.

skupina = 1c.

Pregled vrednosti v razpredelnicah 4.11 pokaže, da se je v podjetjih, razvrščenih v prvo skupino, število bolniških izostankov v obdobju, ko so se v drugi skupini podjetij izvajali ukrepi za izboljšanje zadovoljstva zaposlenih, povečalo. Rezultati Wilcoxon signed-rank testa pokažejo, da je povečanje bolniških izostankov značilno. Primerjava rezultatov za obe skupini nam dovoljuje zaključek, da izvedeni ukrepi za izboljšanje zadovoljstva zaposlenih vplivajo na zmanjšanje bolniških izostankov.

Page 27: Metode raziskovanja

27

5 Analiza odvisnosti med številskimi spremenljivkami

5.1 Enostavna regresija Z regresijsko in korelacijsko analizo ugotavljamo medsebojno odvisnost med dvema ali več skupinami spremenljivk. S korelacijsko analizo ugotavljamo jakost odvisnosti, z regresijsko analizo pa je mogoče odvisnost med odvisno in eno (ali več) neodvisnimi spremenljivkami izraziti v obliki regresijske enačbe. Korelacijska analiza (kakor tudi noben drugi matematični postopek) pa ne omogoča ugotavljanja vzročnosti. Le–to je mogoče ugotavljati na osnovi poznavanja pojavov oz. študija relevantne teorije. Študij odvisnosti med eno odvisno in eno neodvisno spremenljivko (enostavna regresija) je najenostavneje pričeti s prikazom dvojic vrednosti obeh spremenljivk v razsevnem grafikonu (angl. scatter diagram). Ta omogoča ugotoviti obliko, smer in jakost odvisnosti. Oblika je lahko linearna ali krivuljčna, smer je lahko pozitivna (z naraščanjem vrednosti neodvisne spremenljivke naraščajo tudi vrednosti odvisne) ali negativna, glede na jakost pa je lahko bolj ali manj močna. Regresijska premica in regresijska enačba V kolikor obstaja med opazovanima spremenljivkama odvisnost, je mogoče med točke narisati regresijsko premico (v primeru linearne odvisnosti) oz. regresijsko krivuljo (v primeru krivuljčne odvisnosti) tako, da se premica oz. krivulja čim bolje prilega točkam. Ker v večini primerov pri proučevanju ekonomsko-socialnih pojavov ne gre za primer funkcijske odvisnosti (vse točke ne ležijo na premici oz. krivulji) y = f(x), zapišemo linearno korelacijsko odvisnost med spremenljivkama x in y v obliki modela korelacijske odvisnosti y = f (x) + e yi = a0 + a1xi + ei za i = 1,2,…,N, kjer je y odvisna spremenljivka, x je neodvisna spremenljivka, e pa je napaka, imenovana tudi ostanek ali rezidual (angl. error, disturbance term), ki nastane zaradi slučajnih vplivov, napak pri merjenju ali zaradi tega, ker v model niso vključeni vsi vplivi (spremenljivke) na odvisno spremenljivko. Pri analitičnem določanju parametrov regresijske premice uporabimo metodo najmanjših kvadratov (angl. least-squares solution). Ob uporabi te metode so vrednosti parametrov regresijske premice določene tako, da je vsota kvadratov odklonov stvarnih vrednosti (y) od vrednosti na regresijski premici ( y ) najmanjša, torej

S = ∑ ∑ ⇒=−= =

N

1i

N

1i

2i

2i mine)yy(

Za napake e = y – y se pri metodi najmanjših kvadratov predpostavlja, da so normalno porazdeljene s povprečno vrednostjo nič, da je varianca za vrednosti e konstantna in torej neodvisna od vrednosti neodvisne spremenljivke ter da so vrednosti e med seboj neodvisne. Analiza variance temelji na enačbi:

( ) ( ) ( ) 22

1 1 1

222ˆˆ eyxy

n

i

n

i

n

iiiii yyyyyy σσ +=∑ ∑ ∑ −+−=−

= = =

Page 28: Metode raziskovanja

28

Z zgornjo enačbo je vsota kvadratov odstopanj dejanskih vrednosti spremenljivke y od njene aritmetične sredine razčlenjena v dve sestavini. Prva izraža vsoto kvadratov odstopanj z regresijsko funkcijo dobljenih vrednosti odvisne spremenljivke od njene aritmetične sredine. To sestavino imenujemo tudi z regresijskim modelom pojasnjena vsota kvadratov odstopanj ali kratko pojasnjena varianca. Druga sestavina izraža vsoto kvadratov odstopanj dejanskih vrednosti od vrednosti, ki jih za spremenljivko y dobimo z regresijskim modelom. Imenujemo jo tudi nepojasnjena varianca. Standardna napaka ocene je kvadratni koren iz nepojasnjene variance in izraža povprečno odstopanje dejanskih vrednosti spremenljivke y od vrednosti na regresijski premici: σey = 2

eyσ Analiza kakovosti izračunane regresijske funkcije Zanesljivost izračunane regresijske funkcije ugotavljamo z F testom, zanesljivost njenih regresijskih koeficientov pa s t testom. Z F testom preizkušamo domnevi H0: 2

xyr = 0 in

H1: 2xyr ≠ 0,

kjer je 2xyr determinacijski koeficient, opredeljen kot razmerje med pojasnjeno in skupno

varianco za odvisno spremenljivko. Statistika F je definirana z:

F = ( )

( )∑ −−−

∑ −

=

=n

1i

2ii

n

1i

2i

1knyy

kyy

kjer je vrednost v števcu enaka pojasnjeni varianci, v imenovalcu pa nepojasnjeni varianci. Če je izračunana vrednost za F pri k in (n – k – 1) stopinjah prostosti in pri vnaprej določeni stopnji tveganja večja od teoretične vrednosti, ki jo odčitamo v tabeli kritičnih vrednosti za F-porazdelitev, lahko trdimo, da je determinacijski koeficient 2

xyr značilno različen od nič in zavrnemo ničelno domnevo. Zanesljivost izračunanih parametrov regresijske premice pa testiramo s t-testom. Pri tem testiramo domnevi: H0: aj = 0 H1: aj ≠ 0 na osnovi Studentove t statistike pri (n - k - 1) prostostnih stopinjah:

t = ja

j

sa

ˆ

ˆ

kjer je jas ˆ je standardna napaka regresijskega koeficienta j.

Če je izračunana vrednost statistike t večja od teoretične vrednosti, ki jo najdemo v tabeli za t-porazdelitev pri (n – k – 1) prostostnih stopinjah in ustrezni stopnji tveganja (α/2), lahko trdimo, da je vrednost regresijskega koeficienta a1 (v primeru enostavne regresije) značilno različna od nič in zavrnemo ničelno domnevo. Na podoben način testiramo tudi konstanto a0.

Page 29: Metode raziskovanja

29

Primer 5.1 Poglejmo primer, ki podjetje prodaja svoje izdelke na 40 prodajnih področjih in želi ugotoviti kako je prodaja (odvisna spremenljivka) odvisna od števila propagandnih akcij (neodvisna spremenljivka). Podatki o prodaji in številu propagandnih akcij so podani v datoteki regenost. S programom SPSS smo dobili naslednje izpise.

Model Summary

,880a ,775 ,769 595,60Model1

R R SquareAdjusted R

Square

Std. Errorof the

Estimate

Predictors: (Constant), propagandaa.

Korelacijski koeficient (R=0,88) kaže na močno linearno povezavo med spremenljivko prodaja in spremenljivko število propagandnih akcij. Determinacijski koeficient (R Square) pa kaže delež pojasnjene variance v skupni varianci za odvisno spremenljivko. 77,5 % celotne variance je pojasnjene z variabilnostjo spremenljivke število propagandnih akcij.

ANOVA b

4,6E+07 1 5,E+07 130,644 ,000a

1,3E+07 38 3547426,0E+07 39

RegressionResidualTotal

Model1

Sum ofSquares df

MeanSquare F Sig.

Predictors: (Constant), propagandaa.

Dependent Variable: prodajab.

F test kaže, da obstaja med spremenljivkama linearna odvisnost; pri enostavni regresiji je F-test identičen testiranju hipoteze H0: ja = 0 s t-testom. Prav tako F-test kaže, da obstaja med

spremenljivkama linearna odvisnost. Pri enostavni regresiji je F-test identičen testiranju domneve Ho: 0a j =ˆ .

Coefficients a

1354,34 259,065 5,228 ,000253,077 22,142 ,880 11,430 ,000

(Constant)propaganda

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: prodajaa.

Vrednost statistike t in raven značilnosti (Sig.) kažeta, da je koeficient a1 značilno različen od nič, kar pomeni, da obstaja odvisnost med opazovanima spremenljivkama. Enačba regresijske premice je:

xy 077,25334,1354ˆ +=

Page 30: Metode raziskovanja

30

5.2 Multipla regresija V primeru, ko na vrednosti ene odvisne spremenljivke vpliva več dejavnikov – spremenljivk, govorimo o multipli regresiji. Model linearne multiple regresije predstavlja naslednja enačba yi = a0 + a1xi1 + a2xi2 + … + akxik + ei za i = 1,2, …, n kjer je: yi - vrednost odvisne spremenljivke pri i-ti enoti

ka - vrednost regresijskega koeficienta pri k-ti neodvisni spremenljivki xik - vrednost k-te neodvisne spremenljivke pri i-ti enoti Na osnovi vzorčnega pristopa ter z uporabo metode najmanjših kvadratov dobimo ocene regresijskih koeficientov

ikk2i21i10i xa...xaxaay ++++= za i = 1,2, …, n Koeficienti ja j=1,…,k so enaki parcialnim regresijskim koeficientom. Koeficient 1a pove spremembo vrednosti odvisne spremenljivke, če se vrednost neodvisne spremenljivke x1 spremeni za enoto pri pogoju, da vrednosti neodvisnih spremenljivk x2, x3,…,xk, ostanejo nespremenjene. Multipli korelacijski koeficient, multipli determinacijski koeficient Multipli korelacijski koeficient R kaže jakost odvisnosti med odvisno in k neodvisnimi spremenljivkami in je vedno pozitivna vrednost. Multipli determinacijski koeficient R2 pa predstavlja delež variance v odvisni spremenljivki, ki je pojasnjena z variabilnostjo v neodvisnih spremenljivkah. Zanesljivost dobljene regresijske funkcije se ugotavlja z F-testom, pri čemer preizkušamo domnevi: H0: R2 = 0 H1: R2 ≠ 0 in s t-testom domnevi: H0 : aj (j = 1,2....k) = 0 H1 : vsaj eden aj je različen od nič. Ničelno domnevo zavrnemo, če je izračunana vrednost statistike F večja od njene teoretične vrednosti pri k oz. (n – k – 1 ) prostostnih stopinjah in vnaprej določeni stopnji tveganja α. Če smo ničelno domnevo zavrnili, pomeni, da je vsaj en koeficient različen od nič. S Studentovim t-testom ugotavljamo, kateri regresijski koeficienti so različni od nič. Primer 5.2 Poglejmo primer podjetja, opisanega v primeru 5.1, ki prodaja svoje izdelke na 40 prodajnih področjih. Tokrat želi ugotoviti, kako je prodaja odvisna od števila propagandnih akcij in števila trgovskih potnikov. Podatki za spremenljivke: y = prodaja, x1 = število propagandnih akcij, x2 = število trgovskih potnikov so podani v datoteki regmult. S programom SPSS in metodo Enter smo dobili za ta primer naslednje izpise rezultatov.

Page 31: Metode raziskovanja

31

Model Summary

,935a ,874 ,867 451,65Model1

R R SquareAdjusted R

Square

Std. Errorof the

Estimate

Predictors: (Constant), število trgovskihpotnikov, propaganda

a.

ANOVA b

5,2E+07 2 3,E+07 128,141 ,000a

7547456 37 2039856,0E+07 39

RegressionResidualTotal

Model1

Sum ofSquares df

MeanSquare F Sig.

Predictors: (Constant), število trgovskih potnikov, propagandaa.

Dependent Variable: prodajab.

Coefficients a

693,285 231,555 2,994 ,005141,562 26,636 ,492 5,315 ,000

375,313 69,593 ,500 5,393 ,000

(Constant)propagandaštevilo trgovskihpotnikov

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: prodajaa.

Povečana vrednost multiplega determinacijskega koeficienta kaže, da se je delež pojasnjene variance v skupni varianci povečal od 76,9 % na 86,7 % z vključitvijo še ene neodvisne spremenljivke (x2) v model. F-test in raven značilnosti kažeta, da obstaja odvisnost med prodajo ter številom propagandnih akcij in številom trgovskih potnikov. t-testi in ravni značilnosti za posamezne regresijske koeficiente kažejo, da so vsi regresijski koeficienti značilno različni od nič na ravni značilnosti manjši od 0,05. Vsi ti rezultati kažejo na smiselnost uporabe regresijskega modela, ki ga zapišemo z enačbo:

21 x313375x562141285693y ,,,ˆ ++= Koeficient regresijske enačbe pri x1 pove, za koliko se v poprečju spremeni odvisna spremenljivka y , če se neodvisna spremenljivka x1 poveča za enoto pri nespremenjeni vrednosti spremenljivke x2. Običajno želimo ugotovitve, dobljene s pomočjo vzorca, posplošiti na statistično množico. To smemo storiti, če so izpolnjene predpostavke, na katerih temelji regresijska analiza. Te so. • Neodvisne spremenljivke med seboj niso premočno korelirane (multikolinearnost).

Prisotnost multikolinearnosti preverjamo z variance inflation factor (VIF). Če je njegova vrednost 10, obstaja premočna koreliranost med neodvisnimi spremenljivkami.

Page 32: Metode raziskovanja

32

• Homoskedastičnost pomeni, da mora biti varianca rezidualov konstantna za vse vrednosti odvisne spremenljivke.

• Reziduali morajo biti nekorelirani. Za poljubni dve vrednosti odvisne spremenljivke morata biti pripadajoča reziduala nekorelirana. Izpolnitev te predpostavke ugotavljamo z Durbin-Watsonovim testom. Če je njegova vrednost enaka dva, reziduali med seboj niso korelirani, če je njegova vrednost večja od dva obstaja negativna korelacija med reziduali, o pozitivni korelaciji med reziduali pa govorimo, ko je vrednost Durbin-Watsonovega testa manjša od dva. Običajno vrednosti Durbin-Watsonovega testa, ki so večje od tri in manjše od ena, kažejo na zaskrbljujočo koreliranost med reziduali.

• Reziduali morajo biti normalno porazdeljene slučajne spremenljivke s povprečno vrednostjo nič.

5.3 Diskriminantna analiza Diskriminantna analiza je primerna metoda za proučevanje odvisnosti, kadar je odvisna spremenljivka opisna, neodvisne spremenljivke pa so številske. Zanima nas na primer ali se in kako razlikujejo kupci naših izdelkov od kupcev konkurenčnih izdelkov. Odvisna spremenljivka je opisna z dvema vrednostma(1=kupec naših izdelkov, 2=kupec konkurenčnih izdelkov), neodvisne spremenljivke pa so lahko starost kupcev, njihov osebni dohodek, stopnja izobrazbe itd. (številske spremenljivke). Cilji diskriminantne analize so: 1. oblikovanje diskriminantne funkcije kot linearne kombinacije izbranih neodvisnih

spremenljivk tako, da le-ta v čim večji možni meri omogoča razlikovanje med skupinami na osnovi izbranih neodvisnih spremenljivk.

2. ugotavljanje ali obstajajo značilne razlike med skupinami z vidika izbranih neodvisnih spremenljivk.

3. določitev prispevka neodvisnih spremenljivk k razlikovanju med skupinami. 4. razvrščanje enot v eno izmed skupin na osnovi diskriminantne funkcije in vrednosti

neodvisnih spremenljivk. Kadar ima odvisna spremenljivka samo dve vrednosti (dve skupini), govorimo o diskriminantni analizi z dvema skupinama, če pa ima 3 ali več vrednosti (3 ali več skupin) pa govorimo o multipli diskriminantni analizi. Diskriminantna analiza je podobna multipli regresijski analizi, le da je odvisna spremenljivka opisna. Z diskriminantno analizo ugotavljamo in pojasnjujemo razlike med skupinami. Da bi na primer ugotovili, kako se razlikujejo kupci naših izdelkov od kupcev, ki kupujejo konkurenčne izdelke glede na dohodek, starost, izobrazbo (neodvisne spremenljivke), bi lahko za posamezne skupine izračunali povprečen dohodek, starost, izobrazbeno raven in ugotovili kakšna so povprečja v posamezni skupini. To je vsekakor zanimivo z vidika posameznih spremenljivk, nič pa ne pove o njihovem skupnem vplivu pri predpostavki, da je mala verjetnost, da imajo vse spremenljivke neodvisne učinke. Če se npr. skupine razlikujejo glede na povprečen dohodek, se zelo verjetno razlikujejo tudi glede na izobrazbo, saj sta ti dve spremenljivki med seboj močno povezani. Zato nas zanima skupen učinek obeh spremenljivk, prav tako pa, katera spremenljivka ima večji učinek. Diskriminantna analiza omogoča, da obravnavamo spremenljivke hkrati, tako da upoštevamo njihove medsebojne odvisnosti in informacije, ki se delno pokrivajo.

Page 33: Metode raziskovanja

33

5.3.1 Diskriminantna analiza z dvema skupinama Da bi ugotovili, katere spremenljivke prispevajo največ k razlikovanju med dvema skupinama enot, oblikujemo novo spremenljivko – diskriminantno funkcijo, oblikovano tako, da se vrednosti enot, izračunane z diskriminantno funkcijo, v obeh skupinah med seboj v največji možni meri razlikujejo. Analiza variance bi za tako oblikovane nove vrednosti enot pokazala značilne razlike med povprečnima vrednostma proučevanih skupin. V okviru diskriminantne analize se za ugotavljanje učinkovitosti diskriminantne funkcije uporablja statistika Wilks lambda. Diskriminantno funkcijo zapišemo: D = a1y1 + a2y2 +…+ akyk kjer je: D - vrednost diskriminantne funkcije (discriminant scores) ak - koeficient diskriminantne funkcije pri spremenljivki yk yk - k-ta neodvisna spremenljivka V primeru dveh skupin enot si lahko predstavljamo dve delno pokrivajoči normalni porazdelitvi vrednosti D za dve skupini. Vrednosti D so oblikovane tako (z izbiro ustreznih vrednosti koeficientov a1, a2, ….ak), da sta obe porazdelitvi med seboj čim bolj oddaljeni. Koeficienti oz. uteži so določene tako, da je razmerje

skupin znotrajst Variabilnoskupinami medst Variabilno

maksimalno. Na ta način so si enote z vidika vrednosti D znotraj skupin med seboj čim bolj podobne, med skupinama pa čim bolj različne. Tako se problem več neodvisnih spremenljivk zmanjša na problem ene neodvisne spremenljivke. Zaradi tega ni potrebno primerjati skupini po vseh neodvisnih spremenljivkah, temveč samo glede na vrednosti ene spremenljivke D. Prav tako je tudi zagotovljeno, da sta si skupini glede na vrednosti D med seboj v največji možni meri različni. V nadaljevanju je potrebno ugotoviti, v čem se skupini med seboj najbolj razlikujeta oz. katere spremenljivke največ prispevajo k razlikovanju med skupinama. Interpretacija diskriminantne funkcije Statistično značilna diskriminantna funkcija pomeni, da so razlike med skupinama značilne, kar se preverja z analizo variance. Koeficiente diskriminantne funkcije razložimo podobno kot regresijske keoeficiente. Vsak koeficient odraža relativni prispevek k diskriminantni funkciji pri spremembi vsake neodvisne spremenljivke za eno enoto. Majhna vrednost koeficienta pomeni majhni relativni prispevek spremenljivke k vrednosti diskriminantne funkcije in obratno. Problem nastopi, kadar so spremenljivke izražene v različnih enotah. Zato se v teh primerih prispevek posamezne spremenljivke – uteži - izrazi še v standardizirani obliki. Absolutna velikost standardiziranih uteži tako omogoča ugotavljanje relativnega prispevka posamezne spremenljivke. Majhna standardizirana vrednost torej pomeni, da spremenljivka ni pomembna pri diskriminiranju med skupinami, ali pa se je njen učinek izgubil zaradi multikolinearnosti med spremenljivkami. Diskriminantne uteži (discriminant loadings) kažejo pomen neodvisnih spremenljivk v razlikovanju med skupinami in se izračunajo kot enostavni korelacijski koeficienti med diskriminantnimi vrednostmi in vrednostmi za posamezno neodvisno spremenljivko. Kvadrati

Page 34: Metode raziskovanja

34

teh koeficientov se pojasnjujejo kot determinacijski koeficienti in kažejo delež variabilnosti v diskriminantni vrednosti, ki je pojasnjen z ustrezno neodvisno spremenljivko. Če povzamemo, so v bistvu tri možnosti za ocenjevanje relativnega pomena spremenljivk pri razlikovanju med skupinama: razlike v aritmetični sredini spremenljivk med skupinami, standardizirani koeficienti in diskriminantne uteži. Vse tri analize dajo iste zaključke o relativnem pomenu spremenljivk, če med neodvisnimi spremenljivkami ni multikolinearnosti. V primeru multikolinearnosti so lahko zaključki različni, zato je potrebna toliko večja pazljivost pri razlaganju izidov statistične analize.

5.3.2 Multipla diskriminantna analiza Pri multipli diskriminantni analizi z G skupinami je mogoče oceniti G-1 diskriminantnih funkcij, če je število neodvisnih spremenljivk večje od G, kar je običajno. Prva funkcija ima največje vrednost količnika med varianco med skupinami in varianco znotraj skupin (eigenvalue). Druga, nekorelirana s prvo, ima drugi največji količnik itd. Vendar pa ni rečeno, da so vse funkcije statistično značilne. Prva funkcija prispeva maksimalno k razlikovanju, kar pomeni, da imajo enote znotraj skupin zelo podobne diskriminantne vrednosti, med skupinami pa se te vrednosti zelo razlikujejo. Primer 5.3 Diskriminantno analizo bomo izvedli na primeru 30 družin, za katere nas zanima, katere njihove lastnosti vplivajo na to, da družina obišče zdravilišče ali ne (v primeru diskriminantne analize z dvema skupinama) oziroma katere so tiste lastnosti družin, ki vplivajo na to, ali družina porabi male, srednje ali visoke zneske za dopust (v primeru diskriminantne analize s tremi skupinami). Pri diskriminantni analizi je odvisna spremenljivka skupina. V našem primeru z dvema skupinama so v skupini 1 družine, ki so obiskale zdravilišče, v skupini 2 pa družine, ki zdravilišča niso obiskale. V primeru treh skupin pa so v skupini 1 družine, ki porabijo mali znesek za dopust, v skupini 2 družine, ki porabijo srednje velike zneske za dopust in v skupini 3 družine, ki porabijo visoke zneske za dopust. Spremenljivke, ki naj bi vplivale na odločitev o obisku zdravilišča oz. na znesek, ki ga družina porabi za dopust so: višina letnega dohodka družine (DOHODEK), kako rada družina potuje (ODNOS), kako pomemben je dopust za družino (POMEN), velikost družine (VELIKOST), starost očeta ali matere (STAROST). Spremenljivke ODNOS in POMEN smo merili na intervalni skali od 1 do 9 (1 = družina ne potuje rada, oz. dopust ni pomemben; 9 = družina zelo rada potuje, oz. dopust je zelo pomemben). Podatki so v datoteki diskrim.

S programom SPSS smo najprej opravili diskriminantno analizo z dvema skupinama in dobili naslednje izpise.

Eigenvalues

1,786a 100,0 100,0 ,801Function1

Eigenvalue% of

VarianceCumulative

%Canonical

Correlation

First 1 canonical discriminant functions were used in theanalysis.

a.

Lastna vrednost (Eigenvalue) je razmerje med vsoto kvadratov med skupinami in vsoto kvadratov znotraj skupin. Večja kot je njena vrednost, boljša je diskriminantna funkcija.

Page 35: Metode raziskovanja

35

Wilks' Lambda

,359 26,130 5 ,000Test of Function(s)1

Wilks'Lambda Chi-square df Sig.

Wilks' λ je enaka količniku med vsoto kvadratov znotraj skupin in celotno vsoto kvadratov. Njene vrednosti so med 0 in 1. Vrednost λ blizu 1 pomeni, da aritmetične sredine diskriminantnih vrednosti med skupinami niso značilno različne, mala vrednost pa da so. Do enakega zaključka pridemo ob upoštevanju vrednost hi-kvadrat, ki jo uporabimo pri testiranju ničelne domneve, da so aritmetične sredine diskriminantnih vrednosti skupin enake. Ker je v tem primeru raven značilnosti manjša od 0,05, smemo ničelno domnevo o enakosti aritmetičnih sredin diskriminantnih vrednosti skupin zavreči s tveganjem, manjšim od 0,05.

Standardized CanonicalDiscriminant Function Coefficients

,743

,096

,233

,469

,209

LETNI DOHODEKDRUŽINEODNOS DOZDRAVILIŠČPOMEN DRUŽINSKIHPOČITNICŠTEVILO DRUŽINSKIHČLANOVSTAROST OČETA ALIMATERE

1Function

Structure Matrix

,822

,541

,346

,213

,164

LETNI DOHODEKDRUŽINEŠTEVILO DRUŽINSKIHČLANOVPOMEN DRUŽINSKIHPOČITNICODNOS DOZDRAVILIŠČSTAROST OČETA ALIMATERE

1Function

Pooled within-groups correlations betweendiscriminating variables and standardizedcanonical discriminant functions Variables ordered by absolute size ofcorrelation within function.

Standardizirani koeficienti kažejo na relativni pomen spremenljivk pri razlikovanju med skupinama. Spremenljivke z večjo vrednostjo standardiziranega koeficienta prispevajo več k razlikovanju med skupinama. Najpomembnejša spremenljivka je torej letni dohodek, sledi ji število družinskih članov itd.

V strukturni matriki je relativni pomen posameznih spremenljivk pri razlikovanju med skupinama prikazan po vrstnem redu ob upoštevanju diskriminantnih uteži (discriminant loadings). To so enostavni korelacijski koeficienti med diskriminantno funkcijo in posameznimi spremenljivkami.

Page 36: Metode raziskovanja

36

Functions at Group Centroids

1,291-1,291

OBISK ZDRAVILIŠČA12

1Function

Unstandardized canonical discriminantfunctions evaluated at group means

Classification Results a

12 3 150 15 15

80,0 20,0 100,0,0 100,0 100,0

OBISK ZDRAVILIŠČA1212

Count

%

Original1 2

Predicted GroupMembership

Total

90,0% of original grouped cases correctly classified.a.

Klasifikacijska matrika prikazuje število z diskriminantno funkcijo pravilno razvrščenih enot v skupini. Uspešnost klasifikacije je prikazana s količnikom med pravilno razvrščenimi enotami in skupnim številom enot (hit ratio). Za izvedbo diskriminantne analize s tremi skupinami se postopek v našem primeru razlikuje v toliko, da razvrščamo enote v tri skupinah po spremenljivki ZNESEK DRUŽINE. Rezultati analize, dobljeni s programom SPSS za diskriminantno analizo s tremi skupinami, so:

Eigenvalues

3,819a 93,9 93,9 ,890,247a 6,1 100,0 ,445

Function12

Eigenvalue% of

VarianceCumulative

%Canonical

Correlation

First 2 canonical discriminant functions were used in theanalysis.

a.

Prva funkcija ima večjo lastno vrednost (eigenvalue), omogoča torej boljše razlikovanje med skupinami. Na osnovi Wilks' lambde, hi-kvadrata in stopnje značilnosti sklepamo, da prva funkcija omogoča razlikovanje med skupinami: majhna vrednost Wilks' Lambde, nizka stopnja tveganja (α ‹ 0,05).

Wilks' Lambda

,166 44,831 10 ,000,802 5,517 4 ,238

Test of Function(s)1 through 22

Wilks'Lambda Chi-square df Sig.

Centroid je povprečje diskriminantnih vrednosti v skupini.

Page 37: Metode raziskovanja

37

Če izločimo iz analize prvo funkcijo, pa vidimo, da druga funkcija ne prispeva značilno k razlikovanju med skupinama: visoka vrednost Wilks' Lambde, visoka stopnja tveganja (α › 0,05).

Structure Matrix

,856* -,278

,193* ,077

,219 ,588*

,149 ,454*

,166 ,341*

LETNI DOHODEKDRUŽINEŠTEVILO DRUŽINSKIHČLANOVODNOS DOZDRAVILIŠČPOMEN DRUŽINSKIHPOČITNICSTAROST OČETA ALIMATERE

1 2Function

Pooled within-groups correlations betweendiscriminating variables and standardizedcanonical discriminant functions Variables ordered by absolute size of correlationwithin function.

Largest absolute correlation between eachvariable and any discriminant function

*.

Iz strukturne matrike vidimo, da je prva funkcija, ki največ prispeva k razlikovanju med skupinama, povezana s spremenljivkama LETNI DOHODEK IN ŠTEVILO DRUŽINSKIH ČLANOV. Ta funkcija omogoča razlikovanje med vsemi tremi skupinami: skupina 3 ima največji letni dohodek in največje število družinskih članov, sledi skupina 2 in nato skupina 1 (povprečne vrednosti vidimo v Tabeli 5.2.1: Group Statistics). Podobno lahko komentiramo drugo diskriminantno funkcijo, ki pa prispeva slabše k razlikovanju med skupinami. Slika 5.1. Razsevni grafikon

Canonical Discriminant Functions

Function 1

6420-2-4

Func

tion

2

3

2

1

0

-1

-2

-3

ZNESEK DRUŽINE ZA LE

Group Centroids

Ungrouped Cases

3

2

1

3

2

1

Prva funkcija je povezana s spremenljivkama LETNI DOHODEK in ŠTEVILO DRUŽINSKIH ČLANOV (*), druga funkcija pa s preostalimi spremenljivkami.

Page 38: Metode raziskovanja

38

Razsevni grafikon kaže položaj posamezne enote oz. skupine enot glede na prvo in drugo diskriminantno funkcijo ter razlike med skupinami, upoštevajoč spremenljivke povezane s posameznima funkcijama. Aritmetične sredine in standardni odkloni za spremenljivke, uporabljene v diskriminantni analizi za tri skupine družin so podane v razpredelnici Group Statistics.

Page 39: Metode raziskovanja

39

Group Statistics

38,570 5,297 10 10,000

4,500 1,716 10 10,000

4,700 1,889 10 10,000

3,100 1,197 10 10,000

50,300 8,097 10 10,000

50,110 6,002 10 10,000

4,000 2,357 10 10,000

4,200 2,486 10 10,000

3,400 1,506 10 10,000

49,500 9,253 10 10,000

64,970 8,614 10 10,000

6,100 1,197 10 10,000

5,900 1,663 10 10,000

4,200 1,135 10 10,000

56,000 7,601 10 10,000

51,217 12,795 30 30,000

4,867 1,978 30 30,000

4,933 2,100 30 30,000

3,567 1,331 30 30,000

51,933 8,574 30 30,000

LETNI DOHODEKDRUŽINEODNOS DOZDRAVILIŠČPOMEN DRUŽINSKIHPOČITNICŠTEVILO DRUŽINSKIHČLANOVSTAROST OČETA ALIMATERELETNI DOHODEKDRUŽINEODNOS DOZDRAVILIŠČPOMEN DRUŽINSKIHPOČITNICŠTEVILO DRUŽINSKIHČLANOVSTAROST OČETA ALIMATERELETNI DOHODEKDRUŽINEODNOS DOZDRAVILIŠČPOMEN DRUŽINSKIHPOČITNICŠTEVILO DRUŽINSKIHČLANOVSTAROST OČETA ALIMATERELETNI DOHODEKDRUŽINEODNOS DOZDRAVILIŠČPOMEN DRUŽINSKIHPOČITNICŠTEVILO DRUŽINSKIHČLANOVSTAROST OČETA ALIMATERE

ZNESEK DRUŽINEZA LETNI DOPUST1

2

3

Total

MeanStd.

Deviation Unweighted WeightedValid N (listwise)

Page 40: Metode raziskovanja

40

6 Analiza medsebojne odvisnosti

6.1 Analiza skupin (Cluster analysis) V marketingu, pa tudi na drugih področjih, se mnogokrat kaže potreba po razvrščanju subjektov – enot v homogene skupine, t.j. skupine s čim bolj podobnimi lastnostmi. Npr. podjetje želi segmentirati tržišče, to je razvrstiti potencialne kupce v homogene skupine, ki so dovolj velike ali dobičkonosne za nadaljnjo obravnavo z vidika zadovoljevanja njihovih specifičnih potreb. Pri razvrščanju v skupine je mogoče upoštevati številne lastnosti potrošnikov kot so demografske (spol, starost….), ekonomske, vedenjske, psihološke. Takšno analizo omogoča analiza skupin. Njen cilj je razvrstiti enote v skupine tako, da so znotraj skupin enote med seboj čim bolj podobne, med skupinami pa čim bolj različne. Pri tej analizi gre torej za združevanje enot in s tem zmanjševanje njihovega števila. Razvrščanje v skupine se izvede na osnovi ustreznih spremenljivk, pri čemer analiza skupin ne razlikuje med odvisnimi in neodvisnimi spremenljivkami.

V okviru analize skupin je treba rešiti naslednja vprašanja:

1. Katere spremenljivke so v konkretni raziskavi pomembne za razvrščanje enot v homogene skupine?

2. Katero merilo upoštevati pri določanju razlik med enotami? 3. Kateri kriterij upoštevati pri vključevanju enot v skupine?

Postopek pri izvedbi analize skupin:

1. Definiranje problema 2. Izbira merila razlik oz. podobnosti med enotami (distance measure) 3. Izbira metode 4. Odločitev o številu skupin 5. Interpretacija skupin 4. Ocenjevanje kvalitete rezultatov razvrščanja enot v skupine (reliability and validity of

clustering). Definiranje problema Pri definiranju problema je zelo pomembno pravilno določiti - izbrati značilnosti enot (spremenljivke), po katerih se bodo enote združevale v skupine – klastre. Spremenljivke se določajo na osnovi preteklih raziskovanj (izkušenj), teorije na relevantnem področju oz. na osnovi hipotez, ki se testirajo.

Izbira merila

Ker je cilj analize skupin razvrstiti enote v homogene skupine potrebujemo mero, s katero je mogoče presojati podobnost oz. različnost med posameznimi enotami. Na razpolago je več načinov merjenja razlik oz. podobnosti med enotami. Kot najbolj pogosto merilo podobnosti se uporablja evklidska razdalja (euclidean distance) oz. njen kvadrat. Kvadrirana evklidska razdalja je vsota kvadriranih razlik med vrednostmi dveh spremenljivk za vse možne pare enot. Če so vrednosti spremenljivk podane v različnih enotah mere, jih je potrebno predhodno standardizirati.

Page 41: Metode raziskovanja

41

Kvadrirana evklidska razdalja je definirana z:

2rsd = ( )∑ −

=

p

1j

2sjrj xx

kjer je 2rsd kvadrirana evklidska razdalja med enotama r in s, xrj je vrednost j-te spremenljivke

pri enoti r in xsj je vrednost j-te spremenljivke pri enoti s, p pa je število spremenljivk. Izbira metode Tako kot je več načinov merjenja razlik oz. podobnosti med enotami je tudi več metod, ki omogočajo združevanje enot v skupine.

Pri metodi variance se skupine tvorijo na osnovi minimiziranja variance znotraj skupin (within-cluster variance) – Wardova metoda. Wardova metoda združuje enote in skupine na principu maksimiranja homogenosti znotraj skupin. Vsota kvadratov znotraj skupin služi kot merilo homogenosti. Ob vsakem koraku se skupine formirajo tako, da je za oblikovane skupine vsota kvadratov znotraj skupin minimalna (within cluster sums of squeres). Wardova metoda zahteva uporabo evklidske razdalje. Na osnovi izračunanih evklidskih razdalj se tvori matrika podobnosti (Similarity Matrix), ki v nadaljevanju omogoča združevanje enot v skupine po različnih metodah. Metoda hierarhičnega (drevesnega) razvrščanja prične razvrščanje s številom skupin, ki je enako številu enot, nato pa se v vsakem koraku število skupin zmanjša za eno (združevanje enot oz. skupin je prikazano v dendrogramu). Odločitev o številu skupin

Glede odločitve o številu skupin ni trdnih pravil, upoštevati pa je mogoče naslednje. • Spoznanja na osnovi teorije in prakse obravnavanega področja. • Pri uporabi hierarhične metode je mogoče upoštevati razlike (kvadrirana evklidska

razdalja), pri katerih pride do združevanja skupin. Informacijo lahko dobimo iz pregleda združevanja (agglomeration schedule) ali iz dendrograma.

• Število enot v posameznih skupinah ne sme biti premalo.

Interpretacija skupin Skupine je mogoče razložiti s pomočjo centroidov skupin. Ti predstavljajo povprečno vrednost enot v skupini za vsako spremenljivko. Prav tako je mogoče skupine razložiti s pomočjo diskriminantne analize in analize variance, ki omogočata določitev spremenljivk, ki največ prispevajo k razlikovanju med oblikovanimi skupinami. Pri tem so v pomoč tudi spremenljivke, ki se niso uporabile pri razvrščanju enot v skupine.

Ocenjevanje kvalitete razvrščanja enot v skupine (reliability and validity of clustering) Kvaliteto razvrščanja lahko preverimo z naslednjimi postopki: • Na istih podatkih uporabimo drugačno mero razlik med enotami. S primerjavo rezultatov

lahko določimo stabilnost rešitev. • Uporabimo različne metode združevanja in primerjamo rezultate. • Na slučajen način razdelimo podatke na dva dela. Primerjamo centroide skupin iz obeh

delov podatkov. • Na slučajen način izpuščamo spremenljivke. Primerjamo rezultate z rezultati, ki smo jih

dobili z uporabo vseh spremenljivk. Večina metod analize skupin je relativno enostavna za razumevanje in ne zahtevajo poglobljenega statističnega znanja. V okviru analize skupin se uporabljajo naslednji pojmi:

Page 42: Metode raziskovanja

42

Načrt združevanja (agglomeration schedule) podaja informacije o enotah, ki se na posameznih stopnjah hierarhične metode združujejo v skupine. Centroid skupine (cluster centroid) je povprečna vrednost spremenljivk za enote, ki so v določeni skupini. Članstvo v skupini (cluster membership) pokaže kateri skupini pripada določena enota. Dendrogram je grafični prikaz rezultatov združevanja (drevo), ki kaže razvrščanje enot v skupine na ustreznih ravneh ob upoštevanju razlik oz. podobnosti med enotami. Na vertikalni skali je prikazano združevanje enot v skupine, na horizontalni skali pa so prikazane »razdalje«, pri katerih pride do združevanja. Dendrogram se čita z leve proti desni.

Primer 6.1 Analizo skupin bomo izvedli na primeru 20 kupcev, ki jih želimo razvrstiti v tri homogene skupine glede na njihove navade oz. njihov odnos do nakupovanja. Kupci so na intervalni skali od 1 (se v celoti ne strinjam) do 7 (se v celoti strinjam) izrazili svoje mnenje o naslednjih trditvah: 1. nakupovanje je zabava (ZABAVA)

2. nakupovanje zmanjšuje družinski proračun (STROŠEK)

3. ob nakupovanju običajno ne kosim doma (KOSILO)

4. pri nakupovanju poskušam doseči najugodnejši nakup (UGODNO)

5. nakupovanje me ne zanima (NEZANIMA)

6. s primerjavo cen lahko dosti prihraniš (PRIHRAN)

V oklepajih so navedena imena spremenljivk. Podatki za izvedbo analize skupin so v datoteki podatki cluster. S programom SPSS dobimo naslednje izpise.

Page 43: Metode raziskovanja

43

Razpredelnica 6.1. Članstvo v skupinah

Cluster Membership

12132111232123131332

Case1234567891011121314151617181920

3 Clusters

Slika 6.1. Dendrogram Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 14 òø

16 òú

10 òú

4 òôòòòø

19 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòø

18 òòòòò÷ ùòòòòòòòòòòòòòòòòòòòø

2 òûòø ó ó

13 ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó

5 òø ó ó

11 òôò÷ ó

9 òú ó

20 ò÷ ó

3 òûòø ó

8 ò÷ ó ó

6 òø ó ó

7 òú ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

12 òú ó

1 òôòø

17 ò÷ ó

15 òòò÷

Iz desnega stolpca je razvidno, v katero skupino je razvrščena posamezna enota.

Iz dendrograma je razvidno, da je bilo na začetku 20 skupin (enot), ki so se nato postopoma združevale v skupine tako, da so na koncu vse enote združene v eni skupini

Page 44: Metode raziskovanja

44

Iz drugega stolpca razpredelnice 6.1 je razvidno, da so enote razvrščene v tri skupine (clustre). Številka v tem stolpcu pove, v katero skupino je razvrščena posamezna enota. Potek razvrščanja v skupine je prikazan z dendrogramom. Na začetku razvrščanje je bilo 20 enot, ki so se postopoma združevale v skupine, na koncu razvrščanja so vse enote združene v eno skupino. Odločiti se je treba, v koliko skupin je smiselno združiti enote. V tem primeru smo se odločili za tri skupine.

6.2 Faktorska analiza – metoda glavnih komponent Pri proučevanju kompleksnih pojavov moramo pogosto upoštevati veliko medsebojno odvisnih spremenljivk. Če pri analizi njihovega vpliva na odvisno spremenljivko uporabimo multiplo regresijsko analizo, izgubimo precejšen del informacij, vsebovanih v neznačilnih regresorjih, ki jih v nadaljnji analizi ne upoštevamo. Zato v takih primerih uporabimo faktorsko analizo, ki nam z uvedbo sintetičnih spremenljivk (faktorjev) zmanjša število spremenljivk. Pri klastrski analizi združujemo v skupine enote, pri faktorski analizi pa spremenljivke. Tako je na primer število dejavnikov, ki vplivajo na uspeh novega izdelka, zelo veliko. Iz velikega števila dejavnikov želimo s faktorsko analizo opredeliti nekaj faktorjev, ki pojasnijo čim večji delež celotne variance. Namesto velikega števila spremenljivk vključimo v nadaljnje analize samo manjše število faktorjev. Prvi faktor je zato določen tako, da pojasni čim večji delež celotne variance. Drugi je izbran tako, da je neodvisen od prvega in pojasni čim večji delež še nepojasnjene variance. Na podoben način so določeni še preostali faktorji. Potek faktorske analize je možno opisati z naslednjimi koraki: 1. določitev spremenljivk in analiza odvisnosti med njimi 2. odločitev o številu faktorjev 3. vsebinska opredelitev faktorjev Prva faza se nanaša na izbor spremenljivk, ki jih bomo upoštevali v faktorski analizi. Te izberemo na osnovi predhodnih raziskav ali naše presoje. Število izbranih spremenljivk določa velikost vzorca. Izkustveno pravilo kaže, da naj je v vzorcu vsaj 4 k enot, kjer je k število spremenljivk. Odvisnost med spremenljivkami proučujemo s korelacijsko matriko. Faktorska analiza namreč ni smiselna, če obstaja šibka povezanost med spremenljivkami. Smiselnost uporabe faktorske analize preizkušamo z Bartlettovim testom sferičnosti. Z njim preizkušamo ničelno domnevo, da je osnovna korelacijska matrika enaka matriki enote, kar pomeni, da ne obstaja odvisnost med opazovanimi spremenljivkami. Velika vrednost te statistike govori v prid uporabe faktorske analize. Poleg Bartlettovega testa sferičnosti se uporablja še Keiser-Meyer-Olkinova statistika (KMO), ki temelji na primerjavi velikosti korelacijskih in parcialnih korelacijskih koeficientov. Uporaba faktorske analize je smiselna pri veliki vrednosti te statistike, to je pri vrednosti, ki je večja od 0,5. V naslednjem koraku določimo nove, to je sintetične spremenljivke, ki jih bomo imenovali faktorje. Za to je možno uporabiti dve metodi. Pri metodi glavnih komponent so faktorji določeni kot linearna kombinacija prvotnih spremenljivk. Pri klasični faktorski analizi pa pri

Page 45: Metode raziskovanja

45

določanju faktorjev upoštevamo predpostavke o strukturi spremenljivk in njihovih virih variacije. Model glavnih komponent je določen z: z1 = a11F1 + a12F2 + … + a1kFk z2 = a21F1 + a22F2 + … + a2kFk M zk = ak1F1 + ak2F2 + … + akkFk kjer pomeni: zi – standardizirana vrednost i-te opazovane spremenljivke, i = 1, …, k Fj - j-ta glavna komponenta oziroma faktor, j = 1, …, k aij - faktorska utež pri i-ti spremenljivki in j-tem faktorju. Vsako opazovano spremenljivko smo izrazili s k glavnimi komponentami. Komponente določamo zaporedoma, tako da linearna kombinacija spremenljivk, ki določa prvo komponento, pojasni največji del celotne variance. Druga komponenta je določena kot druga najboljša linearna kombinacija, ki pojasni največji del s prvo komponento še nepojasnjene variance. V drugi fazi izvajanja faktorske analize želimo določiti faktorje, ki pojasnijo čim večji delež celotne variance. Pri tem si pomagamo s komunalitetami in lastnimi vrednostmi. Vsoto kvadratov faktorskih uteži za m faktorjev imenujemo komunaliteto in jo za spremenljivko zi označimo s h 2

i , pri čemer je m < k. Ta je torej enaka:

2im

22i

21i

2i a...aah +++=

in izraža prispevek m faktorjev k pojasnitvi variance za spremenljivko zi. Delež nepojasnjene variance, če upoštevamo le m faktorjev, je 1 - 2

ih . Ena pomembnih nalog pri uporabi faktorske analize je določiti primerno vrednost za m. Vsoto kvadratov faktorskih uteži za j-ti faktor imenujemo lastna vrednost λi. Izraža tisti del celotne variance, ki je pojasnjena z j-tim faktorjem. Njena vrednost je določena z: a 2

j1 + a 2j2 + … + a 2

kj = λj Pri metodi glavnih komponent so faktorji določeni tako, da prvi pojasni največji del celotne variance, drugi faktor največji del s prvim faktorjem še nepojasnjene variance itd., zato velja: λ1 > λ2 > … > λk Ker je celotna varianca enaka

∑∑ ∑ === = =

k

1i

k

1j

k

1i

2ij k1a

Page 46: Metode raziskovanja

46

je odstotek celotne variance, ki je pojasnjen z j-tim faktorjem določen z:

100k

Za nadaljnjo analizo izrazimo faktorje še kot funkcije spremenljivk zj j=1, 2, …, r. Tako izrazimo j-ti faktor z: Fj = c1jz1 + c2jz2 + … + ckj zk Druga faza faktorske analize se zaključi z določitvijo števila faktorjev (glavnih komponent), ki jih bomo upoštevali v nadaljnjih analizah. Pri tem je možno uporabiti različna pravila. Ta temeljijo na: a) izkušnjah, ki pomagajo raziskovalcu pri vnaprejšnji oceni števila faktorjev, ki bodo

pojasnili čim večji delež variance; b) lastni vrednosti λj , j = 1, 2, … , k. Pri tem pristopu se vključijo v nadaljnjo analizo le tisti

faktorji, ki jim pripada lastna vrednost, ki je večja od ena. c) diagramu lastnih vrednosti, ki ga dobimo, če na absciso nanašamo rang faktorjev, na

ordinato pa njihove lastne vrednosti. Oblika tako dobljenega linijskega grafikona nam omogoča določiti ustrezno število faktorjev. V nadaljnji analizi upoštevamo le faktorje z lastno vrednostjo, ki je večja od tiste, ki je na prelomu linije. Običajno je število faktorjev, določeno s tem pristopom, večje od števila, ki ga dobimo z uporabo v točki b opisanega pristopa;

d) odstotku pojasnjene celotne variance; število faktorjev je odvisno od vnaprej predpisanega odstotka celotne variance, ki naj bo pojasnjen z izbranim številom faktorjev. Od vsebine problema je odvisen predpisan odstotek celotne variance, vendar strokovnjaki priporočajo naj bo le-ta vsaj 60 %;

e) statističnem testu značilnosti faktorjev, ki temelji na ugotavljanju statistične značilnosti lastnih vrednosti. V nadaljnji analizi obdržimo faktorje, ki jim pripadajo statistično značilne lastne vrednosti. Ta pristop da slabo izbiro pri velikih vzorcih (n > 200), saj so pri le-teh statistično značilne tudi lastne vrednosti manjše od ena.

V tretji fazi opredelimo vsebinski pomen izbranih faktorjev. Pri tem si pomagamo s faktorskimi utežmi aij. Te izražajo moč zveze med i-to spremenljivko in j-tim faktorjem. Vsebinski pomen j-tega faktorja zato določa spremenljivka oziroma spremenljivke z visoko vrednostjo faktorske uteži. Vsebinsko pojasnjevanje j-tega faktorja pa je oteženo, če je ta močno koreliran z vsemi ali večino spremenljivk, ki imajo visoke faktorske uteži tudi pri drugih faktorjih. Zato je v večini primerov potrebna še rotacija faktorjev, ki da enostavnejšo faktorsko strukturo. Za njo je značilno, da vsakemu faktorju pripada ena ali manjše število uteži z veliko vrednostjo, vrednosti drugih faktorskih uteži pri tem faktorju pa so zelo majhne. Nadaljnja pomembna lastnost te strukture je, da ima vsaka spremenljivka le eno faktorsko utež z visoko vrednostjo. Z rotacijo faktorjev se ne spremenijo vrednosti komunalitet in odstotek pojasnjene celotne variance z izbranim številom faktorjev, spremenijo pa se lastne vrednosti izbranih faktorjev in s tem tudi odstotek s posameznim faktorjem pojasnjene variance. Najbolj pogosto uporabljena analitična metoda, ki da enostavnejšo faktorsko strukturo, je varimax metoda. Je ortogonalna metoda, ki zagotavlja medsebojno neodvisnost rotiranih faktorjev. Če iz teorije izhaja, da faktorji utegnejo biti med seboj odvisni, uporabimo eno od oblique rotacij.

Page 47: Metode raziskovanja

47

Primer 6.2 Pri proučevanju odvisnosti med načinom preživljanja prostega časa in nakupnim obnašanjem želimo upoštevati tudi mnenje potencialnih potrošnikov o naslednjih trditvah: V1: Raje bi preživel-a miren večer doma, kot odšel(a) na zabavo. V2: Vedno preverim ceno izdelka, tudi za izdelke z nizko ceno. V3: Branje revij je zanimivejše od gledanja televizije. V4: Odločitve o nakupu izdelka ne sprejemam pod vplivom oglaševanja. V5: Najraje sem doma. V6: Hranim in unovčim kupone za popust pri ceni. V7: Podjetja potrošijo preveč denarja za oglaševanje. Zastavljene trditve smo testirali na vzorcu 25 anketirancev. Njihovo mnenje o vsaki trditvi smo merili na intervalni skali od 1 do 7 (1 pomeni popolno nestrinjanje, 7 pa popolno strinjanje s trditvijo). S programom SPSS smo izvedli faktorsko analizo in dobili naslednje rezultate. V razpredelnici 6.2 je podana korelacijska matrika, ki omogoča analizo odvisnosti med spremenljivkami. Iz velikosti korelacijskih koeficientov ugotovimo, da obstaja srednje močna odvisnost med spremenljivkami V1, V3 in V5, med spremenljivkama V2 in V6, med spremenljivkama V3 in V7 ter spremenljivkama V4 in V7. Razpredelnica 6.2. Korelacijska matrika

Correlation Matrix

1.000 -.004 .628 .082 .675 -.100 -.338-.004 1.000 .151 -.248 .048 .582 -.251.628 .151 1.000 -.182 .480 .090 -.588.082 -.248 -.182 1.000 .272 .017 .469.675 .048 .480 .272 1.000 -.110 -.082

-.100 .582 .090 .017 -.110 1.000 .014-.338 -.251 -.588 .469 -.082 .014 1.000

V1V2V3V4V5V6V7

CorrelationV1 V2 V3 V4 V5 V6 V7

Analiza odvisnosti med spremenljivkami kaže na smiselnost uporabe faktorske analize, kar potrjujeta še Bartlettov test sferičnosti in Kaiser-Meyer-Olkinov kazalec (KMO). Izidi teh dveh testov so podani v razpredelnici 6.3. Vrednost kazalca KMO je večja od 0,5 in s tveganjem manjšim od 0,05 smemo zavrniti ničelno domnevo, da je korelacijska matrika enaka matriki enote (Bartlettov test sferičnosti). Razpredelnica 6.3. KMO in Bartlettov test

KMO and Bartlett's Test

.550

57.99421

.000

Kaiser-Meyer-Olkin Measure of Sampling Adequacy.

Approx. Chi-SquaredfSig.

Bartlett's Test of Sphericity

Page 48: Metode raziskovanja

48

V drugem stolpcu razpredelnice 6.4 so podane lastne vrednosti za posamezne faktorje. Prvi trije faktorji imajo lastno vrednost večjo od ena. Največja lastna vrednost pripada prvemu faktorju in je enaka 2,485. Z njim je pojasnjene 35,505 % celotne variance, z drugim faktorjem 26,013 % in 19,131 % s tretjim. Odstotek celotne variance, pojasnjen s prvim faktorjem je enak:

%5,351007485,2

=

Celotna varianca enaka številu spremenljivk, to je 7 v našem primeru. S prvimi tremi faktorji je pojasnjeno 80,649 % celotne variance. Razpredelnica 6.4. Lastne vrednosti in pojasnjena varianca

Initial Eigenvalues Extraction Sums of Squared Loadings Component Total % of

Variance Cumulative

% Total % of

Variance Cumulative

% 1 2.485 35.505 35.505 2.485 35.505 35.505 2 1.821 26.013 61.518 1.821 26.013 61.518 3 1.339 19.131 80.649 1.339 19.131 80.649 4 .508 7.258 87.907 5 .376 5.373 93.280 6 .279 3.990 97.270 7 .191 2.730 100.000

S faktorsko analizo želimo določiti manjše število faktorjev kot je število spremenljivk. Zato je pri izvajanju faktorske analize pomembna odločitev o številu faktorjev, ki jih bomo upoštevali v nadaljnjih analizah. Če pri tej odločitvi uporabimo pravilo lastne vrednosti, bi se v obravnavanem primeru odločili za prve tri faktorje, ki imajo lastno vrednost večjo od 1. Ti bi bili izbrani tudi po pravilu celotne pojasnjene variance, saj je z njimi pojasnjene 80,649 % celotne variance, kar je več od predpisanega minimalnega odstotka (več kot 60 %). Na tri faktorje kaže tudi diagram lastnih vrednosti, prikazan na sliki 6.3, saj je prelom linije pri k = 4. Po tem pravilu namreč zadržimo tiste faktorje, ki imajo večjo lastno vrednost kot faktor, ki leži na prelomu. Slika 6.2. Diagram lastnih vrednosti

Scree Plot

Component Number

7654321

Eig

enva

lue

3.0

2.5

2.0

1.5

1.0

.5

0.0

Page 49: Metode raziskovanja

49

V razpredelnici 6.5 so za prve tri faktorje podane faktorske uteži. Kažejo moč odvisnosti med i-to spremenljivko in j-tim faktorjem. Kvadrat faktorske uteži 2

ija pa kaže del celotne variance i-te spremenljivke, ki je pojasnjena z j-tim faktorjem. Razpredelnica 6.5. Faktorske uteži

Component Matrixa

.817 .378 8.69E-02

.279 -.714 .457

.887 -2.7E-02 -4.3E-02-.204 .634 .597.664 .505 .329

5.01E-02 -.604 .689-.684 .383 .426

V1V2V3V4V5V6V7

1 2 3Component

Extraction Method: Principal Component Analysis.3 components extracted.a.

Komunalitete so podane v stolpcu »Extraction« razpredelnice 6.6. Njihove vrednosti povedo odstotek variance spremenljivke, ki je pojasnjena s prvimi tremi faktorji. Razpredelnica 6.6. Komunalitete

Communalities

1.000 .8181.000 .7961.000 .7901.000 .8001.000 .8051.000 .8411.000 .796

V1V2V3V4V5V6V7

Initial Extraction

Extraction Method: Principal Component Analysis.

S faktorskimi utežmi, podanimi v razpredelnici 6.5, ni podana enostavna faktorska struktura, ki bi olajšala vsebinsko pojasnitev posameznih faktorjev. Zato z rotacijo faktorjev poiščemo enostavnejšo strukturo. To storimo z varimax metodo. Zaradi rotacije faktorjev se spremenijo njihove lastne vrednosti in delež s posameznim faktorjem pojasnjene celotne variance, ne spremeni pa se delež pojasnjene celotne variance z obdržanimi faktorji. Spremenjene lastne vrednosti in pripadajoči deleži pojasnjene celotne variance so podani v razpredelnici 6.7. Razpredelnica 6.7. Lastne vrednosti in pojasnjene variance po rotaciji

Rotation Sums of Squared Loadings Component Total % of Variance Cumulative % 1 2.315 33.076 33.076 2 1.731 24.729 57.805 3 1.599 22.844 80.649

Page 50: Metode raziskovanja

50

S primerjavo lastnih vrednosti, podanih v razpredelnici 6.7 in 6.4, ugotovimo zmanjšanje lastne vrednosti pri prvem in drugem faktorju ter povečanje pri tretjem. Tudi po rotaciji je s prvimi tremi faktorji pojasnjene 80,649 % celotne variance. Faktorske uteži, dobljene z metodo varimax, so podane v razpredelnici 6.8. Čim višja je vrednost faktorske uteži, tem več pripadajoča spremenljivka prispeva k pojasnitvi celotne variance. V obravnavanem primeru imajo spremenljivke V1, V3 in V5 visoke faktorske uteži pri prvem faktorju. Te spremenljivke torej pojasnjujejo vsebino prvega faktorja, ki po rotaciji pojasnjuje 33,076 % celotne variance. Upoštevajoč vsebino teh spremenljivk, bi prvi faktor lahko poimenovali »način preživljanja prostega časa«. Spremenljivke V4 in V7 imajo visoke faktorske uteži pri drugem faktorju, zato bi ga lahko poimenovali z »oglaševanje«. Ta faktor pojasni 24,729 % celotne variance. Tretji faktor, ki pojasni 22,844 % celotne variance, ima visoke faktorske uteži pri spremenljivkah V2 in V6. Poimenovali bi ga lahko s »cena in popusti«. Razpredelnica 6.8. Faktorske uteži dobljene z varimax metodo

Rotated Component Matrix a

.897 -8.2E-02 -7.6E-024.86E-02 -.232 .860

.762 -.440 .125

.214 .867 -5.2E-02

.868 .224 -1.7E-02-5.7E-02 9.06E-02 .911

-.351 .817 -7.3E-02

V1V2V3V4V5V6V7

1 2 3Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 4 iterations.a.

Page 51: Metode raziskovanja

51

Kazalo slik Slika 2.1. Normalna porazdelitev............................................................................................... 8 Slika 2.2. Histogram in krivulja normalne porazdelitve za spremenljivko K4 ........................ 10 Slika 3.1. Klasifikacija univariatnih statističnih metod............................................................ 12 Slika 3.2. Klasifikacija multivariatnih statističnih metod ........................................................ 13 Slika 6.2. Razsevni grafikon .................................................................................................... 37 Slika 6.1. Dendrogram ............................................................................................................. 43 Slika 6.3. Diagram lastnih vrednosti ........................................................................................ 48

Kazalo razpredelnic Razpredelnica 2.1. Statistike za spremenljivko K4.................................................................... 9 Razpredelnica 2.2. Frekvenčna in kumulativna porazdelitev za spremenljivko K4 ............... 10 Razpredelnica 2.3. Standardizirane vrednosti spremenljivke ocena učbenika......................... 11 Razpredelnica 3.1. Metode za proučevanje odvisnosti med spremenljivkami ........................ 13 Razpredelnica 4.1. Ničelna domneva ter raziskovalne domneve............................................. 14 Razpredelnica 4.2. Ničelna domneva in zaključki ................................................................... 15 Razpredelnica 4.3. Vzorčni podatki o porabi pijače na dan (v k.e.) ......................................... 17 Razpredelnica 4.4. Podatki o številu opravljenih nalog ........................................................... 18 Razpredelnica 4.5. Prodaja po izvedbi oglaševalskih akcij ..................................................... 19 Razpredelnica 4.6. Rezultati Kolmogorov-Smirnovega in Shapiro-Wilkovega testa.............. 21 Razpredelnica 4.7. Podatki in rangi ......................................................................................... 23 Razpredelnica 4.8. Rangi in testne statistike............................................................................ 23 Razpredelnica 4.9. Testne statistike ......................................................................................... 24 Razpredelnice 4.10. Rezultati Wilcoxon signed-rank test za drugo skupino podjetij.............. 25 Razpredelnice 4.11. Rezultati Wilcoxon signed-rank test za prvo skupino podjetij................ 26 Razpredelnica 6.1. Članstvo v skupinah .................................................................................. 43 Razpredelnica 6.2. Korelacijska matrika.................................................................................. 47 Razpredelnica 6.3. KMO in Bartlettov test .............................................................................. 47 Razpredelnica 6.4. Lastne vrednosti in pojasnjena varianca.................................................... 48 Razpredelnica 6.5. Faktorske uteži .......................................................................................... 49 Razpredelnica 6.6. Komunalitete ............................................................................................. 49 Razpredelnica 6.7. Lastne vrednosti in pojasnjene variance po rotaciji .................................. 49 Razpredelnica 6.8. Faktorske uteži dobljene z varimax metodo.............................................. 50