29
PRIMJENA FAKTORSKE ANALIZE Primjer: Upotreba socioekonomskih pokazatelja u određivanju razvijenosti lokalnih zajednica

Primjena faktorske analize

Embed Size (px)

Citation preview

PRIMJENA FAKTORSKE ANALIZE

Primjer: Upotreba socioekonomskih

pokazatelja u određivanju razvijenosti

lokalnih zajednica

I. UVOD

Zavod za programiranje razvoja vrši istraživačke, stručno analitičke i

druge poslove koji se odnose na: programiranje razvoja, analizu faktora i

mogućnosti gospodarskog razvoja i njihovu prezentaciju na domaćem i

stranom tržištu; izradu makro-ekonomskih računa, proporcija i globalnih

agregata rasta; regionalni i lokalni razvoj i sustav njegovog poticanja.

U tom smislu Zavod prati socioekonomske pokazatelje po općinama kako

bi se definirala razvijenost lokalne zajednice. Socioekonomski pokazatelji

koji se za ove potrebe koriste su:

1. Broj zaposlenih,

2. Broj nezaposlenih,

3. Prosječna neto plaća,

4. GDP po stanovniku,

5. Broj učenika u osnovnim školama,

6. Broj učenika u srednjim školama,

7. Broj nastavnika,

8. Broj liječnika,

9. Broj poduzeća.

Koristeći ovu informaciju, u radu će se pokušati testirati pretpostavka da

ovih devet varijabli može biti objašnjeno jednom varijablom (faktorom)

koju bismo nazvali „razvijenost lokalne zajednice“ i koja bi obuhvatila

gore pobrojane varijable. Nadalje, postoji prikladna analiza čiji je osnovni

cilj sažimanje informacija velikog broja izvornih varijabli u manji broj

zajedničkih faktora uz minimalan gubitak informacija – FAKTORSKA

ANALIZA. Pod faktorskom analizom razumijevamo istraživačku metodu

koju primjenjujemo na skup opaženih (emirijskih) varijabli kojom tražimo

skrivene ili latentne faktore, koji predstavljaju podskup opaženih varijabli.

Faktorska analiza izvodi se iz korelacijske matrice opaženih varijabli.

Faktor je vagana sredina opaženih varijabli. Cilj faktorske analize je

redukcija broja varijabli na svega nekoliko (par) faktora iz kojih se može

generirati originalna korelacijska matrica.

Iz osnovnog cilja faktorske analize proizlaze različiti zadatci faktorske

analize, kao što su određivanje faktora i faktorskih bodova sa svrhom

njihova korištenja u daljnjim analizama, identificiranje dimenzija koje se

ne mogu odmah uočiti, istraživanje novog područja – eksploratorna

faktorska analiza, testiranje definiranih hipoteza – konfirmativna

faktorska analiza, te zahtjev parsimonije ili štednje, odnosno

objašnjavanje većeg broja varijabli na osnovi manjeg broja faktora što

dovodi do smanjenja troškova istraživanja.

Iz svega navedenog učinilo mi se zanimljivim ispitati pretpostavku,

postoji li faktor povezan sa specifičnim podskupom navedenih

indikatorskih varijabli, odnosno mogu li se navedene varijable zamijeniti

jednom varijablom, koju bismo nazvali „razvijenost općine“.

Kako bismo ispitali ovu pretpostavku, koristit se se faktorska analiza i to

konfirmativna faktorska analiza, budući da imamo ideju kako varijable

grupirati.

II. RAZRADA

Za ukupno 78 lokalnih zajednica (općina) preuzeti su podacio o

socioekonomskim pokazateljima. Ovi podaci preuzeti su u obliku tablice u

Excelovoj datoteci Socioekonomski pokazatelji po općinama.xls koja se

nalazi u prilogu ovog rada. Ovi podaci unešeni su u datoteku

Socioekonomski pokazatelji.sav u programskom paketu SPSS 17.0 koji je

korišten za obradu podataka, a prikaz varijabli dan je na Slici 1.

Slika 1. Prikaz varijabli socioekonomskih pokazatelja unsenih u SPSS

Za pokretanje faktorske analize, sljedeći su koraci:

Analyze → Data Reduction → Factor.

Otvara se dijaloški okvir Factor analyses.

Nakon toga prebacimo sve varijable s lijeve strane na desnu, i na dostupnim komandama biramo mogućnosti kao što je prikazano na Slici 2.

Slika 2. Koraci u provođenju naredbi u faktorskoj analizi

Sada konačno dobivamo rezultate faktorske analize: u Tablici 1. prikazani

su rezultati deskriptivne statistike, u Tablici 2. dana je matrica korelacija

između varijabli.

Tablica 1. Descriptive Statistics

Mean Std. Deviation Analysis N

broj_zaposlenih 5459,85 7452,675 78

broj_nezaposlenih 4286,34 4091,887 78

prosječna_neto_plaća 624,0312 166,89820 78

GDP_po_stanovniku 4517,03 3348,920 78

broj_učenika_osnovne_škole 3055,14 2698,540 78

broj_učenika_srednje_škole 1269,73 1598,821 78

broj_nastavnika 104,51 138,731 78

broj_liječnika 38,12 82,952 78

broj_poduzeća 1509,85 1631,993 78

Faktorska analiza glavnih komponenti provodi se na nereduciranoj

korelacijskoj matrici, odnosno na glavnoj dijagonali se nalaze jedinice

(Tablica 2.), čime se uključuje ukupna varijanca. Prema tome, u faktorskoj

analizi glavnih komponenti model ne diferencira zajedničku i specifičnu

varijancu, te se faktori zasnivaju na ukupnoj varijanci, a izlučeni faktori

sadrže i specifičnu varijancu.

Tablica 2: Correlation Matrixa

broj_zaposlenih broj_nezaposlenih

prosječna_

neto_plaća

GDP_po_sta

novniku

broj_učenika_os

novne_škole

broj_učenika

_srednje_šk

ole

broj_nas

tavnika broj_liječnika broj_poduzeća

Correlation broj_zaposlenih 1,000 ,784 ,703 ,803 ,810 ,908 ,933 ,745 ,938

broj_nezaposlenih ,784 1,000 ,523 ,663 ,963 ,789 ,759 ,750 ,843

prosječna_neto_plaća ,703 ,523 1,000 ,566 ,540 ,622 ,652 ,479 ,663

GDP_po_stanovniku ,803 ,663 ,566 1,000 ,720 ,618 ,661 ,500 ,775

broj_učenika_osnovne_š

kole

,810 ,963 ,540 ,720 1,000 ,810 ,789 ,742 ,856

broj_učenika_srednje_šk

ole

,908 ,789 ,622 ,618 ,810 1,000 ,975 ,885 ,886

broj_nastavnika ,933 ,759 ,652 ,661 ,789 ,975 1,000 ,857 ,901

broj_liječnika ,745 ,750 ,479 ,500 ,742 ,885 ,857 1,000 ,760

broj_poduzeća ,938 ,843 ,663 ,775 ,856 ,886 ,901 ,760 1,000

a. Determinant = 2,13E-007

Za ispitivanje prikladnosti podataka za primjenu faktorske analize primjenjuje

se Kaiser-Meyer-Olkinova mjera, za sve varijable zajedno, ali i za svaku

varijablu pojedinačno. Budući da vrijednost Kaiser-Meyer-Olkinove mjere, kao

što je prikazano u Tablici 3, iznosi 0,883, može se reći da su podaci odabranih

varijabli prikladni za provođenje faktorske analize. Kaiser-Meyer-Olkin

statistika mjeri adekvatnost uzorka, odnosno da li se podaci dobro uklapaju u

faktor. Mala vrijednost KMO mjere znači da faktorska analiza nije baš dobra

jer korelacije između parova varijabli ne može biti objašnjena drugim

varijablama. Ta statistika trebala bi biti veća od 0,5 da bi faktorska analiza

bila odgovarajuća. Ova statistika zasnovana je na korelaciji i parcijalnoj

korelaciji. Bartlettov test sferičnost je statistički značajan. To znači da

korelacijska matrica nije jedinična.

Tablica 3: KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,883

Bartlett's Test of Sphericity Approx. Chi-Square 1123,929

df 36

Sig. ,000

U Tablici 4. prikazani su pripadajući komunaliteti za svaku pojedinu varijablu.

što pokazuje koliki dio varijance u varijablama je ušlo u izvučeni faktor.1 Budući

da se faktorska analiza glavnih komponenti provodi na nereduciranoj

korelacijskoj matrici gdje se na glavnoj dijagonali nalaze jedinice i inicijalni

komunaliteti su jednaki jedinicama te je njihov zbroj jednak broju izvornih

varijabli.

Ako su niske vrijednosti komunaliteta, to ukazuje na varijable koje bi se mogle

izostaviti iz analize. Iz Tablice 4. je vidljivo da su za sve varijable vrijednosti

komunaliteta visoke. To je 91.8% varijance u broju zaposlenih pa sve do 50,3%

u prosječnoj neto plaći.

1 Komunalitet varijable je zbroj kvadrata faktorskih opterećenja, a tumači se kao doprinos varijanci varijable od zajedničkih faktora, odnosno kao proporcija varijance varijable objašnjene izlučenim faktorima.

Tablica 4:Communalities

Initial Extraction

broj_zaposlenih 1,000 ,918

broj_nezaposlenih 1,000 ,794

prosječna_neto_plaća 1,000 ,503

GDP_po_stanovniku 1,000 ,619

broj_učenika_osnovne_škole 1,000 ,828

broj_učenika_srednje_škole 1,000 ,894

broj_nastavnika 1,000 ,901

broj_liječnika 1,000 ,719

broj_poduzeća 1,000 ,920

Extraction Method: Principal Component Analysis.

Jedna od najvažnijih tablica odnosi se na izlučene faktore i objašnjenje

varijance za pojedine faktore u odnosu na ukupnu varijancu, Tablica 5. Pri

izlučivanju faktora polazi se od svojstvenih vrijednosti (eigenvalues). Za

faktorsku analizu glavnih komponenti karakteristično je da se faktori izlučuju

na osnovu Kaiserova kriterija, odnosno izlučuju se oni faktori čija je svojstvena

vrijednost (eigenvalue) veća od jedan. Svojstvena vrijednost prvog faktora

iznosi 7,076, drugog faktora 0,676, trećeg faktora 0,561, a četvrtog faktora

0,342. Prema Kaiserovom kriteriju, izlučen je jedan faktor jer je svojstvena

vrijednost drugog i svakog narodnog faktora manja od jedan.

Pri određivanju broja faktora može se primijeniti i kriterij postotka objašnjene

varijance prema kojem se faktori izlučuju sve dok se više ne mogu odrediti

faktori koji značajno smanjuju neobjašnjenu varijancu. U Tablici 5. su, između

ostalog, prikazane svojstvene vrijednosti i postotak objašnjene varijance.

Vidljivo je da postotak varijance objašnjene prvim faktorom iznosi 78,84%.

Zbroj eigenvalues iznosi 9, upravo koliko ima i varijabli dok ukupan postotak

objašnjene varijance iznosi 100%. U prirodnim znanostima izlučivanje faktora

ne bi trebalo prestati sve dok izlučeni faktori ne objašnjavaju najmanje 95%

ukupne varijance. Međutim, u društvenim znanostima istraživači se nerijetko

odlučuju za rješenje kojim se objašnjava 60% od ukupne varijance. S obzirom

na visok postotak objašnjene varijance, jedan izlučen faktor zadovoljava i

Kaiserov kriterij i kriterij postotka objašnjene varijance.

Tablica 5: Total Variance Explained

Compo

nent

Initial Eigenvalues Extraction Sums of Squared Loadings

Total % of Variance Cumulative % Total % of Variance Cumulative %

1 7,096 78,841 78,841 7,096 78,841 78,841

2 ,676 7,513 86,354

3 ,561 6,234 92,588

4 ,342 3,796 96,384

5 ,166 1,840 98,224

6 ,077 ,852 99,076

7 ,040 ,441 99,517

8 ,025 ,280 99,798

9 ,018 ,202 100,000

Extraction Method: Principal Component Analysis.

Uobičajen je grafički prikaz faktora u odnosu na eigenvalues. Karakteristični

korijen ili eigenvalue za pojedini faktor mjeri varijancu u svim varijablama koje

su prisutne u tome faktoru. Omjer karakterističnih korijena predstavlja omjer

objašnjavajuće važnosti faktora u odnosu na varijable.

Broj faktora može se odrediti i grafički primjenom Cattellijeva dijagrama (scree

plot) gdje oblik dijagrama određuje broj faktora, odnosno vidljiv je prekid

između faktora s visokim svojstvenim vrijednostima i faktora s niskim

svojstvenim vrijednostima. Na Slici 3. je prikazan Cattellijev dijagram gdje

grafički prikaz potvrđuje izbor jednog izlučenog faktora. Grafikon se koristi kao

korisno sredstvo da bi se vidjelo koliko faktora zadržati u analizi.

Najzanimljivija je točka od koje krivulja teži k izravnanju.

Slika 3: Cattellijev dijagram (scree plot)

Tablica 6: Component Matrixa

Component

1

broj_zaposlenih ,958

broj_nezaposlenih ,891

prosječna_neto_plaća ,709

GDP_po_stanovniku ,787

broj_učenika_osnovne_škole ,910

broj_učenika_srednje_škole ,945

broj_nastavnika ,949

broj_liječnika ,848

broj_poduzeća ,959

Extraction Method: Principal Component

Analysis.

a. 1 components extracted.

Iz Tablice 6. vide se loadings devet varijabli na jedan izlučen faktor. Faktor

loadings predstavlja koeficijent korelacije izumeđu varijabli (redaka) i faktora

(stupca). Kvadrat od faktor loadings predstavlja postotak varijance u toj varijabli

objašnjen faktorom. Što je veći loading to više taj faktor doprinosi varijabli.

Prekidi u tablici predstavljali bi loadings koji su manji od 0.5 kako smo i zatražili

na početku faktorske analize, što kod nas nije slučaj. To nam olakšava čitanje

tablice.

Tablica 7. predstavlja korelacijsku matricu dobivenu iz rješenja faktorske

analize (konačnoga odabira faktora).

Tablica 7: Reproduced Correlations

broj_zaposlenih

broj_nezaposl

enih

prosječna_neto_

plaća

GDP_po_stan

ovniku

broj_učenika_osno

vne_škole

broj_učenika

_srednje_šk

ole

broj_nastav

nika

broj_liječni

ka broj_poduzeća

Reproduced

Correlation

broj_zaposlenih ,918a ,854 ,680 ,754 ,872 ,906 ,909 ,812 ,919

broj_nezaposlenih ,854 ,794a ,632 ,701 ,811 ,842 ,845 ,755 ,854

prosječna_neto_plaća ,680 ,632 ,503a ,558 ,646 ,671 ,673 ,602 ,680

GDP_po_stanovniku ,754 ,701 ,558 ,619a ,716 ,744 ,747 ,667 ,755

broj_učenika_osnovne_škole ,872 ,811 ,646 ,716 ,828a ,860 ,864 ,772 ,873

broj_učenika_srednje_škole ,906 ,842 ,671 ,744 ,860 ,894a ,897 ,802 ,907

broj_nastavnika ,909 ,845 ,673 ,747 ,864 ,897 ,901a ,805 ,910

broj_liječnika ,812 ,755 ,602 ,667 ,772 ,802 ,805 ,719a ,813

broj_poduzeća ,919 ,854 ,680 ,755 ,873 ,907 ,910 ,813 ,920a

Residualb broj_zaposlenih -,070 ,023 ,049 -,062 ,002 ,024 -,068 ,019

broj_nezaposlenih -,070 -,109 -,038 ,152 -,053 -,087 -,006 -,012

prosječna_neto_plaća ,023 -,109 ,008 -,106 -,049 -,021 -,123 -,017

GDP_po_stanovniku ,049 -,038 ,008 ,004 -,126 -,085 -,168 ,021

broj_učenika_osnovne_škole -,062 ,152 -,106 ,004 -,051 -,074 -,029 -,017

broj_učenika_srednje_škole ,002 -,053 -,049 -,126 -,051 ,078 ,084 -,021

broj_nastavnika ,024 -,087 -,021 -,085 -,074 ,078 ,052 -,009

broj_liječnika -,068 -,006 -,123 -,168 -,029 ,084 ,052 -,054

broj_poduzeća ,019 -,012 -,017 ,021 -,017 -,021 -,009 -,054

Extraction Method: Principal Component Analysis.

a. Reproduced communalities

b. Residuals are computed between observed and reproduced correlations. There are 18 (50,0%) nonredundant residuals with absolute values greater than 0.05.

U slučaju da se faktorskom analizom izluči više faktora, rotacija

pojednostavljuje interpretaciju rezultata analize. Rotacija se radi metodom

Varimax s Kaiser normalizacijom.

S obzirom da je za konkretan slučaj izlučen samo jedan faktor (component)

rješenje se u ovom slučaju ne može rotirati, kao što prikazuje Tablica 8.

Tablica 8: Rotated

Component Matrixa

a. Only one component

was extracted. The

solution cannot be

rotated.

Izračunavanje faktorskih skorova

Faktorski skorovi mogu se upotrijebiti umjesto originalnih varijabli za razne

svrhe, npr. testiranje hipoteza, za cluster analizu i slično.

Faktorski skorovi izračunavaju se prema niže navedenoj formuli, a naredbe u SPSS-u su prikazane na Slici 3.

Odgovarajući ponderi dobivaju se iz matrice Component score coefficients matrix gdje su sve varijable standardizirane.

Slika 3. Naredbe za faktorske skorove

Tablica 9:Component Score Coefficient

Matrix

Component

1

broj_zaposlenih ,135

broj_nezaposlenih ,126

prosječna_neto_plaća ,100

GDP_po_stanovniku ,111

broj_učenika_osnovne_škole ,128

broj_učenika_srednje_škole ,133

broj_nastavnika ,134

broj_liječnika ,119

broj_poduzeća ,135

Extraction Method: Principal Component

Analysis.

Rotation Method: Varimax with Kaiser

Normalization.

Component Scores.

Za faktor se dobiju posebni skorovi prikazani u Tablici 9.

Standardizirane vrijednosti svih varijabli dobiju se u deskriptivnoj statistici

gdje se traži da se snime u odgovarajuće stupce standardizirane vrijednosti

svih varijabli (Slika 4).

Slika 4: Standardizirane vrijednosti varijabli

Prema iznijetoj proceduru za prvu lokalnu zajednicu faktor skor jednak je:

Na kraju, potrebno je ispitati unutarnju konzistenciju odnosno pouzdanost

faktora. Ona se ispituje pomoću Cronbach-alpha koeficijenta. Ovime se

provjerava, da li je skupina odabranih varijabli konzistentna među sobom te da

li jednu varijablu možda treba izaciti. Koeficijent predstavlja veličinu koja mjeri

konzistentnost, odnosno korelaciju između seta varijabli unutar određene

dimenzije. Poželjna je vrijednost ovog koeficijenta 0,7 i više. Ispitivanje se

provodi kroz sljedeće korake prikazane na Slici 5:

Analyze→Scale→Reliability Analysis

Slika 5: Analiza pouzdanosti

Nakon ovih naredbi, dobiju se sljedeći izlazi (Tablica 10, 11. i 12.) , iz kojih je

vidljivo da Cronbach-alpha za konkretan slučaj iznosi 0,841, što je vrlo dobar

indikator pouzdanosti mjerenja, date su statistike za svaku varijablu te koliki bi

iznosi koeficijent Cronbach-alpha ukoliko bi se izbrisala varijabla (item).

Tablica 10: Reliability

Statistics

Cronbach's

Alpha N of Items

,841 9

Tablica 11: Item Statistics

Mean Std. Deviation N

broj_zaposlenih 5459,8462 7452,67486 78

broj_nezaposlenih 4286,3356 4091,88668 78

prosječna_neto_plaća 624,0312 166,89820 78

GDP_po_stanovniku 4517,0256 3348,92002 78

broj_učenika_osnovne_škole 3055,1410 2698,54010 78

broj_učenika_srednje_škole 1269,7308 1598,82117 78

broj_nastavnika 104,5128 138,73087 78

broj_liječnika 38,1154 82,95249 78

broj_poduzeća 1509,8462 1631,99258 78

Tablica 12: Item-Total Statistics

Scale Mean if

Item Deleted

Scale Variance if

Item Deleted

Corrected Item-

Total Correlation

Cronbach's

Alpha if Item

Deleted

broj_zaposlenih 15404,7386 1,559E8 ,911 ,846

broj_nezaposlenih 16578,2491 2,532E8 ,852 ,785

prosječna_neto_plaća 20240,5536 3,766E8 ,667 ,851

GDP_po_stanovniku 16347,5591 2,818E8 ,782 ,799

broj_učenika_osnovne_škole 17809,4437 2,908E8 ,900 ,794

broj_učenika_srednje_škole 19594,8539 3,272E8 ,885 ,816

broj_nastavnika 20760,0719 3,760E8 ,908 ,851

broj_liječnika 20826,4693 3,784E8 ,779 ,853

broj_poduzeća 19354,7386 3,226E8 ,950 ,812

III. ZAKLJUČAK

U ovome radu se pošlo od ideje da se ispita da li devet manifestnih

socioekonomskih pokazatelja o stanju u lokalnim zajednicama koji se koriste za

definiranje razvijenosti lokalnih zajednica generiraju jednu latentnu varijablu

(faktor) koja sadržava svih devet navedenih varijabli. Devet manifestnih

varijabli su: broj zaposlenih, broj nezaposlenih, prosječna neto plaća, GDP po

stanovniku, broj učenika u osnovnim školama, broj učenika u srednjim školama,

broj nastavnika, broj liječnika, broj poduzeća, a nova latentna varijabla jest:

razvijenost lokalne zajednice.

Kako bi se ovo testiralo, korištena je faktorska analiza gdje su u programskom

paketu za statističku obradu podataka SPSS za 78 lokalnih zajedica unešeni

podaci za devet ulaznih varijabli. Nakona provedene faktorske analize, došlo se

do sljedećih nalaza:

- prikladnosti podataka za primjenu faktorske analize Kaiser-Meyer-

Olkinova mjera, iznosi 0,883, može se reći da su podaci odabranih

varijabli prikladni za provođenje faktorske analize;

- prema Kaiserovom kriteriju, izlučen je jedan faktor jer je svojstvena

vrijednost drugog i svakog narodnog faktora manja od jedan; pokazalo se

da je izlučen jedan faktor – latentna varijabla čija je eigenvalue

(svojstvena vrijednost) veća od 1; ovaj faktor objašnjava 78,84% ukupne

varijance , čime ispunjava i kriterij postotka objašnjene varijance,

- jedan izlučen faktor određen je i grafički primjenom Cattellijeva

dijagrama (scree plot) gdje oblik dijagrama određuje broj faktora,

odnosno vidljiv je prekid između faktora s visokim svojstvenim

vrijednostima i faktora s niskim svojstvenim vrijednostima (krivulja teži

izravnanju poslije 1. faktora),

- unutarnju konzistenciju odnosno provjeru, je li skupina odabranih

varijabli konzistentna među sobom, ispitana je pomoću Cronbach-alpha

koeficijenta; za konkretan slučaj iznosi 0,841, što je vrlo dobar indikator

pouzdanosti mjerenja.

Ovime je u radu pokazano da se skupina od devet varijabli – socioekonomskih

pokazatelja lokalnih zajednica, može izraziti kroz jedan faktor – razvijenost

lokalne zajednice.