68
Luento 6: Ryhmittelyanalyysi ja erotteluanalyysi Petri Nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto [email protected] http://www.uta.fi/~petri.nokelainen

Luento 6: Ryhmittelyanalyysi ja erotteluanalyysi

  • Upload
    apu

  • View
    228

  • Download
    1

Embed Size (px)

DESCRIPTION

Luento 6: Ryhmittelyanalyysi ja erotteluanalyysi. Petri Nokelainen. [email protected] http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. Johdanto 2. Ryhmittelyanalyysin rajoituksia 3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla - PowerPoint PPT Presentation

Citation preview

Page 1: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Luento 6: Ryhmittelyanalyysi ja erotteluanalyysi

Petri Nokelainen

Kasvatustieteiden yksikköTampereen yliopisto

[email protected]://www.uta.fi/~petri.nokelainen

Page 2: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Sisältö

1. Johdanto2. Ryhmittelyanalyysin rajoituksia3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (havaintojen ryhmittely)5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (muuttujien ryhmittely)6. ErotteluanalyysiLähteet

Page 3: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

1. Johdanto

• Ryhmittelyanalyysin (klusterianalyysi, cluster analysis, CA) kehittäjänä pidetään R. C. Tryonia (1939).

• Ryhmittelyanalyysi pyrkii ryhmittelemään joko havaintoja (vastaajat) tai muuttujia (kyselylomakkeen väittämät) mahdollisimman samankaltaisiin ryhmiin (klustereihin).– Vastaavan tyyppisiä analyyseja ovat erotteluanalyysi

(discriminant analysis, DA) ja luokitteluanalyysi (classification analysis, CA).

• Ryhmittelyanalyysia voidaan verrata myös faktorianalyysiin, mutta ilman latentin piirteen oletusta.– Normaali faktorianalyysi ryhmittelee muuttujia, mutta on myös

olemassa ns. Q-faktorointi jossa havaintomatriisi on käännetty ja pyritäänkin ryhmittelemään vastaajia latentin piirteen mukaisiin faktoreihin.

Page 4: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

General Linear Model (GLM)

ezz xy (3.2)

k

ixiy ezz

i1

(3.3)

k

ixim

p

iyjm ezz

imjm11

(3.4)

Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva

X (IV) Y (DV)

Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuvaRyhmittelyanalyysi (CA) n, jatkuva n, jatkuva

Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen

Page 5: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

DV IV Kovariaatit Analyysi

1 diskr.

Ei Log.regressio

n jatkuvaa ja/tai diskr. Joitakin Seq. log.regressio

Ei Yksis. DFn jatkuvaa

Joitakin Seq. yksis. DF

n diskr. Ei Fakt. DF

n jatkuvaa

Joitakin Seq. fakt. DF

n disk. Logit

n jatkuvaa Ei Ryhmittelyanalyysin jatkuvaa

Ryhmä-jäsenyyden

ennustaminen

Ryhmä-jäsenyyden

ennustaminen

Page 6: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

1. Johdanto

• Ryhmittelyanalyysi sisältää useita sovelluksia, joista yleisimmin käytetään K-keskiarvo (K-Means) ja hierarkkista (Hierarchical) menetelmää.– Havaintoja ryhmittelevä K-keskiarvo ryhmittelyanalyysi

pyrkii ryhmittelemään havainnot keskiarvoiltaan mahdollisimman paljon toisistaan poikkeaviin ryhmiin.

– Havaintoja (vastaajia) ryhmittelevä hierarkkinen ryhmittelyanalyysi on luonteeltaan eksploratiivinen menetelmä, jossa tarkoituksena on jakaa havainnot mahdollisimman paljon toisistaan poikkeaviin ryhmiin.

– Muuttujia (väittämät) ryhmittelevä hierarkkinen ryhmittelyanalyysi on myös luonteeltaan eksploratiivinen menetelmä, nyt muuttujat pyritään jakamaan toisistaan eroaviin ryhmiin.

Page 7: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

1. Johdanto

• K-keskiarvo ryhmittelyanalyysi on parametrinen menetelmä, jossa muuttujien mittaukset tulisi olla suoritettu vähintään välimatka-asteikolla.

• Hierarkkinen ryhmittelyanalyysi soveltuu lisäksi myös järjestys- ja nominaaliasteikollisille muuttujille.

• Molemmat menetelmät perustuvat kombinatoristen algoritmien käytölle, jolloin jokainen havainto sijoitetaan ryhmään ilman oletusta aineiston ”aiheuttavasta” taustalla olevasta todennäköisyysmallista.– Muita lähestymistapoja ovat sekajakaumamallinnus (mixture

modeling, esim. bayesilainen lähestymistapa) ja mode seeking (epäparametrinen lähestymistapa).

Page 8: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

1. Johdanto

• Ryhmittelyanalyysi perustuu yleensä havaintojen tai muuttujien välisten Euklidisten etäisyyksien laskemiselle:

• Yleensä havaintoarvot standardoidaan ennen analyysia jotta eri asteikot eivät aiheuttaisi vinoumia tuloksiin. – Jos kaikki muuttujat on mitattu samalla asteikolla,

standardointia ei tarvita (usein tämä on tilanne esim. kyselylomakkeen väittämien kohdalla).

2'' )(),( jiijjiijj xxxxd

Page 9: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

1. Johdanto

Page 10: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

1. Johdanto

• Jos muuttujien mittaustaso on järjestysasteikollinen, voidaan hierarkkisessa ryhmittelyanalyysissa käyttää Euklidisen etäisyyden laskemisen sijaan Khiin neliöön perustuvaa laskentaa.– SPSS: Analyze – Classify – Hierarchical Cluster

Analysis • Method: Measure: Counts (Chi-square measure)

Page 11: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Sisältö

1. Johdanto2. Ryhmittelyanalyysin rajoituksia3. K-keskiarvo ryhmittelyanalyysi SPSS-ohjelmalla4. Hierarkkinen ryhmittelyanalyysi SPSS-ohjelmalla

(havaintojen ryhmittely)5. Hierarkkinen ryhmittelyanalyysi SPSS-ohjelmalla

(muuttujien ryhmittely)6. ErotteluanalyysiLähteet

Page 12: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

2. Ryhmittelyanalyysin rajoituksia

• K-keskiarvo ryhmittelyanalyysi on parametrinen menetelmä, jossa muuttujien mittaukset tulisi olla suoritettu vähintään välimatka-asteikolla.– Tulosten tulkinta on järkevää suurillakin aineistoilla.– Tutkijan on ennen analyysia asetettava oletus ryhmien

(klustereiden) lukumäärästä (jokin luku joka on suurempi tai yhtä suuri kuin 2).

Page 13: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

2. Ryhmittelyanalyysin rajoituksia

• Hierarkkinen ryhmittelyanalyysi soveltuu lisäksi myös järjestys- ja nominaaliasteikollisille muuttujille.– Tulosten tulkinta kärsii suuresta otoskoosta, yleensä

havaintojen määrä on enimmillään noin 50.– Voidaan käyttää eksploratiivisesti eli ”louhia aineistosta” (data

mining) ilman etukäteisoletusta n kappaletta klustereita.

Page 14: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

2. Ryhmittelyanalyysin rajoituksia

• Ryhmittelyanalyysi on kokeellinen menetelmä, joka ei tuota helposti raporteissa esitettäviä ”objektiivisia” tunnuslukuja -> tutkijan vastuulle jää tulkita tulos tieteellisesti uskottavalla tavalla ja kuvata lukijalle mitä analyysin tulos käytännössä tarkoittaa.

Page 15: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Sisältö

1. Johdanto2. Ryhmittelyanalyysin rajoituksia3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (havaintojen ryhmittely)5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (muuttujien ryhmittely)6. ErotteluanalyysiLähteet

Page 16: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

3. K-keskiarvo ryhmittelyanalyysi

• Tässä esimerkissä käytettävä aineisto on kerätty vuoden 2001 tammikuussa Helsingin, Joensuun, Tampereen, Oulun ja Kuopion avoimen yliopiston verkkokursseille osallistuneilta opiskelijoilta Internetissä olevalla kyselylomakkeella.

• Aineistossa on 143 miestä (49.8 %) ja 132 naista (49.1 %). Sukupuolitieto puuttuu kolmelta vastaajalta (1.1%). Yhteensä vastaajia on 269.

• Lomakkeessa on 28 Howard Gardnerin ’Multiple Intelligence’ -teoriaan (1983) liittyvää väittämää, joihin on vastattu seitsemänportaisella asteikolla (1 = Väittämä ei pidä lainkaan paikkaansa … 7 = Väittämä pitää täysin paikkansa).

Page 17: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

3. K-keskiarvo ryhmittelyanalyysi

• Esimerkissä tarkastellaan vastaajien jakautumista kahden vahvuusalueen, kielellisen ja matemaattisen, suhteen.

• Analyysin tarkoituksena on tunnistaa erilaisia vastaajaryhmiä suhteessa em. vahvuusalueisiin.

Page 18: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

3. K-keskiarvo ryhmittelyanalyysi

• Kumpikin vahvuusalue on analyysissa edustettuna summamuuttujan välityksellä (kieli_mean ja matem_mean) johon on tallennettu neljän yksittäisen väittämän keskiarvo.

• Kielellistä vahvuutta kuvaava summamuuttuja kieli_mean:– m04 Kirjoittaminen on minulle luonteva tapa ilmaista itseäni.– m40 Olen hiljakkoin kirjoittanut jotain sellaista, josta olen

erityisen ylpeä tai josta sain tunnustusta.– m56 Kielikuvat ja rikkaat kielelliset ilmaisut auttavat minua

oppimaan tehokkaasti.– m70 Äidinkieli ja/tai yhteiskunnalliset aineet olivat minulle

koulussa helpompia kuin matematiikka, fysiikka ja kemia.

Page 19: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

3. K-keskiarvo ryhmittelyanalyysi

• Matemaattista vahvuutta kuvaava summamuuttuja matem_mean:– m01 Matematiikka, fysiikka tai kemia kuului lempiaineisiini

koulussa.– m30 Minua viehättää monimutkaisten ongelmien kanssa

työskentely ja niiden ratkaisu.– m39 Nautin peleistä tai "aivopähkinöistä", jotka vaativat loogista

ajattelua.– m54 Päässälasku on minulle helppoa.

Page 20: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

3. K-keskiarvo ryhmittelyanalyysi

• SPSS: Analyze – Classify – K-Means Cluster• Variables: kieli_mean, matem_mean• Number of Clusters: 2• Method: Iterate and classify • Save…: Cluster membership, Distance from cluster

center– Luo datamatriisiin kaksi uutta muuttujaa, joista

ensimmäinen saa arvon 1 tai 2 kunkin vastaajan kohdalla (osoittaa kumpaan klusteriin vastaaja kuuluu) ja toinen muuttuja ilmoittaa kunkin vastaajan Euklidisen etäisyyden lähimmän klusterin keskipisteeseen (osoittaa kuinka lähellä ryhmän yleistä mielipidettä kyseinen vastaaja on).

• Options: Initial cluster centers, ANOVA table.

Page 21: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

3. K-keskiarvo ryhmittelyanalyysi

QUICK CLUSTER kieli_mean matem_mean /MISSING=LISTWISE /CRITERIA= CLUSTER(2) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE) /SAVE CLUSTER DISTANCE /PRINT INITIAL ANOVA.

Page 22: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Lopulliset ryhmäkeskukset

Vasemmanpuoleisen taulukon perusteella voidaan nähdä että ensimmäinen klusteri koostuu vastaajista, joilla on vahvemmat itse arvioidut kielelliset kuin matemaattiset kyvyt. Vastaavasti toisessa klusterissa on enemmän matemaattisesti kuin kielellisesti orientoituneita henkilöitä.

Oikeanpuoleisesta taulukosta näemme, että ensimmäiseen klusteriin kuuluu 128 ja toiseen 141 vastaajaa (yhteensä 269 vastaajaa). Koska vastaajia on suurin piirtein sama määrä molemmissa ryhmissä, ryhmittelyanalyysin tulosta voidaan pitää tulkintakelpoisena.

Final Cluster Centers

5,02 3,14

3,83 5,44

kieli_mean

matem_mean

1 2

Cluster

Number of Cases in each Cluster

128,000

141,000

269,000

,000

1

2

Cluster

Valid

Missing

Page 23: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

ANOVA

237,535 1 ,815 267 291,285 ,000

174,806 1 ,833 267 209,907 ,000

kieli_mean

matem_mean

Mean Square df

Cluster

Mean Square df

Error

F Sig.

The F tests should be used only for descriptive purposes because the clusters have been chosen tomaximize the differences among cases in different clusters. The observed significance levels are notcorrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means areequal.

Varianssianalyysi

Varianssianalyysin tulokset esittävä taulukko osoittaa, että analyysiin valitut kaksi muuttujaa pystyvät ryhmittelemään tehokkaasti vastaajia eri klustereihin.

Jos Sig. (p-arvo) olisi suurempi kuin .05, muuttujan poistamista kannattaa harkita, koska se ei tuo merkittävää lisäinformaatiota ryhmittelyyn.

Page 24: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Ryhmäjäsenyydet

Vasemmanpuoleisessa taulukossa on ensimmäisen klusterin jäsenten sukupuolijakauma, oikeanpuoleisessa toisen.

Verrattaessa sukupuolijakaumia ja kahden klusterin ryhmäkeskuksia havaitsemme, että tässä aineistossa naiset ovat omasta mielestään miehiä enemmän kielellisesti orientoituneita (70.3% vs. 28.9%) ja miehet puolestaan ovat naisia enemmän matemaattisesti orientoituneita (68.8% vs. 29.8%).

sukupua

37 28,9 29,1 29,1

90 70,3 70,9 100,0

127 99,2 100,0

1 ,8

128 100,0

Mies

Nainen

Total

Valid

NAMissing

Total

Frequency Percent Valid PercentCumulative

Percent

Cluster Number of Case = 1a.

sukupua

97 68,8 69,8 69,8

42 29,8 30,2 100,0

139 98,6 100,0

2 1,4

141 100,0

Mies

Nainen

Total

Valid

NAMissing

Total

Frequency Percent Valid PercentCumulative

Percent

Cluster Number of Case = 2a.

Page 25: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Klustereiden visuaalinen tarkastelu

Antamalla SPSS –ohjelmassa komento Graphs – Legacy dialogs – Scatter/Dot – Simple Scatter - Define, saadaan määriteltyä ryhmittelyanalyysin visuaalinen esitys:Y Axis: kieli_mean.X Axis: matem_mean.Set Markers by: Cluster Number of Case [QCL_1] (tämä muuttuja luotiin ryhmittelyanalyysin ensimmäisessä vaiheessa).

GRAPH /SCATTERPLOT(BIVAR)=matem_mean WITH kieli_mean BY QCL_1 /MISSING=LISTWISE .

Page 26: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Klustereiden visuaalinen tarkastelu

Kuvassa olevat pisteet edustavat vastaajia, yksi piste voi kuvata useampaa kuin yhtä vastaajaa. Ryhmittelyanalyysi on pystynyt erottelemaan kaksi vastaajajoukkoa toisistaan hyvin.

Page 27: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

K-keskiarvo ryhmittelyanalyysin raportointi

• K-keskiarvo ryhmittelyanalyysin avulla selvitettiin erilaisia vastaajaryhmiä itse raportoidun kielellisen ja matemaattisen osaamisen suhteen. Analyysi toteutettiin kahden klusterin mallilla teoreettisen oletuksen mukaisesti. Vastaajat muodostivat kaksi ryhmää (klusteria, ks. Taulukko 1), joista ensimmäisessä olivat ne henkilöt jotka painottivat enemmän kielellistä osaamistaan (naiset n=90, 70.3%; miehet n=37, 28.9%), ja toisessa vastaavasti matemaattisemmin orientoituneet henkilöt (naiset n=42, 29.8%; miehet n=97, 68.8%).

Taulukko 1. Ryhmittelyanalyysin lopulliset ryhmäkeskukset (N=269)

Page 28: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Sisältö

1. Johdanto2. Ryhmittelyanalyysin rajoituksia3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (havaintojen ryhmittely)5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (muuttujien ryhmittely)6. ErotteluanalyysiLähteet

Page 29: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

4. Hierarkkinen ryhmittelyanalyysi (havaintojen ryhmittely)

• Tarkastelemme seuraavaksi ainoastaan matemaattisen vahvuusalueen ryhmittelyvoimaa satunnaisesti poimitun (n=67) aliotoksen kohdalla (koko aineisto N=269).

Page 30: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

4. Hierarkkinen ryhmittelyanalyysi (havaintojen ryhmittely)

• SPSS: Analyze – Classify – Hierarchical Cluster• Variables: matem_mean.• Cluster: Cases.• Display: Statistics, Plots.• Plots: Dendogram.• Method: Between-groups linkage, Squared Euclidean

distance, Transform Values: Z scores By variable. • Save…: Single solution, Number of clusters: 2

– Luo datamatriisiin uuden muuttujan, joka ilmoittaa arvolla 1 tai 2 kunkin vastaajan klusterin.

Page 31: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

4. Hierarkkinen ryhmittelyanalyysi (havaintojen ryhmittely)

CLUSTER /MATRIX IN ('C:\tmp\MI.sav') /METHOD BAVERAGE /PRINT SCHEDULE /PLOT DENDROGRAM.

Page 32: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Dendogrammi

Satunnaisen aliotoksen (~20%, n=67) dendogrammista voidaan päätellä että vastaajat jakautuvat kahteen pääklusteriin (josta toisessa on 12 ja toisessa 55 jäsentä).

Page 33: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Dendogrammisukupua

2 16,7 16,7 16,7

10 83,3 83,3 100,0

12 100,0 100,0

Mies

Nainen

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Average Linkage (Between Groups) = 2a.

yopistoa

6 50,0 50,0 50,0

1 8,3 8,3 58,3

3 25,0 25,0 83,3

2 16,7 16,7 100,0

12 100,0 100,0

Helsinki

Joensuu

Tampere

Kuopio

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Average Linkage (Between Groups) = 2a.

Dendogrammin perusteella voidaan tarkastella kunkin vastaajan yksilökohtaisia tietoja, esimerkiksi pienemmän klusterin ( ) 12 vastaajasta kaksi (16.7%) on miehiä ja 10 (83.3%) on naisia. Puolet tämän klusterin jäsenistä opiskelee Helsingin yliopistossa (n=6), loput jakautuvat Joensuun, Tampereen ja Kuopion kesken.

Page 34: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Dendogrammi

Suuremman klusterin ( ) jäsenten sukupuoli on jakautunut tasaisesti (45.5 % miehiä ja 50.9 % naisia). Myös yliopistot ovat tässä klusterissa tasaisesti edustettuina.

sukupua

25 45,5 47,2 47,2

28 50,9 52,8 100,0

53 96,4 100,0

2 3,6

55 100,0

Mies

Nainen

Total

Valid

NAMissing

Total

Frequency Percent Valid PercentCumulative

Percent

Average Linkage (Between Groups) = 1a.

yopistoa

11 20,0 20,0 20,0

11 20,0 20,0 40,0

13 23,6 23,6 63,6

17 30,9 30,9 94,5

3 5,5 5,5 100,0

55 100,0 100,0

Helsinki

Joensuu

Tampere

Oulu

Kuopio

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Average Linkage (Between Groups) = 1a.

Page 35: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Sisältö

1. Johdanto2. Ryhmittelyanalyysin rajoituksia3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (havaintojen ryhmittely)5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (muuttujien ryhmittely)6. ErotteluanalyysiLähteet

Page 36: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely)

• Tässä esimerkissä tutkimme neljän kielellistä ja neljän matemaattista vahvuusaluetta mittaavan väittämän kykyä ryhmittyä omien pääulottuvuuksiensa mukaisesti (ts. ”löytää toiset samanhenkiset väittämät”).

• Aineiston koko on 269.

Page 37: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely)

• Kielellistä vahvuutta mittaavat väittämät:– m04 Kirjoittaminen on minulle luonteva tapa ilmaista itseäni.– m40 Olen hiljakkoin kirjoittanut jotain sellaista, josta olen

erityisen ylpeä tai josta sain tunnustusta.– m56 Kielikuvat ja rikkaat kielelliset ilmaisut auttavat minua

oppimaan tehokkaasti.– m70 Äidinkieli ja/tai yhteiskunnalliset aineet olivat minulle

koulussa helpompia kuin matematiikka, fysiikka ja kemia.

Page 38: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely)

• Matemaattista vahvuutta mittaavat väittämät:– m01 Matematiikka, fysiikka tai kemia kuului lempiaineisiini

koulussa.– m30 Minua viehättää monimutkaisten ongelmien kanssa

työskentely ja niiden ratkaisu.– m39 Nautin peleistä tai "aivopähkinöistä", jotka vaativat loogista

ajattelua.– m54 Päässälasku on minulle helppoa.

Page 39: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely)

• SPSS: Analyze – Classify – Hierarchical Cluster• Variables: m04,m40,m56,m70,m01,m30,m39,m54.• Cluster: Variables.• Display: Statistics, Plots.• Plots: Dendogram.• Method: Between-groups linkage, Squared Euclidean

distance, Transform Values: Z scores By variable.

Page 40: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

5. Hierarkkinen ryhmittelyanalyysi (muuttujien ryhmittely)

CLUSTER /MATRIX IN ('C:\tmp\MI.sav') /METHOD BAVERAGE /PRINT SCHEDULE /PLOT DENDROGRAM.

Page 41: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Dendogrammi

Hierarkkinen ryhmittelyanalyysi osoitti, että kielellistä (m04,m40,m56,m70) ja matemaattista (m01,m30,m39,m54) vahvuutta mittaavat väittämät muodostivat vastaajien vastausten (N=269) perusteella kaksi ryhmää teoreettisen oletuksen mukaisesti.

Page 42: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Sisältö

1. Johdanto2. Ryhmittelyanalyysin rajoituksia3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (havaintojen ryhmittely)5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (muuttujien ryhmittely)6. ErotteluanalyysiLähteet

Page 43: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

General Linear Model (GLM)

ezz xy (3.2)

k

ixiy ezz

i1

(3.3)

k

ixim

p

iyjm ezz

imjm11

(3.4)

Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva

X (IV) Y (DV)

Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuvaRyhmittelyanalyysi (CA) n, jatkuva n, jatkuva

Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen

Page 44: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

DV IV Kovariaatit Analyysi

1 diskr.

Ei Log.regressio

n jatkuvaa ja/tai diskr. Joitakin Seq. log.regressio

Ei Yksis. DFn jatkuvaa

Joitakin Seq. yksis. DF

n diskr. Ei Fakt. DF

n jatkuvaa

Joitakin Seq. fakt. DF

n disk. Logit

n jatkuvaa Ei Ryhmittelyanalyysin jatkuvaa

Ryhmä-jäsenyyden

ennustaminen

Ryhmä-jäsenyyden

ennustaminen

Page 45: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Linear discriminant analysis (LDA), discriminant function analysis (DFA).

• Tavoitteena ryhmäjäsenyyden ennustaminen selittävien muuttujien (predictors) avulla.– Voiko työntekijän työnantajan (group1, group2,

group3) ennustaa motivaatiomittarin skaalojen (MF1, … , MF6) keskiarvojen perusteella?

Page 46: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• MANOVA (ks. luento 3) testaa, liittyykö ryhmäjäsenyys keskiarvojen eroihin selitettävien muuttujien (DV) välillä.

• Erotteluanalyysiksi asia muuttuu jos vastaus on myönteinen, jolloin DV -muuttujayhdistelmää voidaan käyttää ennustamaan ryhmäjäsenyyttä.– Merkitsevä ero ryhmien välillä tarkoittaa sitä,

että annettuna tietty luku voidaan ennustaa mistä ryhmästä se tulee.

Page 47: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• MANOVA:ssa IV-muuttujat ovat ”ryhmiä” ja DV-muuttujat ennustajia.

• Erotteluanalyysissa IV –muuttujat ovat ennustajia (predictors) ja DV –muuttujat ”ryhmiä” (groups, grouping variables, classification variables).

Page 48: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• MANOVA ja LDA voidaan käsitellä kanonisen korrelaation (CC, ks. luento 4) erityistapauksina.– CC: tutkija poimii itse (jatkuvat) muuttujat vertailtaviin

ryhmiin.– CC: tutkitaan kahden muuttujaryhmän välisiä

vaikutussuhteita, esim.• Kuinka monella eri ulottuvuudella toisen muuttujaryhmän

muuttujat liittyvät toisen muuttujaryhmän muuttujiin?• Kuinka kahden muuttujaryhmän (canonical variate pairs)

väliset ulottuvuudet tulkitaan?• Miten voimakas on kahden muuttujaryhmän välinen

korrelaatio?

Page 49: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

IV1 Group Organization 1, 2, 3

IV2 Sex Male, Female

DV1 MF1 Intrinsic Goal Orientation

DV2 MF2 Extrinsic Goal Orientation

DV3 MF3 Meaningfulness of Study

DV4 MF4 Control Beliefs

DV5 MF5 Self-Efficacy

DV6 MF6 Test Anxiety

Page 50: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

MANOVA Erotteluanalyysi

DV2 MF2

DV3 MF3

DV4 MF4

DV5 MF5

DV6 MF6

DV1 MF1

IV1 Group

IV1 Sex

IV2 MF2

IV3 MF3

IV4 MF4

IV5 MF5

IV6 MF6

IV1 MF1

DV1 Group

DV1 Sex

Classification

Page 51: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Ennustuksen merkitsevyys.– Voiko ryhmäjäsenyyden ennustaa

luotettavasti ennustavien muuttujien avulla:• Voimmeko sattumaa paremmin ennustaa

kuuluuko uusi luokiteltava henkilö ryhmään 1, 2 tai 3 hänen motivaatioprofiilinsa perusteella?

– Vastaa yksisuuntaisen MANOVA:n IV –muuttujien päävaikutusten (main effects) tutkimista:

• Onko henkilön motivaatioprofiilien välillä ryhmäjäsenyydestä johtuvia eroja?

Page 52: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Merkitsevien erottelufunktioiden (discriminant function) lukumäärä.– Ryhmät voivat poiketa toisistaan useiden

ulottuvuuksien suhteen, esim. • Yrityksen toimiala (teollisuus – koulutus – palvelu)• Yrityksen kasvuorientaatio (matala – korkea)• Yrityksen työntekijöiden sukupuoli (miesvaltainen –

naisvaltainen)

Page 53: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

IV1Group Normal, dyslexy, ADHD1

IV2Sex Boy, Girl

DV1 ITPA Illinois Test of Psycholinguistic Ability

DV2 WISC Wechsler Intelligence Scale for Children

1 Attention Deficit Hyperactivity Disorder

Page 54: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Merkitsevien erottelufunktioiden tulkinta.– Ensimmäinen funktio erottelee tehokkaimmin,

seuraavat (ortogonaaliset) tarjoavat täydentävää tietoa, esim. mikä testipisteiden kokoonpano erottelee tehokkaimmin seuraavien ulottuvuuksien suhteen:

• DF1: ”Normaali” – lukemisen erityisvaikeus – ADHD

• DF2: Lukemisen erityisvaikeus – ADHD

Page 55: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Lineaariset erottelufunktiot.– Millä lineaarisilla yhtälöillä (painokertoimet)

voidaan diagnosoida uusi, datamatriisin ulkopuolelta tuleva tapaus?

– Mikä osa tapauksista on luokiteltu yhtälöiden perusteella oikein?

– Mitkä tapaukset on luokiteltu väärin?

Page 56: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Vaikutussuhteen voimakkuus.– Mikä on ryhmäjäsenyyden ja ennustajien

(predictors) välisen vaikutussuhteen voimakkuus?

• DF1: Jos ensimmäinen erottelufunktio jakaa subjektit kahteen ryhmään (”normaalit”, ”ei-normaalit”), kuinka paljon em. ryhmien variansseilla on päällekkäisyyttä testipistemäärien varianssien kanssa?

Page 57: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Ennustavien muuttujien tärkeys.– Mitkä ennustajista ovat tärkeimpiä

ennustettaessa ryhmäjäsenyyttä?• Mitkä motivaatioskaalojen testipisteet auttavat

kohdentamaan yrityksille suunnattua henkilöstökoulutusta?

• Mitkä testipisteet auttavat erottelemaan lukivaikeuksiset ja ADHD -oppilaat muista?

Page 58: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Yleisimmässä käyttötilanteessa on yksi diskreetti DV (luokittelu) muuttuja ja useita IV –muuttujia (ennustajat, prediktorit).

• DA on parhaimmillaan luonnollisesti muodostuneiden ryhmien parissa ts. sallii erot ryhmien koossa.

• Luokittelun osalta rajoituksia on hyvin vähän: – Pienimmässä ryhmässä tulee olla yhtä monta havaintoa

kuin asetelmassa on IV –muuttujia.– DA on herkempi poikkeaville havainnoille (outliers) kuin

jakauman vinoudelle (skewness).

Page 59: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Rajoituksia:– Varianssi-kovarianssimatriisien

homogeenisuus • Tarkastellaan kanonisten erottelufunktioiden

hajontakuvia ryhmittäin• SPSS –ohjelman Box´s M –testi• Jos vaatimukset eivät täyty:

– Prediktorien transformaatio– Erillisten kovarianssimatriisien käyttö (johtaa usein

ylisovitukseen)

Page 60: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

IV2

IV1

* *

*

IV1 ´

IV2´

Page 61: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Laskenta perustuu ryhmien sisäisen (Swg) ja välisen (Sbg) ristitulomatriisin vertailuun: Stotal = Swg + Sbg

• Wilksin Lambdan arvoon

liittyvä F-approksimaatio ja sen tilastollinen merkitsevyys (ns. ”p –arvo”) osoittavat, voiko luokittelumuuttujaa kuvata prediktorien avulla.

wg

bgwg

S

SS

Page 62: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• WL –testin osoittaessa että ryhmien ja prediktorien välillä on vaikutussuhde, tarkastellaan em. vaikutussuhteen muodostavia lineaarisia erottelufunktioita.

• Lineaaristen erottelufunktioiden lukumäärä on joko prediktorien lukumäärä tai ryhmien df (kumpi on pienempi).– Jos ryhmiä on kaksi, tarvitaan vain yksi erottelufunktio.

Page 63: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Erottelufunktioita voidaan verrata regressioyhtälöihin, kullekin funktiolle on oma kerrointen joukko.

• Kunkin lapsen standardipisteet (ITPA1, WISC2) i:nnellä erottelufunktiolla:

Di = di1z1 + di2z2 + . . . + dipzp

1) Illinois Test of Psycholinguistic Ability

2) Wechsler Intelligence Scale for Children

d standardoitu DF kerroinz prediktorin standardipisteet

Page 64: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Luokittelussa kullekin ryhmälle kehitetään oma luokitteluyhtälö:

Cj = cj0 + cj1X1 + cj2X2 + . . . + cjpXp

cj0 vakiocj luokittelufunktion kerroinX prediktorin arvo

Page 65: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Erotteluanalyysi

• Kunkin vastaajan luokitteluyhtälön arvo (classification score) ratkaistaan ryhmittäin, ja vastaaja sijoitetaan korkeimman arvon saaneeseen ryhmään.

• Erikokoisten ryhmien tapauksessa voidaan ryhmäkoolle asettaa a priori todennäköisyys.– Useimmat tietokonesovellukset tekevät tämän

automaattisesti.

Page 66: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Sisältö

1. Johdanto2. Ryhmittelyanalyysin rajoituksia3. K-keskiarvo ryhmittelyanalyysi PASW/SPSS-ohjelmalla4. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (havaintojen ryhmittely)5. Hierarkkinen ryhmittelyanalyysi PASW/SPSS-

ohjelmalla (muuttujien ryhmittely)6. ErotteluanalyysiLähteet

Page 67: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Lähteet

Gardner, H. (1983). Frames of mind. New York: Basic Books.Hair, J. F. J., Anderson, R. E., Tatham, R. L., & Black, W. C.

(1995). Multivariate data analysis (4th ed.). Saddle River, NJ: Prentice Hall.

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning. Data mining, inference and prediction. New York: Springer.

Huberty, C. J. (1994). Applied Discriminant Analysis. New York: John Wiley & Sons..

Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky.

Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi.

Page 68: Luento 6: Ryhmittelyanalyysi  ja erotteluanalyysi

Lähteet

Nummenmaa, T., Konttinen, R., Kuusinen, J., & Leskinen, E. (1997). Tutkimusaineiston analyysi. Porvoo: WSOY.

Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth Edition. Boston: Pearson.

Tryon, R. C. (1939/1970). Cluster analysis. New York: McGraw-Hill.