22
Multivariata metoder F6 Linda Wnstrm Linkpings universitet Wnstrm (Linkpings universitet) Multivariata metoder 1 / 22

Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Embed Size (px)

Citation preview

Page 1: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Multivariata metoderF6

Linda Wänström

Linköpings universitet

Wänström (Linköpings universitet) Multivariata metoder 1 / 22

Page 2: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Klusteranalys

Antag n observationer på en vektor med slumpvariablerX′ = (X1,X2, ...,Xp).

Syfte:

dela in observationerna i grupper som vi inte känner till i förvägGrupperna (klustren) ska vara så homogena som möjligt med avseendepå några (intressanta) variabler

När kluster ska bildas studeras avståndet mellan objekt (och kluster)

Wänström (Linköpings universitet) Multivariata metoder 2 / 22

Page 3: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Klustringsmetoder

Klustren bildas så att avstånden mellan objekt inom kluster är så småsom möjligt och avstånden mellan objekt mellan kluster är så storasom möjligt

Ofta används det euklidiska avståndet

Hierarkiska metoder

Avstånd mellan parvisa objekt beräknasI ett första steg är antal kluster = antal objektLägg ihop (länka) de kluster som är närmast varandraI ett sista steg har alla kluster länkats och det finns bara ett kluster

Icke-hierarkiska metoder

Wänström (Linköpings universitet) Multivariata metoder 3 / 22

Page 4: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Länkningsmetoder

"Nearest neighbor"

Beräkna alla avstånd mellan kluster (objekt)Det par med kortast avstånd slås ihop till ett nytt klusterBeräkna alla avstånd mellan kluster - använd det närmaste objektet iett kluster för att beräkna avståndetc.

"Furthest neighbor"

Använd de objekt som är längst ifrån varandra för att definiera avståndmellan kluster

Genomsnittslänkning (group average linking)

Genomsnittligt avstånd mellan kluster används för att definieraavståndet

Wänström (Linköpings universitet) Multivariata metoder 4 / 22

Page 5: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Steg i klusteranalys

Välj intressanta variabler

Standardisera alla variabler

Beräkna euklidiska avståndet mellan alla parvisa objekt(observationer)

Använd en länkningsmetod för att bilda kluster

Rita ett dendogram

Välj antal kluster

Så få kluster som möjligtHomogena kluster

Wänström (Linköpings universitet) Multivariata metoder 5 / 22

Page 6: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Exempel

data small; input obs sex ds pm prr prc ppvt;datalines;1 2 10 111 103 91 672 1 12 97 103 100 873 2 12 105 118 86 764 2 13 114 125 99 1295 2 11 107 95 101 996 1 10 118 108 131 1097 2 12 122 135 112 1328 1 6 131 119 121 1379 2 11 93 94 94 9010 1 12 115 118 118 14211 2 18 120 112 121 2012 1 13 114 135 123 12913 1 11 112 131 100 12114 1 12 125 135 126 13615 1 12 116 108 113 11516 1 9 107 95 90 6717 2 9 111 112 104 8518 1 13 131 111 99 9519 1 14 110 118 106 11120 1 9 123 97 118 104;run;

Wänström (Linköpings universitet) Multivariata metoder 6 / 22

Page 7: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

proc cluster noeigen method=com rmsstd rsquare nonorm out=tree;id obs;var dsz pmz prrz prcz ppvtz;proc tree data=tree out=klus1 nclusters=2;id obs;copy dsz pmz prrz prcz ppvtz;proc sort; by cluster;proc print; by cluster;var obs dsz pmz prrz prcz ppvtz;run;proc means; by cluster;run;

Wänström (Linköpings universitet) Multivariata metoder 7 / 22

Page 8: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Cluster History

Numberof

Clusters

Clusters Joined Freq New ClusterRMS Std Dev

SemipartialR­Square

R­Square MaximumDistance

Tie

19 1 16 2 0.2616 0.0036 .996 0.8274

18 2 9 2 0.3141 0.0052 .991 0.9932

17 4 13 2 0.3153 0.0052 .986 0.997

16 7 14 2 0.3516 0.0065 .979 1.1118

15 10 15 2 0.3845 0.0078 .972 1.216

14 CL16 12 3 0.3782 0.0085 .963 1.2387

13 6 20 2 0.4555 0.0109 .952 1.4405

12 CL18 5 3 0.4115 0.0126 .940 1.5459

11 CL17 19 3 0.4094 0.0124 .927 1.6743

10 CL19 17 3 0.4398 0.0168 .910 1.7861

9 CL11 CL15 5 0.4970 0.0266 .884 2.0448

8 CL10 3 4 0.5314 0.0242 .860 2.1441

7 CL8 CL12 7 0.5723 0.0410 .819 2.5209

6 CL13 8 3 0.6987 0.0405 .778 2.5591

5 CL9 CL14 8 0.5750 0.0548 .723 2.7427

4 CL5 18 9 0.6435 0.0525 .671 3.2587

3 CL4 CL6 12 0.7881 0.1338 .537 4.1862

2 CL7 11 8 0.8883 0.1873 .350 5.2071

1 CL2 CL3 20 1.0000 0.3497 .000 6.4012

Wänström (Linköpings universitet) Multivariata metoder 8 / 22

Page 9: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Wänström (Linköpings universitet) Multivariata metoder 9 / 22

Page 10: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

CLUSTER=1

Obs Obs dsz pmz prrz prcz ppvtz

1 1 ­0.60004 ­0.31435 ­0.77605 ­1.26592 ­1.17092

2 16 ­1.01386 ­0.71996 ­1.36174 ­1.34172 ­1.17092

3 2 0.22760 ­1.73398 ­0.77605 ­0.58369 ­0.51310

4 9 ­0.18622 ­2.13959 ­1.43495 ­1.03851 ­0.41443

5 5 ­0.18622 ­0.71996 ­1.36174 ­0.50788 ­0.11841

6 17 ­1.01386 ­0.31435 ­0.11714 ­0.28047 ­0.57888

7 3 0.22760 ­0.92276 0.32213 ­1.64494 ­0.87490

8 11 2.71053 0.59827 ­0.11714 1.00819 ­2.71680

CLUSTER=2

Obs Obs dsz pmz prrz prcz ppvtz

9 4 0.64142 ­0.01014 0.83461 ­0.65949 0.86832

10 13 ­0.18622 ­0.21295 1.27389 ­0.58369 0.60520

11 7 0.22760 0.80108 1.56673 0.32596 0.96700

12 14 0.22760 1.10529 1.56673 1.38720 1.09856

13 10 0.22760 0.09126 0.32213 0.78078 1.29591

14 15 0.22760 0.19266 ­0.40999 0.40176 0.40785

15 12 0.64142 ­0.01014 1.56673 1.15979 0.86832

16 6 ­0.60004 0.39547 ­0.40999 1.76622 0.21050

17 20 ­1.01386 0.90248 ­1.21532 0.78078 0.04605

18 19 1.05525 ­0.41575 0.32213 ­0.12887 0.27628

19 8 ­2.25533 1.71370 0.39534 1.00819 1.13145

20 18 0.64142 1.71370 ­0.19035 ­0.65949 ­0.24997

Wänström (Linköpings universitet) Multivariata metoder 10 / 22

Page 11: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

The MEANS ProcedureCLUSTER=1

Variable N Mean Std Dev Minimum Maximum

Obs

dsz

pmz

prrz

prcz

ppvtz

8

8

8

8

8

8

8.0000000

0.0206911

­0.7833335

­0.7028333

­0.7068678

­0.9447956

6.2564253

1.1911822

0.8551836

0.6709972

0.8352527

0.8045954

1.0000000

­1.0138630

­2.1395905

­1.4349513

­1.6449363

­2.7168014

17.0000000

2.7105318

0.5982741

0.3221319

1.0081868

­0.1184078

CLUSTER=2

Variable N Mean Std Dev Minimum Maximum

Obs

dsz

pmz

prrz

prcz

ppvtz

12

12

12

12

12

12

12.1666667

­0.0137941

0.5222223

0.4685555

0.4649282

0.6271228

5.2886385

0.9076389

0.7197882

0.9176068

0.8271293

0.4869116

4.0000000

­2.2553280

­0.4157498

­1.2153159

­0.6594906

­0.2499720

20.0000000

1.0552452

1.7137005

1.5667326

1.7662220

1.2959077

Wänström (Linköpings universitet) Multivariata metoder 11 / 22

Page 12: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Flerdimensionell skalning (MDS)

En visualiseringsmetod

Från en matris med avstånd (olikhetsmatris/likhetsmatris) mellanolika objekt ska en "karta" ritas

"Objekt": Städer, politiker, fotbollsspelare, skolämnen, TV-program...

Syfte: Visualisera avstånden mellan objekten. Ta reda på vilkadimensionerna i "kartan" är.

Wänström (Linköpings universitet) Multivariata metoder 12 / 22

Page 13: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Steg i MDS

En avståndsmatris för n objekt med avstånd δij tas fram

Mahalanobis avstånd/euklidiska avstånd (m.a.p. intressanta variabler)Någon/några personers "olikhetsbedömningar" för flera objektAntal gånger politiker röstat olika i valKorrelationsmatris (likhetsmatris)

Antal dimensioner t bestäms

Startkoordinater i t dimensioner antas för objekten

Euklidiska avstånd, dij mellan objekten beräknas

Någon typ av regression till avstånden dij = α+ βδij + εij anpassas

STRESS =(

∑(dij − d̂ij )2/ ∑ d̂2ij)1/2

beräknas och kartan justeras såSTRESS minimeras

Wänström (Linköpings universitet) Multivariata metoder 13 / 22

Page 14: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Exempel: Vad tänker Bertil på när han bedömer likhetenmellan olika skolämnen?

"Hur lika tycker du att följande ämnen är (från 0=helt lika, till 10=heltolika)?

data subjects;input (Ma Fy Ke En Sv Sam Hi Re Geo);datalines;0 2 4 7 7 6 9 8 82 0 3 7 7 6 9 9 94 3 0 8 8 8 9 9 67 7 8 0 3 5 6 6 77 7 8 3 0 4 3 5 66 6 8 5 4 0 3 4 49 9 9 6 3 3 0 2 58 9 9 6 5 4 2 0 78 9 6 7 6 4 5 7 0;proc mds data =subjects level=ordinal dimension=2;run;

Wänström (Linköpings universitet) Multivariata metoder 14 / 22

Page 15: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Iteration Type Badness­of­Fit

Criterion

Change inCriterion

Convergence Measures

Monotone Gradient

0 Initial 0.1841 . . .

1 Monotone 0.1595 0.0247 0.0952 0.7643

2 Gau­New 0.1027 0.0568 . .

3 Monotone 0.1002 0.002522 0.0224 0.2608

4 Gau­New 0.0996 0.000519 . .

5 Monotone 0.0950 0.004613 0.0306 0.1954

6 Gau­New 0.0947 0.000352 . .

7 Monotone 0.0941 0.000582 0.0114 0.1745

8 Gau­New 0.0935 0.000616 . .

9 Monotone 0.0935 ­0.000042 0.005279 0.1460

10 Gau­New 0.0925 0.000980 . 0.009962

Wänström (Linköpings universitet) Multivariata metoder 15 / 22

Page 16: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Wänström (Linköpings universitet) Multivariata metoder 16 / 22

Page 17: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Wänström (Linköpings universitet) Multivariata metoder 17 / 22

Page 18: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

proc mds data =subjects level=ordinal dimension=3;run;

Iteration Type Badness­of­Fit

Criterion

Change inCriterion

Convergence Measures

Monotone Gradient

0 Initial 0.0891 . . .

1 Monotone 0.0839 0.005150 0.0305 0.6319

2 Gau­New 0.0642 0.0198 . .

3 Monotone 0.0622 0.001943 0.0132 0.3187

4 Gau­New 0.0616 0.000600 . .

5 Monotone 0.0555 0.006150 0.0259 0.2896

6 Gau­New 0.0545 0.000995 . .

7 Monotone 0.0529 0.001580 0.0128 0.1960

8 Gau­New 0.0525 0.000402 . .

9 Monotone 0.0524 0.000125 0.004339 0.1620

10 Gau­New 0.0517 0.000666 . 0.0171

11 Gau­New 0.0517 7.4324E­6 . 0.003463

Wänström (Linköpings universitet) Multivariata metoder 18 / 22

Page 19: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Wänström (Linköpings universitet) Multivariata metoder 19 / 22

Page 20: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Wänström (Linköpings universitet) Multivariata metoder 20 / 22

Page 21: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Wänström (Linköpings universitet) Multivariata metoder 21 / 22

Page 22: Multivariata metoder - ida.liu.se732G08/F6_2016.pdf · 12 CL18 5 3 0.4115 0.0126 .940 1.5459 ... 5 CL9 CL14 8 0.5750 0.0548 .723 2.7427 ... 7 Monotone 0.0529 0.001580 0.0128 0.1960

Wänström (Linköpings universitet) Multivariata metoder 22 / 22