21
Multivariata Metoder en översikt Klara Westling – IVL Svenska Miljöinstitutet AB

Multivariata Metoder en översikt

  • Upload
    lew

  • View
    86

  • Download
    0

Embed Size (px)

DESCRIPTION

Multivariata Metoder en översikt. Klara Westling – IVL Svenska Miljöinstitutet AB. Multivariata metoder. - PowerPoint PPT Presentation

Citation preview

Page 1: Multivariata Metoder en översikt

Multivariata Metoderen översikt

Klara Westling – IVL Svenska Miljöinstitutet AB

Page 2: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Multivariata metoder Multivariat dataanalys omfattar i allmänhet samtidig

analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera.

Världen är multivariat! Utmaningen är att hantera de korrelationer och

samspelseffekter som ofta finns mellan variablerna.

Vi har två metodgrupper– Beskrivande analys (BA)– Relationsanalys (RA)

Page 3: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Beskrivande analys (BA) Översikt, sortering och klassificering

– Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (bara x-variabler)

– Utan kända klasser– Principalkomponentanalys (PCA)– Korrespondensanalys (CA) + kanonisk CA– Faktoranalys (FA)– Klusteranalys (KA)

– Med kända klasser– KNN – K närmaste grannar– SIMCA (anv. PCA)– PLS-DA

Page 4: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Principalkomponentanalys (PCA) Arbetshästen vid multivariat dataanalys Finner dominanta korrelationsstrukturer i data Separerar struktur från brus Avvikare syns lätt Klarar bortfall i data (dock inte alla algoritmer) Lämplig för översikt, sortering och klassificering Vid förekomstdata av djur och växter kan dock CA vara

att föredra

Page 5: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

PCA – kortfattad beskrivning

PM10content

PM10 content

NO2

Wood fuelburning

Use of studded tyres

Wood fuelburning

Use ofstudded tyres

NO2

NO2

S T

W F B

Kort exempel med olika källors påverkan på PM10 i luften• x-variabler: Dubbdäck, vedeldning, avgaser (NO2) (eg. 6 st)• y-variabel: PM10 i luften• 6 modeller (2 månader/modell), varierar över året• PM10 predikteras baserat på x-variabler och modeller

Page 6: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Exempel – PCA - ArbetslöshetData: Arbetslöshet i % inom olika sektorer för länder i

Europa (3 grupper: EEC, ickeEECväst, ickeEECöst). AGR MIN MAN PS CON SER FIN SPS TC Group

1 Belgium 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 1

2 Denmark 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 1

3 France 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7 1

4 W_Germany 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1 1

5 Ireland 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1 1

6 Italy 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7 1

7 Luxembourg 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 18 Netherlands 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8 1

9 UK 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 1

10 Austria 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0 2

11 Finland 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 2

12 Greece 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7 2

13 Norway 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 2

14 Portugal 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7 2

15 Spain 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 2

16 Sweden 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8 2

17 Switzerland 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 2

18 Turkey 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 2

19 Bulgaria 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7 3

20 Czechoslovakia 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0 3

21 E_Germany 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 3

22 Hungary 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0 3

23 Poland 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 3

24 Romania 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0 3

25 USSR 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 3

26 Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0 3

Page 7: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Exempel – PCA - ArbetslöshetMed 2 komponenter förklaras 62% av variationen i data

-4

-3

-2

-1

0

1

2

3

4

-5 -4 -3 -2 -1 0 1 2 3 4 5 6

t[2]

t[1]

Unemploy.M1 (PCA-X), Overviewt[Comp. 1]/t[Comp. 2]Colored according to values in variable Unemploy(Group)

R2X[1] = 0.387461 R2X[2] = 0.236686 Ellipse: Hotelling T2 (0.95)

Series (Settings for Group)

Missing123

Belgium

Denmark

France

W_GermanyIreland

Italy

Luxembourg

Netherland

UKAustria

FinlandGreece

Norw ayPortugalSpain

Sw eden

Sw itzerlanTurkey

Bulgaria

CzechoslovE_GermanyHungary

PolandRomania

USSR

Yugoslavia

SIMCA-P+ 11.5 - 2010-06-04 14:26:39

-0.5

-0.4

-0.3

-0.2

-0.1

-0.0

0.1

0.2

0.3

0.4

0.5

0.6

-0.4 -0.3 -0.2 -0.1 -0.0 0.1 0.2 0.3 0.4 0.5

p[2]

p[1]

Unemploy.M1 (PCA-X), Overviewp[Comp. 1]/p[Comp. 2]Colored according to model terms

R2X[1] = 0.387461 R2X[2] = 0.236686

AGR

MIN

MAN

PS

CON

SER

FIN

SPS

TC

SIMCA-P+ 11.5 - 2010-06-04 14:27:09

Page 8: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Exempel – PCA - ArbetslöshetMan kan också se på observationer och variabler i samma

bild

-1.0

-0.8

-0.6

-0.4

-0.2

-0.0

0.2

0.4

0.6

0.8

1.0

-1.0 -0.8 -0.6 -0.4 -0.2 -0.0 0.2 0.4 0.6 0.8 1.0

p(corr)[1], t(corr)[1]

Unemploy.M1 (PCA-X), Overviewp(corr)[Comp. 1]/p(corr)[Comp. 2]

p(corr)[2] (X)t(corr)[2]

AGR

MIN

MAN

PS

CON

SER

FIN

SPS

TC

Belgium

Denmark

France

W_GermanyIreland

Italy

Luxembourg

Netherland

UKAustria

FinlandGreece

Norw ayPortugalSpain

Sw eden

Sw itzerlanTurkey

Bulgaria

CzechoslovE_GermanyHungary

PolandRomania

USSR

Yugoslavia

SIMCA-P+ 11.5 - 2010-06-04 14:34:40

Page 9: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Exempel – PCA - Arbetslöshet Resultaten kan också visas i 3D: Unemploy

Page 10: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Exempel – PCA - Arbetslöshet Även den omodellerade variationen (residualen) hos

varje observation kan visualiseras

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8Be

lgiu

m

Den

mar

k

Fran

ce

W_G

erm

any

Irela

nd

Italy

Luxe

mbo

urg

Net

herla

nd UK

Aust

ria

Finl

and

Gre

ece

Nor

way

Port

ugal

Spai

n

Swed

en

Switz

erla

n

Turk

ey

Bulg

aria

Cze

chos

lov

E_G

erm

any

Hun

gary

Pola

nd

Rom

ania

USS

R

Yugo

slav

ia

DM

odX[

2](N

orm

)

Obs ID (Primary)

Unemploy.M1 (PCA-X), OverviewDModX[Comp. 2](Normalized)

M1-D-Crit[2] = 1.709 1 - R2X(cum)[2] = 0.3759

D-Crit(0.05)

SIMCA-P+ 11.5 - 2010-06-04 16:23:12

Page 11: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Faktoranalys (FA)

– Äldre broder till PCA– Modellerar både strukturen och bruset– Bygger på ett antal statistiska förutsättningar som skall

vara uppfyllda– Inget för nybörjaren

Page 12: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Korrespondensanalys (CA)

Kusin till PCA Användningsområden parallella med PCA Används då beskrivningsvariablerna har en

klockformad fördelning (förekomstdata av djur och växter)

PCA baseras på linjär fördelning (t.ex. vattenkemi)

PCA

Page 13: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Klusteranalys (KA)

– Grupperar observationerna enligt “likhet”

– Ingen unik primär lösning pga många uppdelningsmetoder och många likhetskriterier

– Resultatet presenteras ofta i ett dendrogram (träddiagram)

Page 14: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Exempel – Klusteranalys (okända klasser)Data: Arbetslöshet i Europa

Page 15: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

SIMCA – klassificering Bygger på separata PCA-modeller för varje klass Nya observationer klassas till den klass som den passar Metoden upptäcker observationer som inte passar till

någon klass!

Page 16: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Sammanfattning – beskrivande analys PCA är den rekommenderade metoden

Den är robust och väl lämpad för att:– Visualisera data– Finna grupperingar– Upptäcka avvikare– Klassificera nya observationer– Bra grafisk diagnostik och presentation

CA kan användas vid förekomstdata (som har klockformad respons hos beskrivningsvariablerna)

KA kan användas för att objektivt dela in ett material i grupper

Page 17: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Relationsanalys (RA) Samband och prediktioner (x- och y- variabler)

– relationsanalys syftar till att beskriva relationen mellan två grupper av variabler. Ofta kallar vi den ena gruppen för förklaringsvariabler (x) och den andra för beroendevariabler (y). Vi vill vet hur förklaringsvariablerna kan användas för att beskriva och prediktera beroendevariablerna.

– Med ursprungsvariabler– MLR, SMLR

– Med latenta variabler / underrumsmetoder– PLS, (ANN)

Page 18: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

MLR och SMLR (med ursprungsvariabler) MLR - multipel linjär regression

– Den mest felanvända metoden– Fungerar dåligt med korrelerade variabler– Hanterar inte bortfall– Klarar bara en y-variabel per modell– Antar att x är exakt och 100% relevant, endast

rekommenderad då man gjort faktorförsök innan och man vet att x är det man anger

SMLR – stegvis MLR– Väljer en delmängd av x-variablerna beroende på deras

modelleringsförmåga– Stor risk för övermodellering (overfit)– Urvalet och resultaten är mycket data- och brusberoende –

det finns väldigt många sätt att välja X-variabler i stora dataset

Page 19: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

PLS (latenta variabler)

– Maximerar kovariansen mellan x och y– Korrelerade variabler ger stabilare modell– Finner samband i närvaro av både brus och bortfall– Klarar flera y i samma modell– Intern validering reducerar risken för övermodellering– Grafisk presentation för diagnostik och prediktion– Upptäcker avvikare inför prediktioner för nya observationer– Olinjäritet mellan x och y fångas med transformationer och/eller

tillägg av högre ordningens termer av x (ex: x32, x1*x5, x2

2*x7)– Kan också användas för identifiering av tidsseriemodeller typ AR, MA

och ARMA med tillägg av tidsförskjutna x- och/eller y-variabler på x-sidan

Page 20: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Exempel PLS - Krondroppsdata Data: X – tid, plats, nederbörd,

Y – analyser av 12 olika föroreningar i krondropp

2

4

6

8

10

12

14

1 2 3 4 5 6 7 8 9 10 11 12 13 14

YVar

(SO

4-S)

YPred[4](SO4-S)

M1023.M2 (PLS), Time Nederb Site as XYPred[Last comp.](SO4-S)/YVar(SO4-S)Colored according to Obs ID (Primary)

RMSEE = 1.08475

AKBFBKTK

AK07/08

AK06/07

AK05/06AK04/05AK03/04AK02/03

AK01/02

AK00/01

AK99/00

AK98/99AK97/98AK96/97

AK95/96

AK94/95AK93/94

AK92/93

AK91/92

AK90/91

BF07/08

BF06/07BF05/06

BF04/05BF03/04BF02/03BF01/02

BF00/01BF99/00BF98/99

BF97/98BF96/97

BK07/08BK06/07

BK05/06

BK04/05BK03/04BK02/03BK01/02

BK00/01BK99/00BK98/99

BK97/98

BK96/97

TK07/08TK06/07

TK05/06

TK04/05TK03/04TK02/03TK01/02

TK00/01TK99/00

TK98/99TK97/98TK96/97

SIMCA-P+ 11.5 - 2010-04-06 18:52:34

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

H+

SO4-

S

SO4-

Sex

Cl-

NO

3-N

NH

4-N

Ca2

+

Mg2

+

Na+ K+

Mn2

+

oorg

N

Var ID (Primary)

M1023.M2 (PLS), Time Nederb Site as X R2VY[4](cum)Q2VY[4](cum)

SIMCA-P+ 11.5 - 2010-04-06 18:54:21

-0.6-0.4-0.2-0.00.20.40.6

Site

(AK)

Site

(BF)

Site

(BK)

Site

(TK) Yr

Ned

b

Yr*Y

r

Coe

ffCS[

4](S

O4-

S)

Var ID (Primary)

M1023.M2 (PLS), Time Nederb Site as XCoeffCS[Last comp.](SO4-S)

SIMCA-P+ 11.5 - 2010-06-04 16:51:35

1

2

3

4

5

6

7

8

9

10

11

12

BF

07/0

8B

F06/

07BF

05/0

6B

F04/

05B

F03

/04

BF0

2/03

BF01

/02

BF0

0/01

BF

99/0

0B

F98/

99BF

97/9

8B

F96/

97A

K07

/08

AK0

6/07

AK05

/06

AK0

4/05

AK

03/0

4A

K02/

03AK

01/0

2A

K00/

01A

K99

/00

AK9

8/99

AK97

/98

AK9

6/97

AK

95/9

6A

K94/

95AK

93/9

4A

K92/

93A

K91

/92

AK9

0/91

BK07

/08

BK0

6/07

BK

05/0

6B

K04/

05BK

03/0

4B

K02/

03B

K01

/02

BK0

0/01

BK99

/00

BK9

8/99

BK97

/98

BK9

6/97

TK07

/08

TK0

6/07

TK

05/0

6T

K04/

05TK

03/0

4T

K02/

03TK

01/0

2T

K00/

01TK

99/0

0T

K98/

99TK

97/9

8T

K96/

97

SO4-

Sex

Obs ID (Primary)

M1023.DS1 M1023Variable(SO4-Sex)Colored according to Obs ID (Blåbärskullen ÖF)

AKBFBKTK

AK07/08

AK06/07

AK05/06

AK04/05AK03/04AK02/03AK01/02

AK00/01

AK99/00

AK98/99AK97/98

AK96/97

AK95/96AK94/95

AK93/94

AK92/93

AK91/92

AK90/91

BF07/08

BF06/07BF05/06

BF04/05BF03/04BF02/03BF01/02

BF00/01BF99/00

BF98/99BF97/98

BF96/97

BK07/08BK06/07

BK05/06

BK04/05BK03/04BK02/03BK01/02

BK00/01BK99/00BK98/99

BK97/98BK96/97

TK07/08TK06/07

TK05/06

TK04/05TK03/04

TK02/03TK01/02TK00/01

TK99/00TK98/99TK97/98TK96/97

SIMCA-P+ 11.5 - 2010-04-06 16:46:11

Page 21: Multivariata Metoder en översikt

Multivariata MetoderKlara Westling, 2012-04-24

Sammanfattaning - relationsanalys

PLS passar i de flesta fallen PLS är överlägset MLR och SMLR när det finns många och

korrelerade x-variabler PLS har bättre grafiska diagnostiska möjligheter än de andra

metoderna Stegvis regression är inte alls rekommenderat, stor risk för

övermodellering ANN (neurala nätverk) kan man pröva om inget annat fungerar