143
Statistik 1 og Statistiske Modeller 2: Todimensionale normalfordelte data Flerdimensionale normalfordelte data Jørgen Granfeldt

Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Statistik 1 og

Statistiske Modeller 2:

Todimensionale normalfordelte data

Flerdimensionale normalfordelte data

Jørgen Granfeldt

Page 2: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Institut for Matematiske FagDet Naturvidenskabelige FakultetAarhus UniversitetFebruar 2005

Page 3: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Indhold

8 Todimensionale normalfordelte data 18.1 Introduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18.2 Definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18.3 Eksempler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48.4 Den todimensionale normalfordeling . . . . . . . . . . . . . . . . . . . . . . . 68.5 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98.6 Maksimum likelihood estimatorens fordeling . . . . . . . . . . . . . . . . . . 11

8.6.1 Fordeling af rXY for ρ = 0 . . . . . . . . . . . . . . . . . . . . . . . . 118.6.2 Fordeling af rXY for ρ 6= 0 . . . . . . . . . . . . . . . . . . . . . . . . 13

8.7 Modelkontrol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158.8 Inferens om ρ baseret på en stikprøve fra N2 . . . . . . . . . . . . . . . . . . . 18

8.8.1 Test af hypotesen ρ = 0 . . . . . . . . . . . . . . . . . . . . . . . . . 188.8.2 Test af H0: ρ = ρ0 og konfidensinterval for ρ . . . . . . . . . . . . . . 19

8.9 Inferens om ρ baseret på k ≥ 2 stikprøver . . . . . . . . . . . . . . . . . . . . 218.10 Korrelation og regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238.11 Fortolkning af korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248.12 Yderligere hypoteser og tests i den todimensionale normalfordeling . . . . . . 25

8.12.1 Én stikprøve fra den todimensionale normalfordeling . . . . . . . . . . 288.12.2 Udledning af Hotellings T 2-test for simpel middelværdihypotese . . . . 308.12.3 To uafhængige stikprøver fra todimensionale normalfordelinger . . . . 328.12.4 Udledning af Hotellings T 2-test for sammenligning af to middelværdier 34

Anneks til Kapitel 8 37Litteratur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

9 Flerdimensionale normalfordelte data 619.1 Indledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619.2 Den flerdimensionale normalfordeling . . . . . . . . . . . . . . . . . . . . . . 619.3 Flere p-dimensionale normalfordelte variable. Notation. . . . . . . . . . . . . . 709.4 Én observationsrække i den flerdimensionale normalfordeling . . . . . . . . . 74

9.4.1 Estimation i én observationsrække i Np . . . . . . . . . . . . . . . . . 749.4.2 Fordelingen af maksimum likelihood estimatorerne for µ og Σ . . . . . 76

9.5 Hotellings T 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

i

Page 4: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.6 Lineære normale modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819.7 Estimation af partielle korrelationer og estimatorernes fordeling . . . . . . . . 899.8 Fordelingen af den multiple korrelationskoefficient . . . . . . . . . . . . . . . 919.9 Tests for uafhængighed mellem komponenter . . . . . . . . . . . . . . . . . . 949.10 Test for identitet af kovariansmatricer . . . . . . . . . . . . . . . . . . . . . . 96

Anneks til Kapitel 9 99Litteratur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Indeks 137

ii

Page 5: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8 Todimensionale normalfordelte data

8.1 Introduktion

I sandsynlighedsteori bruges termen korrelation om en specifik egenskab (8.2) ved den simul-tane fordeling af to stokastiske variable. For en stikprøve fra en todimensional fordeling brugestermen korrelation om adskillige empiriske mål, som bruges til at kvantificere sammenhæn-gen mellem de to variable. Vægten vil i dette kapitel være på det empiriske modstykke til densandsynlighedsteoretiske korrelation, og vi betragter her udelukkende kontinuerte variable. Af-snit 8.2 indeholder definitionerne af korrelation og empirisk korrelation sammen med nogle afderes basale egenskaber tillige med en advarsel om, at beregning af korrelation uden først attegne data kan være meningsløs.

I Afsnit 8.3 præsenteres de data, der bruges til at illustrere teorien gennem hele kapitlet.I Afsnit 8.4 vises de vigtigste egenskaber ved den todimensionale normalfordeling, og i

Afsnit 8.5 estimeres parametrene i den todimensionale normalfordeling baseret på en observa-tionsrække. Den todimensionale normalfordeling udmærker sig som en model, hvor den em-piriske korrelationskoefficient er maksimum likelihood estimat for korrelationskoefficienten ifordelingen og har en præcis fortolkning.

Modelkontrol i den todimensionale normalfordeling består i at undersøge om observations-rækken er i overensstemmelse med de teoretiske egenskaber ved den todimensionale normalfor-deling, og de teknikker omtales i 8.7 og igen i forbindelse med beregninger i SAS fra side 37.Inferens om korrelationskoefficienten omfatter test af hypotesen, at korrelationskoefficienten er0 samt beregning af et (1−α) konfidensinterval. Begge teknikker gives i Afsnit 8.8. Afsnit 8.9omhandler teknikken for at teste identitet korrelationskoefficienterne fra k todimensionale nor-malfordelinger baseret på uafhængige stikprøver fra de fordelinger. Afsnit 8.10 og Afsnit 8.11omhandler fortolkning af korrelation.

I Afsnit 8.12 behandles flere hypoteser og tests i den todimensionale normalfordeling. Merepræcist er det test af en simpel hypotese om middelværdivektoren baseret på én observations-række fra den todimensionale normalfordeling, og test af identitet af middelværdivektorerne ito normalfordelinger baseret på to uafhængige observationsrækker fra den todimensionale nor-malfordeling.

8.2 Definitioner

For to stokastiske variable X og Y er kovariansen af X og Y

Cov(X ,Y ) = E((X−EX)(Y −EY )), (8.1)

1

Page 6: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

2 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

og korrelationen eller korrelationskoefficienten mellem X og Y er kovariansen divideret medstandard afvigelserne for X og Y , det vil sige,

Cor(X ,Y ) =E((X−EX)(Y −EY ))√

VarX√

VarY. (8.2)

Korrelationskoefficienten er en dimensionsløs størrelse, som er begrænset af −1 og 1, det vilsige,

−1≤Cor(X ,Y )≤ 1. (8.3)

Hvis korrelationskoefficienten er−1 eller 1, er der en eksakt lineær sammenhæng mellem X ogY i den forstand, at der eksisterer konstanter α og β , så

Y = α +βX (8.4)

med sandsynlighed 1. Hvis Cor(X ,Y ) = −1, er β negativ, og Y aftager når X vokser, og hvisCor(X ,Y ) = 1, er β positiv, og X og Y vokser samtidigt.

For en stikprøve (observationsrække) (x1,y1), . . . ,(xn,yn) fra en todimensional fordeling, erdet empiriske modstykke til (8.1)

Cov(x,y) =1n

n

∑i=1

(xi− x·)(yi− y·) (8.5)

=1n

SPDxy,

modstykket til (8.2) er den empiriske korrelations koefficient

r = rxy = ∑ni=1(xi− x·)(yi− y·)√

∑ni=1(xi− x·)2

√∑

ni=1(yi− y·)2

(8.6)

=SPDxy√

SSDx√

SSDy. (8.7)

Observatoren i (8.6) omtales ofte som Pearson korrelationskoefficienten efter Karl Pearson(1857–1937). Ofte udelades ordet „koefficient“, og man taler simpelthen om empirisk korre-lation, estimeret korrelation, eller Pearson korrelation

Sammenhængen mellem (8.1) og (8.5) og mellem (8.2) og (8.6) er, at stikprøven definereren todimensional fordeling, den empiriske fordeling, som tillægger sandsynligheden 1

n til hveraf observationerne og (8.5) er kovariansen (8.1) for X og Y i den empiriske fordeling, og (8.6)er korrelationen (8.2) af X og Y i den empiriske fordeling.

Det betyder, at grænserne i (8.3) også holder for den empiriske korrelation, så

−1≤ rxy ≤ 1, (8.8)

og hvis rxy = −1 eller rxy = 1, er der en eksakt lineær sammenhæng mellem x1, . . . ,xn ogy1, . . . ,yn. Det vil sige

yi = α +βxi, i = 1, . . . ,n, (8.9)

Page 7: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.2. DEFINITIONER 3

hvor β er negativ hvis rxy =−1 og β er positiv hvis rxy = 1.Endnu er særlig værdi for korrelationskoeffcienten er 0. Hvis X og Y er uafhængige, så er

kovariansen 0, og dermed er også korrelationen 0. Men korrelation lig med 0 betyder ikke ialmindelighed, at X og Y er uafhængige. For den todimensionale normalfordeling er uafhæn-gighed og korrelation 0 ensbetydende.

Den perfekte lineære sammenhæng (8.9) mellem de variable i stikprøven, når rxy =±1, børikke forlede nogen til at tro, at man kan opfatte numeriske værdier af

∣∣rxy∣∣mellem 0 og 1 som et

udtryk for graden af lineær sammenhæng mellem de variable. Der er konstrueret adskillige ek-sempler for at illustrere dette. I Figur 8.1 er vist fire eksempler på datasæt, som blev presenteretaf Anscombe (1973). De fire konstruerede datasæt har alle rxy lig med 0.816, men det er megetforskellige historier de enkelte tegninger fortæller, og kun for datasæt A kan korrelationen ansesfor at give er meningsfuldt udtryk for graden af sammenhæng mellem de to variable.

Figur 8.1 Anscombe eksempler.

Endnu en vigtig pointe illustreres af de to datasæt, der er vist i Figur 8.2. For begge datasæter den empiriske korrelation tæt på 0. Man ser ofte, at man ud fra observeret korrelation tæt på0 drager den konklusion, at der ingen sammenhæng er mellem de to variable. Det er klart, atden konklusion kun er rimelig for data i tegning B i Figur 8.2. I tegning A i Figur 8.2 er der entydelig ikke-lineær sammenhæng mellem de to variable.

Begge eksempler understreger pointen, at beregning og fortolkning af empiriske korrelatio-ner er meningsløse, hvis de ikke understøttes af tegninger af data.

Page 8: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

4 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Figur 8.2 Data i tegning A har r = 0 og data i plot B hat r =−0.086.

Der er én model, hvor den empiriske korrelation er særligt meningsfuld: Den todimensionalenormalfordeling. I denne model er den empiriske korrelationskoefficient maksimum likelihoodestimat af korrelationskoefficienten (8.2) i den todimensionale normalfordeling, og værdien afkorrelationskoefficienten for den todimensionale normalfordeling kan fortolkes som styrken afsammenhængen mellem de to variable.

8.3 Eksempler

Eksempel 8.1(Kilde: Hald (1952, pp.547 ff.,603 f.,611 f.)) I en undersøgelse af bevaring af ascorbinsyre ispinat efter tørring og lagring fik man i 24 prøver, som var tørret ved 90o C, de i Tabel 8.1 ogFigur 8.3 anførte sammenhørende værdier mellem procenten af tørstof i den friske spinat ogprocent bevaret ascorbinsyre.

Figur 8.3 tyder på en sammenhæng mellem tørstofindhold og bevaringsprocent for ascorbin-syre. Vi skal senere bruge disse data til at illustrere detaljeret modelkontrol i den todimensionalefordeling. �

Eksempel 8.2Data i dette eksempel er fra Keiding (1976).

Den 24. juli og den 16. august fangedes henholdsvis 18 og 23 unge skruptudser, Bufo bu-fo, i samme område. Tabel 8.2 indeholder logaritmen til længden L (i mm) og vægten V (img). Data blev indsamlet for at beskrive størrelsesfordelingerne af skruptudser på indsamlings-tidspunkterne og med henblik på at beskrive forskellen mellem størrelsesfordelingerne på de totidspunkter.

Her refererer størrelse både til længde og vægt, og vi vil beskrive sammenhængen mellemlogaritmen til længde og logaritmen til vægt i begge stikprøver. Vi vil også beskrive ændringeni middelværdierne mellem de to tidspunkter.

Page 9: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.3. EKSEMPLER 5

Tørstof Ascorbin Tørstof Ascorbin10.0 70.9 12.5 74.2

8.9 74.0 12.3 83.18.9 58.6 10.0 66.79.2 80.6 10.2 77.27.8 69.4 11.2 83.8

10.1 76.0 11.2 67.99.0 66.4 10.0 88.98.2 50.9 10.7 69.09.5 61.9 10.3 69.8

10.8 65.2 12.9 86.011.1 77.2 11.8 79.911.2 89.6 14.9 88.2

Tabel 8.1 Sammenhæng mellem tørstofprocent (x) i frisk spinat og bevaringsprocent (y) forascorbinsyreindholdet ved tørring ved 90o C.

Figur 8.3 Tørstofprocenter i frisk spinat og bevaringsprocenten for ascorbinsyreindholdet vedtørring ved 90o C.

Page 10: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

6 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Tabel 8.2 Naturlig logaritme af længden i mm (L) og vægten i mg (V ) for for unge skruptudser

24/7-75 (n1 = 18) 16/8-75 (n2 = 23)lnL lnV lnL lnV2.83 5.86 2.97 6.222.86 5.97 3.00 6.232.83 5.97 3.26 7.032.71 5.47 3.07 6.502.89 5.96 3.09 6.682.67 5.31 3.14 6.652.74 5.72 3.14 6.842.71 5.50 3.14 6.552.80 5.79 3.00 6.272.83 5.93 3.09 6.602.77 5.65 3.11 6.592.74 5.59 3.00 6.382.86 5.96 3.04 6.442.67 5.39 3.20 6.792.89 6.06 3.04 6.482.92 6.13 3.20 6.932.71 5.50 3.00 6.233.00 6.27 3.16 6.82

3.07 6.583.00 6.363.09 6.643.07 6.643.11 6.68

Endvidere vil vi senere (side 16) begrunde, hvorfor vi betragter logaritmerne frem for deoprindelige variable længde og vægt.

Tabel 8.2 indeholder den naturlige logaritme af længden L (i mm) og den naturlige logaritmeaf vægten V (i mg). Sammenhørende værdier af ln vægt og ln længde tegnet op mod hinandeni Figur 8.4 sammen med 50% og 90% konturkurver for tæthedsfunktionerne de todimensionalenormalfordelinger, der passer bedst til data. Konturellipserne forklares nærmere i Afsnit 8.4, ogestimation i den todimensionale normalfordeling behandles i Afsnit 8.5. �

8.4 Den todimensionale normalfordeling

I dette afsnit defineres den todimensionale normalfordeling. Formålet er at give en grundigomtale af korrelation og sammenhængen mellem regression og korrelation.

Lad X være normalfordelt N(µx,σ2x ) og lad Y være normalfordelt N(µy,σ

2y ). Hvis X og Y

Page 11: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.4. DEN TODIMENSIONALE NORMALFORDELING 7

Figur 8.4 Sammenhørende værdier af ln vægt og ln længde tegnet op mod hinanden sammenmed 50% og 90% konturkurver for tæthedsfunktionerne for todimensionale normalfordelingermed parametre lig med de estimerede værdier fra de to stikprøver i Tabel 8.2. Krydsene harcentrum i de estimerede middelværdier og de dannes af linjer hvis længde er to estimeredestandardafvigelser.

er uafhængige, er den simultane tæthed, f , for (X ,Y )∗ produktet af de marginale tætheder, så

f (x,y) =1

2πσxσye− 1

2

{( x−µx

σx )2+(

y−µyσy

)2}, (x,y) ∈ R2. (8.10)

Den simultane fordeling af X og Y er en todimensional normalfordeling med parametre(µxµy

),

{σ2

x 00 σ2

y

},

idet man først angiver vektoren af middelværdier og dernæst matricen af kovarianser.Hvis X og Y er korrelerede med korrelationskoefficient ρ , er (X ,Y )∗ todimensionalt nor-

malfordelt, hvis (X ,Y )∗ har simultan tæthed

f (x,y) =1

2πσxσy√

1−ρ2e− 1

2(1−ρ2)

{( x−µx

σx )2−2ρ(x−µx)

σx · (y−µy)σy +

(y−µy

σy

)2}

,(8.11)

og vi skriver i korthed (XY

)∼ N2

((µxµy

),

{σ2

x ρσxσyρσxσy σ2

y

}).

Bemærk, at x og y indgår symmetrisk i udtrykket for tætheden (8.11).Hvis ρ = 0 reducerer (8.11) til (8.10), og så er X og Y uafhængige.

Page 12: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

For at få et indblik i udseendet af tætheden for den todimensionale normalfordeling betragtervi kort niveaukurverne {(x,y)| f (x,y) = k} for tætheden f . Ligningen f (x,y) = k er ækvivalentmed

11−ρ2

{(x−µx

σx

)2

−2ρx−µx

σx

y−µy

σy+(

y−µy

σy

)2}

= c2. (8.12)

For ρ = 0 ses umiddelbart, at mængden af de (x,y) som opfylder (8.12) udgør en ellipse medcentrum i (µx,µy), halvakser af længde (cσx,cσy) og akser parallelle med koordinatakserne. Ensådan ellipse kaldes en konturellipse.

For generelt ρ ∈]− 1,1[ er mængden af de punkter (x,y), som opfylder (8.12) stadig enellipse med centrum i (µx,µy), men for ρ 6= 0 er akserne ikke parallelle med koordinatakserne,ligesom halvaksernes længde både afhænger af spredningerne og af værdien af ρ. (Opgave 8.2.)

En nyttig omskrivning af (8.11) er

f (x,y) =1√

2πσxe− 1

2σ2x(x−µx)2 1

√2πσy

√1−ρ2

e− 1

2σ2y (1−ρ2)(y−µy−

ρσyσx (x−µx))

2

. (8.13)

Benyttes (8.13) fås umiddelbart, at når(XY

)∼ N2

((µxµy

),

{σ2

x ρσxσyρσxσy σ2

y

}),

er den marginale fordeling for X en N(µx,σ2x ) fordeling, og den betingede fordeling af Y gi-

vet X = x er N(µy + ρσy

σx(x− µx),σ2

y (1−ρ2)). Faktoriseringen (8.13) er altså faktoriseringen

f (x,y) = f (x) f (y |x) af den simultane tæthed for (X ,Y )∗ i den marginale tæthed for X og denbetingede tæthed for Y givet X = x. Tilsvarende er marginalfordelingen for Y en N(µy,σ

2y )

fordeling og den betingede fordeling af X givet Y = y er en N(µx + ρσx

σy(y− µy),σ2

x (1−ρ2))

fordeling.Figur 8.5 stammer fra Francis Galton: “Regression towards Mediocrity in Hereditary Statu-

re”, Journal of the Anthropological Institute, 15 (1885), 246-265.Selvom regression af Galton bruges i den direkte betydning tilbagegang, skyldes det allige-

vel denne artikel, at ordet regression er blevet hæftet på de teknikker, hvor man søger at beskriveén variabel som en funktion af en eller flere andre variable (lineær regression, ikke-lineær re-gression, multipel regression).

Den betingede middelværdi af Y givet X = x som funktion af x, det vil sige funktionenx→ µy +ρ

σy

σx(x−µx) kaldes regressionen af Y på X . Grafen for denne funktion er{

(x,y) |y = µy +ρσy

σx(x−µx),x ∈ R

}.

Tilsvarende kaldes den betingede middelværdi af X givet Y = y, som funktion af y for regres-sionen af X på Y. Grafen for denne er{

(x,y) |x = µx +ρσx

σy(y−µy),y ∈ R

}={

(x,y) |y = µy +σy

ρσx(x−µx),x ∈ R

}.

Page 13: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.5. ESTIMATION 9

Figur 8.5 Konturellipse med hovedakser og regressionslinjer. Regressionen af Y på X går gen-nem de punkter, hvor konturellipsen har lodret tangent og regression af X på Y gennem depunkter, hvor konturellipsen har vandret tangent.

For ρ > 0 ses, at regressionslinjen for regressionen af X på Y har større hældning end regres-sionslinjen for regressionen af Y på X .

På Figur 8.5 er regressionslinjerne indtegnet i forhold til en konturellipse for et ρ > 0.

8.5 Estimation

Lad (x1,y1)∗, . . . ,(xn,yn)∗, hvor n≥ 3, være en stikprøve fra en todimensional normalfordeling.Det vil sige (xi,yi)∗, i = 1, . . . ,n, er realisationer af stokastiske variable (Xi,Yi)∗, i = 1, . . .n, somer uafhængige og identisk todimensionalt normalfordelt. Den statistiske model er specificeretved, at parametrene varierer frit, det vil sige (µx,µy,σ

2x ,σ2

y ,ρ) varierer frit i R×R×R+×R+×]−1,1[ . Ved maksimering af likelihood funktionen er det bekvemt at benytte faktoriseringen(8.13) og en omparametrisering.

Bemærk, at parametrene i den betingede fordeling af Y givet X = x er α , β og ω2, hvor

α = µy−ρσy

σxµx,

β = ρσy

σx,

ω2 = σ

2y (1−ρ

2),

og at parametrene i den marginale fordeling for X er µx og σ2x .

Afbildningen (µx,µy,σ

2x ,σ2

y ,ρ)→(µx,σ

2x ,α,β ,ω2)

Page 14: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

10 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

en bijektion af

R×R×R+×R+× ]−1,1[ på R×R+×R×R×R+.

Likelihoodfunktionen fremstår som et produkt

L(µx,µy,σ

2x ,σ2

y ,ρ)

= L1(µx,σ

2x)

L2(α,β ,ω2) ,

hvor

L1(µx,σ

2x)

∝ (1

σ2x)

n2 e− 1

2σ2x

n

∑i=1

(xi−µx)2

og

L2(α,β ,ω2)

∝ (1

ω2 )n2 e− 1

2ω2

n

∑i=1

(yi−α−βxi)2

.

Maksimeringen af L kan foregå ved maksimering af L1 og L2 hver for sig, da parameter-vektoren

(µx,σ

2x ,α,β ,ω2) er en en-entydig funktion af de oprindelige parametre og

(µx,σ

2x)

og(α,β ,ω2) varierer i et produktområde.Maksimeringen af L1 og L2 er velkendt, idet L1 er likelihoodfunktionen svarende til en

stikprøve fra en N(µx,σ2x ) fordeling og L2 afhænger på samme måde af (x1, . . . ,xn,y1, . . . ,yn)

som likelihood funktionen svarende til regressionsmodellen Y1, . . . ,Yn indbyrdes uafhængige ogYi ∼ N(α +βxi,ω

2) afhænger af (x1, . . . ,xn,y1, . . . ,yn). L1 maksimeres af

µx = x· =x1 + · · ·+ xn

n, σ

2x = s

′2x =

1n

n

∑i=1

(xi− x.)2 =1n

SSDx

og fra regressionsanalysen fås, at ved maksimering af L2 skal β sættes lig med SPD/SSDx, detvil sige

β =SPDSSDx

,

hvor

SPD = SPDxy =n

∑i=1

(xi− x.)(yi− y.) .

Foretog vi i stedet den analoge opsplitning af likelihood funktionen efter den marginale tæthedfor Y , ville vi se, at vi ved maksimeringen skal sætte

µy = y. og σ2y = s

′2y =

1n

n

∑i=1

(yi− y.)2 =1n

SSDy.

Da β = ρσy

σxeller ρ = β

σx

σyfås, at vi skal sætte

ρ = r = rxy =SPDxy

SSDx

√SSDxSSDy

=SPDxy√

SSDxSSDy

Page 15: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.6. MAKSIMUM LIKELIHOOD ESTIMATORENS FORDELING 11

for at maksimere likelihood funktionen. Sammenfattende har vi, at maksimum likelihood esti-matet er (

µx, µy, σ2x , σ

2y , ρ)

=(x., y.,s′2x ,s′2y ,r

).

Sædvanligvis erstattes s′2x og s′2y med henholdsvis s2x = SSDx/(n− 1) og s2

y = SSDy/(n− 1).Bemærk, at estimaterne x·, y·,s′2x

(s2

x),s′2y(s2

y)

er de velkendte fra én observationsrække, og atestimatet r netop er den empiriske korrelationskoefficient, det vil sige korrelationskoefficienteni den empiriske fordeling svarende til stikprøven (x1,y1)

∗ , . . . ,(xn,yn)∗.

8.6 Maksimum likelihood estimatorens fordeling

Estimaterne for middelværdier og varianser er de sædvanlige estimater baseret enten på dennormale stikprøve, x1, . . . ,xn, eller den normale stikprøve, y1, . . . ,yn, og derfor er de marginalefordelinger af estimaterne de velkendte:

µx← x· ∼∼ N(µx,σ2

xn

),

σ2x ← s2

x ∼∼σ2

xn−1

χ2 (n−1) ,

µy← y· ∼∼ N(µy,σ2

y

n),

σ2y ← s2

y ∼∼σ2

y

n−1χ

2 (n−1) .

Fordelingen af estimatoren for ρ er mere kompliceret, og det er den simultane fordeling afde fem estimatorer også. Derfor vil vi kun give den eksakte fordeling for r, når ρ = 0.

Når vi taler om fordelingen af den empiriske korrelationskoefficient, opfatter vi den somen funktion af de stokastiske variable i stikprøven og for at minde om det, bruger vi store fedebogstaver X og Y som indekser og skiver estimatoren for korrelationskoefficienten som

rXY =SPDXY√

SSDXSSDY.

For variansskønnene afviger vi lidt fra denne notation, idet vi ikke bruger fed skrift og foreksempel lader s2

x betegne estimatet for σ2x , mens s2

X betegner den stokastiske variabel. I forbin-delse med én observationsrække i Kapitel 3 brugte vi i (3.8) notationen s2(X) for variansskønnetopfattet som stokastisk variabel.

8.6.1 Fordeling af rXY for ρ = 0

Vi skal kun finde maksimum likelihood estimatorens fordeling under hypotesen ρ = 0.De marginale fordelinger for de fire komponenter X ·, Y ·, s2

X og s2Y er givet ovenfor, og når

ρ = 0 er de fire komponenter indbyrdes uafhængige.I det følgende skal vi vise, at rXY er uafhængig af

(X ·,Y ·,s2

X ,s2Y)

under hypotesen ρ = 0 ogfinde fordelingen af rXY.

Page 16: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

12 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Vi benytter igen kendte resultater fra regressionsanalysen. I den betingede fordeling givet(X1, . . . ,Xn) = (x1, . . . ,xn) er

T2(x) = SSD02(x) = SSDY−SPD2

xYSSDx

,

der er σ2y χ2(n−2) (ω2 = σ2

y , når ρ = 0), og estimatoren for β ,

β =SPDxYSSDx

,

der (idet ρ = 0 medfører β = 0 og ω2 = σ2y ) er N(0,

σ2y

SSDx), samt Y ·, der er N(µy,

σ2y

n), indbyr-

des uafhængige. Derfor er

T1(x) =SPDxY√

SSDx∼ N(0,σ2

y ),

T2(x) og Y · indbyrdes uafhængige. Da fordelingen til (Y ·,T1(x),T2(x)) er den samme for allex følger det, at Y ·,T1(X),T2(X),X1, . . . ,Xn er indbyrdes uafhængige, og at Y ·,T1(X) og T2(X)følger de ovenfor angivne fordelinger for Y ·,T1(x) og T2(x).

Nu er

r2XY =

SPD2XY

SSDXSSDY=

T 21 (X)

T 21 (X)+T2(X)

.

Da T 21 (X) og T2(X) ifølge det foregående er uafhængige og henholdsvis Γ(1

2 ,1/(2σ2y )) og

Γ(n−22 ,1/(2σ2

y )) fordelt, er r2XY fordelt som B(1

2 , n−22 ) og uafhængig af SSDY = T 2

1 (X)+T2(X)(Opgave 8.10).

Vi har nu vist, at r2XY, SSDY, Y ·, X1, . . . ,Xn er indbyrdes uafhængige, og derfor er også r2

XY,SSDY, Y ·, SSDX, X · indbyrdes uafhængige. Hermed er fordelingen af (X ·, s2

X , Y ·, s2Y , r2

XY) underhypotesen ρ = 0 fuldstændigt specificeret.

Det er nyttigt at notere sig, at

√n−2

rXY√1− rXY2

=√

n−2SPDXY√

(SSDXSSDY−SPD2XY)

=T1(X)/σy√

T2(X)/(σ2y (n−2))

, (8.14)

hvor tælleren er N(0,1) fordelt og uafhængig af nævneren, som er kvadratroden af en χ2(n−2)/(n−2) fordelt stokastisk variabel. Altså er

T (rXY) =√

n−2rXY√

1− rXY2∼ t(n−2). (8.15)

En tabel over t-fordelingen kan altså bruges til at udregne fordelingen til rXY for ρ = 0.

Vi bemærker, at (8.14) viser, at T (rxy) er lig med t-testet for hypotesen, at hældningen er 0i regressionen af Y på X .

Page 17: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.6.2. FORDELING AF RXY FOR ρ 6= 0 13

8.6.2 Fordeling af rXY for ρ 6= 0

Fordelingen til rXY fra en stikprøve på n indbyrdes uafhængige observationer fra en todimensio-nal normalfordeling afhænger på temmelig kompliceret måde af ρ . Fordelingen blev udledt afR.A. Fisher (1915). For ρ = 0 er fordelingen symmetrisk om 0, som det fremgår af (8.15), menfor ρ 6= 0 bliver fordelingen mere og mere asymmetrisk når |ρ| vokser. I Figur 8.6 er tæthedenfor rXY for n = 8 angivet for ρ = 0 og ρ = 0.8. Til mange praktiske formål behøver man ikkeat benytte sig af fordelingen til rXY, idet der findes en strengt voksende transformation af rXYhvis fordeling med god tilnærmelse er normal allerede for små stikprøvestørrelser, og hvor detmed god tilnærmelse kun er middelværdien af den transformerede variabel som afhænger af ρ

(jævnfør Opgave 8.6). Transformationen blev angivet af R.A. Fisher (1915) og kaldes FishersZ, hvor

Z =12

ln1+ rXY1− rXY

= tanh−1(rXY). (8.16)

I Figur 8.6 er tætheden for Z vist for n = 8 og ρ = 0 og ρ = 0.8.De fire første momenter blev angivet af Fisher (1921) og senere revideret af Gayen (1951).

Idet

ζ =12

ln1+ρ

1−ρ(8.17)

er

EZ = ζ +ρ

2(n−1)

{1+

5+ρ2

4(n−1)+ · · ·

}µ2 = Var Z =

1n−1

{1+

4−ρ2

2(n−1)+

22−6ρ2−3ρ4

6(n−1)2 + · · ·}

µ3 =ρ3

(n−1)3 + · · ·

µ4 =1

(n−1)2

{3+

14−3ρ2

n−1+

184−48ρ2−21ρ4

4(n−1)2 + · · ·}

.

Idet γ1 betegner skævheden (skewness) og γ2 topstejlheden (kurtosis) af fordelingen til Z fås

γ21 =

µ23

µ32

=ρ6

(n−1)3 + · · ·

og

γ2 =µ4

µ22−3 =

2n−1

+4+2ρ2−3ρ4

(n−1)2 + · · ·

(jævnfør Opgave 8.7). Da γ21 og γ2 er tæt ved 0 allerede for små n, følger det, at Z allerede for

små n med god tilnærmelse er normalfordelt med ovenstående middelværdi og varians, som tilde fleste praktiske formål erstattes af

EZ ≈ ζ +ρ

2(n−1)

Page 18: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

14 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Figur 8.6 Tæthedsfunktioner for rXY (øverst) og Z (nederst) vist for n = 8, ρ = 0 og ρ = 0.8

Page 19: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.7. MODELKONTROL 15

og

Var Z ≈ 1n−1

+4−ρ2

2(n−1)2 ≈1

n−3.

Man kan altså regne med, at(Z−ζ − ρ

2(n−1))√

n−3 (8.18)

med god tilnærmelse er N(0,1) fordelt. Da ρ/(2(n− 1)) er lille i forhold til spredningen1/√

n−3 ser man ofte bort fra leddet ρ/(2(n−1)) i EZ og benytter approksimationen

(Z−ζ )√

n−3≈ N(0,1). (8.19)

Dog kan det have betydning at medtage leddet ρ/(2(n− 1)), når man skal estimere ρ ud fraflere z-værdier fra uafhængige stikprøver fra todimensionale normalfordelinger med sammekorrelation ρ .

8.7 Modelkontrol

Skal man undersøge, om et observationssæt er todimensionalt normalfordelt, starter man med enundersøgelse af de marginale fordelinger. Er disse ikke normale, søges en passende transforma-tion af observationerne, således at de transformerede værdier kan betragtes som normalfordelte.

Sammenhængen mellem de variable undersøges ved at indtegne punktparrene i et scatter-plot. Om variationen i punktparrene er forenelig med antagelse om todimensional normalforde-ling kan undersøges ved hjælp af konturellipserne. Hvis(

XY

)∼ N2

((µx

µy

),

{σ2

x ρσxσyρσxσy σ2

y

})er ifølge Opgave 8.12 størrelsen

W =1

1−ρ2

[(X−µx

σx

)2

−2ρX−µx

σx

Y −µy

σy+(

Y −µy

σy

)2]

(8.20)

χ2 fordelt med 2 frihedsgrader. Hvis parametrene var kendte, kunne (8.20) beregnes for hvertpar (xi,yi) af observationer i stikprøven, og derved kunne man få n uafhængige observationerfra χ2(2) fordelingen. I anvendelser af dette resultat er parametrene imidlertid ukendte, og demå derfor erstattes af deres estimater, det vil sige at for i = 1, . . . ,n beregner man

wi =1

1− r2

[(xi− x·

sx

)2

−2rxi− x·

sx

yi− y·sy

+(

yi− y·sy

)2]

. (8.21)

Den empiriske fordeling af w1, . . . ,wn kan sammenlignes med fordelingsfunktionen for χ2(2)-fordelingen med et fraktildiagram. Det er særdeles let, da en χ2(2) fordeling har fordelingsfunk-tionen F(x) = 1− e−

12 x for x > 0, så fraktilerne findes uden tabelopslag ved at løse ligningen

p = F(xp) = 1− e−12 xp.

Page 20: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

16 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

for xp, og det giverxp =−2ln(1− p).

Hvis antallet af observationer er stort, kan undersøgelsen suppleres med en undersøgelse af debetingede fordelinger, som alle skal være normale. Desuden kan det undersøges, om de betin-gede fordelinger givet X (henholdsvis Y ) har samme varians. Endelig kan regressionslinjerneslinearitet undersøges med en regressionsanalyse.

Eksempel 8.2 (fortsat)Figur 8.7 viser de tegninger, der er relevante, når man kontrollerer for todimensional normal-fordeling af længde og vægt i de to stikprøver og også for todimensional normalfordeling aflogaritmen til længde og logaritmen til vægt i de to stikprøver.

De øverste tegninger er scatterplots med regressionlinjerne for regressionen af vægt (lnvægt) på længde (ln længde). Begge tegninger er i overensstemmelse med antagelsen om to-dimensional normalfordeling. Eneste kvalitative forskel mellem originale og transformerededata synes at være at regressionslinjerne for de originale data har forskellig hældning i de tostikprøver.

De fire tegninger i midten viser fraktildiagrammer for de marginale fordelinger. Ingen afdisse tegninger strider mod antagelsen om normalfordeling for både de originale målinger ogfor de logaritmetransformerede målinger. Dette er ikke overraskende, når man lægger mærketil at den største observation i hver stikprøve er mindre end 3 gange så stor som den mindsteobservation, og husker tommelfingerreglen, at for at en logaritmetransformation skal have ef-fekt, skal der være mindst en faktor 10 til forskel mellem mindste og største observation. Forvægten bemærker man en lavere hældning i fraktildiagrammet for august stikprøven end for julistikprøven, som kunne tyde på en større varians for vægten i august.

Endelig viser de to nederste tegninger fraktildiagrammerne baseret på (8.20). Ingen af teg-ningerne viser en markant afvigelse fra identitetslinjen, så disse tegninger bekræfter første-håndsindtrykket fra scatterplottene, at både de originale og de logaritmetransformerede data eri overensstemmelse med antagelse om todimensional normalfordeling.

Vi vælger at arbejde videre med logaritmen til højde og vægt af flere grunde. For det førsteer erfaringen fra større datasæt, at en logaritmetransformation ofte er nødvendig for at få nor-malfordeling. Det gælder for målinger af længde og vægt for en lang række af arter. For detandet er variansen af vægten i de to stikprøver signifikant forskellige, mens det ikke er tilfældetfor logaritmen til vægten.

For det tredje er beskrivelsen af væksten af skruptudserne en del enklere for logaritmen aflængden og logaritmen af vægten end for de utransformerede variable. Det bliver illustreret, nårvi analyserer middelværdierne af stikprøverne i Eksempel 8.2, som starter side 25.

Idet vi lader x betegne logaritmen til længden og y betegne logaritmen til vægten, kan viformulere en model for de to stikprøver på følgende måde. For juli stikprøven er (x11,y11), . . .,(x1n1,y1n1) observationer af uafhængige, identisk fordelte stokastiske variable med en todimen-sional normalfordeling,

N2

((µ1xµ1y

),

{σ2

1x ρ1σ1xσ1yρ1σ1xσ1y σ2

1y

}), (8.22)

Page 21: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.7. MODELKONTROL 17

Figur 8.7 Forskellige kontroltegninger for antagelsen om todimensional normalfordeling aflængde og vægt (venstre side) og logaritmen til længde og logaritmen til vægt (højre side).

Page 22: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

18 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

og for august stikprøven er (x21,y21), . . . ,(x2n2,y2n2) observationer af uafhængige identisk for-delte stokastiske variable med en todimensional normalfordeling,

N2

((µ2xµ2y

){σ2

2x ρ2σ2xσ2yρ2σ2xσ2y σ2

2y

}). (8.23)

Endvidere er de to stikprøver uafhængige.Estimater for middelværdier, varianser og korrelationskoefficient for de to stikprøver gives

nedenfor.Juli stikprøven:

x1· = 2.80 y1· = 5.78s2(1)x = 0.00863 s2

(1)y = 0.0758r1 = 0.978

August stikprøven:

x2· = 3.09 y2· = 6.57s2(2)x = 0.00578 s2

(2)y = 0.0509r2 = 0.942

Her bruger vi ligesom i Kapitel 3 parenteser omkring indeks for stikprøven i betegnelsen forvariansestimaterne. �

8.8 Inferens om ρ baseret på en stikprøve fra N2

8.8.1 Test af hypotesen ρ = 0

Intuitivt test baseret på rxy

Et intuitivt rimeligt test for hypotesen H: ρ = 0 er baseret på estimatet rxy for ρ . Fordelin-gen af rXY er symmetrisk om 0, så de værdier af r, som er mere kritiske for hypotesen endden observerede værdi rxy, er værdier som er numerisk større end eller lig med rxy. Derfor ertestsandsynligheden

pobs(x,y) = P(|rXY| ≥∣∣rxy∣∣)

= P(|T (rXY)| ≥∣∣T (rxy)

∣∣)= 2

(1−Ft(n−2)(

∣∣T (rxy)∣∣)) , (8.24)

hvor vi har brugt T -transformationen i (8.15), og at T (rXY) har en t(n−2) fordeling.Stikprøvefunktionerne rxy og T (rxy) er ækvivalente som teststørrelser for hypotesen H:

ρ = 0, men hvis beregningerne udføres i hånden, er T (rxy) det naturlige valg, fordi testsand-synligheden beregnes ved hjælp af dens t(n−2)-fordeling.

Sidst i det afsnit, hvor T -transformationen blev introduceret på side 12, bemærkede vi atT (rxy) var lig med t-teststørrelsen for hypotesen, at hældningen af regressionslinjen er lig med0 i regressionen af Y på X . Sidstnævnte teststørrelse har også en t(n−2) fordeling, så testsand-synlighederne for de to tests er identiske.

Vi viser nu, at testet i (8.24), er identisk med likelihood ratio testet for hypotesen, at ρ = 0.

Page 23: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

LIKELIHOOD RATIO TEST FOR HYPOTESEN ρ = 0 19

Likelihood ratio test for hypotesen ρ = 0

Likelihood ratio testet for hypotesen ρ = 0 bygger på

Q =maxL(µx,µy,σ

2x ,σ2

y ,0)maxL(µx,µy,σ2

x ,σ2y ,ρ)

=maxL1(µx,σ

2x )maxL2(α,0,ω2)

maxL1(µx,σ2x )maxL2(α,β ,ω2)

=maxL2(α,0,ω2)maxL2(α,β ,ω2)

.

Likelihood ratio testoren afhænger derfor på samme måde af (X1, . . . ,Xn,Y1, . . . ,Yn), som li-kelihood ratio testoren for hypotesen β = 0 i regressionsanalysen Y1, . . . ,Yn uafhængige Yi ∼N(α + βxi,ω

2) afhænger af (x1, . . . ,xn,Y1, . . .Yn). Det følger nu fra regressionsanalysen, atQ≤ q⇔ |T | ≥ |t| , hvor√

n−2T2(X)

SPDXYSSDX

√SSDX =

√n−2

T1(X)√T2(X)

=√

n−2rXY√

1− r2XY

= T (rxy)

ifølge (8.15) er t-fordelt med n−2 frihedsgrader. Det ses også let, at Q≤ q⇔R2≥ r2⇔|R| ≥ r.Testsandsynligheden findes altså let i en tabel over B-fordelingen eller t-fordelingen. De flestestatistiske tabelværker indeholder dog en tabel over fordelingen af rXY for ρ = 0.

I Afsnit 8.5 vistes, at når ρ = 0 er (X .,s2X ,Y .,s2

Y ) uafhængige af rXY, som bruges til at testehypotesen ρ = 0. Det er en stor fordel. Dels betyder det, at fordelingen til estimatorerne ikkepåvirkes af den observerede værdi r af rXY, når denne vel at mærke er sådan, at hypotesenaccepteres, og dels betyder det, at testsandsynligheden, som udregnes i fordelingen til rXY, ikkeer påvirket af de aktuelle estimater.

8.8.2 Test af H0: ρ = ρ0 og konfidensinterval for ρ

Den approksimerende normalfordeling (8.19) kan bruges til at teste om en observeret korrela-tionskoefficient r afviger signifikant fra en teoretisk værdi ρ0, eller med andre ord til at testehypotesen H0: ρ = ρ0. Transformeret til ζ svarer det til hypotesen

H0: ζ = ζ0 =12

ln1+ρ0

1−ρ0,

som testes ved at beregne teststørrelsen,

u = (z−ζ0)√

n−3, (8.25)

som under H0 er en realisation af en (approksimativt) N(0,1)-fordelt stokastisk variabel, ogderfor er testsandsynligheden

pobs = 2(1−Φ(u)).

Page 24: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

20 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Vi har brugt u som betegnelse for teststørelsen i (8.25), fordi den er et eksempel på u teststørrel-sen, der blev betragtet i (3.4). I dette tilfælde med kun én observation z fra en normalfordelingmed varians 1/(n−3).

Den vigtigste anvendelse af testet for en fast værdi af korrelationskoefficienten er at findekonfidensintervaller for korrelationskoefficienten. Benyttes (8.19) kan et (1−α) konfidensin-terval for ζ umiddelbart beregnes til[

z− 1√n−3

u1−α/2,z+1√

n−3u1−α/2

]. (8.26)

Det er en anvendelse af (3.16) med én observation fra en normalfordeling med en kendt varians1/(n−3). Dette konfidensinterval for ζ kan transformeres til et konfidensinterval for ρ ved atanvende den inverse transformation til (8.17) på endepunkterne. Den inverse transformation til(8.17) er

ρ =e2ζ −1e2ζ +1

. (8.27)

Eksempel 8.2 (fortsat)Vi kan nu vurdere, om der er en signifikant korrelation mellem ln længde og ln vægt i deto stikprøver og beregne konfidensintervaller for korrelationskoefficienten for at få en idé ompræcisionen af estimaterne.Juli stikprøven:

Estimatet for korrelationskoefficienten er r1 = 0.978 og teststørrelsen for korrelation 0 er√n1−2

r1√1− r2

1

=√

160.978√

1−0.9782= 18.753,

og da P(|T | > 18.753) < 0.001, hvor T er t-fordelt med 16 frihedsgrader, forkastes hypotesenom korrelation 0 for populationen i juli. Estimatet for korrelationskoefficienten er positive, såkonklusionen er, at der er positiv sammenhæng mellem ln længde og ln vægt i populationen ijuli.

Et konfidensinterval for ρ1 baseret på stikprøven kan beregnes ved hjælp af Fishers Z i(8.17) og formlen (8.26), som giver konfidensintervallet for ζ1 = 1

2 ln 1+ρ11−ρ1

, som efterfølgendetransformeres til et konfidensinterval for ρ1. Fishers Z er

z1 =12

ln1+ r1

1− r1= 2.249,

og 95% konfidensintervallet for ζ1 er[z1−

1√n1−3

u0.975, z1 +1√

n1−3u0.975

]=[

2.249− 1√15

1.96, 2.249+1√15

1.96]

=

[1.743, 2.755] .

Page 25: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.9. INFERENS OM ρ BASERET PÅ K ≥ 2 STIKPRØVER 21

95% konfidensintervallet for ρ1 fås ved at anvende transformationen i (8.27) på endepunkternefor dette interval, [

e2×1.743−1e2×1.743 +1

,e2×2.755−1e2×2.755 +1

]= [0.941, 0.992] .

Alle beregninger er baseret på den estimerede korrelationskoefficient r1 = 0.978; men, somnævnt side 23, er det kvadratet på korrelationskoeffcienten, der er mest relevant, når det komm-mer til fortolkning af størrelsen af korrelationen. I dette tilfælde er r2

1 = 0.956, og vi kan sige,at 95.6% af variationen i ln længde forklares af variationen i ln vægt og omvendt.August stikprøven:

Resultatet for august stikprøven svarer nøje til det, som vi fandt for juli stikprøven. T -trans-formationen af r2 = 0.942 er 12.862, og vurderet i en t-fordeling med 21 frihedsgrader giver deten testsandsynlighed under 0.001. Estimatet for korrelationskoefficienten er positivt, så konklu-sionen er, at der er positiv sammenhæng mellem ln længde og ln vægt i august populationen.Et 95% konfidensinterval for ρ2 er [0.866, 0.975]. Som nævnt senere side 23 er det kvadratetpå korrelationskoefficienten, der er mest relevant for fortolkning af størrelsen af korrelationen.I dette tilfælde er r2

2 = 0.887, og vi kan sige at 88.7% af variationen i ln længde forklares afvariationen i ln vægt og omvendt. Man kan naturligvis også kvadrere grænserne for konfidens-intervallet og dermed få en idé om, hvor præcist dette udsagn er. �

8.9 Inferens om ρ baseret på k ≥ 2 stikprøver

Hvis vi har observeret k korrelationskoefficienter ri, i = 1, . . . ,k, baseret på uafhængige stikprø-ver af størrelse ni fra todimensionale normalfordelinger med korrelationskoefficienter ρi, kan vibenytte (8.19) til at teste hypotesen,

H: ρ1 = · · ·= ρk = ρ,

at korrelationskoefficienterne er identiske. Det vil sige, at vi beregner Fishers Z på alle k esti-merede korrelationskoefficienter og benytter, at

zi ∼≈ N(

ζi,1

ni−3

), (8.28)

samt at H er ækvivalent medH: ζ1 = · · ·= ζk = ζ ,

Teststørrelsen er (se Opgave 8.8 for udledningen)

X2 =k

∑i=1

(zi− z)2(ni−3), (8.29)

hvor

z =

k∑

i=1zi(ni−3)

k∑

i=1(ni−3)

. (8.30)

Page 26: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

22 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

For nøjagtige beregninger i hånden er et bedre udtryk for X2

X2 =k

∑i=1

z2i (ni−3)−

(k∑

i=1zi(ni−3)

)2

k∑

i=1(ni−3)

. (8.31)

Under hypothesen om en fælles korrelationskoefficient, er X2 approksimativt χ2 fordelt medk−1 frihedsgrader, og store værdier af X2 er kritiske hypothesen H, så testsandsynligheden er

pobs = 1−Fχ2(k−1)(X2).

Hvis H ikke forkastes, bruges z i (8.30) som estimat for ζ , og et estimat for ρ fås ved at benytte(8.27) med ζ erstattet af z. Den approksimative fordeling af z er

z∼≈ N(ζ ,1/k

∑i=1

(ni−3)),

og derfor kan et (1−α) konfidensinterval for ζ fås somz− 1√k∑

i=1(ni−3)

u1−α/2, z+1√

k∑

i=1(ni−3)

u1−α/2

. (8.32)

Endelig kan dette interval transformeres til et (1− α) konfidensinterval for ρ ved hjælp aftransformationen (8.27).

Hvis antallet af observationsrækker er stort, kan det have betydning at bruge den mere nøj-agtige approksimation i (8.18) og inkludere leddet ρi/(2(ni−1)) i EZi. Hvis vi beslutter at gøredet, må vi betragte modellen, hvor Z1, . . . ,Zk er uafhængige

Zi ∼ N(12

ln1+ρi

1−ρi+

ρi

2(ni−1),

1ni−3

),

og i denne model estimere ρ og teste hypotesen H. Likelihood ligningen for ρ er

k

∑i=1

(ni−3)(1

1−ρ2 +1

2(ni−1))(zi−

12

ln1+ρ

1−ρ− ρ

2(ni−1)) = 0,

som skal løses iterativt. Likelihood ratio teststørrelsen for hypotesen H er

−2lnQ =k

∑i=1

(ni−3)(zi−12

ln1+ ρ

1− ρ− ρ

2(ni−1))2,

hvor ρ betegner maksimum likelihood estimatet for ρ under hypotesen H. −2lnQ er approksi-mativt χ2 fordelt med k−1 frihedsgrader og, som det altid er tilfældet med likelihood ratio test,med store værdier kritiske for hypotesen.

Page 27: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.10. KORRELATION OG REGRESSION 23

Eksempel 8.2 (fortsat)Hypotesen om en fælles korrelation i juli og august populationerne, H: ρ1 = ρ2 = ρ , kan testesmed teststørrelsen X2 i (8.29). Bruges det alternative udtryk for X2 i (8.31) fås,

X2 = 2.091,

og testsandsynligheden bliver

pobs = 1−Fχ2(1)(2.091) = 0.15.

Hypotesen H om en fælles korrelation forkastes ikke. Estimatet for den fælles korrelations-koefficient fås fra estimatet z = 1.96796 af den fælles værdi af ζ via transformationen (8.27)som

e2×1.96796−1e2×1.96796 +1

= 0.96169→ ρ.

Et 95% konfidensinterval for den fælles værdi af ζ fås fra formlen (8.32) somz− 1√k∑

i=1(ni−3)

u1−α/2, z+1√

k∑

i=1(ni−3)

u1−α/2

=

[1.96796− 1√

15+201.960, 1.96796+

1√15+20

1.960]

=

[1.6367, 2.2993] ,

som derefter kan transformeres til et 95% konfidensinterval for den fælles korrelationskoeffici-ent ρ: [

e2×1.6367−1e2×1.6367 +1

,e2×2.2993−1e2×2.2993 +1

]= [0.92701, 0.98007] .

Estimatet for ρ2 er 0.961692 = 0.925 med fortolkningen at 92.5% af variationen i ln længdekan forklares med variationen i ln vægt og omvendt. �

8.10 Korrelation og regression

Når man har forelagt et sæt sammenhørende værdier (x1,y1)∗, . . . ,(xn,yn)∗, vil korrelations-koefficienten give et mål for sammenhængen mellem xerne og yerne under forudsætning aftodimensional normalfordeling. Ønsker man ud fra xerne at forudsige y’erne, kan man dereftergå over til regressionsanalyse i den betingede fordeling af Y for givet X (eller omvendt).

Meget ofte er hypotesen om todimensional normalfordeling urimelig, og den saglige pro-blematik er en regressionstankegang.

Angående fortolkning af korrelationskoefficientens størrelse bemærkes, at

σ2y = V (Y ) = ρ

2y +(1−ρ

2)σ2y ,

hvor (1− ρ2)σ2y genkendes som variansen i den betingede fordeling af Y givet X = x. Det

fortolkes på den måde, at ρ2 angiver, hvor stor en del af variationen i Y , som forklares af X . Deter således snarere r2 end r, man skal angive ved slutningen af sin korrelationsanalyse.

Page 28: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

24 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

8.11 Fortolkning af korrelation

I dette afsnit nævnes nogle forhold, man bør være opmærksom på i forbindelse med korrelation.Forkaster man i et datamateriale hypotesen ρ = 0 betyder det, at de variable er stokastisk

afhængige. Dette betyder ikke automatisk, at der er nogen årsagssammenhæng mellem de tovariable. For eksempel vil højde og vægt være positivt korrelerede i de fleste stikprøver fra dendanske befolkning, og det indikerer, at den ene af de to variable kan bruges til at forudsige denanden, men det betyder ikke, at en forøgelse af højden forårsager en forøgelse af vægten, elleromvendt. Formodentlig skyldes den positive korrelation for disse to variable, at de begge erkausalt afhængige af visse fælles variable.

Et andet fænomen er falsk korrelation (spurious correlation). Dette forekommer når andrefaktorer end de to observerede har varieret og derved frembragt en korrelation. Et eksempel erfølgende. Før indførelsen af de omfattende vaccinationer mod polio i 1950’erne, registreredeman hver uge salget af læskedrikke og antallet af nye tilfælde af polio. Man noterede sig en po-sitiv korrelation mellem de to variable. Dette skyldes naturligvis ikke, at læskedrikke forårsagerpolio, men at begge variable varierer med årstiden. Salget af læskedrikke er størst i varme-perioder, og det er antallet nye poliotilfælde også. Har man mistanke om falsk korrelation erløsningen, at inddele materialet i undergrupper, hvor de eventuelt forstyrrende faktorer ikke va-rierer. Inden for hver undergruppe udregnes korrelationskoefficienten, og dennes afhængighedaf de forstyrrende faktorer undersøges ved hjælp af metoderne i Afsnit 8.6.2. Er korrelations-koefficienterne i undergrupperne ikke signifikant forskellige, kan man lave et fælles estimat forkorrelationskoefficienten, som angivet i Afsnit 8.6.2.

Et lidt andet eksempel på falsk korrelation er følgende. Man har observationer fra indbyrdesuafhængige stokastiske variable U, V og W, og i stedet for at analysere disse observationer væl-ger man at analysere X = U/W og Y = V/W. Disse vil imidlertid som oftest være korreleredepå grund af den fælles divisor W. Man har altså på grund af sine manipulationer med tallenefået indført en korrelation. Variable som X og Y benævnes ofte rater eller index tal. Der er altsågrund til at være på vagt, når man bliver stillet over for korrelationer mellem rater. I Opgave8.9 præsenteres et kunstigt eksempel, hvor der synes at være en sammenhæng mellem storke ogfødsler.

Eksempel 8.1 (fortsat)Figuren tyder på en sammenhæng mellem tørstofindhold og bevaringsprocent for ascorbinsyre,og de marginale fordelinger synes med god tilnærmelse at kunne opfattes som normale (Kon-troltegningerne er ikke vist). En sammenligning mellem den empiriske fordelingsfunktion forde n W værdier (jævnfør (8.20) og (8.21)) med χ2(2) fordelingen i Figur 8.8 giver heller ikkeanledning til at tvivle på antagelsen om todimensional normalfordeling. Beskrives observatio-nerne ved en todimensional normalfordeling, fås estimaterne

x· = 10.53 y· = 73.975s2

x = 2.594 s2y = 100.39

r = 0.6182.

Det ses, at√

n−2r√

1− r2=√

220.6182√0.6178

= 3.69,

Page 29: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.12. YDERLIGERE HYPOTESER OG TESTS I DEN TODIMENSIONALE NORMALFORDELING25

Figur 8.8 Kontrol af simultan normalfordeling.

og da P(|T |> 3.69) = ca. 0.1%, hvor T er t-fordelt med 22 frihedsgrader, bekræfter testet ind-trykket af en afgjort positiv sammenhæng mellem tørstof indhold og bevaringsprocent. Ved ennærmere analyse er det naturligt at undersøge regressionen af bevaringsprocent på tørstofind-hold. Regressionslinjen estimeres til

y = 33.48+3.846x.

Bemærk, at selv om r = 0.6182 er r2 = 0.382, så det er kun 38 % af variationen i % bevaretascorbinsyre, der forklares af variationen i tørstofprocenten. �

8.12 Yderligere hypoteser og tests i den todimensionale normalforde-ling

Indtil nu har vi kun betragtet sammenhængen mellem to variable, som den er beskrevet vedkorrelationskoefficienten. For én stikprøve med todimensionale data kan det være af interesseat teste hypotesen, at middelværdivektoren har en fast værdi, og for to uafhængige stikprøver aftodimensionale data kan det være af interesse at sammenligne middelværdierne af de underlig-gende fordelinger.

Inden vi fortsætter med at beskrive de teknikker, vil vi afslutte analysen af Eksempel 8.2udelukkende med brug af velkendte teknikker fra Kapitel 3: to observationsrækker og lineærregression.

Eksempel 8.2 (fortsat)En fuldstændig behandling af dette eksempel omfatter en beskrivelse af om der er ændringer istørrelsesfordelingerne mellem de to datoer.

Page 30: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

26 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

På side 16 formulerede vi modellen for de to stikprøver i (8.22) og i (8.23) som to uafhæn-gige observationsrækker fra den todimensionale normalfordeling uden nogen restriktioner påparametrene.

I fortsættelsen af Eksempel 8.2 på side 23 fandt vi, at vi kunne antage, at korrelationsko-efficienterne kunne antages at være identiske i de to stikprøver, og vi betegnede den fælleskorrelationskoefficient med ρ . Det er den eneste modelreduktion, vi har betragtet indtil nu.

Vurderet ud fra fraktildiagrammerne i Figur 8.7 ser det ud som om, der kan være ens variansaf ln længde på de to tidspunkter og også ens varians af ln vægt på de to tidspunkter.

Det viser sig da også, at hypoteserne σ21x = σ2

2x = σ2x og σ2

1y = σ22y = σ2

y ikke bliver forka-stet af de formelle F-test for ens varians, som blev udledt i Afsnit 3.2.1 på side 90 i Bind 1.Beregningerne er ikke gengivet her.

Modellen kan altså reduceres til to uafhængige stikprøver fra todimensionale normalforde-linger med samme kovariansmatiks. For julistikprøven er den todimensionale normalfordeling

N2

((µ1xµ1y

),

{σ2

x ρσxσyρσxσy σ2

y

}), (8.33)

og for auguststikprøven er den todimensionale normalfordeling

N2

((µ2xµ2y

),

{σ2

x ρσxσyρσxσy σ2

y

}). (8.34)

Estimaterne for varianserne er de sædvanlige estimater baseret på to éndimensionale nor-malfordelte observationsrækker

σ2x ← s2

x = 0.00702∼∼ σ2x χ

2(39)/(39),

σ2y ← s2

y = 0.0618∼∼ σ2y χ

2(39)/(39),

hvor 39 = n1 +n2−2.Estimatet for ρ blev givet på side 23 som 0.962, men vi vil ikke få brug for værdien af

estimatet her.Estimaterne for middelværdierne er de gennemsnit, som blev givet side 18.Vi kan nu fortsætte analysen ved at teste om fordelingerne af ln længde kan antages at have

samme middelværdi på de to tidspunkter, det vil sige H0x: µ1x = µ2x. t-teststørrelsen er

t1 =x1·− x2·√

s2x

(1n1

+1n2

) =−10.8, (8.35)

og da t skal vurderes i en t(39)-fordeling er testsandsynligheden mindre end 0.001 og H0x for-kastes. Estimatet for middelværdien er størst for august stikprøven, skruptudserne er signifikantlængere i august end i juli.

Herefter kunne man fortsætte og teste hypotesen H0y: µ1y = µ2y for ln vægt, og det villevise, at skruptudserne var signifikant tungere i august end i juli. Men denne fremgangsmådeville ikke være helt tilfredsstillende. For på grund af den stærke korrelation mellem længde og

Page 31: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.12. YDERLIGERE HYPOTESER OG TESTS I DEN TODIMENSIONALE NORMALFORDELING27

vægt ville man spekulere på, om den signifikante forskel i vægten simpelthen skyldtes forskelleni længden og korrelationen mellem de to variable.

Løsningen er at benytte faktoriseringen (8.13) af den todimensionale normalfordeling. Forde todimensionale fordelinger i (8.33) og i (8.34) giver faktoriseringerne

x1i ∼∼ N(µ1x,σ2x ), (8.36)

y1i |X1i = x1i ∼∼ N(µ1y +ρσy

σx(x1i−µ1x),σ2

y (1−ρ2)), (8.37)

og

x2i ∼∼ N(µ2x,σ2x ), (8.38)

y2i |X2i = x2i ∼∼ N(µ2y +ρσy

σx(x2i−µ2x),σ2

y (1−ρ2)). (8.39)

Når man omordner leddene i middelværdien af de betingede fordelinger i (8.37) og (8.39) kande skrives som

y1i |X1i = x1i ∼∼ N(α1 +βx1i,σ2y (1−ρ

2))

ogy2i |X2i = x2i ∼∼ N(α2 +βx2i,σ

2y (1−ρ

2))

hvor

β = ρσy

σx,

α1 = µ1y−ρσy

σxµ1x = µ1y−β µ1x,

α2 = µ2y−ρσy

σxµ2x = µ2y−β µ2x.

Bemærk, at regressionsmodellerne for ln vægt givet ln længde har den samme hældning, fordivarianser og korrelationen antages at være ens til de to tidspunkter.

Tegningen øverst til højre i Figur 8.7 viser data med regressionslinjerne i de to stikprøverindtegnet og hældningerne er meget tæt ved hinanden. De eneste parametre, som kan væreforskellige for de to stikprøver, er afskæringerne, og det er meget naturligt at teste om de er ens,det vil sige, H0: α1 = α2, for når denne hypotese formuleres i middelværdierne, er den

µ1y−β µ1x = µ2y−β µ2x

ellerµ1y−µ2y = β (µ1x−µ2x).

Hypotesen siger således, at ændringen i middelværdien af ln vægt mellem de to fordelinger(µ1y−µ2y) fuldt ud forklares af ændringen af middelværdierne for ln længde (µ1x−µ2x) mel-lem de to fordelinger.

Hypotesen testes ved hjælp af teknikkerne for at sammenligne regressionslinjer i Afsnit 4.2i Bind 1. Det følgende SAS program udfører de nødvendige beregninger.

Page 32: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

28 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

PROC GLM DATA=bufobufo;CLASS dato;MODEL ln_vaegt=ln_laengde dato/SS1 SOLUTION;RUN;

Variablen dato indicerer de to stikprøver, og da dato står i CLASS sætningen, specificererMODEL sætningen to parallelle regressionslinjer med mulighed for forskellige afskæringer. Hvisdato fjernes fra MODEL sætningen, er det modellen med en fælles regressionslinje, der specifi-ceres, og derfor kan F-testet for H0: α1 = α2 findes i nederste linje af SS1 tabellen i udskriften,jævnfør forklaringen af type I kvadratsummerne i slutningen af Anneks til Afsnit 4.2 i Bind 2.Det ækvivalente t-test kan findes i linjen dato 75-07-24 i Parameter Estimate tabellen afudskriften til

t2 = 0.48. (8.40)

Source DF Type I SS Mean Square F Value Pr > F

ln_laengde 1 8.55086377 8.55086377 1774.28 <.0001dato 1 0.00112318 0.00112318 0.23 0.6320

StandardParameter Estimate Error t Value Pr > |t|

Intercept -2.232896441 B 0.40976991 -5.45 <.0001ln_laengde 2.852325935 0.13267820 21.50 <.0001dato 75-07-24 0.021074390 B 0.04365397 0.48 0.6320dato 75-08-16 0.000000000 B . . .

F-testet er 0.23 og svarer til en testsandsynlighed på 0.632, så hypotesen bliver ikke forka-stet. Det er ikke særligt overraskende på baggrund af tegningen øverst til højre i Figur 8.7, somviser at regressionslinjerne for de to stikprøver er næsten sammenfaldende. Data er således imeget god overensstemmelse med antagelsen, at ændringen i middelværdien af ln vægt er fuldtud forklaret af ændringen i middelværdien af ln længde.

Det var denne enkle beskrivelse af væksten af skruptudser, vi havde i tankerne på side 16,da vi besluttede at analysere logaritmerne frem for de oprindelige variable. �

Vi afslutter dette kapitel med nogle få resultater, som er nyttige i analysen af en enkeltstikprøve fra en todimensional normalfordeling og for analysen af to uafhængige stikprøverfra todimensionale normalfordelinger. Vi skal her bruge lidt notation fra lineær algebra. Vivil betragte vektorer som søjlevektorer, og vi vil bruge ∗ til at betegne den transponerede afen vektor. Resultaterne er analoge til resultaterne for én og to stikprøver fra endimensionalenormalfordelinger, som blev givet i Afsnit 3.1 og Afsnit 3.2 i Bind 1.

8.12.1 Én stikprøve fra den todimensionale normalfordeling

Lad (x1,y1)∗, . . . ,(xn,yn)∗, med n ≥ 3, være en stikprøve fra den todimensionale normalforde-ling. Dermed er (xi,yi)∗, i = 1, . . . ,n, realisationer af stokastiske variable (Xi,Yi)∗, i = 1, . . .n,som er uafhængige og har fordelingen,

N2

((µxµy

),

{σ2

x ρσxσyρσxσy σ2

y

}). (8.41)

Page 33: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.12.1. ÉN STIKPRØVE FRA DEN TODIMENSIONALE NORMALFORDELING 29

Estimation i denne model er blevet behandlet i Afsnittene 8.5 og 8.6, men resultaterne gentageskort her (

µxµy

)←(

x·y·

)∼∼ N2

((µxµy

),1n

{σ2

x ρσxσyρσxσy σ2

y

}). (8.42)

Bemærk, at selv om variansen på estimaterne aftager med stikprøvestørrelsen n, så er korrela-tionen mellem estimaterne for de to middelværdier konstant lig med ρ og altså den samme sommellem de to variable Xi og Yi i en enkelt observation.

Estimatet for kovariansmatricen{σ2

x ρσxσyρσxσy σ2

y

}← 1

n−1

n

∑i=1

(xi− x·yi− y·

)(xi− x·,yi− y·) =

1n−1

{SSDx SPDxySPDxy SSDy

}.

Det vil være bekvemt at have symboler for de to matricer, og vi vil bruge notationen

Σ ={

σ2x ρσxσy

ρσxσy σ2y

}, SSD =

{SSDx SPDxySPDxy SSDy

}og S =

1n−1

SSD. (8.43)

Her betegner S estimatet for Σ, og vi har valgt det fede S for at skelne det fra S, som vi har valgttil at betegne en sum af observationer.

Nulhypotesen,H0µ : (µx,µy) = (µ0x,µ0y),

som specificerer, at middelværdivektoren er kendt, kan testes med teststørrelsen,

T 2 = n(x·−µ0x, y·−µ0y)S−1(

x·−µ0xy·−µ0y

). (8.44)

Teststørrelsen T 2 generaliserer kvadratet på t-teststørrelsen,√

n(x·−µ0x)/sx, og fordelingen afT 2 kan skaleres til en F(2,n−2) fordeling,

n−22(n−1)

T 2 ∼ F(2,n−2). (8.45)

Det vil blive udledt i Afsnit 8.12.2, men det kan også vises som en konsekvens af Sætning 9.25side 80. Store værdier af T 2 er kritiske for nulhypotesen, så testsandsynligheden er

ε = 1−FF(2,n−2)

(n−2

2(n−1)T 2)

.

Teststørrelsen T 2 kaldes Hotellings T 2 efter Harold Hotelling, som udledte fordelingen af T 2 iHotelling (1931). Hotellings T 2 er ækvivalent med likelihood ratio testørrelsen.

En vigtig anvendelse af Hotellings T 2 er konstruktion af konfidensområder for middelvær-divektoren for en todimensional normalfordeling baseret på én stikprøve. (1−α) konfidensom-rådet består af de værdier, som ikke ville blive forkastet, hvis de blev brugt til at specificere ennulhypotese. Derfor er (1−α) konfidensområdet for (µx,µy){

(µx,µy)|n(n−2)2(n−1)

(x·−µx, y·−µy)S−1(

x·−µxy·−µy

)≤ F1−α(2,n−2)

},

Page 34: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

30 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

som er en ellipse med centrum i (x·, y·) og med orientering og halvakser, det bestemmes afkonfidenskoefficienten (1−α), stikprøvestørrelsen n og den estimerede kovariansmatriks. For-men af konfidensellipsen vil være identisk med konturerne af den estimerede todimensionalenormalfordeling. 95% konfidensområderene for middelværdierne baseret på middelværdiernefor de to stikprøver i Eksempel 8.2 kan ses i Figur 8.9.

Figur 8.9 Scatterplot af data og 95% konfidensområder for middelværdierne af de to stikprøveri Eksempel 8.1. Til sammenligning er 95% konfidensintervaller for middelværdierne baseret påt-teststørrelsen i de marginale stikprøver også indtegnet.

8.12.2 Udledning af Hotellings T 2-test for simpel middelværdihypotese

Hotellings T 2 for en simpel middelværdihypotese i den flerdimensionale normalfordeling ud-ledes i Afsnit 9.5. Her giver vi et andet bevis baseret på opsplitningen af den todimensionalefordeling i marginal og betinget fordeling.

I den statistiske model specificeret i Afsnit 8.5 betragter vi nu hypotesen

H : (µx,µy) = (µx0,µy0)

med (µx0,µy0) kendt og med σ2x > 0, σ2

y > 0, ρ ∈ ]−1,1[ uspecificeret. For nemheds skyldgennemgås teorien for (µx0,µy0) = (0,0), hvilket opnås ved at skifte til de variable (Xi−µx0,Yi−µy0)∗, i = 1, . . . ,n.

Page 35: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.12.2. UDLEDNING AF HOTELLINGS T 2-TEST FOR SIMPEL MIDDELVÆRDIHYPOTESE 31

Likelihood ratio testoren er

Q =maxL(0,0,σ2

x ,σ2y ,ρ)

maxL(µx,µy,σ2x ,σ2

y ,ρ)

=maxL1(0,σ2

x )maxL2(0,β ,ω2)maxL1(µx,σ2

x )maxL2(α,β ,ω2)= Q1Q2.

Her er Q1 likelihood ratio testoren svarende til test for µx = 0 i observationsrækken Xi indbyrdesuafhængige, og Xi ∼ N(µx,σ

2x ), i = 1, . . . ,n. Det følger da, at

Q2n1 =

SSDXSSDX +nX2

·=

SSDXUSSX

,

idet USSX =n∑

i=1X2

i . Q2/n1 er B(n−1

2 , 12) fordelt. Q2 afhænger på samme måde af (X1, . . . ,Xn,

Y1, . . . ,Yn) som likelihood ratio testoren for hypotesen α = 0 i regressionsanalysen Y1, . . . ,Ynindbyrdes uafhængige, Yi ∼ N(α + βxi,ω

2), afhænger af (x1, . . . ,xn,Y1, . . . ,Yn). Af teorien forlineære normale modeller følger, at

Q2n2 =

SSDY−SPD2

xYSSDx

USSY−SP2

xYUSSx

.

I den betingede fordeling givet (X1, . . . ,Xn) = (x1, . . . ,xn) er Q2/n2 B(n−2

2 , 12) fordelt. Da den

betingede fordeling ikke afhænger af x1, . . . ,xn er Q2 og X1, . . . ,Xn indbyrdes uafhængige. DaQ1 kun er en funktion af X1, . . . ,Xn, er Q1 og Q2 indbyrdes uafhængige. Af et simpelt transfor-mationsresultat følger nu, at Q2/n = (Q1Q2)2/n er B(n−2

2 , 22) fordelt (Opgave 8.11). Ønsker man

en F fordelt teststørrelse, opnås dette på sædvanlig måde, idet

F =1−Q

2n

Q2n

n−22

(8.46)

er F(2,n−2) fordelt. Da

Q2n =

SSDX (SSDY−SPD2

XYSSDX

)

USSX (USSY−SP2

XYUSSX

)

Page 36: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

32 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

fås

F =n−2

2USSXUSSY−SP2

XY−SSDXSSDY +SPD2XY

SSDXSSDY−SPD2XY

=n−2

2nX2· SSDY +nY 2

· SSDX−2nX ·Y ·SPDXY

SSDXSSDY−SPD2XY

=n−2

2(n−1)(1− r2XY)

[X2·

s2X/n

+Y 2·

s2Y /n−2rXY

X ·Y ·sX sY /n

]=

n−22(n−1)

(X ·,Y ·)A−1(

X ·Y ·

),

hvor

A =1n

{s2

X rXYsX sYrXYsX sY s2

Y

}er estimatoren for kovariansmatricen for (X ·,Y ·)∗. I almindelighed, når (µ10,µ20) ikke nødven-digvis er (0,0), fås F testoren

F =n−2

2(n−1)(X ·−µ10,Y ·−µ20)A−1

(X ·−µ10

Y ·−µ20

),

hvor størrelsen

T 2 = (n−1)2

n−2F

netop er Hotellings T 2 i (8.44).

8.12.3 To uafhængige stikprøver fra todimensionale normalfordelinger

Modellen kan specificeres på følgende måde.Den første stikprøve (x11,y11)∗, . . . ,(x1n1,y1n1)

∗ består af observationer af uafhængige, i-dentisk fordelte stokastiske variable med en todimensional normalfordeling,

N2

((µ1xµ1y

),

{σ2

1x ρ1σ1xσ1yρ1σ1xσ1y σ2

1y

}), (8.47)

og den anden stikprøve (x21,y21)∗, . . . ,(x2n2,y2n2)∗ består af observations af uafhængige, iden-

tisk fordelte stokastiske variable med en todimensional normalfordeling,

N2

((µ2xµ2y

),

{σ2

2x ρ2σ2xσ2yρ2σ2xσ2y σ2

2y

}). (8.48)

Endvidere er de to stikprøver uafhængige.Det er den model vi formulerede for de to stikprøver af ln længde og ln vægt i Eksempel 8.1

på side 16. Estimation af parametrene for de to fordelinger er behandlet i forrige afsnit, og vi vilbruge den notation, vi indførte der, og simpelthen tilføje et index for at identificere stikprøven.

Page 37: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.12.3. TO UAFHÆNGIGE STIKPRØVER FRA TODIMENSIONALE NORMALFORDELINGER 33

Kovariansmatricerne vil for eksempel blive betegnet med Σ1 og Σ2 og deres respektive estimatermed S(1) og S(2).

Vi vil koncentrere os om testet for hypotesen at middelværdivektorerene er ens i de to for-delinger, det vil sige,

H0µ : (µ1x,µ1y) = (µ2x,µ2y).

For det endimensionale to-stikprøveproblem er der et eksakt t-test for hypotesen om fæællesmiddelværdi, når varianserne er ens i de to fordelinger, mens det kun er et approksimativt t-fordelt test, når varianserne er forskellige, se for eksempel hovedpunkter til Afsnit 3.2.1 i Bind1. Situationen er analog for todimensionale stikprøver, men vi vil kun give testet for H0µ , nårman kan antage, at fordelingerne har en fælles kovariansmatriks.

Antagelsen om en fælles kovariansmatriks kan kontrolleres med et test af hypotesen

H0Σ : Σ1 = Σ2.

Dette test udledes ikke her, men vi bemærker, at det er en generalisation til den todimensionalenormalfordeling af Bartletts test for varianshomogenitet i Afsnit 3.2.2 i Bind 1. I Afsnit 9.10udledes Barletts test for identitet af kovarians matricer i den flerdimensionale normalfordeling,og på side 99 viser vi, hvordan testet kan laves ved hjælp af SAS.

Hvis man beslutter sig for at arbejde videre med modellen med en fælles kovariansmatriks,er estimatet for den fælles kovariansmatriks Σ et vejet gennemsnit af estimaterne i de to stikprø-ver,

Σ← 1n1 +n2−2

((n1−1)S(1) +(n2−1)S(2)

)= S1. (8.49)

Vi vender nu tilbage til hypotesen H0µ : (µ1x,µ1y) = (µ2x,µ2y) i modellen med fælles varians.Det er naturligt at basere en vurdering af den hypotese på vektoren af differenser (x1·− x2·, y1·−y2·) mellem estimaterne for middelværdierne i de to observationsrækker. Under H0µ er dennevektor en realisation af en stokastisk variabel med fordelingen(

x1·− x2·y1·− y2·

)∼∼ N2

((00

),

(1n1

+1n2

).

Normering af denne vektor med den estimerede kovariansmatriks leder til teststørrelsen

T 2 =n1n2

n1 +n2(x1·− x2·, y1·− y2·)S−1

1

(x1·− x2·y1·− y2·

). (8.50)

Dette er også en Hotellings T 2 teststørrelse, og det kan vises, at den kan skaleres til en F-fordeling. I denne model er,

(n1 +n2−3)2(n1 +n2−2)

T 2 ∼ F(2,n1 +n2−3). (8.51)

Det bliver vist i Afsnit 8.12.4, men det kan også vises som en konsekvens af Sætning 9.25 side80. Store værdier af T 2 er kritiske for nulhypotesen, så testsandsynligheden er

pobs = 1−FF(2,n1+n2−3)

((n1 +n2−3)

2(n1 +n2−2)T 2)

.

Page 38: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

34 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Ligesom for én stikprøve kan Hotellings T 2 bruges til at konstruere et konfidensområde forvektoren af differenser mellem middelværdierne (µ1x− µ2x,µ1y− µ2y). Konfidensområdet vilvære en ellipse med centrum i (x1·− x2·, y1·− y2·)∗.

8.12.4 Udledning af Hotellings T 2-test for sammenligning af to middelværdier

Man kan udlede Hotellings T 2-test for sammenligning af to middelværdier ved at betragte like-lihood ratio testet og benytte opsplitningen i marginal og betinget fordeling. Udledningen herer analog til udledningen i afsnit 8.12.2, så vi nøjes med at skitsere beviset.

Lad (X11,Y11)∗, . . . ,(X1n1,Y1n1)∗ være indbyrdes uafhængige todimensional normalfordelt

N2

((µ1x

µ1y

),

{σ2

x ρσxσyρσxσy σ2

y

})og uafhængige af (X21,Y21)∗, . . . ,(X2n2,Y2n2)

∗, som er indbyrdes uafhængige og normalfordelt

N2

((µ2xµ2y

){σ2

x ρσxσyρσxσy σ2

y

}).

Det forudsættes at n1 +n2 ≥ 4.Vi ønsker at teste hypotesen

(µ1x,µ1y) = (µ2x,µ2y)

med σ2x > 0, σ2

y > 0 og ρ ∈ ]−1,1[ uspecificeret.I grundmodellen fås estimatorerne

µx = X1·, µy = Y 1·, ηx = X2·, ηy = Y 2·,

hvor X1. = 1n1

n1∑

i=1X1i, osv.,

s2X =

1n1 +n2−2

SSDX, s2Y =

1n1 +n2−2

SSDY, rxy =SPDXY

(SSDXSSDY)12,

idet SSDX =2∑

i=1

ni∑j=1

(Xi j− X i·)2, osv.

Likelihood ratio testoren er

Q =max

µ1x=µ2x,µ1y=µ2yL(µ1x,µ1y,µ2x,µ2y,σ

2x ,σ2

y ,ρ)

maxL(µ1x,µ1y,µ2x,µ2y,σ2x ,σ2

y ,ρ)

=max

µ1x=µ2xL1(µ1x,µ2x,σ

2x ) max

α1=α2L2(α1,α2,β ,ω2)

maxL1(µ1x,µ2x,σ2x )maxL2(α1,α2,β ,ω2)

= Q1Q2,

Page 39: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

8.12.4. UDLEDNING AF HOTELLINGS T 2-TEST FOR SAMMENLIGNING AF TO MIDDELVÆRDIER35

idet vi har benyttet samme faktorisering og omparametrisering som i Afsnit 8.5; specielt sættesα1 = µ1y−ρ

σy

σxµ1x og α2 = µ2y−ρ

σy

σxµ2x. Her er Q1 likelihood ratio testoren for hypotesen

µ1x = µ2x i den marginale fordeling for Xerne, og Q2 er likelihood ratio teststørrelsen for hypo-tesen om sammenfald af de parallelle regressionslinjer x→ αi +βx, i = 1,2. Derfor er

Q2/(n1+n2)1 ∼ B(

n1 +n2−22

,12) og Q2/(n1+n2)

2 ∼ B(n1 +n2−3

2,12),

og da Q2/(n1+n2)1 og Q2/(n1+n2)

2 er uafhængige, er

Q2/(n1+n2) ∼ B(n1 +n2−3

2,22),

jævnfør Opgave 8.11. Det er klart, at Q≤ q⇔ F ≥ f , hvor

F =1−Q2/(n+n2)

Q2/(n+n2)n1 +n2−3

2, (8.52)

men transformationen af Q2/(n1+n2) til F er begrundet i, at F er F-fordelt med (2,n1 + n2−3)frihedsgrader, jævnfør igen Opgave 8.11. Lidt udregninger viser, at

F =(n1 +n2−3)2(n1 +n2−2)

11− r2

XY

[(X1·− X2·)2

s2X( 1

n1+ 1

n2)

+(Y 1·− Y 2·)2

s2Y ( 1

n1+ 1

n2)−2rXY

(X1·− Y 2·)(Y 1·− Y 2·)sX sY ( 1

n1+ 1

n2)

]

=(n1 +n2−3)2(n1 +n2−2)

(X1·− X2·,Y 1·− Y 2·)A−1(

X1·− X2·Y 1·− Y 2·

)hvor A er den estimerede kovariansmatriks for (X1·− X2·,Y 1·− Y 2·)∗. Størrelsen

T 2 =2(n1 +n2−2)(n1 +n2−3)

F = (X1·− X2·,Y 1·− Y 2·)A−1(

X1·− X2·Y 1·− Y 2·

)(8.53)

er Hotellings T 2. Man ser, at T 2 i (8.53) er identisk med T 2 i (8.50), da

A =(

1n1

+1n2

)S1,

hvor S1 er givet i (8.49).Vi har her skitseret udledningen af Hotellings T 2 baseret på opsplitningen i marginal og

betinget fordeling af den todimensionale normalfordeling. Fordelingen af T 2 i (8.53) følgerogså – og noget nemmere – af det generelle resultat for den flerdimensionale normalfordeling iSætning 9.25.

Eksempel 8.2 (fortsat)Her skal vi blot afrunde eksemplet med at gøre opmærksom på, at vi netop har udført testene Q1og Q2 i behandlingen af Eksempel 8.2, som begyndte side 25, idet vi har angivet de ækvivalentet tests.

Page 40: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

36 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Testet for identitet af middelværdierne af ln længder er angivet i (8.35) side 26 til t1 = 10.8og testet for sammenfaldende regressionslinjer er angivet til t2 = 0.48 i (8.40) på side 28.

Vi bemærker, at den observerede værdi af B1 = Q2/(n1+n2)1 er

b1 =1

1+10.82

39

= 0.251

og tilsvarende er den observerede værdi af B2 = Q2/(n1+n2)2

b2 =1

1+0.482

38

= 0.994.

Dermed er den observerede værdi b af B = Q2/(n1+n2)1 Q2/(n1+n2)

2 lig med 0.249, og

F =1−b1b2

b1b2

n1 +n2−32

=1−0.249

0.249382

= 57.3. (8.54)

Udførelsen af dette test i SAS forklares i Kapitel 9 side 102. �

Page 41: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 37

Anneks til Kapitel 8

Beregninger i SAS

SAS programmer til de to gennemgående eksempler i dette kapitel findes påhttp://home.imf.au.dk/statbib/atskurser/stat1/eksempler/todimensional_normalfordeling/eksempel_n2_1.sas

oghttp://home.imf.au.dk/statbib/atskurser/stat1/eksempler/todimensional_normalfordeling/eksempel_n2_2.sas

Hvis man kører på en UNIX/LINUX maskine på Institut for Matematiske Fag, kan man medfordel vælge versionernehttp://home.imf.au.dk/statbib/atskurser/stat1/eksempler/todimensional_normalfordeling/eksempel_n2_1_unix.sas

oghttp://home.imf.au.dk/statbib/atskurser/stat1/eksempler/todimensional_normalfordeling/eksempel_n2_2_unix.sas

Den todimensionale normalfordeling er blot et specialtilfælde af den flerdimensionale nor-malfordeling, så der er ikke nogen procedurer beregnet for behandling af specielt den todimen-sionale normalfordeling i SAS.

Vi viser her baseret på Eksempel 8.1, hvordan man

1. kan kontrollere for to-dimensional normalfordeling, som beskrevet i Afsnit 8.7

2. kan beregne korrelationer og teste hypotesen, at korrelationen er 0, med PROC CORR

3. kan estimere middelværdi og varians i en to-dimensional normalfordeling

4. kan beregne Hotellings T 2 for en simpel middelværdihypotese

5. kan tegne niveaukurver for en todimensional normalfordeling

6. kan tegne tætheden for en todimensional normalfordeling

Det gennemgående eksempel er Eksempel 8.1, og for en ordens skyld gengiver vi indlæs-ningen af data.

DATA spinat;INPUT toerstof ascorbin;gruppe=1;LABEL toerstof=’% tørstof i frisk spinat’

ascorbin=’% bevaret ascorbinsyre’;DATALINES;10.0 70.98.9 74.0

Page 42: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

38 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

8.9 58.69.2 80.67.8 69.4

10.1 76.09.0 66.48.2 50.99.5 61.9

10.8 65.211.1 77.211.2 89.612.5 74.212.3 83.110.0 66.710.2 77.211.2 83.811.2 67.910.0 88.910.7 69.010.3 69.812.9 86.011.8 79.914.9 88.2;

Ad 1. Kontrol for to-dimensional normalfordelingIndledningsvis er notationen knyttet til den to-dimensionale normalfordeling, men meto-

den gælder også for den flerdimensionale normalfordeling, så vi skifter i ligning (8.55) til ennotation, som holder for den p-dimensionale normalfordeling.

Det specielle er kontrollen af simultan normalfordeling, som består i at beregne størrelserne

wi =1

1− r2

[(xi− x·

sx

)2

−2rxi− x·

sx

yi− y·sy

+(

yi− y·sy

)2]

for hvert observationspar og lave et fraktildiagram for disse observationer baseret på en χ2(2)fordeling. En alternativ skrivemåde er

wi = (xi− x·,yi− y·){

s2x rsxsy

rsxsy s2y

}−1( xi− x·yi− y·

)eller

wi = (xi− x·)∗S−1(xi− x·), (8.55)

hvor S betegner den estimerede kovariansmatriks, og (xi− x·)∗ = (xi− x·,yi− y·). I beregningen

Page 43: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 39

af wi, i = 1, ...,n, kan man benytte, at

wi = (xi− x·)∗UL−1U∗(xi− x·) (8.56)

=2

∑j=1

y2i j, (8.57)

hvor

yi j =1√l j

(xi− x.)∗u( j). (8.58)

Her er L = diag(l1, l2) diagonalmatricen bestående af egenværdier l1 = l2 > 0 for S og U er2×2 matricen

U ={

u(1) u(2)}

,

hvis jte søjle u( j) er den normerede egenvektor hørende til egenværdien l j.

I n×2 matricen {√l jyi j

}n 2

i=1 j=1

kaldes jte søjle den jte principale komponent, og√

l jyi j kaldes værdien af den jte principalekomponent på ite observation.

Fordelen ved fremstillingen (8.56) eller (8.57) er, at PROC PRINCOMP beregner de principalekomponenter.

DATA a;SET eks1;

xcol1=toerstof;xcol2=ascorbin;

RUN;

PROC PRINCOMP DATA=a cov std out=b noprint;VAR xcol1-xcol2;RUN;

DATA qq;SET b;

w=uss(of prin1-prin2);RUN;

Det centrale i beregningen er anvendelsen af PROC PRINCOMP til beregning af de princi-pale komponenter, som gemmes i henholdsvis, prin1 og prin2, og kommandoen z=USS(ofprin1-prin2); i det efterfølgende datatrin, som svarer til (8.57).

Vi understreger at xcol1-xcol2 og prin1-prin2 betegner lister af de variable, og de eraltså ækvivalente med henholdsvis xcol1 xcol2 og prin1 prin2. Listenotionen er bekvem,når man har tre eller flere variable.

Page 44: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

40 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Man skal bemærke de to options COV og STD, som er væsentlige for at man får det manønsker i denne situation, nemlig, at den estimerede kovariansmatriks benyttes, og at de prin-cipale komponenter standardiseres, det vil sige divideres med kvadratroden af den tilhørendeegenværdi, som i (8.58).

For fremstillingen af fraktildiagrammet henvises til programmet på filenhttp://home.imf.au.dk/statbib/atskurser/stat1/eksempler/todimensional_normalfordeling/eksempel_n2_1.sas

Fraktildiagrammet er gengivet som Figur 8.8.

Ad 2. Beregning af korrelation og test af hypotesen, at korrelationen er 0 med PROCCORR

Følgende programstump beregner korrelationen mellem tørstofprocenten (toerstof) ogbevaringsprocenten for ascorbinsyreindholdet (ascorbin). I almindelighaed kan man i VARsætningen angive en liste af variable og ligeledes en liste af variable i WITH sætningen, også beregnes alle korrelationer mellem to variable, hvor den ene er i VAR listen, og den anden eri WITH listen.

PROC CORR DATA=spinat;VAR toerstof;WITH ascorbin;RUN;

Udskriften er

The SAS System 1

The CORR Procedure

1 With Variables: ascorbin1 Variables: toerstof

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

ascorbin 24 73.97500 10.01960 1775 50.90000 89.60000toerstof 24 10.52917 1.61069 252.70000 7.80000 14.90000

Simple Statistics

Variable Label

ascorbin % bevaret ascorbinsyretoerstof % tørstof i frisk spinat

Pearson Correlation Coefficients, N = 24Prob > |r| under H0: Rho=0

toerstof

ascorbin 0.61823% bevaret ascorbinsyre 0.0013

Page 45: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 41

Ad 3. Estimation af middelværdi og varians i en to-dimensional normalfordelingDe metoder, som vi benytter, finder umiddelbart anvendelse på den p-dimensionale normal-

fordeling, idet man blot angiver p variable i stedet for to. PROC PRINCOMP kan bruges til atestimere middelværdi og kovarians i en flerdimensional normalfordelt observationsrække, idetestimaterne angives, hvis NOPRINT udelades, jævnfør side 39.

PROC GLM kan også bruges, som vist i nedenstående programstump.

/* Estimation i N_2 via PROC GLM */TITLE1 ’estimation af middelværdi og varians’;PROC GLM DATA=eks1;CLASS gruppe;MODEL toerstof ascorbin=gruppe/NOUNI;MEANS gruppe;MANOVA H=intercept/PRINTE;RUN;

Klassevariablen gruppe, som bruges i MODEL sætningen, er konstant lig med 1 for alle ob-servationer, jævnfør indlæsningen af data side 37. Den er nødvendig for at lokke estimater formiddelværdien frem.

MODEL sætningen adskiller sig fra MODEL sætninger i tidligere anvendelser af PROC GLMved at have to variable på venstresiden i stedet for bare én variabel. Optionen NOUNI i MODELsætningen er en forkortelse for NOUNIVARIATE, og den betyder, at man fravælger udskrift frade modeller, som fremkommer ved at kombinere hver variabel på venstresiden med de variablepå højresiden. I dette eksempel er det modellerne:

MODEL toerstof = gruppe; og MODEL ascorbin = gruppe;

Det er sætningen MANOVA H=intercept/PRINTE; der giver Error SSCP Matrix (Sumsof Squares and Cross Products), som er (n− 1) gange den estimerede kovariansmatriks, denestimerede korrelation og testsandsynligheden for hypotesen H0 : ρ = 0. Dette giver en udskrift,hvor det er let at finde de relevante størrelser, eventuelt støttet af omtalen af eksemplet i afsnit8.12.

estimation af middelværdi og varians 1

The GLM Procedure

Class Level Information

Class Levels Values

gruppe 1 1

Number of observations 24estimation af middelværdi og varians 2

The GLM Procedure

Page 46: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

42 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Level of ----------toerstof--------- ----------ascorbin---------gruppe N Mean Std Dev Mean Std Dev

1 24 10.5291667 1.61069231 73.9750000 10.0196004estimation af middelværdi og varians 3

The GLM ProcedureMultivariate Analysis of Variance

E = Error SSCP Matrix

toerstof ascorbin

toerstof 59.669583333 229.4775ascorbin 229.4775 2309.025

Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|

DF = 23 toerstof ascorbin

toerstof 1.000000 0.6182290.0013

ascorbin 0.618229 1.0000000.0013

Ad 4. Hotellings T 2 for en simpel middelværdihypotese.Det er ligeledes kommandoen MANOVA H=intercept/PRINTE; der på SAS side 4 nedenfor

giver fire test for hypotesen, at intercept ikke behøves i modellen, det vil sige for hypotesen,at den todimensionale normalfordeling har middelværdi 0. Vi skal ikke gå i detaljer med de firetests – de fire teststørrelser er iøvrigt forklaret i Opgave 9.36 – men blot bemærke, at Wilks’Lambda er Q

2n , hvor Q er likelihood ratio testet for hypotesen, at den todimensionale normal-

fordeling har middelværdi 0, så Wilks’ Lambda er ækvivalent med Hotellings T 2. Benyttestransformationen af Q

2n til en F fordelt stokastisk variabel, jævnfør (8.46) på side 31, fås

F =1−Q

2n

Q2n

n−22

=1−0.0155155

0.0155155222

= 697.9685,

som også er gengivet i udskriften.

estimation af middelværdi og varians 4

The GLM ProcedureMultivariate Analysis of Variance

Characteristic Roots and Vectors of: E Inverse * H, whereH = Type III SSCP Matrix for Intercept

E = Error SSCP Matrix

Characteristic Characteristic Vector V’EV=1Root Percent toerstof ascorbin

63.4516772 100.00 0.05300892 0.014435190.0000000 0.00 -0.15593971 0.02219554

Page 47: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 43

MANOVA Test Criteria and Exact F Statistics forthe Hypothesis of No Overall Intercept Effect

H = Type III SSCP Matrix for InterceptE = Error SSCP Matrix

S=1 M=0 N=10

Statistic Value F Value Num DF Den DF Pr > F

Wilks’ Lambda 0.01551550 697.97 2 22 <.0001Pillai’s Trace 0.98448450 697.97 2 22 <.0001Hotelling-Lawley Trace 63.45167719 697.97 2 22 <.0001Roy’s Greatest Root 63.45167719 697.97 2 22 <.0001

Ad 5. Tegning af niveaukurver for todimensional normalfordelingTegning af niveaukurver for enhver funktion består først i at beregne funktionens værdier

i et gitter og gemme værdierne og gitterpunkterne i et SAS datasæt. Derefter benytte PROCGCONTOUR til at lave konturkurverne. Beregningerne for en todimensional normalfordeling medparametre lig med den estimerede middelværdi og den estimerede varians i eksempel 8.1 ergengivet nedenfor. Grafen er vist i Figur 8.10.

DATA normal;mu_1=10.5; mu_2=74.0;vx1=2.6;vx2=100.4;ro=0.62;KEEP x1 x2 z;LABEL z=’taethed’;con=1/(2*3.141592654*sqrt(vx1*vx2*(1-ro*ro)));DO x1=6 to 16 by 0.3;

DO x2=50 to 95 by 0.30;zx1=(x1-mu_1)/sqrt(vx1);zx2=(x2-mu_2)/sqrt(vx2);hx=zx1**2+zx2**2-2*ro*zx1*zx2;z=con*exp(-hx/(2*(1-ro**2)));IF z>.001 THEN OUTPUT;

END;END;RUN;

PROC GCONTOUR DATA=normal;PLOT x2*x1=z/

HAXIS=axis1 VAXIS=axis2LEVELS=.002 .004 .006 .008 .01 .012CLEVELS=black black black black black blackLLEVELS=1 4 6 11 21 41;

RUN; QUIT;

Page 48: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

44 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

Figur 8.10 Konturkurver for tætheden for en todimensional normalfordeling med parametrelig med de estimerede værdier i Eksempel 8.1, det vil sige µx = 10.5, µy = 74.0, σ2

x = 2.6,σ2

y = 100.4 og ρ = 0.62.

Konturellipserne i Figur 8.10 er lavet med en generel SAS procedure, der kan lave niveau-kurver for enhver reel funktion i to variable. I Figur 8.11 er vist konturellipser, som er defineretved, at 50% og 90% af sandsynlighedsmassen ligger inden for ellipserne. Konturellipserne ertegnet med macroen contourjg, som også er brugt i Figur 8.4 og i Figur 8.9. Tegningen afFigur 8.11 kan ses i slutningen af programmethttp://home.imf.au.dk/statbib/atskurser/stat1/eksempler/todimensional_normalfordeling/eksempel_n2_1.sas

Ad 6. Tegning af tætheden for todimensional normalfordelingTegning af grafen for enhver funktion i to variable består først i at beregne funktionens

værdier i et gitter og gemme værdierne og gitterpunkterne i et SAS datasæt. Derefter benyttesPROC G3D til at lave konturkurverne. Beregningerne for en todimensional normalfordelingstæt-hed med parametre lig med den estimerede middelværdi og den estimerede varians i Eksempel8.1 er gengivet nedenfor. Beregningerne af funktionsværdierne er nøjagtigt de samme som fortegning af konturkurverne, men de gengives alligevel nedenfor for fuldstændighedens skyld.Grafen er vist i Figur 8.12.

DATA normal;mu_1=10.5; mu_2=74.0;vx1=2.6;vx2=100.4;ro=0.62;KEEP x1 x2 z;

Page 49: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 45

Figur 8.11 To konturkurver for tætheden for en todimensional normalfordeling med parametrelig med de estimerede værdier i Eksempel 8.1, det vil sige µx = 10.5, µy = 74.0, σ2

x = 2.6, σ2y =

100.4 og ρ = 0.62. Inden for konturellipserne ligger 50% og 90% af sandsynlighedsmassen.

Figur 8.12 Tætheden for todimensional normalfordeling med parametre lig med de estimeredeværdier i Eksempel 8.1, det vil sige µx = 10.5, µy = 74.0, σ2

x = 2.6, σ2y = 100.4 og ρ = 0.62.

Page 50: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

46 KAPITEL 8. TODIMENSIONALE NORMALFORDELTE DATA

LABEL z=’taethed’;con=1/(2*3.141592654*sqrt(vx1*vx2*(1-ro*ro)));DO x1=6 to 16 by 0.3;

DO x2=50 to 90 by 0.30;zx1=(x1-mu_1)/sqrt(vx1);zx2=(x2-mu_2)/sqrt(vx2);hx=zx1**2+zx2**2-2*ro*zx1*zx2;z=con*exp(-hx/(2*(1-ro**2)));IF z>.001 THEN OUTPUT;

END;END;RUN;

PROC G3D DATA=normal;PLOT x2*x1=z;

RUN; QUIT;

Page 51: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Litteratur

[1] Fisher, R.A. (1915): Frequency distribution of the values of the correlation coefficient insamples from an indefinitely large population. Biometrika 10, 507-521.

[2] Fisher, R.A. (1921): On the “probable error” of a coefficient of correlation deduced froma small sample. Metron 1, 3-32.

[3] Fisher, R.A. (1924): On a distribution yielding the error functions of several well knownstatistics. Proceedings of the International Congress of Mathematics, Toronto, 2, 805-813.

[4] Fisher, R.A. (1970): Statistical methods for research workers (14th edition). Edinburgh:Oliver and Boyd. (1st edition 1925.)

[5] Gayen, A.K. (1951): The frequency distribution of the product moment correlation coef-ficient in random samples of any size drawn from non-normal universes. Biometrika 38,219-247.

[6] Hald, A. (1952): Statistical theory with engineering applications. New York: Wiley.

[7] Hotelling, H. (1931): The generalisation of Student’s ratio. Ann. Math. Stat., 2, 360-378.

[8] Rao, C.R. (1973): Linear statistical inference and its applications. 2nd editon. New York:Wiley.

47

Page 52: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005
Page 53: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Opgaver til Kapitel 8

Opgave 8.1 Betragt den todimensionale normalfordeling(XY

)∼ N2(

(µxµy

),

{σ2

x ρσxσyρσxσy σ2

y

}).

Vis at tætheden kan skrives på formen

f (x,y) =1

2π |Σ|12

e−12 (z−µ)∗Σ−1(z−µ),

hvor z = (x,y)∗, µ = (µx,µy)∗ og Σ ={

σ2x ρσxσy

ρσxσy σ2y

}.

Opgave 8.2 Beskriv niveaukurverne for den todimensionale normalfordeling.

Opgave 8.3 Vis faktoriseringen (8.13) af den todimensionale normalfordelings tæthed, og brugdenne til at finde de marginale fordelinger af X og Y og den betingede fordeling af Y givet X = xnår (

XY

)∼ N2(

(µxµy

),

{σ2

x ρσxσyρσxσy σ2

y

}).

Opgave 8.4 Nedenstående tal angiver højden (i cm) og vægten (i kg) af 80 mandlige og 34kvindelige engelske andenårs medicinske studenter.

DATA opg_04;INPUT hoejde vaegt kqn $ @@;DATALINES;152 52 k 154 48 k 156 50 k 156 56 k 158 47 k 158 53 k 160 48 k 160 59 k162 52 k 162 55 k 162 55 k 164 48 k 164 55 k 164 55 k 164 56 k 164 60 k166 56 k 166 65 k 166 66 k 168 55 k 168 60 k 168 61 k 168 62 k 168 64 k168 66 k 170 53 k 170 61 k 172 60 k 172 68 k 174 57 k 174 71 k 178 67 k178 67 k 180 65 k162 65 m 168 65 m 170 58 m 170 59 m 170 67 m 170 68 m 170 74 m 170 81 m172 66 m 174 61 m 174 64 m 174 65 m 174 67 m 174 68 m 174 70 m 174 71 m174 84 m 176 63 m 176 64 m 176 65 m 176 74 m 176 81 m 178 66 m 178 69 m178 71 m 178 71 m 178 72 m 178 73 m 178 75 m 178 77 m 180 70 m 180 72 m180 75 m 180 76 m 180 77 m 180 78 m 180 80 m 180 82 m 182 63 m 182 66 m182 72 m 182 72 m 182 72 m 182 73 m 182 73 m 182 75 m 182 79 m 182 79 m182 82 m 182 83 m 184 65 m 184 68 m 184 75 m 184 76 m 184 78 m 184 78 m184 81 m 184 85 m 186 66 m 186 68 m 186 68 m 186 69 m 186 76 m 186 77 m186 80 m 186 81 m 188 59 m 188 64 m 188 70 m 188 80 m 188 85 m 190 70 m190 71 m 190 72 m 190 72 m 192 75 m 192 79 m 194 73 m 194 82 m 198 76 m;

1) Tegn sammenhængen mellem højde og vægt for kvinder og for mænd (hver for sig, menpå samme tegning).

49

Page 54: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

50 OPGAVER

2) Kontroller antagelsen om todimensional normalfordeling for højde og vægt for mænd ogfor kvinder.

3) Beregn estimaterne for parametrene i den todimensionale normalfordeling for mænd. Gørligeså for kvinder.

4) Angiv de estimerede korrelationskoefficienter samt 95% konfidensintervaller for de tokøn?

5) Kan korrelationen mellem højde og vægt antages at være den samme for de to køn?

Til hjælp for beregningerne kan det oplyses, at for mænd er

Σhi = 14472 Σh2i = 2621640

Σvi = 5792 Σv2i = 422764

Σhivi = 1048988.

Opgave 8.5 De følgende data er taget frit efter K. Pearson og A. Lee: “On the law of inheritancein man”, Biometrika II (1903). Tallene angiver 1078 far - søn højder i tommer, begge målt somvoksne.

PATER FILIUS

Antal 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

59 | 1 2 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

60 | 1 2 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

61 | 2 1 2 1 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

62 | 3 4 2 3 5 2 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

63 | 1 1 2 3 3 5 4 8 5 1 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

64 | 1 2 4 9 9 14 10 5 2 4 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

65 | 1 4 8 13 10 20 10 13 6 5 3 1 2 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

66 | 1 4 10 11 16 26 25 19 18 9 2 1 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

67 | 1 1 2 3 8 17 26 31 17 12 10 7 2 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

68 | 1 1 6 16 19 24 24 20 19 7 8 5 2 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

69 | 2 3 5 13 29 29 22 15 11 7 2 1 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

70 | 1 1 2 2 14 13 21 20 21 11 6 2 2 1 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

71 | 1 2 4 8 10 14 11 10 7 7 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

72 | 1 1 9 4 6 8 9 6 4 3 1 |------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

73 | 1 2 2 4 5 3 3 3 1 2 |

Page 55: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 51

------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+74 | 1 2 1 2 1 |

------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+75 | 1 1 1 2 |

------+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+

Diskuter sammenhængen mellem faders og søns højde.

Opgave 8.6 (approksimation til middelværdi og varians af transformeret stokastisk variabel.)Lad X være en stokastisk variabel med middelværdi og varians og lad f være en differenti-

abel funktion. Antag f (X) har middelværdi og varians.

1) Vis, at middelværdi og varians for f (X) approksimeres ved

E( f (X))≈ f (E(X))

V ( f (X))≈ f ′(E(X))2V (X).

(Vink: approksimer f ved en lineær funktion.)

2) Lad nu X være Poissonfordelt med middelværdi λ . Benyt (1) til at finde en f så variansenaf f (X) (approksimativt) er uafhængig af λ .

3) Lad nu rXY være maksimum likelihood estimatoren for korrelationen ρ i en todimensionalnormalfordeling baseret på n uafhængige observationer (Xi,Yi)∗, i = 1, . . . ,n. Vis, idetapproksimationen

ER≈ ρ og Var R≈ (1−ρ2)2

n−1benyttes, at transformationen

Z(R) =12

ln1+R1−R

approksimativt har konstant varians.

Opgave 8.7 1) Vis, at for Fishers Z er

γ21 =

µ23

µ32

=ρ6

(n−1)3 + · · ·

og

3+ γ2 =µ4

µ22

= 3+2

n−1+

4+2ρ2−3ρ4

(n−1)2 + · · · ,

hvor µi = E(Z−EZ)i.

Vink: Sammenlign koefficienterne til (n− 1)−i, i = 1,2, . . . i udtrykkene β1µ32 = µ2

3 ogβ2µ2

2 = µ4.

2) Vis, at for normalfordelingen er

β1 = 0 og β2 = 3.

Page 56: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

52 OPGAVER

Opgave 8.8 (Ensidet variansanalyse med kendt varians.)Lad Xi j, j = 1, . . . ,ni, i = 1, . . . ,k, være indbyrdes uafhængige

Xi j ∼ N(µi,σ20i), µi ∈ R, σ

20i > 0, (8.59)

hvor σ20i er kendt.

1) Vis, at maksimum likelihood estimatoren (µ1, . . . , µk) for (µx, . . . ,µk) er givet ved

(µx, . . . , µk) = (X1·, . . . , Xk·),

hvor X i. = 1ni

ni∑j=1

Xi j. Angiv maksimum likelihood estimatorens fordeling.

Betragt hypotesen om fælles middelværdi for alle observationsrækkerne, det vil sige

H1 : µi = µ, i = 1, . . . ,k.

2) Vis, at maksimum likelihood estimatoren µ for µ under H1 er givet ved

µ =

k∑

i=1

niX i·σ2

0ik∑

i=1

ni

σ20i

,

det vil sige µ er det vejede gennemsnit af estimatorerne xi. fra de enkelte observations-rækker med de inverse varianser som vægte. Angiv fordelingen for µ.

3) Vis, at likelihood ratio testoren for H1 i modellen (8.59) er

Q1(X) = e− 1

2

k

∑i=1

niσ2

0i(X i·−µ)2

.

Vis endvidere at −2lnQ1(X) er χ2 fordelt med k−1 frihedsgrader.

Opgave 8.9 Tallene i denne opgave stammer fra en artikel med den ironiske titel “On a mostpowerful method of discovering statistical regularities” af Jerzy Neyman (1952).

DATA storke;INPUT county kvinder storke nyfoedte @@;DATALINES;1 1 2 10 2 1 2 15 3 1 2 204 1 3 10 5 1 3 15 6 1 3 207 1 4 10 8 1 4 15 9 1 4 20

10 2 4 15 11 2 4 20 12 2 4 2513 2 5 15 14 2 5 20 15 2 5 2516 2 6 15 17 2 6 20 18 2 6 25

19 3 5 20 20 3 5 25 21 3 5 3022 3 6 20 23 3 6 25 24 3 6 30

Page 57: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 53

25 3 7 20 26 3 7 25 27 3 7 30

28 4 6 25 29 4 6 30 30 4 6 3531 4 7 25 32 4 7 30 33 4 7 3534 4 8 25 35 4 8 30 36 4 8 35

37 5 7 30 38 5 7 35 39 5 7 4040 5 8 30 41 5 8 35 42 5 8 4043 5 9 30 44 5 9 35 45 5 9 40

46 6 8 35 47 6 8 40 48 6 8 4549 6 9 35 50 6 9 40 51 6 9 4552 6 10 35 53 6 10 40 54 6 10 45RUN;

I tabellen er for 54 counties angivet antal kvinder, antal storke og antal nyfødte. Er der nogensammenhæng mellem antal storke og antal nyfødte?

Hvad sker der, hvis man analyserer fødselsraten, det vil sige antal nyfødte/antal kvinder ogtætheden af storke, det vil sige antal storke/antal kvinder?

Opgave 8.10 (Beta fordelingen)Lad X1, . . . ,Xn være indbyrdes uafhængige og gammafordelt med samme skalaparameter,

det vil sige Xi ∼ Γ(αi,β ), i = 1, . . . ,n. Sæt

Y1 =X1

X1 +X2,

Y2 =X1 +X2

X1 +X2 +X3,

...

Yn−1 =X1 + · · ·+Xn−1

X1 + · · ·+Xn−1 +Xn,

Yn = X1 + · · ·+Xn−1 +Xn.

1) Vis, at Y1,Y2, . . . ,Yn er indbyrdes uafhængige, Yi ∼ B(α1 + · · ·+αi,αi+1), i = 1, . . . ,n−1,og Yn ∼ Γ(α1 + · · ·+αn,β ).

2) Gennemtænk estimation og test i en éndimensional lineær normal model og overvej, hvadfordelingsresultaterne i Spørgsmål 1) betyder i den situation.

Opgave 8.11 Lad U og V være uafhængige

U ∼ B(a,b), V ∼ B(a+b,c).

1) Vis, at UV ∼ B(a,b+ c).

Lad

Q2/n ∼ B(f1

2,

f2

2)

Page 58: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

54 OPGAVER

2) Vis, at1−Q2/n

Q2/n

f1

f2∼ F( f2, f1).

Lad F ∼ F( f2, f1)

3) Vis, at1

1+F f2f1

∼ B(f1

2,

f2

2).

Opgave 8.12 Lad (XY

)∼ N2(

(µx

µy

),

{σ2

x ρσxσyρσxσy σ2

y

}).

Vis, at1

1−ρ2

{(X−µx

σx

)2

−2ρX−µx

σx

Y −µy

σy+(

Y −µy

σy

)2}∼ χ

2(2).

Opgave 8.13 Kontrollér, at materialet i Tabel 8.1 kan opfattes som todimensionalt normalfor-delt.

Opgave 8.14 Lad X og Y være uafhængige og N(0,1) fordelte. Definer (Z1,Z2) ved

(Z1,Z2) ={

(X ,Y ) hvis X og Y har samme fortegn(−X ,Y ) hvis X og Y har modsat fortegn.

Bevis, at de marginale fordelinger for Z1 og Z2 er normale, men at (Z1,Z2)∗ ikke er todi-mensionalt normalfordelt.

Opgave 8.15 (Intra korrelation.)Lad (X1,Y1)∗, . . . ,(Xn,Yn)∗ (n ≥ 2) være indbyrdes uafhængige og identisk todimensionalt

normalfordelt, (Xi

Yi

)∼ N2(

µ

),

{σ2 ρσ2

ρσ2 σ2

}).

I denne model betegnes korrelationen undertiden intra korrelation. Modellen kunne være re-levant, hvis man havde højdemålinger på n par brødre, men ikke havde registreret hvilke afmålingerne, der stammede fra den ældste broder.

1) Vis, at maksimum likelihood estimatorerne for µ, σ2 og ρ er

µ =1

2n

n

∑i=1

(Xi +Yi),

σ2 =

12n

n

∑i=1

[(Xi− µ)2 +

n

∑i=1

(Yi− µ)2

],

ρ =2

n∑

i=1(Xi− µ)(Yi− µ)

n∑

i=1[(Xi− µ)2 +(Yi− µ)2]

.

Page 59: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 55

De følgende spørgsmål leder frem til fordelingen af Fishers Z = 12 ln

1+ ρ

1− ρi denne model.

Vi definerer først

µ i =12(Xi +Yi),

Wi = (Xi− µ i)2 +(Yi− µ i)2 =(Xi−Yi)2

2,

W = W1 + · · ·+Wn,

B = 2n

∑i=1

(µ i− µ)2,

T =n

∑i=1

[(Xi− µ)2 +(Yi− µ)2] .

2) Vis, at

ρ =2B−T

T.

3) Vis, at Xi +Yi og Xi−Yi er uafhængige, samt at

Xi +Yi ∼ N(2µ,2σ2(1+ρ)),

Xi−Yi ∼ N(0,2σ2(1−ρ)).

4) Benyt resultatet i Opgave 8.15 3) til at vise, at

W ∼ σ2(1−ρ)χ

2(n),

B∼ σ2(1+ρ)χ

2(n−1),

og at W og B er uafhængige.

5) Vis, at

Z =12

ln1+ ρ

1− ρ=

12

lnBW

,

samt at fordelingen til Z er beskrevet ved

Z =12

ln1+ρ

1−ρ+

12

lnn−1

n+

12

lnF,

hvor F ∼ F(n−1,n).

Bemærk, at fordelingen til Z i denne model er væsentlig simplerere end i det generelletilfælde, som behandledes i Afsnit 8.6.2. Fisher (1924) benyttede betegnelsen Z for 1

2 lnF ,hvor F er F-fordelt. I litteraturen bruges derfor udtrykket Fishers Z både som transfor-mationen (8.16) af en estimeret korrelationskoefficient og om fordelingen til 1

2 lnF, hvorF er F-fordelt.

Page 60: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

56 OPGAVER

Knoglemarv Blodprøve1.53 2.87 3.50 4.03 2.74 3.72 5.021.96 3.12 3.58 4.05 3.05 3.72 5.222.05 3.15 3.66 4.29 3.10 3.73 5.392.21 3.15 3.71 4.38 3.28 3.80 5.432.23 3.15 3.82 4.47 3.33 3.83 5.482.48 3.26 3.89 4.50 3.44 3.88 5.742.56 3.29 3.91 4.60 3.48 4.08 6.522.61 3.44 3.97 4.64 3.52 4.31 7.032.66 3.44 3.99 5.14 3.65 4.382.70 3.46 4.01 5.16 3.67 4.572.76 3.47 4.02 3.69 4.59

Tabel 8.3 DNMT1 målt på 43 prøver af knoglemarv og på 30 blodprøver.

Opgave 8.16 Data til denne opgave er en del af et større materiale som er stillet til rådighed afAnni Aggerholm, Århus Amtssygehus. Undersøgelsen drejer sig om sammenhængen mellemnogle bestemte gener og nogle undergrupper af blodsygdommen akut myeloid leukæmi (AML).Ved en kompliceret genteknologisk teknik måles ekspressionsniveauet for DNA methyltransfe-rase 1, 3A og 3B på prøver af enten blod eller knoglemarv. Disse målinger betegnes henholdsvisDNMT1, DNMT3A og DNMT3B.

Ideelt skulle alle målinger foretages på knoglemarv, men man har ikke prøver af knoglemarvfor alle patienter, så første skridt i undersøgelsen bliver at undersøge om målinger på blodprøvermåler det samme som målinger på knoglemarv. I Tabel 8.3 er gengivet målingerne af DNMT1på 43 prøver af knoglemarv og på 30 blodprøver. Alle prøver er fra forskellige AML patienter,som alle er multiplex negative, det vil sige at de ikke har nogle bestemte genetiske forandringer.

I Tabel 8.4 er gengivet nogle beregnede størrelser, som kan bruges til besvarelse af nogleaf spørgsmålene i det følgende. Desuden er i Figur 8.13 gengivet fraktildiagrammer for data iTabel 8.3.

(1) Undersøg, om det kan antages, at variansen på DNMT1 er den samme for knoglemarvsom for blodprøver.

(2) Undersøg, om det kan antages, at middelværdien på DNMT1 er den samme for knogle-marv som for blodprøver.

Knoglemarv Blodprøve I altn 43 30 73S 148.87 127.39 276.26

USS 545.9693 573.0173 1118.9866

Tabel 8.4 Standarberegninger på DNMT1 målingerne i Tabel 8.3.

Page 61: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 57

Figur 8.13 Fraktildiagrammer for DNMT1 målt på knoglemarv og på blodprøver.

Svaret var det samme for de to andre variable, DNMT3A og DNMT3B, så i det følgendebetragtes kun målinger på knoglemarv. Man er interesseret i hvordan sammenhængen er mellemDNMT1, DNMT3A og DNMT3B i forskellige grupper af patienter og hos normale personer. IFigur 8.14 er vist sammenhørende værdier af DNMT3A og DNMT3B i de to diagnosegruppermultiplex negative og normale, og i Tabel 8.5 er nogle beregnede størrelser på de to variableDNMT3A og DNMT3B i de to diagnosegrupper.

I besvarelsen af følgende spørgsmål må det antages, at DNMT3A og DNMT3B er todimen-sional normalfordelt inden for hver af diagnosegrupperne.

(3) Estimer korrelationskoefficienten mellem DNMT3A og DNMT3B i diagnosegrupperneog test for begge grupper, om det kan antages at korrelationen er 0. Test desuden omdet kan antages, at korrelationen mellem DNMT3A og DNMT3B er den samme i de togrupper.

(4) Lav et 95% konfidensinterval for korrelationskoefficienten mellem DNMT3A og DN-MT3B i begge grupper.

Opgave 8.17 Lad (X ,Y ) være todimensionalt normalfordelt, med middelværdivektor 0 og ko-variansmatriks

Σ =

1

1−θ 2θ

1−θ 2

θ

1−θ 21

1−θ 2

,

hvor −1 < θ < 1 .

Page 62: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

58 OPGAVER

Figur 8.14 Sammenhørende værdier af DNMT3A og DNMT3B i de to diagnosegrupper mul-tiplex negative og normale.

(1) Vis, at θ er korrelationen mellem X og Y , og vis, at tætheden kan skrives på formen

f (x,y;θ) =1

√1−θ 2 exp(θxy− x2 + y2

2), (x,y) ∈ R2. (8.60)

Lad (x1,y1), . . . ,(xn,yn) betegne realisationer af uafhængige og identisk fordelte stokastiskevariable med en fordeling givet ved tætheden i (8.60).

(2) Angiv likelihood funktionen, og vis at log likelihood funktionen er

l(θ) =−n log(2π)+n2

log(1−θ2)+θ

n

∑i=1

xiyi−12

n

∑i=1

x2i −

12

n

∑i=1

y2i .

Multiplex negative NormaleDNMT3A DNMT3B DNMT3A DNMT3B

n 43 11SSD 24.02285 65.63779 3.71016 3.56720SPD 23.55552 −0.53560

Tabel 8.5 Standardberegninger for DNMT3A og DNMT3B i diagnosegrupperne multiplex ne-gative og normale.

Page 63: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 59

Vis dernæst, at likelihood ligningen er

θ

1−θ 2 =1n

SPxy,

hvor SPxy = ∑ni=1 xiyi .

(3) Vis, at maksimum likelihood estimatet er

θ =−1+

√1+4(SPxy/n)2

2SPxy/n.

(4) Man ønsker at teste hypotesen H0: θ = θ0. Angiv likelihood ratio teststørrelsen Q for H0.

(5) Man interesserer sig nu specielt for θ0 = 0, det vil sige H0: θ = 0. Man tager en stikprøvemed n = 25 observationer, hvor SPxy = 11. Find θ og test H0.

Page 64: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005
Page 65: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9 Flerdimensionale normalfordelte data

9.1 Indledning

I dette kapitel indleder vi med at definere den flerdimensionale normalfordeling og vise nogleaf dens vigtigste egenskaber i Afsnit 9.2.

De følgende afsnit handler om data og modeller for data fra den flerdimensionale normal-fordeling. I Afsnit 9.3 fastlægger vi den notation, som vi vil bruge i forbindelse med n observa-tioner fra den p dimensionale normalfordeling. Den simpleste model for normalfordelte data eruafhængige identisk fordelte observationer fra den p dimensionale normalfordeling, som manogså kan kalde én observationsrække i den flerdimensionale normalfordeling. Den model be-handles i Afsnit 9.4, hvor maksimum likelihood estimatorer for parametrene udledes i Afsnit9.4.1 og estimatorernes fordeling udledes i Afsnit 9.4.2. Stadig i én observationsrække i denflerdimensionale normalfordeling bliver likelihood ratio testet for en simpel hypotese i middel-værdien udledt i Afsnit 9.5, og det viser sig at være ækvivalent med Hotellings T 2. Lineærenormale modeller i den flerdimensionale normalfordeling betragtes i Afsnit 9.6. Først defineresden lineære normale model i den flerdimensionale normalfordeling, og derefter vises hovedsæt-ningen (Sætning 9.28) om estimation, test for modelreduktion og fordeling af estimatorer ogtest. I Afsnit 9.7 og 9.8 udnyttes resultaterne til at angive fordelingen af henholdsvis estimeredepartielle korrelationer og estimeret multipel korrelationskoefficient. I Afsnit 9.9 udledes testetfor uafhængighed mellem komponenter i en flerdimensional normalfordeling, og i 9.10 udledestestet for identitet af kovariansmatricer, det vil sige den flerdimensionale version af Bartlettstest.

9.2 Den flerdimensionale normalfordeling

I dette afsnit skal vi definere den flerdimensionale normalfordeling og vise nogle af dens vigtig-ste egenskaber. Uanset hvilken af flere mulige definitioner, man vælger, spiller den én-dimensionalenormalfordeling en vigtig rolle.

Hvis X er normalfordelt med middelværdi µ og varians σ2 > 0, X ∼ N(µ,σ2), har X entæthed, f , med hensyn til Lebesguemålet

f (x) =1√

2πσ2e−

12σ2 (x−µ)2

, x ∈ R. (9.1)

Hvis X har middelværdi µ og varians 0 er P(X = µ) = 1, og X har ingen tæthed med hensyntil Lebesguemålet. Det viser sig bekvemt at opfatte X som (degenereret) normalfordelt, og vi

61

Page 66: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

62 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

betegner fordelingen med X ∼ N(µ,0).Hvis X ∼ N(µ,σ2) er den karakteristiske funktion for X

ϕX(t) = EeiXt = exp(itµ− 12

t2σ

2), t ∈ R, (9.2)

(se (4.22.3) i Hoffman-Jørgensen, 1994). Sættes σ2 = 0 i (9.2) fås den karakteristiske funktionfor en stokastisk variabel, der er koncentreret i µ , så også for degenererede normalfordeltestokastiske variable er den karakteristiske funktion givet ved (9.2).

I definitionen af den flerdimensionale normalfordeling benytter vi, at fordelingen til en p-dimensional stokastisk vektor X = (X1, . . . ,Xp)∗ bestemmer og er bestemt af fordelingen til allemulige linearkombinationer

a ·X =p

∑i=1

aiXi.

Definition 9.1 En p-dimensional stokastisk vektor X = (X1, . . . ,Xp)∗ er p-dimensionalt nor-malfordelt, hvis de en-dimensionale stokastiske variable a ·X er normalfordelt for enhver fastvektor a = (a1, . . . ,ap)∗ ∈ Rp. N

Lad X = (X1, . . . ,Xp)∗ være p-dimensionalt normalfordelt. Da er Xi normalfordelt, i =1, . . . , p, og specielt gælder, at de har varians. Lad kovariansmatricen for X være Σ og lad mid-delværdivektoren være µ .

Af de sædvanlige regneregler for middelværdi og varians fås, at

Ea ·X = a ·µ og Var a ·X = a∗Σa.

Indsættes i (9.2) fås den karakteristiske funktion for a ·X til

ϕa·X(t) = Eeita·X

= exp(ita ·µ− 12

t2a∗Σa), t ∈ R.

Heraf ses, at den karakteristiske funktion for X er

ϕX(a) = Eeia·X = ϕa·X(1)

= exp(ia ·µ− 12

a∗Σa), a ∈ Rp. (9.3)

Da ϕX kun afhænger af middelværdien µ og variansen Σ følger det af entydighedssæt-ningen for karakteristiske funktioner (formel (4.18.8) i Hoffmann-Jørgensen, 1994), at denp-dimensionale normalfordeling er karakteriseret ved sin middelværdi og varians. Vi skriverderfor kort X ∼ N(µ,Σ) eller X ∼ Np(µ,Σ), hvis vi ønsker at understrege dimensionen af X .

I det følgende formuleres og bevises en række egenskaber ved normalfordelingen.

Proposition 9.2 Lad X = (X1, . . . ,Xp)∗ være en stokastisk vektor. Hvis der findes en vektor µ

og en matriks Σ så a ·X ∼ N(a ·µ,a∗Σa) for alle a ∈ Rp, da er X ∼ Np(µ,Σ). �

Page 67: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.2. DEN FLERDIMENSIONALE NORMALFORDELING 63

Bevis Argumentet ovenfor viser, at den karakteristiske funktion for X er

ϕX(a) = ϕa·X(1) = exp(ia ·µ− 12

a∗Σa), a ∈ Rp,

og så følger resultatet af entydighedssætningen for karakteristiske funktioner. �

Proposition 9.3 Lad X ∼ Np(µ,Σ), B en k× p matriks og η ∈ Rk, da er

Y = η +BX ∼ Nk(η +Bµ,BΣB∗). �

Bevis For en vilkårlig vektor b ∈ Rk er

b ·Y ∼ N(b · (η +Bµ),b∗(BΣB∗)b).

Resultatet følger nu af Proposition 9.2. �

Proposition 9.4 Hvis X1 ∼ Np(µ1,Σ1) og X2 ∼ Nq(µ2,Σ2) og X1 og X2 er uafhængige vil X =(X∗1 ,X∗2 )∗ ∼ Np+q(µ,Σ), hvor

µ = (µ∗1 ,µ

∗2 )∗ =

(µ1µ2

)og Σ =

{Σ1 00 Σ2

}. �

Bevis Hvis a = (a∗1,a∗2)∗ ∈ Rp+q, hvor a1 ∈ Rp og a2 ∈ Rq, vil

a ·X = a1 ·X1 +a2 ·X2 ∼ N(a ·µ,a∗Σa).

Resultatet følger nu af Proposition 9.2. �

Proposition 9.5 Hvis X1 ∼ Np(µ1,Σ1) og X2 ∼ Np(µ2,Σ2), og X1 og X2 er uafhængige, så er

X1 +X2 ∼ Np(µ1 + µ2,Σ1 +Σ2). �

Bevis Følger igen af definitionen og af Proposition 9.2. �

Proposition 9.6 Lad X være Np(µ,Σ) fordelt, og lad X = (X (1)∗,X (2)∗)∗, µ = (µ(1)∗,µ(2)∗)∗

og

Σ ={

Σ11 Σ12Σ21 Σ22

}være opsplitninger af X ,µ og Σ, så X (1) og µ(1) er k-dimensionale og Σ11 er en k× k matriks,da er

(1) den marginale fordeling for X (1) en Nk(µ(1),Σ11) fordeling,

og

Page 68: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

64 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

(2) hvis Cov(X (1),X (2)) = Σ12 = 0, da er X (1) og X (2) uafhængige. �

Bevis (1) er et specialtilfælde af Proposition 9.3. For at vise (2) udregner vi den karakteristiskefunktion for X = (X (1)∗,X (2)∗)∗

ϕX(a) = exp(ia ·µ− 12

a∗Σa)

= exp(i(a(1)∗,a(2)∗) · (µ(1)∗,µ

(2)∗)− 12(a(1)∗,a(2)∗)Σ(a(1)∗,a(2)∗)∗)

= exp(ia(1) ·µ(1)− 12

a(1)∗Σ11a(1))exp(ia(2) ·µ(2)− 1

2a(2)∗

Σ22a(2))

= ϕX (1)(a(1))ϕX (2)(a(2)),

hvor (a(1)∗,a(2)∗)∗ ∈ Rk×Rp−k. Den karakteristiske funktion for X er altså et produkt af denkarakteristiske funktion for X (1) og den karakteristiske funktion for X (2). Heraf følger, at X (1)

og X (2) er uafhængige. (4.18 Characteristic Function i Hoffmann-Jørgensen (1994)). �

I (2) i Proposition 9.6 beskrives én situation, hvor to lineære funktioner af en p-dimensionalnormalfordeling er uafhængige. Mere generelt gælder

Proposition 9.7 Hvis X er Np(µ,Σ) fordelt og B er en k× p matriks og C er en m× p matrix,så er BX og CX uafhængige, hvis og kun hvis BΣC∗ = 0. �

Bevis Betragt (k + m)× p matricen A = {B∗ C∗}∗. Ifølge Proposition 9.3 er AX (k + m)-dimensionalt normalfordelt med kovariansmatriks

AΣA∗ ={

BΣB∗ BΣC∗

CΣB∗ CΣC∗

}.

Resultatet følger nu af Proposition 9.4 og (2) i Proposition 9.6. �

Proposition 9.8 Lad X være Np(µ,Σ)-fordelt og betragt en opsplitning af X i en k-dimensionalog en (p− k)-dimensional komponent som i Proposition 9.6.

Den betingede fordeling af X (1) givet X (2) = x(2) er en k-dimensional normalfordeling

X (1)|X (2) = x(2) ∼ Nk(µ(1) +Σ12Σ

−122 (x(2)−µ

(2)),Σ11−Σ12Σ−122 Σ21). (9.5)

Bemærkning 9.9 Hvis Σ22 er invertibel, er Σ−122 den inverse til Σ22. Hvis Σ22 ikke er invertibel,

er Σ−122 en vilkårlig (p− k)× (p− k)-matriks, som opfylder Σ22Σ

−122 Σ22 = Σ22. Resultatet i Pro-

position 9.8 forudsætter altså ikke, at Σ22 er invertibel, men for nemheds skyld gennemfører vikun beviset for Σ22 invertibel. H

Page 69: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.2. DEN FLERDIMENSIONALE NORMALFORDELING 65

Bevis SættesZ = X (1)−Σ12Σ

−122 X (2)

er (Z∗,X (2)∗)∗ en lineær transformation af X med matricen

B ={

Ik −Σ12Σ−122

0 Ip−k

},

hvor Ik og Ip−k er k× k, henholdsvis (p− k)× (p− k), identitetsmatricerne. Ifølge Proposition9.3 er (

ZX (2)

)= BX ∼ Np(Bµ,BΣB∗).

Nu er

Bµ =(

µ(1)−Σ12Σ−122 µ(2)

µ(2)

)og

BΣB∗ = B{

Σ11 Σ12Σ21 Σ22

}{Ik 0

−Σ−122 Σ21 Ip−k

}(9.6)

={

Ik −Σ12Σ−122

0 Ip−k

}{Σ11−Σ12Σ

−122 Σ21 Σ12

Σ21−Σ22Σ−122 Σ21 Σ22

}(9.7)

={

Σ11−Σ12Σ−122 Σ21 Σ12−Σ12Σ

−122 Σ22

0 Σ22

}(9.8)

={

Σ11−Σ12Σ−122 Σ21 0

0 Σ22

}(9.9)

så vi ser, at Z og X (2) er uafhængige ifølge (2) i Proposition 9.6, og af (1) i Proposition 9.6 fåsdesuden, at

Z ∼ Nk(µ(1)−Σ12Σ

−122 µ

(2),Σ11−Σ12Σ−122 Σ21).

Da Z og X (2) er uafhængige er den betingede fordeling af Z givet X (2) = x(2) lig med denmarginale fordeling af Z. Da endvidere

Z|X (2) = x(2) =(X (1)−Σ12Σ−122 X (2))|X (2) = x(2)

=(X (1)−Σ12Σ−122 x(2))|X (2) = x(2)

fås, at den betingede fordeling af X (1)|X (2) = x(2) er en normalfordeling med middelværdi

EZ +Σ12Σ−122 x(2) = µ

(1) +Σ12Σ−122 (x(2)−µ

(2))

og variansVar Z = Σ11·2 = Σ11−Σ12Σ

−122 Σ21. �

Parametrene i den betingede fordeling af X (1) givet X (2) = x(2) spiller en stor rolle i fortolk-ning af statistiske modeller, og der har udviklet sig en speciel terminologi og notation, som vifastlægger i de følgende definitioner.

Page 70: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

66 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Definition 9.10 Σ12Σ−122 (og dens transponerede Σ

−122 Σ21) kaldes matricen af regressionskoeffi-

cienter for X (1)på x(2). N

Definition 9.11 Elementerne uden for diagonalen i matricen Σ11·2 = Σ11−Σ12Σ−122 Σ21 kaldes

partielle kovarianser. Elementerne i diagonalen kaldes partielle varianser. N

Det (i, j)te element i Σ11·2 betegnes σi j·k+1,...,p, og for i 6= j er det den partielle korrela-tion mellem Xi og X j for Xk+1, . . . ,Xp fast, mens σii·k+1,...,p er den partielle varians af Xi forXk+1, . . . ,Xp fast.

Definition 9.12 Den partielle korrelation mellem Xi og X j for Xk+1, . . . , Xp fast er defineret ved

ρi j·k+1,...,p =σi j·k+1,...,p√

σii·k+1,...,p√

σ j j·k+1,...,p.

N

Den partielle korrelation mellem Xi og X j for Xk+1, . . . ,Xp fast er med andre ord korrelatio-nen mellem Xi og X j i den betingede fordeling givet Xk+1, . . . ,Xp.

I Opgave 9.10 og 9.11 angives, hvordan de partielle korrelationer kan beregnes rekursivtmed udgangspunkt i en korrelationsmatriks P. I Eksempel 9.29 benyttes de partielle korrelatio-ner i fortolkningen af et datasæt.

Estimation af partielle kovarianser og korrelationer og fordelingen af en estimeret partielkorrelation behandles i Afsnit 9.7.

Med udgangspunkt i korrelation mellem to stokastiske variable, kan man definere korrela-tion mellem én stokastisk variabel og en vektor af stokastiske variable.

Definition 9.13 For i ∈ {1, . . . ,k} defineres den multiple korrelationskoefficient mellem Xi ogX (2) som den maksimale korrelationskoefficient mellem Xi og alle mulige linearkombinationera ·X (2), a ∈ Rp−k. N

Når X er regulært normalfordelt er den multiple korrelation (se Opgave 9.8)

Ri·k+1,...,p =

√σ∗(i)Σ

−122 σ(i)

√σii

, (9.10)

hvor σii er variansen på Xi og σ(i) er den ite søjle i Σ21. For p = 2 er R1·2 lig med korrelationenmellem X1 og X2.

Fordelingen af estimatoren for den multiple korrelationskoefficient under nulhypotesen atden multiple korrelationskoefficient er 0 bliver udledt i Afsnit 9.8. Endvidere udledes likelihoodratio testet for at den multiple korrelationskoefficient er 0 i Opgave 9.12.

Et eksempel på anvendelsen af den multiple korrelationskoefficient i fortolkningen af etdatasæt er givet sidst i Eksempel 9.29.

Indtil nu har vi ikke gjort nogen antagelser om rangen af kovariansmatricen. Følgende ka-rakterisation af normalfordelingen viser, at fordelingen er koncentreret på et affint underrum afsamme dimension som rangen af kovariansmatricen. Vi definerer derfor rangen af en normal-fordeling som rangen af dens kovariansmatriks.

Page 71: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.2. DEN FLERDIMENSIONALE NORMALFORDELING 67

Proposition 9.14 X er Np(µ,Σ) af rang r, hvis og kun hvis

X = µ +BU, BB∗ = Σ, (9.11)

hvor B er en p×r matriks af rang r og U ∼Nr(0, Ir), det vil sige hvor komponenterne U1, . . . ,Uraf U er uafhængige og N(0,1)-fordelte. �

Bevis „Hvis“-delen følger af Proposition 9.3.Da Σ er symmetrisk, findes en ortogonal matriks O, så

Σ = OΛO∗ = BB∗,

hvor Λ = diag(λ1, . . . ,λr,0, . . . ,0) er diagonalmatricen bestående af egenværdier for Σ og B erp× r matricen, hvis ite søjle b(i) er

b(i) =√

λio(i), (9.12)

hvor o(i) er den ite søjle i O. Af (9.3) fås, at den karakteristiske funktion for X får formen

ϕX(a) = exp(ia ·µ− 12

a∗BB∗a) = exp(ia ·µ)r

∏j=1

exp(−12(a ·b(i))

2).

Her er exp(ia ·µ) karakteristisk funktion for den degenererede stokastiske variabel, som erlig med µ med sandsynlighed 1, og

exp(−12(a ·b(i))

2) = exp(−12

a∗(b(i)b∗(i))a)

er karakteristisk funktion for den p-dimensionalt normalfordelte variabel b(i)Ui, hvor Ui ∼N(0,1). Det følger nu, at X har samme fordeling som

µ +b(1)U1 + · · ·+b(r)Ur = µ +BU,

hvor U1, . . . ,Ur er indbyrdes uafhængige og N(0,1)-fordelt, jævnfør formel (4.18.8) i Hoffmann-Jørgensen (1994). �

Det fremgår af beviset for Proposition 9.14, at koordinaterne for den stokastiske vektor X ibasen {o(1), . . . ,o(p)}, nemlig o(1) · µ +U1

√λ1, . . . ,o(r) · µ +Ur

√λr,o(r+1) · µ, . . . ,o(p) · µ, vil

være uafhængige. For den flerdimensionale normalfordeling er uafhængighed af koordinaternealtså kun et spørgsmål om valg af basis.

Proposition 9.15 Hvis X ∼ Np(µ,Σ) og Σ har rang p, så har X tæthed f med hensyn til Le-besguemålet på Rp, hvor

f (x) =1

(2π)p2 |Σ| 12

e−12 (x−µ)∗Σ−1(x−µ), x ∈ Rp. (9.13)

Page 72: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

68 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Bevis Da X = µ +BU , hvor BB∗= Σ og U ∼Np(0, Ip) ifølge Proposition 9.14, og U har tæthed

g(u) =(

12π

) p2

e− 1

2

p∑

j=1u2

j=(

12π

) p2

e−12 u∗u, u ∈ Rp,

fås af transformationssætningen for tætheder, se Sætning 3.1 i Afsnit 3.5 , at tætheden for X er

f (x) =(

12π

) p2 1|B|

e−12 (B−1(x−µ))∗B−1(x−µ)

=1

(2π)p2 |Σ| 12

e−12 (x−µ)∗Σ−1(x−µ),

idet |Σ|= |B|2. �

Hvis X ∼ Np(µ,Σ) med en invertibel kovariansmatrix siger vi, at X er regulært normalfor-delt. En regulær kovariansmatriks er en invertibel kovariansmatriks.

Proposition 9.16 Hvis X er regulært normalfordelt Np(µ,Σ) er

(X−µ)∗Σ−1(X−µ)∼ χ2(p). (9.14)

Bevis Ifølge Proposition 9.14 er X = µ + BU , hvor U ∼ Np(0, Ip), B er regulær, og Σ = BB∗.Derfor er

(X−µ)∗Σ−1(X−µ) = (BU)∗(BB∗)−1(BU)

=p

∑j=1

U2j ,

hvor U j ∼ N(0,1) og U j , j = 1, . . . , p er indbyrdes uafhængige. �

Resultaterne i dette afsnit er meget nyttige og bruges ofte. De er derfor samlet nedenfor i énsætning for bekvem reference.

Sætning 9.17 (A) Lad X = (X1, . . . ,Xp)∗ være en stokastisk vektor. Hvis der findes en vektorµ og en matriks Σ så a ·X ∼ N(a ·µ,a∗Σa) for alle a ∈ Rp, da er X ∼ Np(µ,Σ).

(B) Lad X ∼ Np(µ,Σ), B en k× p matriks og η ∈ Rk, da er

Y = η +BX ∼ Nk(η +Bµ,BΣB∗).

(C) Hvis X1 ∼Np(µ1,Σ1) og X2 ∼Nq(µ2,Σ2) og X1 og X2 er uafhængige vil X = (X∗1 ,X∗2 )∗ ∼Np+q(µ,Σ), hvor

µ = (µ∗1 ,µ

∗2 )∗ =

(µ1µ2

)og Σ =

{Σ1 00 Σ2

}.

Page 73: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.2. DEN FLERDIMENSIONALE NORMALFORDELING 69

(D) Hvis X1 ∼ Np(µ1,Σ1) og X2 ∼ Np(µ2,Σ2), og X1 og X2 er uafhængige, så er

X1 +X2 ∼ Np(µ1 + µ2,Σ1 +Σ2).

Lad X være Np(µ,Σ) fordelt, og lad X = (X (1)∗,X (2)∗)∗, µ = (µ(1)∗,µ(2)∗)∗ og

Σ ={

Σ11 Σ12Σ21 Σ22

}være opsplitninger af X ,µ og Σ, så X (1) og µ(1) er k-dimensionale og Σ11 er en k× k matriks,da er

(E) den marginale fordeling for X (1) en Nk(µ(1),Σ11) fordeling,

og

(F) hvis Cov(X (1),X (2)) = Σ12 = 0, da er X (1) og X (2) uafhængige.

(G) Hvis X er Np(µ,Σ) fordelt og B er en k× p matriks og C er en m× p matrix, så er BX ogCX uafhængige, hvis og kun hvis BΣC∗ = 0.

Lad X være Np(µ,Σ)-fordelt og betragt en spaltning af X i en k-dimensional, X (1), og en(p− k)-dimensional komponent, X (2).

(H) Den betingede fordeling af X (1) givet X (2) = x(2) er en k-dimensional normalfordeling

X (1)|X (2) = x(2) ∼ Nk(µ(1) +Σ12Σ

−122 (x(2)−µ

(2),Σ11−Σ12Σ−122 Σ21).

(I) X er Np(µ,Σ) af rang r, hvis og kun hvis

X = µ +BU, BB∗ = Σ,

hvor B er en p× r matriks af rang r og U ∼ Nr(0, Ir), det vil sige hvor komponenterneU1, . . . ,Ur af U er uafhængige og N(0,1)-fordelte.

(J) Hvis X ∼ Np(µ,Σ) og Σ har rang p har X tæthed f med hensyn til Lebesguemålet på Rp,hvor

f (x) =1

(2π)p2 |Σ| 12

e−12 (x−µ)∗Σ−1(x−µ), x ∈ Rp.

(K) Hvis X er regulært normalfordelt Np(µ,Σ) er

(X−µ)∗Σ−1(X−µ)∼ χ2(p). �

Page 74: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

70 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

9.3 Flere p-dimensionale normalfordelte variable. Notation.

I de statistiske modeller vi skal behandle i de følgende afsnit, har vi et antal, n, uafhængige p-dimensionalt normalfordelte stokastiske variable Xi ∼ Np(µi,Σi), i = 1, . . . ,n. Helt ligesom deti lineære normale modeller for éndimensionale stokastiske variable var bekvemt at opfatte datasom en n dimensional vektor, vil det her være bekvemt at opfatte sættet af stokastiske variablesom én n× p dimensional normalfordelt stokastisk variabel. I parentes bemærket kan vi gøre detmed henvisning til Proposition 9.4. Men i stedet for at skrive eller tænke på sættet af stokastiskevariable som én lang søjlevektor, skriver vi eller tænker på dem som en n× p matriks

X =

X∗1...

X∗n

={

X(1) · · · X(p)}

,

hvor den ite række X∗i er den ite p dimensionale variabel, og X( j) er den jte søjle i X . Bemærk,at

X∗ ={

X1 · · · Xn}

=

X∗(1)

...X∗(p)

.

Eksempel 9.18I Opgave 9.51 undersøger vi et datasæt, hvor man for 28 korkege har lavet boringer i barken ihver af retningerne N, Ø, V og S for at vurdere korklagets tykkelse. Her kunne man forsøge sigmed en model hvor målingerne fra de 28 korkege var uafhængige, men hvor målingerne i defire verdenshjørner på samme eg ikke er uafhængige. Givet at normalfordeling er rimelig og atuafhængigheden er underforstået, er det modellen Xi ∼ Np(µi,Σi), i = 1, . . . ,n, med p = 4 ogn = 28. Fordelen ved repræsentationen som en n× p matriks X er, at det er let at referere til allemålinger på et et bestemt træ (en række i X) eller alle målinger i en bestemt retning (en søjle iX).

Det svarer iøvrigt til den måde vi ofte repræsenterer data i et regneark eller et SAS pro-gram. �

Inden vi formelt definerer en n× p dimensional normalfordeling, vil vi fastlægge opskriv-ningen af en n× p matriks som en np dimensional søjlevektor. Hvis X er en n× p matriks

X =

X∗1...

X∗n

,

betegner vi med XV den np dimensionale søjlevektor

XV =

X1...

Xn

.

Vi er nu klar til en definition af en n× p dimensional normalfordeling.

Page 75: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.3. FLERE P-DIMENSIONALE NORMALFORDELTE VARIABLE. NOTATION. 71

Definition 9.19 En n× p matriks X er n× p dimensional normalfordelt med middelværdima-triks

M ={

µi j}n p

i=1 j=1 ={

EXi j}n p

i=1 j=1

og kovariansmatriks

Σ| = {σ(i,r)( j,s)}ni, j=1

pr,s=1 =

{Cov(Xir,X js)

}ni, j=1

pr,s=1,

og det skriver vi kort somX ∼ Nn×p(M,Σ| ),

hvis og kun hvis XV er np-dimensional normalfordelt med middelværdivektor MV og kovari-ansmatriks Σ| , det vil sige

XV ∼ Nnp(MV ,Σ| ). N

Når X er Nn×p(M,Σ| ) fordelt vil vi altid ved Xi forstå den transponerede af den ite række iX .

To typer transformationer af en n× p dimensional stokastisk variabel X er af interesse,nemlig de hvor samme lineære transformation anvendes på alle n rækker i X , og de hvor sammelineære transformation anvendes på de p n-dimensionale søjler i X . Transformeres rækkerne iX med den lineære transformation bestemt ved p×q matricen B bliver resultatet n×q matricenXB. Hvis søjlerne i X transformeres med den lineære transformation bestemt ved m×n matricenA bliver resultatet af transformationen m× p matricen AX .

De kovarianser for n× p dimensionale normalfordelinger, vi får brug for, er især dem, derkan udtrykkes som Kronecker produktet af p× p og n×n matricer. Vi indfører derfor Kroneckerproduktet af matricer og noterer os en række basale egenskaber.

Lad A = {ai j} være en m× n matriks og lad B = {brs} være en p× q matriks. Kroneckerproduktet A⊗B af A og B er mp×nq matricen, hvis ((i,r),( j,s))te element er

(A⊗B)(i,r)( j,s) = ai jbrs.

Idet {(i,r)|i = 1, . . . ,m, r = 1, . . . , p} og {( j,s)| j = 1, . . . ,n, s = 1, . . . ,q} ordnes leksikografisk,kan A⊗B skrives som en opdelt matriks

A⊗B = {ai jB}mi=1

nj=1,

hvor den (i, j)te delmatriks er ai jB, i = 1, . . . ,m, j = 1, . . . ,n.En række nyttige regneregler, som involverer Kronecker produktet, er formuleret i følgende

lemma. Beviset er henvist til Opgave 9.17.

Lemma 9.20 For Kronecker produktet gælder følgende regneregler:

(1) 0⊗B = 0 A⊗0 = 0

(2) (A1 +A2)⊗B = A1⊗B+A2⊗B

(3) A⊗ (B1 +B2) = A⊗B1 +A⊗B2

Page 76: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

72 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

(4) aA⊗bB = abA⊗B, a,b ∈ R

(5) A1A2⊗B1B2 = (A1⊗B1)(A2⊗B2)

(6) Hvis A og B er invertible, er A⊗B invertibel med

(A⊗B)−1 = A−1⊗B−1

(7) (A⊗B)∗ = A∗⊗B∗

(8) Hvis A er 1×1, det vil sige A = a, er

a⊗B = aB og B⊗a = aB.

(9) Hvis A er en n×n matriks, og B er en p× p matriks, er

tr(A⊗B) = trA trB.

(10) Hvis A er en n×n matriks, og B er en p× p matriks, er

|A⊗B|= |A|p |B|n . �

Vi vender nu tilbage til n× p dimensionalt normalfordelte stokastiske variable

X ∼ Nn×p(M,Σ| ),

hvor kovariansen er Kronecker produktet af den symmetriske n× n matriks Φ = {φi j} og densymmetriske p× p matriks Σ = {σrs}

Σ| = Φ⊗Σ,

det vil sigeCov(Xir,X js) = φi jσrs.

For bekvem reference har vi samlet en række nyttige transformationsresultater for en n× pdimensional normalfordeling i nedenstående Lemma 9.21. Vi bemærker specielt, at (1) i Lemma9.21 betyder, at udsagnet: „X1, . . . ,Xn er indbyrdes uafhængige p-dimensionalt normalfordeltmed samme kovariansmatriks Σ“, kort kan formuleres

X ∼ Nn×p(M, In⊗Σ).

Lemma 9.21 For den n× p dimensionale normalfordeling gælder følgende resultater.

(1) Hvis X1, . . . ,Xn er indbyrdes uafhængige, Xi ∼ Np(µi,Σ), i = 1, . . . ,n, vil

X =

X∗1...

X∗n

∼ Nn×p(M, In⊗Σ)

hvor M∗ = {µ1 · · ·µn}.

Page 77: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.3. FLERE P-DIMENSIONALE NORMALFORDELTE VARIABLE. NOTATION. 73

Følgende transformationsformler holder for en n× p dimensional normalfordeling.

(2) X ∼ Nn×p(M,Φ⊗Σ) hvis og kun hvis X∗ ∼ Np×n(M∗,Σ⊗Φ).

(3) Hvis X ∼ Nn×p(M,Φ⊗Σ),A er en m×n matriks, og B er en p×q matriks vil

AXB∼ Nm×q(AMB,(AΦA∗)⊗ (B∗ΣB)).

Følgende tre specialtilfælde af (3) er nyttige.

(4) Hvis X ∼ Nn×p(M, In⊗Σ) og b er en p-dimensional søjlevektor er

Xb∼ Nn×1(Mb, In⊗b∗Σb) = Nn(Mb,(b∗Σb)In).

(5) Hvis X ∼ Nn×p(M, In⊗Σ) og a er en n-dimensional søjlevektor er

a∗X ∼ N1×p(a∗M,a∗a⊗Σ) = Np(a∗M,‖a‖2Σ).

(6) Hvis X ∼ Nn×p(M, In⊗Σ) og A er en m×n matriks er

AX ∼ Nm×p(AM,AA∗⊗Σ).

Lad X ∼ Nn×p(M, In⊗Σ) og betragt en opdeling af X og M så

X = {X (1)X (2)} og M = {M(1)M(2)},

hvor X (1) og M(1) er n×k matricer, og X (2) og M(2) er n×(p−k) matricer. Tilsvarende opdeles

Σ ={

Σ11 Σ12Σ21 Σ22

}hvor Σ11 er en k× k matriks.

(7) Den betingede fordeling af X (1) givet X (2) = x(2) er

Nn×k(M(1)− (M(2)− x(2))Σ−122 Σ21, In⊗ (Σ11−Σ12Σ

−122 Σ21)).

og den marginale fordeling af X (2) er

Nn×(p−k)(M(2), In⊗Σ22).

Lad X være n× p dimensionalt normalfordelt

X ∼ Nn×p(M,Φ⊗Σ),

og lad Y = AXB og Z = CXD, hvor A, B, C og D er henholdsvis a× n, p× b,c× n og p× dmatricer.

Page 78: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

74 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

(8) Y og Z er uafhængige hvis og kun hvis enten AΦC∗ = 0 eller B∗ΣD = 0. �

Bevis Vi beviser her kun (3), resten af beviserne henvises til Opgave 9.18 og Opgave 9.19.Lad Y = AXB. For i = 1, . . . ,m og s = 1, . . . ,q har vi

Yis =n

∑j=1

p

∑r=1

ai jX jrbrs

=n

∑j=1

p

∑r=1

ai jbrsX jr

=n

∑j=1

p

∑r=1

(A⊗B∗)(i,s)( j,r)X jr

=((A⊗B∗)XV)

is ,

det vil sige, at YV = (A⊗B∗)XV . Af Proposition 9.3 fås, at

YV ∼ Nmq((A⊗B∗)MV ,(A⊗B∗)(Φ⊗Σ)(A⊗B∗)∗

)og dermed, ved hjælp af egenskaberne (5) og (7) ved Kronecker produktet, at

YV ∼ Nmq((A⊗B∗)MV ,(AΦA∗)⊗ (B∗ΣB)

),

hvilket skulle vises.Det følger af argmentet i bevisets start, at (A⊗B∗)MV skrevet som en m× q matriks er

AMB. �

9.4 Én observationsrække i den flerdimensionale normalfordeling

9.4.1 Estimation i én observationsrække i Np

Lad X1, . . . ,Xn være indbyrdes uafhængige og identisk regulært normalfordelte med både mid-delværdi µ og kovarians Σ uspecificeret, eller med andre ord, lad

X ∼ Nn×p(M, In⊗Σ),

hvor M∗ = {µ · · ·µ} og Σ er regulær.Vi skal finde maksimum likelihood estimatorerne for µ og Σ. Af (9.13) side 67 følger, at

likelihood funktionen er

L(µ,Σ) =n

∏i=1

(1

2π)

p2

1

|Σ| 12e−

12 (Xi−µ)∗Σ−1(Xi−µ)

og følgelig er log likelihood funktionen

l(µ,Σ) = K− n2

log |Σ|− 12

n

∑i=1

(Xi−µ)∗Σ−1(Xi−µ), (9.16)

Page 79: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.4.1. ESTIMATION I ÉN OBSERVATIONSRÆKKE I NP 75

hvor K =−np2 log2π .

Vi bemærker, at hvis

X · =1n

n

∑i=1

Xi,

da ern

∑i=1

(Xi−µ)∗Σ−1(Xi−µ) =n

∑i=1

(Xi− X ·)∗Σ−1(Xi− X ·)+n

∑i=1

(Xi− X ·)∗Σ−1(X ·−µ)

+n

∑i=1

(X ·−µ)∗Σ−1(Xi− X ·)+n

∑i=1

(X ·−µ)∗Σ−1(X ·−µ)

=n

∑i=1

(Xi− X ·)∗Σ−1(Xi− X ·)+n(X ·−µ)∗Σ−1(X ·−µ),

idet ∑ni=1(Xi− X ·) = 0. Heraf ses, at

l(µ,Σ) = K− n2

log |Σ|− 12

n

∑i=1

(Xi−µ)∗Σ−1(Xi−µ)

≤ K− n2

log |Σ|− 12

n

∑i=1

(Xi− X ·)∗Σ−1(Xi− X ·),

og lighedstegnet gælder, hvis og kun hvis µ = X ·. Benytter vi egenskaber ved sporet af enmatriks (se Opgave 9.3), kan sidste led omskrives

n

∑i=1

(Xi− X ·)∗Σ−1(Xi− X ·) = tr[n

∑i=1

(Xi− X ·)∗Σ−1(Xi− X ·)]

= tr[n

∑i=1

Σ−1(Xi− X ·)(Xi− X ·)∗]

= tr[Σ−1n

∑i=1

(Xi− X ·)(Xi− X ·)∗].

Vi sætter nu

W =n

∑i=1

(Xi− X ·)(Xi− X ·)∗.

Under forudsætning af, at W er positiv definit, hvilket gælder med sandsynlighed 1 hvisn > p (se Opgave 9.20), fås

l(µ,Σ)≤ l(X ·,Σ)

= K− n2

log |Σ|− 12

tr[Σ−1W ]

= K +n2

log |1n

Σ− 1

2WΣ− 1

2∗|− n2

tr[1n

Σ− 1

2WΣ− 1

2∗]− n2

log |1n

W |

= K +n2{log(λ1 · · ·λp)− (λ1 + · · ·+λp)}−

n2

log |1n

W |

≤ K− n2

p− n2

log |1n

W |.

Page 80: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

76 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Her er Σ− 1

2 = (Σ12 )−1, hvor Σ

12 er en p× p matriks, som opfylder Σ

12 Σ

12∗ = Σ; en sådan ma-

triks konstrueres i beviset for Proposition 9.14. Endvidere er λ1, . . . ,λp egenværdierne for denpositiv definitte symmetriske matriks 1

nΣ− 1

2WΣ− 1

2∗. Det sidste ulighedstegn er skarpt medmin-dre

λ1 = · · ·= λp = 1,

men en positiv definit symmetrisk matriks med alle egenværdier lig med 1 er identiteten. Medandre ord antages maksimum for 1

nΣ− 1

2WΣ− 1

2∗= I, det vil sige Σ = 1

nW . Vi har vist følgendeuligheder

L(µ,Σ)≤ L(X ·,Σ)≤ L(X ·,1n

W ),

hvor første ulighedstegn er skarpt med mindre µ = X . og andet ulighedstegn er skarpt medmindre Σ = 1

nW . Heraf sluttes, at maksimum likelihood estimatoren for (µ,Σ) eksisterer og er

µ = X · og Σ =1n

n

∑i=1

(Xi− X ·)(Xi− X ·)∗.

Til senere brug noterer vi, at maksimum af likelihood funktionen er

L(µ, Σ) =1

(2π)np2

1|Σ| n2

e−12 tr(Σ−1W )

=1

(2π)np2

1|Σ| n2

e−12 tr(nIp)

=1

(2π)np2

1|Σ| n2

e−np2 . (9.17)

9.4.2 Fordelingen af maksimum likelihood estimatorerne for µ og Σ

Inden vi beskriver fordelingen af maksimum likelihood estimatorerne for µ og Σ, indfører vi enny fordeling, som er afledt af den flerdimensionale normalfordeling.

Definition 9.22 Wishart fordelingen med n frihedsgrader og matriks Σ (Wishart, 1928) define-res som fordelingen af

Z∗Z =n

∑i=1

ZiZ∗i , (9.18)N

hvor Z ∼ Nn×p(0, In⊗Σ). Fordelingen betegnes Wp(Σ,n).Fordelingen til (9.18) når Z ∼ Nn×p(M, In⊗ Σ), hvor M 6= 0, er en ikke central Wishart

fordeling betegnet Wp(Σ,n,M).

Wishart fordelingerne kan opfattes som en generalisation af χ2-fordelingerne, og de spillerpræcis samme rolle i beskrivelsen af fordelingen af estimatorer for kovariansmatricen for denflerdimensionale normalfordeling, som χ2-fordelingerne spiller i beskrivelsen af estimatorer forvariansen i den endimensionale normalfordeling.

En række egenskaber ved Wishart fordelingen vises i Opgaverne 9.20 – 9.29. For bekvemreference gengives uden bevis de mest basale egenskaber i Lemma 9.23.

Page 81: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.4.2. FORDELINGEN AF MAKSIMUM LIKELIHOOD ESTIMATORERNE FOR µ OG Σ 77

Lemma 9.23 Lad W = {Wi j}pi, j=1 være Wishart fordelt Wp(Σ, f ).

(1) Hvis B er en p×q matriks, er

B∗WB∼Wq(B∗ΣB, f ).

(2) For enhver vektor a ∈ Rp, a 6= 0, er

a∗Waa∗Σa

∼ χ2( f ).

(3) Wii ∼ σiiχ2( f ).

(4) Hvis W1 og W2 er uafhængige og Wishart fordelt

W1 ∼Wp(Σ, f1) og W2 ∼Wp(Σ, f2),

så erW1 +W2 ∼Wp(Σ, f1 + f2). �

Fordelingen af maksimum likelihood estimatorerne for µ og Σ svarer nøje til den velkendtesituation i den endimensionale normalfordeling.

Sætning 9.24 Estimatoren, X ·, for µ er normalfordelt

X · ∼ Np(µ,1n

Σ) (9.19)

og er uafhængig af Σ. Endvidere er fordelingen til

nΣ =n

∑i=1

(Xi− X ·)(Xi− X ·)∗

den samme som fordelingen tiln−1

∑i=1

ZiZ∗i ,

hvor Zi, i = 1, . . . ,n−1 er indbyrdes uafhængige og identisk Np(0,Σ) fordelt, så

nΣ∼Wp(Σ,n−1). �

Bevis Lad A = {ai j} være en n×n ortogonal matriks, hvor alle elementer i den sidste række er1√n , det vil sige an j = 1√

n , j = 1, . . . ,n, og betragt

Z = AX .

Page 82: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

78 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Sætter vi Z∗ = {Z1 · · ·Zn} er

Z∗n =n

∑j=1

an jX∗j =n

∑j=1

1√n

X∗j =√

nX∗·

nΣ =n

∑i=1

(Xi− X ·)(Xi− X ·)∗

=n

∑i=1

XiX∗i −nX ·X∗·

= X∗X−ZnZ∗n= X∗A∗AX−ZnZ∗n= Z∗Z−ZnZ∗n

=n−1

∑i=1

ZiZ∗i .

Ifølge Lemma 9.21 er

Z = AX ∼ Nn×p(AM,AInA∗⊗Σ)= Nn×p(AM, In⊗Σ),

så Z1, . . . ,Zn er uafhængige, og da X · er en funktion af Zn alene og Σ er en funktion af Z1, . . . ,Zn−1alene, er X · og Σ uafhængige.

Vi mangler nu kun at vise, at EZi = 0 for i = 1, . . . ,n−1, men det følger af at ∑nν=1 aiν = 0

for i = 1, . . . ,n−1, da de første n−1 rækker i A er ortogonale på den sidste række. �

Bemærk, at

EΣ =1n

En−1

∑i=1

ZiZ∗i =1n(n−1)Σ.

Derfor benyttes ofte

S =1

n−1

n

∑i=1

(Xi− X ·)(Xi− X ·)∗ (9.20)

som estimator for Σ.Fordelingen til S er en Wishart fordeling med matriks 1

n−1Σ og n− 1 frihedsgrader, det vilsige S∼Wp( 1

n−1Σ,n−1).

9.5 Hotellings T 2

I én observationsrække i den flerdimensionale normalfordeling, som blev betragtet i Afsnit 9.4,skal vi udlede likelihood ratio testet for den simple hypotese H0: µ = µ0. Likelihood funktionensmaksimum uden H0 er ifølge (9.17) side 76

L(µ, Σ) =1

(2π)np2

1|Σ| n2

e−np2 ,

Page 83: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.5. HOTELLINGS T 2 79

hvor Σ = 1n(X∗X −nX ·X∗· ). Samme argument, som side 75 ledte frem til maksimum likelihood

estimatoren Σ for Σ uden H0, viser at maksimum likelihood estimatoren Σ0 for Σ under H0 er

Σ0 =1n

n

∑i=1

(Xi−µ0)(Xi−µ0)∗

=1n[

n

∑i=1

(Xi− X ·)(Xi− X ·)∗+n(X ·−µ0)(X ·−µ0)∗].

Likelihood funktionens maksimum under H0 er

L(µ0, Σ0) =1

(2π)np2

1|Σ0|

n2

e−np2 .

Likelihood ratio testoren for H0 er

Q2n =

(L(µ0, Σ0)L(µ, Σ)

) 2n

=|Σ||Σ0|

=|∑n

i=1(Xi− X ·)(Xi− X ·)∗||∑n

i=1(Xi− X ·)(Xi− X ·)∗+n(X ·−µ0)(X ·−µ0)∗|

=|(n−1)S|

|(n−1)S+n(X ·−µ0)(X ·−µ0)∗|

=1

|Ip +n

n−1S−1(X ·−µ0)(X ·−µ0)∗|

=1

1+n

n−1(X ·−µ0)∗S−1(X ·−µ0)

=1

1+T 2

n−1

,

hvor vi har antaget, at n > p så S er invertibel med sandsynlighed 1, og hvor Opgave 9.5 erbenyttet i næstsidste skridt. Likelihood ratio testet for H0 er altså ækvivalent med at forkaste forstore værdier af

T 2 = n(X ·−µ0)∗S−1(X ·−µ0),

som er Hotellings T 2 efter Harold Hotelling, der udledte fordelingen i 1931. Under H0 er

T 2

n−1n− p

p∼ F(p,n− p), (9.21)

hvilket følger af Sætning 9.25.

Page 84: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

80 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Sætning 9.25 Lad W være Wishart fordelt W ∼Wp(Σ, f ) med f ≥ p og Σ regulær, og lad Xvære normalfordelt X ∼ Np(0,k−1Σ). Antag X og W er uafhængige, og sæt

T 2 = f kX∗W−1X .

Da erf − (p−1)

pT 2

f∼ F(p, f − (p−1)). (9.22)

Bevis Sæt Y =√

kX . Så er Y ∼ N(0,Σ), og T 2 = fY ∗W−1Y , som vi omskriver på følgendemåde:

T 2

f= Y ∗Σ−1Y (Y ∗Σ−1Y )−1Y ∗W−1Y

= Y ∗Σ−1YY ∗W−1YY ∗Σ−1Y

= Y ∗Σ−1Y(

Y ∗Σ−1YY ∗W−1Y

)−1

.

Resultatet i sætningen følger nu, hvis vi kan vise, at Y ∗Σ−1Y og

Y ∗Σ−1YY ∗W−1Y

er uafhængige og henholdsvis χ2(p) og χ2( f − (p− 1)) fordelt. Til det formål betragtes denbetingede fordeling af Y ∗Σ−1Y/Y ∗W−1Y givet Y = y. Det er fordelingen til y∗Σ−1y/y∗W−1y ogifølge Opgave 9.23 den en χ2( f −(p−1)) fordeling. Da den betingede fordeling ikke afhængeraf værdien af det vi betinger med, har fordelingen også marginalt den samme fordeling, og dener uafhængig af Y . Hermed har vi vist, at

Y ∗Σ−1YY ∗W−1Y

∼ χ2( f − (p−1))

og er uafhængig af Y og dermed af Y ∗Σ−1Y , som ifølge Proposition 9.16 side 68 er χ2(p)fordelt. �

I Kapitel 8 blev Hotellings T 2 test for en simpel nulhypotese i én observationsrække i dentodimensionale normalfordeling angivet i (8.44) side 29, og den F fordelte skalering af T 2 blevpostuleret i (8.45). Vi noterer, at (8.45) netop er (9.21) med p = 2.

Hotellings T 2 test for ens middelværdivektor i to observationsrækker fra den to-dimensionalenormalfordeling blev også angivet i Kapitel 8 i (8.50) side 33 med den F fordelte skalering afT 2 i (8.51). Disse resultater en umiddelbar konsekvens af Sætning 9.25 med f = n1 +n2−2 ogk = (n1n2)/(n1 +n2).

Page 85: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.6. LINEÆRE NORMALE MODELLER 81

9.6 Lineære normale modeller

Dette afsnits overskrift var også titlen på Kapitel 4. Emnet blev introduceret i Afsnit 4.1 og dematematiske detaljer kom på plads i Afsnit 4.4. Vi gentager her hovedresultaterne. Lad

X ∼ Nn×1(µ, In⊗σ2) = Nn(µ,σ2In),

det vil sige X1, . . . ,Xn er indbyrdes uafhængige og endimensionalt normalfordelte med sammevarians σ2, og lad yderligere middelværdien være specifieret ved µ ∈ L1, hvor L1 er et d1-dimensionalt underrum af Rn. Vi har altså en lineær normal model

M1: X ∼ Nn×1(µ, In⊗σ2) med µ ∈ L1,

I Kapitel 4 angav vi kort modellen som

M1: µ ∈ L1,

idet vi underforstod specifikationen af fordelingen, og denne notation vil vi fortsat benytte.Idet P1 betegner den ortogonale projektion på L1, er estimatorerne for µ og σ2 i modellen

M1 givet ved henholdsvisµ ← P1X ∼ Nn×1(µ,P1P∗1 ⊗σ

2)

og

σ2← 1

n−d1‖ X−P1X ‖2=

1n−d1

(X−P1X)∗(X−P1X)∼ σ2

n−d1χ

2(n−d1).

Endvidere er estimatorerne for µ og σ2 uafhængige. Likelihood ratio testet for reduktionen tilmodellen

M2: µ ∈ L2,

hvor L2 ⊂ L1 er et d2-dimensionalt underrum af Rn, er

Q(X)n2 =

(‖X−P1(X)‖2

‖X−P1(X)‖2 +‖P1(X)−P2(X)‖2

)∼ B(

n1−d1

2,d−d2

2),

som er ækvivalent med at forkaste for store værdier af F-testoren

F(X) =

1d1−d2

‖ P1X−P2X ‖2

1n−d1

‖ X−P1X ‖2,

som i M2 er F(d1− d2,n− d1) fordelt og uafhængig af estimatorerne for µ og σ2 i M2. Dissefordelingsresultater blev formuleret og bevist i Sætning 4.1 i Afsnit 4.4.

Vi vil først formulere, hvad vi vil forstå ved en lineær normal model i den p-dimensionalenormalfordeling, og derefter vise, at der gælder resultater, der er analoge til dem vi kender forlineære normale modeller i den endimensionale normalfordeling.

Page 86: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

82 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Vi vil sige, at X følger en lineær normal model, eller en lineær model i den p-dimensionalenormalfordeling, specificeret ved underummet L1, hvis

X ∼ Nn×p(M, In⊗Σ), (9.23)

og matricen af middelværdier opfylder, at søjlerne i M tilhører L1, men ellers er uspecificerede.Udtrykt ved den ortogonale projektion P1 på det d1-dimensionale underrum L1 af Rn har vi, atmatricen af middelværdier opfylder

P1M = M. (9.24)

Denne model vil vi skrive

M1: X ∼ Nn×p(M, In⊗Σ), med P1M = M (9.25)

eller undertiden kortM1: P1M = M

idet specifikationen af fordelingen er underforstået.Lad nu B være en p×q matriks og lad X opfylde (9.25). Da vil

XB∼ Nn×q(MB, In⊗B∗ΣB)

ogP1MB = MB,

så XB opfylder en lineær model i den q-dimensionale normalfordeling specificeret ved sammeunderrum L1. Specielt for q = 1 ses, at enhver linearkombination af søjlerne i X , og endnumere specielt enhver af søjlerne, følger en lineær model i den endimensionale normalfordelingspecificeret ved samme underrum L1.

Eksempel 9.26Det simpleste eksempel på en lineær normal model er én normalfordelt observationsrække, somblev behandlet med henblik på estimation i Afsnit 9.4. I den model er hypotesen H0: µ = µ0kun en lineær normal model, hvis µ0 = 0. En lineær normal model under H0: µ = µ0 fås vedat trække µ0 fra samtlige observationer. Bemærk, at test for H0: µ = µ0 er behandlet i Afsnit9.5. �

Eksempel 9.27Lad X∗i = (Xi1,Xi2), i = 1, . . . ,n, være indbyrdes uafhængige og todimensionale normalfordelte

Xi ∼ N2((α +β ti,γ +δ ti)∗,Σ),

hvor t = (t1, . . . , tn) er kendte tal, som ikke alle er ens. Da følger, at X er en lineær model i dentodimensionale normalfordeling specificeret ved det fra lineær regression velkendte todimen-sionale underrum.

Delhypoteser i denne model som er lineære normale modeller er H2: α = γ = 0 og H3:β = δ = 0.

Derimod vil ingen af hypoteserne H4: α = γ eller H5: β = δ være lineære normale mo-deller, fordi de specificerer et todimensionalt underrum for middelværdivektorerne for X(1) ogX(2), mens middelværdivektoren for X(1)−X(2) under både H4 og H5 tilhører et endimensionaltunderrum. �

Page 87: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.6. LINEÆRE NORMALE MODELLER 83

I det følgende skal vi vise resultater om estimation og testning i lineære modeller i denp-dimensionale normalfordeling, som er analoge til resultaterne for lineære modeller i den en-dimensionale normalfordeling.

Sætning 9.28 Vi betragter to lineære normale modeller

M1: X ∼ Nn×p(M, In⊗Σ), med P1M = M

ogM2: X ∼ Nn×p(M, In⊗Σ), med P2M = M

hvor M1 og M2 er givet ved underrummene L1 og L2, hvor L2 ⊂ L1. Dimensionen af L1 ogL2 betegnes med henholdsvis d1 og d2, og de ortogonale projektioner på L1 og L2 betegnesmed henholdsvis P1 og P2. Vi sætter SSD1 = SSD01 = X∗(In−P1)X , SSD02 = X∗(In−P2)X ogSSD2 = X∗(P1−P2)X . Antag desuden at Σ er regulær samt at n−d1 ≥ p.

(1) I M1 er maksimum likelihood estimatorerne M=P1X og Σ = 1nSSD1 uafhængige og den

middelværdirette estimator for variansen, S1 = S01 = 1n−d1

SSD1, er Wp( 1n−d1

Σ,n− d1)fordelt.

(2) I M2 er maksimum likelihood estimatorerne M=P2X og Σ = 1nSSD02 samt likelihood ratio

testoren, Q, for reduktionen fra M1 til M2 uafhængige, og

Q2n =

|SSD1||SSD1 +SSD2|

= B1B2 · · ·Bd1−d2,

hvor B1, . . . ,Bd1−d2 er uafhængige og Bi er B(n−d1+i−p2 , p

2 ) fordelt. �

Bevis Hvis X∗1 , . . . ,X∗n og µ∗1 , . . . ,µ∗n betegner rækkerne i henholdsvis X og M, er likelihood-funktionen

L(M,Σ) = (1

2π)

np2 (

1|Σ|

)n2 e− 1

2

n∑

i=1(Xi−µi)∗Σ−1(Xi−µi)

.

Vi har

n

∑i=1

(Xi−µi)∗Σ−1(Xi−µi) = tr[(X−M)Σ−1(X−M)∗]

= tr[Σ−1(X−M)∗(X−M)],

og afX−M = (In−P1)X +(P1X−M)

fås fordi P1M = M

(X−M)∗(X−M) = X∗(In−P1)X +(P1X−M)∗(P1X−M).

Page 88: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

84 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Indsættes dette i likelihoodfunktionen, fås

L(M,Σ)≤ L(P1X ,Σ)

=(

12π

) np2(

1|Σ|

) n2

e−12 tr[Σ−1X∗(In−P1)X ].

Som på side 75 ses, at hvis SSD1 = X∗(In−P1)X er positiv definit, er

L(P1X ,Σ)≤ L(P1X ,1n

SSD1)

og maksimum likelihood estimatet for (M,Σ) er(M, Σ

)= (P1X ,

1n

SSD1).

Vi viser nedenfor, at SSD1 er Wp(Σ,n−d1) fordelt, så ifølge Opgave 9.20 er SSD1 positiv definitmed sandsynlighed 1, når n−d1 ≥ p.

Maksimum for likelihood funktionen er

L(M, Σ) =(

12π

) np2(

1|1nX∗(In−P1)X |

) n2

e−np2 .

Vi har hermed fundet estimatorerne for M og Σ samt likelihood funktionens maksimum i enlineær normal model.

Likelihood ratio testoren for reduktionen fra M1 til M2 er

Q =(|X∗(In−P1)X ||X∗(In−P2)X |

) n2

eller

Q2n =

|X∗(In−P1)X ||X∗(In−P1)X +X∗(P1−P2)X |

=|SSD1|

|SSD1 +SSD2|.

Vi mangler nu kun at beskrive den simultane fordeling af estimatorerne og likelihood ra-tio testoren. Lad e1, . . . ,en være en ortonormal basis for Rn, så {e1, . . . ,ed2} udspænder L2 og{e1, . . . ,ed1} udspænder L1. Lad A være den ortogonale n×n matriks

A =

e∗1...

e∗n

.

Af Lemma 9.21 fås, atZ∗1...

Z∗n

= AX ∼ Nn×p(AM,AInA∗⊗Σ) = Nn×p(

e∗1M...

e∗nM

, In⊗Σ),

Page 89: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.6. LINEÆRE NORMALE MODELLER 85

det vil sige (Z∗1 , . . . ,Z∗n) = (e∗1X , . . . ,e∗nX) er uafhængige og Zi ∼ Np(e∗i M,Σ) fordelt. Nu er

P1 =d1

∑i=1

eie∗i ,

og den ortogonale projektion på L⊥1 er

In−P1 =n

∑i=d1+1

eie∗i ,

så P1X og (In−P1)X er uafhængige. Endvidere er

SSD1 = X∗(In−P1)X =n

∑i=d1+1

X∗eie∗i X =n

∑i=d1+1

ZiZ∗i ,

som i modellen M1 og dermed også i modellen M2 er Wp(Σ,n− d1), idet e∗i M = 0, i = d1 +1, . . . ,n, når P1M = M.

Vi har nu vist, at estimatorerne M og Σ er uafhængige og at

Σ =1n

SSD1 ∼Wp(1n

Σ,n−d1).

Det følger umiddelbart fra Lemma 9.21, at

M = P1X ∼ Nn×p(M,P1⊗Σ).

Bemærk iøvrigt, at 1nSSD1 og P1X har de netop udledte fordelinger uanset om Σ er regulær.

Denne betingelse var kun nødvendig for at udlede P1X og 1nSSD1 som maksimum likelihood

estimatorer for henholdsvis M og Σ.For at beskrive fordelingen til Q

2n i modellen M2 hvor P2M = M bemærker vi, at

P1−P2 =d1

∑i=d2+1

eie∗i

SSD2 = X∗(P1−P2)X =d1

∑i=d2+1

ZiZ∗i .

Nu er SSD1 og Zd2+1, . . . ,Zd1 uafhængige og i modellen M2 hvor P2M = M har Zd2+1, . . . ,Zd1

middelværdi 0. Vi har

Q2n =

|SSD1||SSD1 +Zd2+1Z∗d2+1 + · · ·+Zd1Z∗d1

|

=|SSD1|

|SSD1 +Zd2+1Z∗d2+1||SSD1 +Zd2+1Z∗d2+1|

|SSD1 +Zd2+1Z∗d2+1 +Zd2+2Z∗d2+2|· · ·

.|SSD1 +Zd2+1Z∗d2+1 + · · ·+Zd1−1Z∗d1−1||SSD1 +Zd2+1Z∗d2+1 + · · ·+Zd1Z∗d1

|= B1B2 · · ·Bd1−d2.

Page 90: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

86 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Af Opgave 9.27 ses, at B1, . . . ,Bd1−d2 er uafhængige og Bi er B(n−d1+i−p2 , p

2 ) fordelt. Desudenses af Opgave 9.27, at Q er uafhængig af estimatorerne for (M,Σ) i modellen M2, det vil sige

M = P2X

og

Σ =1n

X∗(In−P2)X

=1n(SSD1 +Zd2+1Z∗d2+1 + · · ·+Zd1Z∗d1

)

=1n(SSD1 +SSD2).

Sædvanligvis benyttes den centrale estimator for Σ

S02 =1

n−d2(SSD1 +SSD2) =

1n−d2

X∗(In−P2)X .�

Overfor er vist at likelihood ratio testoren for H2: µ ∈ L2 under H1: µ ∈ L1 er på formen

Q2n =

|SSD1||SSD1 +SSD2|

. (9.27)

Der gælder, at SSDi ∼Wp(Σ,νi), hvor ν1 = n− d1 og ν2 = d1− d2, samt at SSD1 og SSD2 eruafhængige. Fordelingen til Q2/n betegner vi Up,ν2,ν1 .

I litteraturen kaldes testorer på denne form Wilks criterion, Wilks test eller Wilks Λ-statisticefter S.S. Wilks, der i 1932 betragtede en række hypoteser i den flerdimensionale normalfor-deling. Af udtrykket for Q2/n ovenfor ses, at Up,ν2,ν1 kan karakteriseres som fordelingen til etprodukt B1 · · ·Bν2 af uafhængige stokastiske variable, hvor Bi ∼ B(ν1−p+i

2 , p2 ). I Afsnit 9.9 side

95 vises, atUp,ν2,ν1 = Uν2,p,ν1+ν2−p.

Denne identitet kan vise sig nyttig i forbindelse med tabelopslag.Det er af stor praktisk betydning at kunne beregne testsandsynligheder baseret på Wilks test,

og i tidens løb er der foreslået forskellige approksimationer og endda angivet eksakte fordelingeri visse specialtilfælde.

Da Up,ν2,ν1 er fordelingen til Λ = Q2/n, hvor Q er en likelihood ratio testor, vil vi fra generelasymptotisk likelihood teori forvente, at −2lnQ = −n lnΛ vil være approksimativt χ2(pν2)-fordelt, idet pν2 er forskellen i dimensionen af parameterrummet under de to hypoteser.

En forbedring af dette resultat, som skyldes Bartlett (1947), er at benytte, at

−(ν1−12(p−ν2 +1)) lnΛ∼ χ

2(pν2). (9.28)

Denne approksimation er ret grov for små værdier af ν1, men Pearson & Hartley (1972,side 333) har, baseret på tabeller af Schatzoff (1966) og Pillai & Gupta (1969), tabelleret enkorrektionsfaktor C til χ2-fordelingen, så α = 0.95 eller α = 0.99 fraktilerne i fordelingen til

Page 91: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.6. LINEÆRE NORMALE MODELLER 87

− lnΛ kan findes for udvalgte værdier af p,ν2 og ν1− p+1 ved hjælp af de tilsvarende fraktileri χ2(pν2)-fordelingen. Man finder C = C(p,ν2,ν1− p+1,1−α) og χ2

α = χ2α(pν2) i tabellen,

og Cχ2α er så α-fraktilen i fordelingen til −(ν1− 1

2(p−ν2 + 1)) lnΛ. Af tabellen ses, at C gårmod 1, når ν1− p+1 vokser.

En yderligere forbedring er foreslået af Gupta og Richards (1983). Ifølge den kan manbenytte, at

−2(ν1− p+1)(ν1 +ν2−2)3ν1 +ν2− p−1

lnΛ∼ χ2(pν2). (9.29)

En anden type af approksimation benytter F fordelingen og skyldes Rao (1951). Ifølge denkan man benytte, at

F =1−Λ

1t

Λ1t

rt−2upν2

∼ F(pν2,rt−2u), (9.30)

hvor

r = ν1−12(p−ν2 +1),

u =pν2−2

4,

t =

p2ν22−4

p2+ν22−5

for p2 +ν22 −5 > 0

1 ellers.

Resultatet i (9.30) er eksakt hvis min{p,ν2} ≤ 2.

Eksempel 9.29Modellen vi betragter her omtales ofte som flerdimensional multipel regression. Det er i rea-liteten ikke et eksempel, men lineære normale modeller én gang til, idet de lineære normalemodeller i praksis ofte specificeres ved hjælp af forklarende variable i en n×q matriks T. Herbetragter vi kun en minimal version af flerdimensional multipel regression til brug for bevisetaf Sætning 9.30.

Lad Xi, i = 1, . . . ,n, være uafhængige og p-dimensional normalfordelte X∗i ∼ Np(t∗i B, Σ),hvor ti er en kendt q-dimensional vektor af forklarende variable hørende til Xi, og B er en q× pdimensional matriks af ukendte regressionskoefficienter, som kan variere frit. Definer n× qmatricen T af forklarende variable ved

T =

t∗1...

t∗n

={

t(1) · · · t(q)}

,

hvor den ite række t∗i , og t( j) er den jte søjle i T . Bemærk, at

T ∗ ={

t1 · · · tn}

=

t∗(1)

...t∗(q)

.

Page 92: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

88 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

og antag at T ∗T er regulær. Modellen er altså, at

X ∼ Nn×p(T B, In⊗Σ). (9.31)

Idet L1 defineres som det q-dimensionale underrum af Rn som udspændes af søjlerne i T og P1betegner den ortogonale projektion i Rn på L1 kan modellen formuleres

M1 : X ∼ Nn×p(M, In⊗Σ), med P1M = M.

Den ortogonale projektion på L1 er

P1 = T (T ∗T )−1T ∗. (9.32)

Maksimum likelihood estimatoren for M under H1 er

M = P1X = T (T ∗T )−1T ∗X ∼ Nn×p(M,P1⊗Σ),

som er uafhængig afSSD1 = X∗(In−P1)X = X∗InX−X∗P1X (9.33)

som, når n−q≥ p, er udgangspunkt for maksimum likelihood estimatet for Σ

Σ =1n

SSD1 ∼Wp(1n

Σ,n−q)

eller den centrale estimator for Σ

S1 =1

n−qSSD1 ∼Wp(

1n−q

Σ,n−q).

Det ses, at maksimum likelihood estimatet for B = ((T ∗T )−1T ∗(T B)) er

B = (T ∗T )−1T ∗X ∼ Nq×p(B,(T ∗T )−1⊗Σ),

der også er uafhængig af SSD1, da B er en funktion af M.Dernæst betragtes hypotesen B = 0, som svarer til M = 0 eller, idet P2 betegner projektionen

på nulrummet i Rn, tilM2: P2M = M.

I modellen M2 er

SSD2 = X∗(P1−P2)X = X∗P1X = X∗T (T ∗T )−1T ∗X ∼Wp(Σ,q), (9.34)

og er uafhængig af SSD1. Likelihood ratio testoren for reduktionen fra M1 til M2 er

Q2n =

|SSD1||SSD1 +SSD2|

som er uafhængig af estimatet for Σ i modellen M2

S02 =1n(SSD1 +SSD2),

der er Wp(1nΣ,n) fordelt.

I opgave 9.51 og 9.37 betragtes hypoteser i regressionsparametrene i B på formen ABC = D,hvor A, C og D er kendte matricer, og det vises, at hypoteserne svarer til lineære normale model-ler enten i de oprindelige variable eller i en lineær transformation af de oprindelige variable. �

Page 93: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.7. ESTIMATION AF PARTIELLE KORRELATIONER OG ESTIMATORERNES FORDELING 89

9.7 Estimation af partielle korrelationer og estimatorernes fordeling

Side 66 definerede vi den partielle kovarians σi j·k+1,...,p mellem Xi og X j (i, j ≤ k) for X (2) =(Xk+1, . . . ,Xp) fast som det (i, j)te element i matricen

Σ11·2 = Σ11−Σ12Σ−122 Σ21.

Maksimum likelihood estimatoren for σi j·k+1,...,p er det (i, j)te element i

Σ11·2 = Σ11− Σ12Σ−122 Σ21.

Da Σ er Wishart fordelt Wp(1nΣ,n−1), er fordelingen til Σ11·2 angivet, når vi har vist følgende

sætning.

Sætning 9.30 Lad W være Wp(Σ,N) fordelt og lad

W ={

W11 W12W21 W22

}og Σ =

{Σ11 Σ12Σ21 Σ22

}være opdelinger af W og Σ, så W11 og Σ11 er k×k matricer. Hvis N ≥ p−k og Σ22 er invertibel,så er

W11·2 = W11−W12W−122 W21 ∼Wk(Σ11−Σ12Σ

−122 Σ21,N− (p− k))

ogW11·2 og W22 er uafhængige.

Hvis yderligere Σ21 = 0 er

W11·2 ∼ Wk(Σ11,N− (p− k)),W12W−1

22 W21 ∼ Wk(Σ11, p− k)

ogW11·2,W12W−1

22 W21 og W22 er uafhængige.

Bevis W ’s fordeling er fordelingen tilX∗X

hvor X ∼ NN×p(0, IN ⊗ Σ). Lad X = (X (1),X (2)) være opdelingen af X , så X (1) er en N × kmatriks. Så er

W11 = X (1)∗X (1), W22 = X (2)∗X (2)

ogW12 = X (1)∗X (2).

Den betingede fordeling af X (1) givet X (2) = x(2) er

X (1)|X (2) = x(2) ∼ NN×k(x(2)Σ−122 Σ21, IN⊗Σ11·2), (9.35)

Page 94: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

90 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

og vi skal vise, at i denne fordeling er

W11·2(x(2)) = W11− (X (1)∗x(2))(x(2)∗x(2))−1(x(2)∗X (1)) (9.36)

Wishart fordelt Wk(Σ11·2,N−(p−k)). Men det er en umiddelbar konsekvens af Eksempel 9.29,idet (9.35) netop er en multipel regressionsmodel (9.31), hvor x(2) i (9.35) svarer til T i (9.31),Σ−122 Σ21 svarer til B og Σ11·2 svarer til Σ. Antagelsen, at T ∗T er invertibel, som benyttes i Eksem-

pel 9.29, er her opfyldt med sandsynlighed 1 på grund betingelserne Σ22 invertibel og N ≥ p−k.Det ses nu, at W11·2(x(2)) svarer til SSD1 i (9.33) og derfor er

W11·2(x(2))∼Wk(Σ11·2,N− (p− k)).

Da den betingede fordeling af W11·2(x(2)) givet X (2) = x(2) ikke afhænger af x(2), har

W11·2 = W11·2(X (2))

marginalt den samme fordeling, og W11·2 og X (2) er uafhængige. Dermed er også W11·2 og W22uafhængige.

Sætningens sidste påstand følger på samme måde ved at bemærke, at i (9.35) svarer Σ21 = 0til B = 0 i Eksempel 9.29, samt at

W12W−122 W21(x(2)) = X (1)∗x(2)(x(2)∗x(2))−1x(2)∗X (1)

svarer til SSD2 i (9.34) og er Wk(Σ11, p−k) fordelt og uafhængig af W11·2(x(2)) (SSD1 i Eksem-pel 9.27). Da den betingede fordeling af (W12W−1

22 W21, W11·2) givet X (2) = x(2) ikke afhængeraf x(2) er marginalfordelingen den samme, det vil sige W12W−1

22 W21 og W11·2 følger de angivneWishart fordelinger, og de er uafhængige. Endvidere er de uafhængige af X (2). �

Det følger af (9.35) at

W21|X (2) = x(2) ∼ N(p−k)×k(w22Σ−122 Σ21,w22⊗Σ11·2),

hvor w22 = x(2)∗x(2). Heraf følger at

W21|W22 = w22 ∼ N(p−k)×k(w22Σ−122 Σ21,w22⊗Σ11·2).

Desuden kan man vise, at

W11·2 og (W21,W22) er uafhængige

uanset om Σ21 er 0.Sammenholdes Sætning 9.24 side 77 og Sætning 9.30 ses, at fordelingen til estimatoren

ri j·k+1,...,p for den partielle korrelation ρi j·k+1,...,p baseret på en Wishart fordelt estimeret kova-riansmatriks med f frihedsgrader er den samme som fordelingen til estimatoren for den sæd-vanlige korrelationskoefficient baseret på en Wishart fordelt estimeret kovariansmatriks medf − (p− k) frihedsgrader med korrelation ρi j·k+1,...,p. Formuleret som en sætning har vi

Page 95: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.8. FORDELINGEN AF DEN MULTIPLE KORRELATIONSKOEFFICIENT 91

Sætning 9.31 Hvis tætheden for ri j baseret på en Wishart fordelt estimeret kovariansmatriksmed f frihedsgrader af matricen {ρi j} betegnes med f (r; f ,ρi j), så er tætheden for ri j·k+1,...,pbaseret på en Wishart fordelt estimeret kovariansmatriks med f frihedsgrader f (r; f − (p−k),ρi j·k+1,...,p). �

Specielt kan Fishers Z-transformation benyttes på estimerede partielle korrelationer som detbenyttes i Eksempel 9.32 side 93. Desuden kan testet for hypotesen ρi j·k+1,...,p = 0 testes medteststørrelsen √

f − (p− k)−1ri j·k+1,...,p√

1− r2i j·k+1,...,p

, (9.37)

som er t( f − (p− k)−1) fordelt. Dette resultat er analogt til resultatet i Afsnit 8.3.Resultatet i Sætning 9.31 blev vist af Fisher (1924a).

9.8 Fordelingen af den multiple korrelationskoefficient

Den multiple korrelationskoefficient mellem Xi og X (2) blev side 66 defineret som den maksi-male korrelation mellem Xi og alle mulige linearkombinationer af komponenterne i X (2). For atforenkle notationen betragtes den multiple korrelation mellem X1 og X2, . . . ,Xp, og vi dropperindices på R. Ifølge Opgave 9.8 har vi, at

R =β ∗Σ22β√σ11β ∗Σ22β

=

√β ∗Σ22β√

σ11=

√σ∗(1)Σ

−122 σ(1)

σ11, (9.38)

hvor β , σ(1) og Σ22 defineres ved

Σ ={

σ11 σ∗(1)σ(1) Σ22

},

ogβ = Σ

−122 σ(1).

Her betegner vi 1×1 matricen Σ11 med σ11 og (p−1)×1 matricen Σ21 med σ(1). Maksimumlikelihood estimatoren, R, for R fås ved at indsætte de tilsvarende størrelser fra Σ i udtrykket forR. Det vil sige, at

R =

√σ∗(1)Σ

−122 σ (1)

σ11=

√w∗(1)W

−122 w(1)

w11, (9.39)

hvor

nΣ ={

w11 w∗(1)w(1) W22

}.

Det viser sig lettest at finde fordelingen til R2/(1−R2), som er en monoton funktion af R, daR ∈ [0,1]. Af (9.39) ses, at

R2 =w∗(1)W

−122 w(1)

w11

Page 96: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

92 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

1−R2 =w11−w∗(1)W

−122 w(1)

w11

=w11·2w11

ogR2

1−R2 =w∗(1)W

−122 w(1)

w11·2.

Vi finder kun fordelingen i tilfældet β = 0, det vil sige σ(1) = 0. Fra Sætning 9.30, med N = n−1og k = 1 fås direkte, at w11·2 er σ11·2χ2(n−1− (p−1))-fordelt og uafhængig af w∗(1)W

−122 w(1)

som er σ11·2χ2(p−1)-fordelt. Følgelig er

R2

1−R2 ·n−1− (p−1)

p−1∼ F(p−1,n−1− (p−1)).

For p = 2, hvor R er korrelationen mellem X1 og X2, er dette resultat kendt fra Afsnit 8.3 iKapitel 8 Den todimensionale normalfordeling.

Vi har hermed fundet fordelingen til

1−Q2/n

Q2/n=

R2

1−R2

under hypotesen, at den multiple korrelationskoefficient mellem Xi1 og X (2)i = (Xi2, . . . ,Xip)∗ er

0, hvor Q2/n er likelihood ratio testoren for den hypotese, jævnfør Opgave 9.12.Fordelingen af R når β = 0 blev angivet af Fisher (1924b,c) og når β 6= 0 af Fisher (1928).

Eksempel 9.32R. H. Hooker (1907) har i artiklen The correlation of the weather and crops data over 20 årfor udbyttet af hø i hundredweights per acre (x1), forårsnedbør i inches (x2) og akkumulerettemperatur over 42◦F om foråret (x3). Estimater i modellen: „20 uafhængige observationer frasamme tredimensionale normalfordeling“ er

µ ← x· = (28.02, 4.91, 594)

(√

σ11,√

σ22,√

σ33)← (4.42, 1.10, 85)

P←

1 ρ12 ρ13

ρ21 1 ρ23ρ31 ρ32 1

=

1.00 0.80 −0.400.80 1.00 −0.56−0.40 −0.56 1.00

Af korrelationsmatricen ses, at udbyttet er positivt korreleret med nedbør, men udbytte og tem-peratur samt nedbør og temperatur er negativt korreleret. Hvordan skal den negative korrelationmellem udbytte og temperatur fortolkes? Forårsager høj temperatur lavt udbytte, eller er der ensammenhæng mellem høj temperatur og lille nedbør og deraf følgende lavt udbytte?

Page 97: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.8. FORDELINGEN AF DEN MULTIPLE KORRELATIONSKOEFFICIENT 93

Svaret gives af den partielle korrelation mellem udbytte og temperatur for fast nedbør:

ρ13·2 =ρ13− ρ12ρ23√

1− ρ212

√1− ρ2

23

= 0.097

(jævnfør opgave 9.10). Man ser altså, at når effekten af nedbør fjernes, er der en positiv estimeretkorrelation mellem udbytte og temperatur.

Tilsvarende er estimatet for den partielle korrelation mellem udbytte og nedbør for fasttemperatur

ρ12·3 =ρ12− ρ13ρ23√

1− ρ213

√1− ρ2

23

= 0.759.

Ifølge Sætning 9.31 er fordelingen til ρ12·3, som er baseret på n = 20 observationer, den sam-me som fordelingen til en sædvanlig korrelation baseret på n− 1 = 19 observationer. Et 95 %konfidensinterval for ρ12·3 kan konstrueres ved hjælp af Fishers Z, jævnfør Kapitel 8, Afsnit 4.

Idet

Z =12

log1+ ρ12·31− ρ12·3

og

ζ0 =12

log1+ρ0

1−ρ0

accepteres H0 : ρ12·3 = ρ0, hvis

−1.96≤√

20−1−3(Z−ζ0)≤ 1.96.

Dette giver konfidensintervallet [0.5039, 1.4839] for ζ0, som kan transformeres til konfiden-sintervallet [0.48, 0.90] for ρ12·3.

Disse data kan også illustrere brugen af den multiple korrelationskoefficient. Den estimeredemultiple korrelation mellem udbytte og de to andre variable nedbør og temperatur er

R1·23 =

√ρ2

12 + ρ213− ρ2

12ρ213ρ2

23

1− ρ223

= 0.802

(jævnfør Opgave 9.9). Store værdier af R1·23 er ifølge Opgave 9.12 kritiske for hypotesenR1·23 = 0 det vil sige, at høudbyttet er uafhængigt af nedbør og temperatur. Ønsker vi at te-ste hypotesen, kan det ifølge ovenstående gøres ved at vurdere

R21·23

1−R21·23· n−1− (p−1)

p−1= 15.3.

i en F(p−1,n−1−(p−1)) = F(2, 17) fordeling. Testsandsynligheden er 0.0002, så hypotesenmå forkastes.

Page 98: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

94 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

9.9 Tests for uafhængighed mellem komponenter

Vi betragter en lineær normal model specificeret ved det d-dimensionale underrum L af Rn, detvil sige

X ∼ Nn×p(M, In⊗Σ)

ogPM = M,

hvor P er den ortogonale projektion på L i Rn. Lad H0 betegne hypotesen, at Σ er regulær, menuspecificeret. Lad

X = {X (1) · · · X (q)}

være en opdeling af X , så X (i) ∼ Nn×pi(M(i), In⊗Σii). Vi skal udlede likelihood ratio testoren

for hypotesen, at X (1), . . . ,X (q) er indbyrdes uafhængige, eller med andre ord

H1: Σ =

Σ11 0 · · · 00 Σ22 · · · 0...

......

...0 0 · · · Σqq

.

Fra Afsnit 9.6 fås umiddelbart, at likelihood funktionens maksimum under grundmodellener

L(PX ,1n

SSD) =(

12π

) np2(

1|1nSSD|

) n2

e−np2 ,

hvor SSD = X∗(In−P)X .Under H1 spalter likelihood funktionen i et produkt af q likelihood funktioner for lineære

normale modeller, og likelihood funktionens maksimum bliver

L(PX , Σ11, . . . , Σqq) =q

∏i=1

(1

) npi2(

1|1nSSDi|

) n2

e−npi2

=(

12π

) np2

1q∏i=1|1nSSDi|

n2

e−np2 ,

hvor SSDi = X (i)∗(In−P)X (i). Likelihood ratio testoren er så

Q =(

|SSD||SSD1| . . . |SSDq|

) n2

. (9.40)

Page 99: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.9. TESTS FOR UAFHÆNGIGHED MELLEM KOMPONENTER 95

Vi vil kun udlede fordelingen til Q2/n i specialtilfældet q = 2. Da er

Q2n =

|SSD||SSD1||SSD2|

=|SSD2||SSD1−SPD12SSD−1

2 SPD21||SSD1||SSD2|

=|SSD1−SPD12SSD−1

2 SPD21||SSD1|

,

idet

SSD ={

X (1)∗(In−P)X (1) X (1)∗(In−P)X (2)

X (2)∗(In−P)X (1) X (2)∗(In−P)X (2)

}={

SSD1 SPD12SPD21 SSD2

},

og vi forudsætter, at n−d ≥ p2, og at Σ22 er invertibel. Af Sætning 9.30 følger umiddelbart, atunder H1, det vil sige Σ21 = 0, er

SSD1−SPD12SSD−12 SPD21 ∼Wp1(Σ11,n−d− p2)

ogSPD12SSD−1

2 SPD21 ∼Wp1(Σ11, p2)

og de er uafhængige. Derfor erQ

2n ∼Up1,p2,n−d−p2. (9.41)

Havde vi forudsat Σ11 invertibel og n−d ≥ p1 kunne vi benytte, at |SSD|= |SSD1||SSD2−SPD21SSD−1

1 SPD12|, og vi ville få at

Q2n ∼Up2,p1,n−d−p1.

Dette viser det i Afsnit 9.6 side 86 bebudede resultat, at Up,ν2,ν1 = Uν2,p,ν1+ν2−p.Testoren Q i (9.41) er likelihood ratio testoren for hypotesen B = Σ

−122 Σ21 = 0 i den betingede

fordeling af X (1) givet X (2) = x(2). Det er en vigtig iagttagelse, som kan udnyttes til at udføretestet for uafhængighed af to komponenter ved hjælp af PROC GLM, se side 103.

For generelt q er fordelingen til Q2/n ikke tabellagt. Testsandsynligheden kan alligevel ud-regnes ved hjælp af en tabel over χ2-fordelingen. Dette skyldes et arbejde af G.E.P. Box (1949),som lavede en asymptotisk udvikling af fordelingen til en stokastisk variabel V , 0 ≤ V ≤ 1,som har samtlige momenter givet på en bestemt form. Box’s resultat finder anvendelse på enlang række likelihood ratio testorer for hypoteser i den flerdimensionale normalfordeling. I detkonkrete tilfælde er approksimationen til fordelingen til Q2/n givet ved

P{−m logQ2n ≤ z} ≈ P{χ2

f ≤ z}+ γ2

m2 [P{χ2f +4 ≤ z}−P(χ

2f ≤ z}] (9.42)

hvor χ2f er en stokastisk variabel som er χ2-fordelt med f frihedgrader,

f =12[p(p+1)−

q

∑i=1

pi(pi +1)] =12[p2−

q

∑i=1

p2i ]

ρ = 1−2(p3−∑

qi=1 p3

i )+9(p2−∑qi=1 p2

i )6n(p2−∑

ni=1 p2

i )m = ρn

Page 100: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

96 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

og

γ2 =p4−Σp4

i48

−5(p2−∑

qi=1 p2

i )96

−(p3−∑

qi=1 p3

i )2

72(p2−∑qi=1 p2

i ).

For detaljer om udledningen af (9.42) henvises til T.W. Anderson (1984) §8.5 og §9.4 eller T.W.Anderson (1958) §8.6 og §9.5.

9.10 Test for identitet af kovariansmatricer

Lad Xi ∼ Nni×p(Mi, Ini⊗Σi), i = 1, . . . ,q, være indbyrdes uafhængige, og lad Mi opfylde kravettil en lineær normal model for hvert i:

PiMi = Mi,

hvor Pi er den ortogonale projektion i Rni på Li, som har dimension di. Betragt hypoteserne

H0: Σ1, . . . ,Σq regulære og ukendte.

H1: Σ1 = . . . = Σq = Σ, som er regulær og ukendt.

Fra Afsnit 9.6 fås, at likelihood funktionens maksimum under H0 er

L(M1, . . . ,Mq, Σ1, . . . , Σq) =q

∏i=1

(1

) ni p2(

1|Σi|

) ni2

e−ni p2 ,

hvorMi = PiXi

og

Σi =1ni

X∗i (Ini−Pi)Xi =1ni

SSDi.

Under H1 er

X =

X1...

Xq

∼ Nn×p(

M1...

Mq

, In⊗Σ),

hvor n = n1 + . . .+nq. X følger da en lineær normal model specificeret ved underrummet

L = L1×·· ·×Lq

af Rn. Den ortogonale projektion på L er

P =

P1 0 · · · 00 P2 · · · 0...

......

...0 0 · · · Pq

.

Page 101: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

9.10. TEST FOR IDENTITET AF KOVARIANSMATRICER 97

Det følger da af Afsnit 9.6, at likelihood funktionens maksimum under H1 er

L(M, Σ) =(

12π

) np2(

1|Σ|

) n2

e−np2 ,

hvor

M = PX =

M1

...Mq

,

og

Σ =1n

X∗(In−P)X =1n

q

∑i=1

X∗i (Ini−Pi)Xi

=1n

q

∑i=1

SSDi =1n

SSD.

Likelihood ratio testoren for H1 er da

Q =

q∏i=1|SSDi|

ni2

|q∑

i=1SSDi|

n2

nnp2

q∏i=1

nni p2

i

. (9.43)

I tilfældet p = 1 er Q lig med Bartletts testor, når stikprøvestørrelserne ni,n erstattes med fri-hedsgraderne fi = ni−di og f = ∑

qi=1 fi. Hvis man havde taget udgangspunkt i de q uafhængige

og Wd(Σi, fi) fordelte SSDier og i denne model havde testet H1, ville man have fået likelihoodratio testoren

Q1 =

q∏i=1|SSDi|

fi2

|q∑

i=1SSDi|

f2

ff p2

q∏i=1

ffi p2

i

. (9.44)

Udledningen kræver, at man har tætheden for en Wishart fordelt stokastisk variabel til rådighed,men den har vi valgt ikke at angive i disse noter.

Det er Q1 man benytter til at teste H1. Om fordelingen til Q1 vil vi nøjes med at nævne, atalle momenter for Q1 kan findes, og de er på en sådan form, at Boxs resultater fra 1949 kananvendes. Heraf fås følgende approksimation til fordelingen til −2logQ1

P{−2ρ logQ1 ≤ z} ≈ P{χ2k ≤ z}+ω2[P{χ2

k+4 ≤ z}−P{χ2k ≤ z}]. (9.45)

Her er χ2k en stokastisk variabel med en χ2-fordeling med k frihedsgrader,

k =12(q−1)p(p+1),

ρ = 1− (q

∑i=1

1fi− 1

f)

2p2 +3p−16(p+1)(q−1)

,

Page 102: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

98 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

og

ω2 =p(p+1)[(p−1)(p+2)(

q∑

i=1

1f 2 − 1

f 2 )−6(q−1)(1−ρ)2]

48ρ2 .

Bemærk, at (9.45) er en forbedring af den umiddelbare approksimation−2logQ1∼ χ2(k), hvork er reduktionen i antallet af frie parametre ved at gå fra H0 til H1. For detaljer om udledningenaf (9.45) henvises til T.W. Anderson (1958), §10.5 og §8.6 eller T.W. Anderson (1984), §10.5og §8.5.

Page 103: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 99

Anneks til Kapitel 9

Beregninger i SAS

Vi henviser til Beregninger i SAS i Annex til Kapitel 8 for

1. Kontrol for flerdimensional normalfordeling, som beskrevet i Afsnit 8.9. Se side 38.

2. Estimation af korrelationer og test af hypotesen, at en korrelation er 0, med PROC CORR.Se side 40.

3. Estimation af middelværdi og varians i en flerdimensional normalfordeling med PROCGLM. Se side 41.

4. Beregning af Hotellings T 2 for en simpel middelværdihypotese. Se side 42.

Her vil vi kort illustrere, hvordan man kan få udført Bartletts test, og hvordan man kanbenytte PROC GLM til at analysere lineære normale modeller og teste uafhængighed af kom-ponenter i den p dimensionale normalfordeling. Til illustrationen benyttes data fra Eksempel8.2.

Til slut viser vi, hvordan beregninger på vektorer og matricer let kan udføres med PROCIML.

Bartletts test

Vi minder om, at data i Eksempel 8.2 er den naturlige logaritme til længde og vægt af 18 og 23unge skruptudser, som var fanget henholdsvis den 24. juli og den 16. august samme år. Data erindlæst i et SAS datasæt på følgende måde.

PROC FORMAT;VALUE $tidfmt ’1’=’75-07-24’ ’2’=’75-08-16’;

RUN;

DATA tudser;INPUT tid$ ln_laeng ln_vaegt@@;FORMAT tid $tidfmt.;DATALINES;1 2.83 5.86 1 2.86 5.97 1 2.83 5.97 1 2.71 5.47 1 2.89 5.961 2.67 5.31 1 2.74 5.72 1 2.71 5.50 1 2.80 5.79 1 2.83 5.931 2.77 5.65 1 2.74 5.59 1 2.86 5.96 1 2.67 5.39 1 2.89 6.061 2.92 6.13 1 2.71 5.50 1 3.00 6.272 2.97 6.22 2 3.00 6.23 2 3.26 7.03 2 3.07 6.50 2 3.09 6.682 3.14 6.65 2 3.14 6.84 2 3.14 6.55 2 3.00 6.27 2 3.09 6.602 3.11 6.59 2 3.00 6.38 2 3.04 6.44 2 3.20 6.79 2 3.04 6.482 3.20 6.93 2 3.00 6.23 2 3.16 6.82 2 3.07 6.58 2 3.00 6.362 3.09 6.64 2 3.07 6.64 2 3.11 6.68;RUN;

Page 104: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

100 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

Herefter indeholder SAS datasættet tudser de tre variable ln_laeng, ln_vaegt og tid.Variablen tid skelner mellem de to stikprøver og formatet tidfmt, der defineres i PROC FORMAT,knyttes i FORMAT sætningen i programmet til tid, som så indeholder de eksakte datoer for fang-sten. Fordelen ved dette er, at udskriften bliver informativ samtidig med, at kodningen af databliver enkel.

En rimelig model er to normalfordelte observationsrækker fra den todimensionale normal-fordeling. Testet for ens varians i de to observationsrækker kan udføres ved hjælp af PROCDISCRIM, som udfører diskriminansanalyse. Diskriminansanalyse er teknikker til at opdeleindivider, som man har målt et antal variable på, i grupper. Én af teknikkerne forudsætter fler-dimensional normalfordeling med fælles varians, og det kontrolleres med Bartletts test i PROCDISCRIM, som det illustreres i følgende programstump.

PROC DISCRIM DATA=tudser WCOV WSSCP METHOD=normal POOL=test MANOVA;CLASS tid;

var ln_laeng ln_vaegt;RUN;

En del af udskriften er gengivet nedenfor. Det fremgår af udskriften, at det præcis er testeti (9.43) der benyttes, og at testsandsynligheden beregnes på grundlag af (9.45), men kun medførste led på højresiden af (9.45).

4

The DISCRIM ProcedureTest of Homogeneity of Within Covariance Matrices

Notation: K = Number of Groups

P = Number of Variables

N = Total Number of Observations - Number of Groups

N(i) = Number of Observations in the i’th Group - 1

__ N(i)/2|| |Within SS Matrix(i)|

V = -----------------------------------N/2

|Pooled SS Matrix|

_ _ 2| 1 1 | 2P + 3P - 1

RHO = 1.0 - | SUM ----- - --- | -------------|_ N(i) N _| 6(P+1)(K-1)

DF = .5(K-1)P(P+1)_ _

| PN/2 || N V |

Under the null hypothesis: -2 RHO ln | ------------------ || __ PN(i)/2 ||_ || N(i) _|

is distributed approximately as Chi-Square(DF).

Page 105: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 101

Chi-Square DF Pr > ChiSq

2.159134 3 0.5400

PROC GLM og lineære normale modeller i Np

Som beskrevet ovenfor indeholder datasættet tudser de tre variable ln_laeng, ln_vaegt ogtid. Modeller i SAS formuleres som beskrevet i Eksempel 9.29 ved hjælp af flerdimensio-nal multipel regression. De p variable på venstre side af lighedstegnet i modelsætningen udgørsøjlerne i n× p matricen af data X (her de variable ln_laeng og ln_vaegt), og de variablepå højresiden af lighedstegnet af modelsætningen definerer de q variable i n× q matricen afforklarende variable T . I det konkrete eksempel er klassevariablen tid eneste variabel på høj-residen af modelsætningen, og det giver anledning til to forklarende variable svarende til de togrupper, som tid deler data i. Udover at definere en lineær normal model i den p dimensio-nale normalfordeling, defineres også den samme lineære normale model for hver variabel påvenstresiden af lighedstegnet i modelsætningen. Hvis man ikke specificerer /NOUNI, vil man fåudført beregningerne for alle variable på venstresiden af lighedstegnet.

Nedenstående program:

PROC GLM DATA=tudser;CLASS tid;MODEL ln_laeng ln_vaegt=tid/NOUNI;MANOVA H=tid/PRINTE;*LSMEANS tid/ALPHA=0.05 CL;RUN;

giver følgende udskrift:

1

The GLM Procedure

Class Level Information

Class Levels Values

tid 2 75-07-24 75-08-16

Number of observations 412

The GLM ProcedureMultivariate Analysis of Variance

E = Error SSCP Matrix

ln_laeng ln_vaegt

ln_laeng 0.2737717391 0.7808862319ln_vaegt 0.7808862319 2.4104770531

Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|

Page 106: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

102 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

DF = 39 ln_laeng ln_vaegt

ln_laeng 1.000000 0.961262<.0001

ln_vaegt 0.961262 1.000000<.0001

3

The GLM ProcedureMultivariate Analysis of Variance

Characteristic Roots and Vectors of: E Inverse * H, whereH = Type III SSCP Matrix for tid

E = Error SSCP Matrix

Characteristic Characteristic Vector V’EV=1Root Percent ln_laeng ln_vaegt

3.01727494 100.00 2.50388598 -0.210515690.00000000 0.00 -6.46592474 2.32725928

MANOVA Test Criteria and Exact F Statisticsfor the Hypothesis of No Overall tid Effect

H = Type III SSCP Matrix for tidE = Error SSCP Matrix

S=1 M=0 N=18

Statistic Value F Value Num DF Den DF Pr > F

Wilks’ Lambda 0.24892496 57.33 2 38 <.0001Pillai’s Trace 0.75107504 57.33 2 38 <.0001Hotelling-Lawley Trace 3.01727494 57.33 2 38 <.0001Roy’s Greatest Root 3.01727494 57.33 2 38 <.0001

På SAS side 2 angives en matriks, som betegnes E = Error SSCP Matrix. Det er matricenSSD1 i notationen fra side 86, som divideret med frihedsgraderne giver det middelværdiretteestimatet for Σ. Desuden angives derefter den estimerede korrelationsmatriks, samt for hverenkelt estimeret korrelation, testsandsynligheden for at den tilhørende teoretiske korrelation er0. Denne testsandsynlighed er baseret på (9.37).

På SAS side 3 findes fire test for reduktionen fra den lineære normale model, der er speci-ficeret i modelsætningen, til den lineære normale model, der fremkommer, når leddet i manovasætningen (her tid) fjernes fra højresiden af modelsætningen. Desuden angives approksimati-ve/eksakte F-test samt testsandsynligheder. Likelihood ratio testet (9.27) side 86 betegnes i SASudskriften med Wilks’ lambda. Det approksimative/eksakte F-test, der angives som fordelingfor Wilks test, er beskrevet i (9.30) side 87. De fire teststørrelser er iøvrigt forklaret i Opgave9.36.

Bemærk desuden, at værdien Value af Wilks’ Lambda blev angivet i den afsluttende be-handling af Eksempel 8.2 side 36 til 0.249 og værdien F af transformationen i (8.52) blev angiveti (8.54) til 57.3.

Det fremgår, at modellen ikke kan reduceres, så det er rimeligt at estimere parametrene imodellen. Med kommandoen

Page 107: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 103

LSMEANS tid/ALPHA=0.05 CL;RUN;

kan man få estimater for middelværdierne, samt konfidensintervaller. Det giver følgende ud-skrift:

The GLM ProcedureLeast Squares Means

ln_laeng ln_vaegttid LSMEAN LSMEAN

75-07-24 2.80166667 5.7794444475-08-16 3.08652174 6.57086957

ln_laengtid LSMEAN 95% Confidence Limits

75-07-24 2.801667 2.761722 2.84161175-08-16 3.086522 3.051185 3.121859

ln_vaegttid LSMEAN 95% Confidence Limits

75-07-24 5.779444 5.660919 5.89797075-08-16 6.570870 6.466016 6.675724

PROC GLM og test for uafhængighed i Np

Likelihood ratio testet for uafhængighed mellem q komponenter i den p dimensionale normal-fordeling baseret på data i den n× p dimensionale normalfordeling er angivet i (9.40) i Afsnit9.9. Men kun i specialtilfældet q = 2 er fordelingen udledt og brugbare approksimationer tilfordelingen angivet, jævnfør (9.41) og (9.42). Grunden til, at PROC GLM kan bruges i bereg-ningerne, er, at testoren Q i (9.41) er likelihood ratio testoren for hypotesen B = Σ

−122 Σ21 = 0 i

den betingede fordeling af X (1) givet X (2) = x(2), hvor X (1) og X (2) betegner de to komponenteraf X . I Eksempel 8.2 med ln_laeng som den eneste søjle i X (1) og ln_vaegt som den enestesøjle i X (2) ser SAS programmet således ud.

PROC GLM DATA=tudser;CLASS tid;MODEL ln_laeng = tid ln_vaegt/SS1 SOLUTION;MANOVA H=ln_vaegt/PRINTE;RUN;

I forhold til SAS programmet, der specificerer den lineære normale model for X , er derkun foretaget to ændringer. For det første er søjlerne i X (2) flyttet fra venstre- til højresidenaf lighedstegnet i modelformlen, og søjlerne i X (2) er angivet i manovasætningen. Bemærk,at de søjler, der definerer den lineære normale model for X stadig skal stå på højresiden aflighedstegnet i modelsætningen.

Det giver følgende udskrift:

Page 108: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

104 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

The GLM Procedure

Class Level Information

Class Levels Values

tid 2 75-07-24 75-08-16

Number of observations 41The GLM Procedure

Multivariate Analysis of Variance

E = Error SSCP Matrix

ln_laeng

ln_laeng 0.0207996951The GLM Procedure

Multivariate Analysis of Variance

Characteristic Roots and Vectors of: E Inverse * H, whereH = Type I SSCP Matrix for ln_vaegt

E = Error SSCP Matrix

CharacteristicCharacteristic Vector V’EV=1

Root Percent ln_laeng

12.1622958 100.00 6.93380327

MANOVA Test Criteria and Exact F Statistics forthe Hypothesis of No Overall ln_vaegt Effect

H = Type I SSCP Matrix for ln_vaegtE = Error SSCP Matrix

S=1 M=-0.5 N=18

Statistic Value F Value Num DF Den DF Pr > F

Wilks’ Lambda 0.07597459 462.17 1 38 <.0001Pillai’s Trace 0.92402541 462.17 1 38 <.0001Hotelling-Lawley Trace 12.16229576 462.17 1 38 <.0001Roy’s Greatest Root 12.16229576 462.17 1 38 <.0001

Transformationen (9.30) anvendt på Wilks testor har i denne situation en eksakt F(1,38)fordeling.

Dette eksempel er meget enkelt, idet både X (1) og X (2) kun indeholder én søjle. Man behøverderfor ikke at benytte den multivariate tilføjelse i PROC GLM for at teste hypotesen, men mankunne bruge følgende programstump, som specificerer en lineær regression af ln_laeng påln_vaegt med forskellig afskæring for de to fangster.

PROC GLM DATA=tudser;CLASS tid;MODEL ln_laeng = tid ln_vaegt/SS1 SOLUTION;RUN;

Et udpluk af udskriften herfra er vist nedenfor.

Page 109: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 105

Source DF Type I SS Mean Square F Value Source Pr > F

tid 1 0.81934046 0.81934046 1496.89 tid <.0001

ln_vaegt 1 0.25297204 0.25297204 462.17 ln_vaegt <.0001

StandardParameter Estimate Error t Value Pr > |t|

Intercept 0.9578553126 B 0.09913671 9.66 <.0001tid 75-07-24 -.0284689021 B 0.01401559 -2.03 0.0493tid 75-08-16 0.0000000000 B . . .ln_vaegt 0.3239550573 0.01506903 21.50 <.0001

Testet for hældning 0 kan aflæses to steder. Dels som F teststørrelsen 462.17, der skalvurderes i F(1,38) fordeling, og dels som t teststørrelsen 21.50, der skal vurderes i en t(38)fordeling. Sammenhængen mellem F og t testene er, at F = t2. Det interessante her er, at Ftestet i den simple regressionsmodel er lig med (9.30) transformationen af Wilks test.

Endelig bemærker vi, at testet for uafhængighed mellem ln_vaegt og ln_laeng kan ba-seres på den estimerede korrelation mellem de to variable. På SAS side 2 side 102 aflæses denempiriske korrelation til 0.961262. Denne korrelation er beregnet ud fra en empirisk kovari-ansmatriks, som er en realisation af en Wishart fordelt matriks med 39 frihedsgrader. Hypotesenom korrelation 0 kan i analogi med resultatet i Afsnit 8.3 testes med

√39−1

0.961262√1−0.9612622

= 21.50, (9.46)

som skal vurderes i en t fordeling med med 39−1 = 38 frihedsgrader. Numerisk store værdierer kritiske. Det er naturligvis nøjagtigt samme værdi som t testet i udskriften ovenfor, idet testetfor ingen korrelation er ækvivalent med test for hældning 0 i en lineær regression.

IML - Interactive Matrix Language

Alle de viste test i lineære normale modeller, i test for uafhængighed og i test for varians-homogenitet er likelihoodratioteststørrelserne forholdsvis enkle funktioner af determinanter afmatricer. Vi benytter lejligheden til at gøre opmærksom på SASs modul Interactive MatrixLanguage (IML), som startes med kommandoen PROC IML. Alle beregninger, som er beskreveti dette kapitel kan let laves i IML. Nedenstående programstump ligger på filen kork_1.sas ikatalogethttp://home.imf.au.dk/statbib/atskurser/stat1/opgaver/flerdimensional_normalfordeling/opgave_51/.Programstumpen viser, hvordan man udfører følgende nyttige operationer.

1. Indlæsning af variable fra et SAS datasæt i en matriks.

2. Definition af en matriks til transformation af data.

3. Diverse matriksoperationer: multiplikation, transponering, invertering.

Page 110: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

106 KAPITEL 9. FLERDIMENSIONALE NORMALFORDELTE DATA

4. Udskrivning til OUTPUT vinduet.

5. Overførsel af søjler i matriks til variable i et SAS datasæt.

Bemærk, at selv om programstumpen har form som et batch job, er IML interaktivt, så indtilman har afsluttet PROC IML med QUIT;, kan man udføre nye beregninger og se resultaterne ioutput vinduet med en passende PRINT kommando.

OPTIONS LS=72 PS=45 NODATE PAGENO=1;DATA kork;j=1;INPUT nord oest syd vest;DATALINES;72 66 76 77. . . .

48 54 57 43;

PROC IML;USE kork;/*indlaesning af variable fra kork som soejler i matriks */READ ALL VAR {nord oest syd vest} INTO x;x_cols= {nord oest syd vest};

READ ALL VAR {j} INTO j;j_cols= {j};

n = j‘*j; /* antal observationer */

/* beregning af SSD og S matricer */SSD = (X- (1/n)#j*j‘*X)‘*(X- (1/n)#j*j‘*X);S = 1/(n-1)#SSD;PRINT SSD [colname=x_cols rowname=x_cols];

/* definition af matriks til transformation af data */C={-1 -1 -1, 1 0 0, 0 1 0, 0 0 1};c_cols={don dsn dvn};PRINT C [colname=c_cols];

/* Y er et transformeret datasaet */Y=X*C;y_cols={don dsn dvn};

Page 111: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

BEREGNINGER I SAS 107

/* beregning af SSD og S matricer for Y-data */SSDY = (Y- (1/n)#j*j‘*Y)‘*(Y- (1/n)#j*j‘*Y);SY = 1/(n-1)#SSDY;/* Hotellings t^2 og F-fordelt version */tianden=n#(1/n)#j‘*Y*inv(SY)*((1/n)#j‘*Y)‘;tiandenF=(n-3)#tianden/(3#(n-1));testss=1-PROBF(tiandenF,3,25);PRINT tiandenF;PRINT testss;

/* udskrivning af matriks til datasaet;soejlerne bliver til variable */

ynames={don dsn dvn};CREATE y FROM y [ colname=ynames] ;APPEND FROM y;

QUIT;

I PROC IML kommandoerne har vi benyttet j‘ til at betegne den transponerede af vektoren j.Det er også muligt at angive den transponerede af j som t(j).Resultatet af PRINT kommandoerne i ovenstående PROC IML program ses nedenfor.

The SAS System 1

SSD NORD OEST SYD VEST

NORD 7840.9643 6041.3214 7787.8214 6109.3214OEST 6041.3214 5938.1071 6184.6071 4627.1071SYD 7787.8214 6184.6071 9450.1071 7007.6071VEST 6109.3214 4627.1071 7007.6071 6102.1071

C DON DSN DVN

-1 -1 -11 0 00 1 00 0 1

TIANDENF6.4018574

TESTSS0.0022804

Page 112: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005
Page 113: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Litteratur

[1] Anderson, T.W. (1958): An Introduction to Multivariate Statistical Analysis. New York:John Wiley & Sons.

[2] Anderson, T.W. (1984): An Introduction to Multivariate Statistical Analysis. Second Edi-tion. New York: John Wiley & Sons.

[3] Bartlett, M.S. (1947): Multivariate Analysis, J. Roy. Statist. Soc. Supple., 9(B), 176-197.

[4] Box, G.E.P. (1949): A general distribution theory for a class of likelihood criteria. Biome-trika 36, 318-335.

[5] Fisher, R.A. (1924a): The distribution of the partial correlation coefficient. Metron 3, 329-332.

[6] Fisher, R.A. (1924c): The influence of rainfall on the yield of wheat at Rothamstead. Phi-losophical Transactions of the Royal Society of London, B. 213, 89-142.

[7] Fisher, R.A. (1928): The general sampling distribution of the multiple correlation coeffi-cient. Proceedings of the Royal Society of London, A, 121, 654-673.

[8] Fisher, R.A. (1924b): On a distribution yielding the error functions of several well-knownstatistics. Proceedings of the International Congress of Mathematics, Toronto, 2, 805-813.

[9] Graversen, S.E. (1997): Sandsynlighedsteori I. Dept. Theor. Statist., Aarhus University.

[10] Gupta, R.D. and Richards, D.S.P. (1983): Application of results of Kotz, Johnson, andBoyd to the null distribution of Wilks’ criterion, Contributions to statistics: Essays inhonor of Norman Lloyd Johnson, Ed. P.K. Sen, Amsterdam: North Holland, 205-210.

[11] Hoffmann-Jørgensen, J. (1994): Probability with a View towards Statistics. London: Chap-man & Hall.

[12] Hooker, R. H (1907): The correlation of the weather and crops. Journal of the Royal Sta-tistical Society, 70, 1-42.

[13] Hotelling, H. (1931): The generalisation of Student’s ratio. Annals of Mathematical Stati-stics, 2, 360-378.

109

Page 114: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

110 LITTERATUR

[14] Pearson, E.S. & Hartley, H.0. (1972): Biometrika tables for statisticians. Vol. 2. Cambrid-ge: Cambridge University Press.

[15] Pillai, K.C.S. & Gupta, A.K. (1969): On the exact distribution of Wilks’ criterion. Biome-trika 56, 109-118.

[16] Rao, C.R. (1951): An asymptotic expansion of the distribution of Wilks’ criterion. Bull.Inst. Inter. Statist. XXXIII(2), 177-180.

[17] Schatzoff, M. (1966): Exact distribution of Wilks’ likelihood ratio criterion. Biometrika53, 347-358.

[18] Wilks, S.S. (1932): Certain generalizations in the analysis of variance. Biometrika 24,471-494.

[19] Wishart, J. (1928): The generalized product moment distribution in samples from a normalmultivariate population. Biometrika 20A, 32-52.

Page 115: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Opgaver til Kapitel 9

Opgave 9.1 (Højre og venstre invers til matricer)Lad B være en r× p matriks med p≥ r. Hvis der eksisterer en matriks H, så

BH = Ir

hvor Ir er r× r identitetsmatricen, siges B at have en højre invers eller H at være en højre inverstil B. På tilsvarende måde defineres en venstre invers til p× r (p≥ r) matricen A som en r× pmatriks V så

VA = Ir.

(1) Vis, at hvis B har en højre invers H så er r(B) = r(H) = r.

(2) Vis, at hvis r(B) = r så har B en højre invers H.

Opgave 9.2 Hvis alle de nødvendige inverse matricer eksisterer, så gælder, at hvis A er en p× pmatriks, B en p×n matriks, C en n×n matriks og D en n× p matriks, så er

(A+BCD)−1 = A−1−A−1B(C−1 +DA−1B)−1DA−1.

Bemærk specialtilfældet n = 1, hvor C er 1×1 matricen c og B = b og D = d∗, hvor b og d erp×1 vektorer:

(A+bcd∗)−1 =A−1−A−1b(1c

+d∗A−1b)−1d∗A−1

=A−1−A−1bd∗A−1(1c

+d∗A−1b)−1.

Opgave 9.3 (Sporet af en matriks)Sporet (engelsk: trace) af en kvadratisk matriks A er defineret som summen af dens diagonal

elementer og betegnes trA.Vis følgende:

(1) tr(A+B) = trA+ trB

(2) trAB = trBA, når både AB og BA har mening

(3) trB−1AB = trA

(4) trA = r(A), hvis A2 = A og r(A) betegner rangen af A

(4) x∗Ax = trxx∗A, hvor x er en søjlevektor.

111

Page 116: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

112 OPGAVER

Opgave 9.4 (Opdelte matricer)Betragt en p× p matriks A, som er opdelt

A ={

A11 A12A21 A22

}så A11 er en k× k matriks og A22 er en (p− k)× (p− k) matriks. Lad p× p matricen

B ={

B11 B12B21 B22

}være opdelt på tilsvarende måde.

(1) Vis at,

A+B ={

A11 +B11 A12 +B12A21 +B21 A22 +B22

}(9.47)

og

AB ={

A11B11 +A12B21 A11B12 +A12B22A21B11 +A22B21 A21B12 +A22B22

}Lad A være invertibel og lad A−1 være opdelt som A

A−1 ={

A11 A12

A21 A22

}.

(2) Vis, ved hjælp af AA−1 = I, at{A11A11 +A12A21 A11A12 +A12A22

A21A11 +A22A21 A21A12 +A22A22

}={

Ik 00 Ip−k

}(9.48)

Antag, at A11 er invertibel og definer

A22·1 = A22−A21A−111 A12. (9.49)

Vis, atA22·1A22 = (A22−A21A−1

11 A12)A22 = Ip−k (9.50)

og slut deraf at A22 er invertibel med

(A22)−1 = A22·1 = A22−A21A−111 A12. (9.51)

Tilsvarende, hvis A22 er invertibel, kan man definere

A11·2 = A11−A12A−122 A21, (9.52)

og indse at A11 er invertibel med

(A11)−1 = A11·2 = A11−A12A−122 A21. (9.53)

Page 117: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 113

(3) Vis, at hvis A er invertibel og A12 = 0 og A21 = 0 er

A−1 ={

A−111 00 A−1

22

}. (9.54)

(4) Vis derefter følgende resultater om determinant af en opdelt matriks.∣∣∣∣ A11 00 A22

∣∣∣∣= ∣∣∣∣ A11 00 I

∣∣∣∣ ∣∣∣∣ I 00 A22

∣∣∣∣= |A11| |A22| (9.55)

∣∣∣∣ A11 A120 A22

∣∣∣∣= ∣∣∣∣ I 00 A22

∣∣∣∣ ∣∣∣∣ A11 A120 I

∣∣∣∣= |A11| |A22| (9.56)

Hvis A11 er invertibel

|A|=∣∣∣∣ A11 A12

A21 A22

∣∣∣∣= |A11|∣∣A22−A21A−1

11 A12∣∣= |A11| |A22·1| . (9.57)

Hvis A22 invertibel, er tilsvarende

|A|= |A22|∣∣A11−A12A−1

22 A21∣∣= |A22| |A11·2| . (9.58)

Opgave 9.5 Lad A være en n× k matrix og B en k×n matrix. Vis, at

|In +AB|= |Ik +BA|.

Vink: Benyt (9.57) i Opgave 9.4 på matricen∣∣∣∣ In −AB Ik

∣∣∣∣ .Opgave 9.6 Lad X være regulært normalfordelt Np(µ,Σ), og lad X∗ = (X (1)∗,X (2)∗)∗ være enopdeling af X så X (1) er k-dimensional.

Lad

Σ ={

Σ11 Σ12Σ21 Σ22

}og

Σ−1 =

{Σ11 Σ12

Σ21 Σ22

}være de tilsvarende opdelinger af henholdsvis kovariansmatricen og præcisionen for X . (Deninverse kovariansmatriks for en flerdimensional regulær normalfordeling kaldes præcisioneneller præcisionsmatricen.)

(1) Vis, at når Σ er regulær er både Σ11 og Σ22 invertible.

(2) Vis, at Σ11 er præcisionsmatricen for den betingede fordeling af X (1) givet X (2).

Page 118: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

114 OPGAVER

Opgave 9.7 (Projektioner)Lad Rp være direkte sum af underrummene L1 og L2, det vil sige enhver vektor x ∈ Rp har

en entydig fremstilling som en sum af vektorer fra L1 og L2.

x = x1 + x2, x1 ∈ L1, x2 ∈ L2. (9.59)

Definer afbildningen P : Rp→ Rp ved

P(x) = P(x1 + x2) = x1,

hvor x1 ∈ L1 er x′s komponent i L1 fra fremstillingen (9.59).

(1) Vis, at P er en lineær afbildning og at P er idemponent, det vil sige

P2 = P.

P kaldes projektionen på L1 langs L2.

(2) Vis, at (I−P) er projektionen på L2 langs L1.

(3) Vis, at hvis P er en lineær afbildning af Rp ind i Rp, med P2 = P, så findes lineæreunderrum L1 og L2 af Rp, så P er projektionen på L1 langs L2.

Lad Rp være forsynet med et indre produkt (·, ·), og lad P være projektionen på L1 langs L2.P er en ortogonal projektion, hvis L1 og L2 er ortogonale, det vil sige

(x1,x2) = 0, x1 ∈ L1, x2 ∈ L2.

(4) Vis, at P er ortogonal, hvis og kun hvis P er selvadjungeret, det vil sige

(Px,y) = (x,Py), ∀x,y ∈ Rp.

I praksis er P givet ved sin matriks P=

i den kanoniske basis {e1, . . . ,ep} i Rp, og det indre

produkt (·, ·) er givet ved en positiv definit matriks Σ = {(ei,e j)}pi, j=1, så

(x,y) = (x1, . . . ,xp)Σ(y1, . . . ,yp)∗,

hvor x = ∑pi=1 xiei og y = ∑

pi=1 yiei.

(5) Vis, at projektionen P er en ortogonalprojektion med hensyn til det ved Σ givne indreprodukt hvis og kun hvis matricen P

=for P opfylder

P=∗Σ = ΣP

=.

(6) Lad L⊂Rp være et q-dimensionalt underrum, som er frembragt af søjlerne i p×q matri-cen T . Vis, at den ortogonale projektion på L med hensyn til Σ har matriks

T (T ∗ΣT )−1T ∗Σ.

Bemærk specialtilfældet Σ = I.

Page 119: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 115

(7) Lad L⊂ Rp være det q-dimensionale underrum

L = {x ∈ Rp|Rx = 0},

hvor R er en (p− q)× p matriks af rang p− q. L er altså givet som nulrummet for denlineære afbildning bestemt ved R. Vis, at den ortogonale projektion på L med hensyn tilΣ har matriks

Ip−Σ−1R∗(RΣ

−1R∗)−1R.

Opgave 9.8 (Multipel korrelationskoefficient)Lad X ∼ Np(µ,Σ) og lad X (1),X (2) være en k henholdsvis p−k dimensional opdeling af X ,

med tilsvarende opdelinger af kovariansen

Σ ={

Σ11 Σ12Σ21 Σ22

}.

Vi antager, at µ = 0 da vi kun vil interessere os for spørgsmål om kovariansen. Yderligereantages, at Σ22 er invertibel.

Lad Xi være en komponent af X (1), og lad σ(i) være den ite søjle i Σ21 og lad β være den itesøjle i Σ

−122 Σ21 det vil sige

β = Σ−122 σ(i)

β er regressionskoefficienterne for regressionen af Xi på X (2).

(1) Vis, at Xi−β ·X (2) og X (2) er uafhængige.

(2) Vis, at det lineære funktional α ·X (2) af X (2) for hvilket Xi−α ·X (2) har mindst varianser β ·X (2).

(3) Vis, at den størst mulige korrelation mellem Xi og lineære funktioner α ·X (2) af X (2) fåsfor α = β .

Denne størst mulige korrelation er den multiple korrelationskoefficient mellem Xi og X (2).Den betegnes med Ri·k+1,...,p.

(4) Vis, at

Ri·k+1,...,p =

√σ∗(i)Σ

−122 σ(i)

√σii

.

(5) Vis, at

1− R2i·k+1,...,p =

σii·k+1,...,p

σii,

hvor σii·k+1,...,p er den partielle kovarians for Xk+1, . . . ,Xp fast. R2i·k+1,...,p har altså en

fortolkning som den del af variansen på Xi som forklares af variationen af X (2).

Page 120: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

116 OPGAVER

Opgave 9.9 (Multipel korrelationskoefficient)Lad

P =

1 ρ12 ρ13

ρ21 1 ρ23ρ31 ρ32 1

være en 3×3 korrelationsmatriks.

Vis, at

R21·23 =

ρ212 +ρ2

13−2ρ12ρ13ρ23

1−ρ223

.

Opgave 9.10 (Partielle korrelationer)Lad

P =

1 ρ12 ρ13

ρ21 1 ρ23ρ31 ρ32 1

være en 3×3 korrelationsmatriks.

(1) Vis, at

ρ12·3 =ρ12−ρ13ρ23√

(1−ρ213)(1−ρ2

23)(9.60)

(2) Vis, at ρ12·3 kan være forskellig fra 0 selv om ρ12 = 0 og omvendt.

(3) Vis, at ρ12·3 og ρ12 har forskelligt fortegn når ρ13ρ23 > ρ12 > 0 eller ρ13ρ23 < ρ12 < 0.

Opgave 9.11 (Partielle korrelationer)Lad P være en p× p korrelationsmatriks. Vis, at

ρi j·k,...,p =ρi j·k+1,...,p−ρik·k+1,...,pρk j·k+1,...,p√

(1−ρ2ik·k+1,...,p)(1−ρ2

k j·k+1,...,p)(9.61)

Partielle korrelationer kan altså beregnes ud fra P ved først at benytte (9.60) i Opgave 9.10og successivt ved hjælp af (9.61) føje variable til sættet af variable, man betinger med.

Opgave 9.12 (Multipel korrelationskoefficient)Lad X1, . . . ,Xn være indbyrdes uafhængige og identisk regulært normalfordelt, Xi =(Xi1, . . . ,Xip)∗∼

Np(µ,Σ), i = 1, . . . ,n. Vis, at likelihood ratio testoren Q for hypotesen, at den multiple korrela-tionskoefficient mellem Xi1 og X (2)

i = (Xi2, . . . ,Xip)∗ er 0, det vil sige R1·2,...,p = 0, er

Q = (1−R21·2,...,p)

n2 ,

hvor R1·2,...,p er defineret som den multiple korrelationskoefficient i (9.10), men udfra den esti-merede kovariansmatriks, det vil sige

R1·2,...,p =

√σ∗(1)Σ

−122 σ (1)

√σ11

. (9.62)

Page 121: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 117

Bemærkning til Opgave 9.12 Det vises i Afsnit 9.8 at under hypotesen er fordelingen tilR1·2,...,p i (9.62) givet ved

R21·2,...,p

1−R21·2,...,p

· n−1− (p−1)p−1

∼ F(p−1,n−1− (p−1)). (9.63)

Opgave 9.13 (Multipel regression)Lad X1, . . . ,Xn være indbyrdes uafhængige og endimensionalt normalfordelt, Xi∼N(µi,σ

2).Til hvert i er givet værdierne af q forklarende variable ti1, . . . , tiq, og vi betragter hypotesen

H1: µi = α +β1ti1 + . . .+βqtiq, i = 1, . . . ,n,

eller, med andre ord, den lineære normale model M1 specificeret ved at middelværdivektorenµ = (µ1, . . . ,µn)∗ tilhører det lineære underrum

L1 = span(e, t(1), . . . , t(q)),

hvor e = (1, . . . ,1)∗ ∈ Rn og t( j) = (t1 j, . . . , tn j)∗ ∈ Rn er alle n værdier af den jte forklarendevariabel. Antag, at e, t(1), . . . , t(q) er lineært uafhængige. Lad T være n× q matricen hvis jtesøjle er t( j). For de følgende beregninger er det en stor fordel at betragte de forklarende variableu(1), . . . ,u(q), hvor

u( j) = t( j)− t · je, j = 1, . . . ,q.

(1) Vis, at u j er ortogonal på e, j = 1, . . . ,q, og at

span(e, t(1), . . . , t(q)) = span(e,u(1), . . . ,u(q)),

Vi formulerer altså samme model med de to sæt regressionsvariable og kan efter behag betragtehypotesen

H1: µ = αe+β1t1 + · · ·+βqtq.

eller hypotesenH1: µ = α

ue+βu1 u1 + · · ·+β

uq uq.

(2) Vis, at sammenhængen mellem regressionsparametrene svarende til de to sæt forklarendevariable er

αu =α +β1t ·1 + · · ·+βqt ·q

βuj =β j, j = 1, . . . ,q

Som nævnt er det mest bekvemt at betragte de forklarende variable u j, så lad U være n×qmatricen hvis jte søjle er u( j), og lad T være n× (q+1) matricen

T ={

e U}

Page 122: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

118 OPGAVER

(3) Vis, at maksimum likelihood estimatoren for θ ∗ = (αu,β ∗), hvor β = (β1, . . . ,βq)∗ er

θ =(

αu

β

)= (T ∗T )−1T ∗X (9.64)

og angiv fordelingen for θ .

(4) Vis, at αu og β er uafhængige, samt at

αu =X · ∼ N(αu,σ2/n)

β =(U∗U)−1U∗X ∼ Nq(β ,σ2(U∗U)−1)

(5) Angiv maksimum likelihood estimatoren for σ2 under H1, og dennes fordeling.

Sæt L2 = span(e) og betragt modellen

M2: µ ∈ L2,

det vil sige β1 = · · ·= βq = 0.

(6) Vis, at likelihood ratio testoren for reduktionen fra M1 til M2 er

Q =(1−R2) n

2 ,

hvor

R2 =β ∗U∗U β

SSDX, (9.65)

og store værdier af R2 er kritiske.

(7) Vis at i modellen M2 er

R2

1−R2 ·n− (q+1)

q∼ F(q,n− (q+1)). (9.66)

(8) Sammenlign resultaterne (9.65) og (9.66) her i Opgave 9.13 med resultaterne i (9.62)og (9.63) i Opgave 9.12. Overvej, at det er præcis samme analogi mellem testet for in-gen korrelation i den todimensionale normalfordeling og testet for hældning 0 i lineærregression, som vi kender fra Kapitel 8.

Bemærkning til Opgave 9.13I Tabel 9.1 er gengivet variansanalysetabellen for modellen M1 i en PROC GLM udskrift.

Bemærk, at M2=M∞ og dermed P2=P∞, så R2 i (9.65) fås som forholdet mellem Sum of Squaresi Model og Corrected Total linjerne, som er markeret med→.

I udskrifter fra PROC GLM er R2 i (9.65) angivet som R-square i linjen umiddelbart undervariansanalysetabellen.

Page 123: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 119

Tabel 9.1 Variansanalysetabellen fra modellen M1

The GLM ProcedureModel M1

Dependent Variable: XSum of Mean

Source DF Squares Square F Value Pr > F→ Model q ‖P1(x)−P∞(x)‖2 s2

1∞s2

1∞/s2

01 pobs(x)Error n−q−1 ‖x−P1(x)‖2 s2

01→ Corrected Total n−1 ‖x−P∞(x)‖2

Opgave 9.14 (Kvadratiske former i normalfordelte variable)Lad X = (X1, . . . ,Xp)∗ være regulært normalfordelt, X ∼ Np(µ, I). Lad A være en p× p

matriks og betragt Y = X∗AX .

(1) Vis, at vi uden tab af generalitet kan antage, at A = A∗.

(2) Vis, at en nødvendig og tilstrækkelig betingelse for at Y er χ2( f ) - fordelt er, at A2 =A, Aµ = 0 og f = r(A).

Lad nu X = (X1, . . . ,Xp)∗ være regulært normalfordelt Np(µ,Σ), og lad stadig A være ensymmetrisk p× p matriks.

(3) Vis, at en nødvendig og tilstrækkelig betingelse for, at Y = X∗AX er χ2( f )-fordelt er, at

AΣA = A, Aµ = 0

og at f = r(A).

(4) Vis, ved hjælp af (3), at hvis Y = X∗AX er χ2( f )-fordelt, findes et underrum L af Rp afdimension f så

Y = ‖PLX‖2Σ−1 og µ ∈ L⊥,

hvor PL er den Σ−1 ortogonale projektion på L og L⊥ er det ortogonale komplement til Lmed hensyn til det ved Σ−1 givne indre produkt.

Omvendt gælder, at hvis en stokastisk variabel er på formen (∗), er den χ2( f )-fordelt. Visdette.

Opgave 9.15 (Uafhængighed af kvadratiske former i normalfordelte variable)Lad X = (X1, . . . ,Xp)∗ være regulært normalfordelt, X ∼ Np(0,Σ) og lad A og B være sym-

metriske p× p matricer. Betragt Y1 = X∗AX og Y2 = X∗BX og antag, at

Y1 ∼ χ2(a) og Y2 ∼ χ

2(b).

(1) Vis, at Y1 og Y2 er uafhængige hvis og kun hvis AΣB = 0.

Page 124: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

120 OPGAVER

De følgende spørgsmål går ud på at vise, at resultatet holder uden antagelse om, at Y1 og Y2er χ2 fordelt, det vil sige uden antagelsen AΣA = A og BΣB = B.

Lad først Y være Np(0, I)-fordelt.

(2) Vis, at Y ∗AY og Y ∗BY er uafhængige hvis AB = 0.

For at vise at Y ∗AY og Y ∗BY uafhængige medfører at AB = 0, benyttes Laplacetransformer.

(3) Vis, at Y ∗AY har Laplacetransform

EetY ∗AY =r

∏i=1

(1−2tλi)−12 = |I−2tA|−

12 , max

λi<0

12λi

< t < minλi>0

12λi

hvor λ1, . . . ,λr betegner de fra 0 forskellige egenværdier for A, og at (Y ∗AY,Y ∗BY ) harLaplacetransform

Eet1Y ∗AY+t2Y ∗BY = |I−2t1A−2t2B|−12 .

(4) Hvis Y ∗AY og Y ∗BY er uafhængige er

Eet1Y ∗AY+t2Y ∗BY = Eet1Y ∗AY Eet2Y ∗BY .

Vis, at hvis|I−2t1A−2t2B|−

12 = |I−2t1A|−

12 |I−2t2B|−

12

for alle t1, t2 er AB = 0.

Hermed er vist, at Y ∗AY og Y ∗BY er uafhængige, hvis og kun hvis AB = 0.Lad som før X være Np(0,Σ) fordelt, med Σ regulær.

(5) Vis, at X∗AX og X∗BX er uafhængige hvis og kun hvis AΣB = 0.

Opgave 9.16 (Uafhængighed af lineær afbildning og kvadratisk form i normalfordelte variable)Lad X = (X1, . . . ,Xp)∗ være regulært normalfordelt, X ∼ Np(0,Σ) og lad A være en q× p

matriks og B en symmetrisk p× p matriks.Vis, at

AX og X∗BX

er uafhængige hvis og kun hvis AΣB = 0.

Opgave 9.17 (Kronecker produkt af matricer)Lad A = {ai j} være en m× n matriks og lad B = {brs} være en p× q matriks. Kronecker

produktet A⊗B af A og B er en mp×nq matriks hvis ((i,r),( j,s))te element er

(A⊗B)(i,r)( j,s) = ai jbrs.

Idet {(i,r)|i = 1, . . . ,m, r = 1, . . . , p} og {( j,s)| j = 1, . . . ,n, s = 1, . . . ,q} ordnes leksiko-grafisk kan A⊗B skrives som en opdelt matriks

A⊗B = {ai jB}

hvor den (i, j)te delmatriks er ai jB, i = 1, . . . ,m, j = 1, . . . ,n.Vis følgende egenskaber ved Kronecker produktet:

Page 125: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 121

(1) 0⊗B = 0 A⊗0 = 0

(2) (A1 +A2)⊗B = A1⊗B+A2⊗B

(3) A⊗ (B1 +B2) = A⊗B1 +A⊗B2

(4) aA⊗bB = abA⊗B, a,b ∈ R

(5) A1A2⊗B1B2 = (A1⊗B1)(A2⊗B2)

(6) Hvis A og B er invertible er A⊗B invertibel, med

(A⊗B)−1 = A−1⊗B−1.

(7) (A⊗B)∗ = A∗⊗B∗

(8) Hvis A er 1×1, det vil sige A = a, er

a⊗B = aB og B⊗a = aB.

(9) Hvis A er en n×n matriks og B er en p× p matriks er

tr(A⊗B) = trA trB.

(10) Hvis A er en n×n matriks og B er en p× p matriks er

|A⊗B|= |A|p |B|n .

Opgave 9.18 (n× p dimensional normalfordeling)Når vi har n uafhængige p-dimensionalt normaltfordelte stokastiske variable Xi∼Np(µi,Σi)

kan det være bekvemt at opfatte dem som én n× p dimensionalt normalfordelt stokastisk vari-abel. I stedet for at skrive den som en lang vektor, vil det være praktisk at skrive den som enn× p matriks

X =

X∗1...

X∗n

.

Vi skal her betragte n× p dimensionalt normaltfordelte stokastiske variable

X ∼ Nn×p(M,Σ| ),

hvor M = {µi j}ni=1,

pj=1 er n× p matricen af middelværdier, og

Σ| = {σ(i,r),( j,s)}ni, j=1

pr,s=1

er en np×np matriks, såCov(Xir,X js) = σ(i,r),( j,s).

Page 126: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

122 OPGAVER

Specielt gælder, at hvisX ∼ Nn×p(M,Φ⊗Σ),

hvor Φ = {φi j} er en symmetrisk n×n matriks, og Σ = {σrs} er en symmetrisk p× p matriks,vil

Cov(Xir,X js) = φi j ·σrs.

(1) Vis, at hvis X1, . . . ,Xn er indbyrdes uafhængige, Xi ∼ Np(µi,Σ), i = 1, . . . ,n vil

X =

X∗1...

X∗n

∼ Nn×p(M, In⊗Σ)

hvor M∗ = {µ1 . . .µn}.

Vis følgende transformationsformler.

(2) X ∼ Nn×p(M,Φ⊗Σ) hvis og kun hvis X∗ ∼ Np×n(M∗,Σ⊗Φ).

(3) Hvis X ∼ Nn×p(M,Φ⊗Σ),A er en m×n matriks, og B er en p×q matriks vil

AXB∼ Nm×q(AMB,(AΦA∗)⊗ (B∗ΣB)).

Vis følgende specialtilfælde af (3).

(4) Hvis X ∼ Nn×p(M, In⊗Σ) og b er en p-dimensional søjlevektor er

Xb∼ Nn×1(Mb, In⊗b∗Σb) = Nn(Mb,(b∗Σb)In).

(5) Hvis X ∼ Nn×p(M, In⊗Σ) og a er en n-dimensional søjlevektor er

a∗X ∼ N1×p(a∗M,a∗a⊗Σ) = Np(a∗M,‖a‖2Σ).

(6) Hvis X ∼ Nn×p(M, In⊗Σ) og A er en m×n matriks er

AX ∼ Nm×p(AM,AA∗⊗Σ).

Lad X ∼ Nn×p(M, In⊗Σ) og betragt en opdeling af X og M så

X = {X (1)X (2)} og M = {M(1)M(2)},

hvor X (1) og M(1) er n×k matricer, og X (2) og M(2) er n×(p−k) matricer. Tilsvarende opdeles

Σ ={

Σ11 Σ12Σ21 Σ22

}hvor Σ11 er en k× k matriks.

Page 127: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 123

(7) Vis, at den betingede fordeling af X (1) givet X (2) = x(2) er

Nn×k(M(1)− (M(2)− x(2))Σ−122 Σ21, In⊗ (Σ11−Σ12Σ

−122 Σ21)),

samt at den marginale fordeling for X (2) er

Nn×(p−k)(M(2), In⊗Σ22).

Opgave 9.19 Lad X være n× p dimensionalt normalfordelt

X ∼ Nn×p(M,Φ⊗Σ),

og lad Y = AXB og Z = CXD, hvor A, B, C og D er henholdsvis a× n, p× b,c× n og p× dmatricer.

Vis, at Y og Z er uafhængige hvis og kun hvis enten AΦC∗ = 0 eller B∗ΣD = 0.

Opgave 9.20 Lad X1, . . . ,Xn være uafhængige og identisk regulært normalfordelt Np(µ,Σ). Vis,at hvis n > p er

W =n

∑i=1

(Xi− X ·)(Xi− X ·)∗

positiv definit med sandsynlighed 1.En alternativ formulering, som vi ofte benytter er følgende:Hvis W ∼Wp(Σ, f ) og Σ er positiv definit, så er W positiv definit med sandsynlighed 1, hvis

f ≥ p.

Opgave 9.21 Lad W = {Wi j}pi, j=1 være Wishart fordelt Wp(Σ, f ) og lad B være en p×q matriks.

(1) Vis, atB∗WB∼Wq(B∗ΣB, f ).

(2) Vis, at for enhver vektor a ∈ Rp, a 6= 0, er

a∗Waa∗Σa

∼ χ2( f ).

(3) Vis, at Wii ∼ σiiχ2( f ).

Opgave 9.22 Lad W1 og W2 være uafhængige og Wishart fordelt

W1 ∼Wp(Σ, f1) og W2 ∼Wp(Σ, f2).

Vis, atW1 +W2 ∼Wp(Σ, f1 + f2).

Page 128: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

124 OPGAVER

Opgave 9.23 Lad W ∼Wp(Σ, f ) med Σ invertibel og f ≥ p. Lad Σ−1 = {σ i j}pi, j=1 og W−1 =

{W i j}pi, j=1, når W er invertibel. (Det er W med sandsynlighed 1 når f ≥ p ifølge Opgave 9.20.)

Vis, at

σ pp

W pp ∼ χ2( f − (p−1)), samt at W pp er uafhængig af {Wi j}p−1

i, j=1

oga∗Σ−1aa∗W−1a

∼ χ2( f − (p−1)) for enhver fast vektor a ∈ Rp, a 6= 0.

Opgave 9.24 Lad W være Wishart fordelt Wp(Σ, f ) med Σ invertibel og f ≥ p.Vis, at

|W | ∼ |Σ|χ2( f ) ·χ2( f −1) · · ·χ2( f − p+1),

hvor χ2( f ), · · · ,χ2( f − p + 1) er indbyrdes uafhængige og χ2( f − i + 1) er χ2-fordelt medf − i+1 frihedsgrader, i = 1, . . . , p.

Opgave 9.25 Lad W være Wishart fordelt Wp(Σ, f ) med Σ invertibel og f ≥ p+2.Vis, at

EW−1 =1

f − p−1Σ−1.

Opgave 9.26 (Hotellings T 2)Lad W være Wishart fordelt W ∼Wp(Σ, f ) med f ≥ p og Σ regulær, og lad Y være normal-

fordelt Y ∼ Np(0,Σ). Antag Y og W er uafhængige.

(1) Vis, atf − (p−1)

pY ∗W−1Y ∼ F(p, f − (p−1)).

Ofte har man en estimator X for en parameter µ , hvor X ∼Np(µ,k−1Σ), og man har et skøn,S, over Σ som er Wp( f−1Σ, f ) fordelt og uafhængigt af X . En naturlig teststørrelse for hypotesenH0: µ = µ0 er Hotellings

T 2 = k(X−µ0)∗S−1(X−µ0).

(2) Vis, atf − (p−1)

pT 2

f∼ F(p, f − (p−1)).

Opgave 9.27 Lad R være Wp(Σ,n) og U ∼ Np(0,Σ). Antag R og U er uafhængige, n≥ p og Σ

regulær.

(1) Vis ved hjælp af Opgave 9.5, at

|R||R+UU∗|

=1

1+U∗R−1U.

Page 129: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 125

(2) Vis ved hjælp af Opgave 9.26, at

U∗R−1Un− p+1

p∼ F(p,n− p+1)

og|R|

|R+UU∗|∼ B(

n− p+12

,p2).

(3) Vis ved hjælp af Basu’s sætning, at

|R||R+UU∗|

og R+UU∗

er uafhængige.

Opgave 9.28 Lad X ∼ Nn×p(0, In⊗Σ) og lad A være en symmetrisk n×n matriks.

(1) Vis, at X∗AX har samme fordeling som en vægtet sum af indbyrdes uafhængige Wp(Σ,1)fordelte stokastiske variable, hvor vægtene er egenværdierne for A.

(2) Vis, at X∗AX er Wp(Σ, f ) fordelt hvis A2 = A, og da er f = r(A).

Betingelsen A2 = A er også nødvendig.

Opgave 9.29 Lad X ∼ Nn×p(0, In⊗ Σ) og lad A og B være symmetriske, idempotente n× nmatricer.

Vis, at X∗AX og X∗BX er uafhængige hvis og kun hvis AB = 0.(Sammenlign med Opgave 9.15. Som ved Opgave 9.15 gælder resultatet også selv om A og

B ikke er idempotente.)

Opgave 9.30 (Hotellings T 2 for q stikprøver)Lad X (i)∼Nni×p(M(i), Ini⊗Σ), i = 1, . . . ,q, være indbyrdes uafhængige, og lad nulhypotesen

H0 være specificeret ved, at alle rækkerne i M(i) er lig med µi og at µi og Σ er uspecificeret. Daer

X =

X (1)

...X (q)

∼ Nn×p(

M(1)

...M(q)

, In⊗Σ),

hvor n = n1 + . . .+ nq, en lineær normal model specificeret ved det fra ensidig variansanalysevelkendte q-dimensionale underrum L0 af Rn. Den ortogonale projektion på L0 er

P0 =

P(1)

0 0···

0 P(q)0

,

Page 130: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

126 OPGAVER

hvor P(i)0 er ni×ni matricen

P(i)0 =

1ni· · · 1

ni...

...1ni· · · 1

ni

.

Vi betragter nu hypotesenH1: a1µ1 + . . .+aqµq = 0

hvor a1, . . . ,aq er kendte.

(1) Vis, at H1 er en lineær normal model svarende til det q−1 dimensionale underrum

L1 = L0< v >= L0∩< v >⊥

hvor v = (a1n1

, . . . , a1n1

, a2n2

, . . . , a2n2

, . . . ,aqnq

, . . . ,aqnq

)∗ ∈ L0. Sæt e = v/‖v‖.

(2) Find den ortogonale projektion på L1 udtrykt ved P0 og e.

(3) Find likelihood ratio testoren for H1 under H0 og vis, at likelihood ratio testet for H1 underH0 er ækvivalent med at forkaste for store værdier af Hotelling’s

T 2 = (n−q)1

∑qi=1

a2i

ni

{q

∑i=1

aiX(i)· }∗SSD−1{

q

∑i=1

aiX(i)· },

hvor SSD = ∑qi=1 SSD(i) = ∑

qi=1 X (i)∗(Ini−P(i)

0 )X (i).

(4) Opskriv testoren i specialtilfældet q = 2,a1 =−a2 = 1, det vil sige H1: µ1 = µ2.

Opgave 9.31 (Estimation af Σ, når µ er kendt)Lad Xi ∼ Np(µ0,Σ), i = 1, . . . ,n, og lad X1, . . . ,Xn være indbyrdes uafhængige. Lad µ0

være kendt men Σ uspecificeret.Vis, at maksimum likelihood estimatoren Σ0 for Σ er

Σ0 = Σ+(X ·−µ0)(X ·−µ0)∗,

hvor

Σ =1n

n

∑i=1

(Xi− X ·)(Xi− X ·)∗

er maksimum likelihood estimatoren for Σ, når både µ og Σ er uspecificeret, samt angiv forde-lingen af nΣ0.

Opgave 9.32 (Hypoteser om middelværdien i p-dimensional normalfordeling: Én stikprøvemed kendt kovariansmatriks)

Lad Xi ∼ Np(µ,Σ0), i = 1, . . . ,n, hvor X1, . . . ,Xn er indbyrdes uafhængige med kendt ogregulær kovariansmatriks. Lad H0 være hypotesen, at µ er uspecificeret.

Page 131: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 127

(1) Vis, at maksimum likelihood estimatoren µ0 for µ under H0 er

µ0 = X ··

Betragt dernæst hypotesenH1: µ ∈ L,

hvor L er et q-dimensionalt underrum af Rp.

(2) Vis, at maksimum likelihood estimatoren µ1 for µ under H1 er

µ1 = PX ·,

hvor P er den ortogonale projektion med hensyn til Σ−10 af Rp på L.

(3) Vis, at likelihood ratio testoren for H1 under H0 er

Q = e−n2 (X ·−PX ·)∗Σ−1

0 (X ·−PX ·)

og at−2logQ = n(X ·−PX ·)∗Σ−1

0 (X ·−PX ·)

er χ2-fordelt med p−q frihedsgrader.

Betragt dernæst specialtilfældet, hvor L = span(µ0) for en fast vektor µ0. For eksempelkunne µ0 være (1, . . . ,1). En anden formulering vil være

H1: µ = kµ0.

(4) Vis, at maksimum likelihood estimatoren for k er

k =X∗· Σ

−10 µ0

µ∗0 Σ−10 µ0

og angiv fordelingen for k.

Betragt endelig tilfældet, hvor L er givet indirekte som nulrummet for en lineær afbildning,det vil sige

L = {x ∈ Rp|Rx = 0},

hvor R er en (p−q)× p matriks af rang p−q.

(5) Vis, at maksimum likelihood estimatoren µ1 for µ under H1 er

µ1 = X ·−Σ0R∗(RΣ0R∗)−1RX ·

og at−2logQ = nX∗· R

∗(RΣ0R∗)−1RX · .

Page 132: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

128 OPGAVER

Opgave 9.33 (Hypoteser om middelværdien i en p-dimensional normalfordeling: Én stikprøvemed ukendt kovariansmatriks)

Lad Xi ∼ Np(µ,Σ), i = 1, . . . ,n, og lad X1, . . . ,Xn være indbyrdes uafhængige med ukendt,regulær kovariansmatriks. Lad H0 være hypotesen, at µ og Σ er uspecificeret. Det er den si-tuation, som betragtes i Afsnit 9.4, hvor det blev vist, at maksimum likelihood estimatoren,(µ0, Σ0), for (µ,Σ) er

µ0 = X ·

Σ0 =1n

n

∑i=1

(Xi− X ·)(Xi− X ·)∗.

Lad H1 være hypotesen, at middelværdien tilhører et q-dimensionalt lineært underrum L afRp, det vil sige

H1: µ ∈ L.

Vi skal nu diskutere maksimum likelihood estimation under H1. I det følgende betegner PΣ−1

den ortogonale projektion med hensyn til Σ−1 på L. Lad

µΣ = PΣ−1X · (9.68)

ogΣµ = Σ0 +(X ·−µ)(X ·−µ)∗, (9.69)

og definer en følge af estimatorer (µ1, Σ1), . . . ,(µn, Σn), . . . ved

µ i+1 = PΣ−1i

X ·

ogΣi+1 = Σµ i+1

for i = 0,1, . . ..

(1) Vis, atL(µ i, Σi)≤ L(µ i+1, Σi+1), i = 1,2, . . . ,

hvor L betegner likelihood funktionen.

Lad underrummet L være repræsenteret som nulrummet for en lineær afbildning, det vil sige

L = {x ∈ Rp|Rx = 0}, (9.70)

hvor R er en (p−q)× p matriks af fuld rang p−q. Da kan (9.68) skrives

µΣ = X ·−ΣR∗(RΣR∗)−1RX · . (9.71)

Page 133: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 129

(2) Vis, idet repræsentationen (9.71) benyttes, at følgen {(µn, Σn)}∞n=1 konvergerer efter et

trin, idet(X ·− µ2) = (X ·− µ1) = Σ0R∗(RΣ0R∗)−1RX · .

Som estimatorer under H1 benyttes

µ1 = PΣ−10

X ·

ogΣ1 = Σ0 +(X ·− µ1)(X ·− µ1)∗.

(3) Sammenlign µ1 med maksimum likelihood estimatoren for µ , når Σ er kendt og Σ1 medmaksimum likelihood estimatoren for Σ når µ er kendt.

Bemærk, at vi ikke har vist, at (µ1, Σ1) er maksimum likelihood estimatoren. Det skal dogikke afholde os fra at kalde (µ1, Σ1) for maksimum likelihood estimatoren under H1.

(4) Vis, at likelihood ratio testoren for H1 under H0 kan udtrykkes

Q = (1

1+ X∗· R∗(RΣ0R∗)−1RX ·)

n2 ,

idet vi igen benytter repræsentationen (9.70) af L.

(5) Hvilken fordeling harX∗.R∗(RΣ0R∗)−1RX ·

under H1?

(Vink: Regn Opgave 9.34)

Opgave 9.34 (Fortsættelse af Opgave 9.33)Lad situationen og notationen være som i Opgave 9.33.

(1) Vis, at under H1 erYi = RXi ∼ Np−q(η ,RΣR∗), (9.72)

med η = 0.

(2) Vis, at maksimum likelihood estimatoren for Γ = RΣR∗ baseret på Y1, . . . ,Yn under hypo-tesen, at de har samme middelværdi, men at den er uspecificeret, er

Γ = RΣ0R∗.

(3) Opskriv i modellen (9.72) Hotelling’s T 2 for hypotesen η = 0 og vis at

Y ∗· Γ−1Y ·

n− (p−q)p−q

∼ F(p−q,n− (p−q)).

Sammenlign med (5) i Opgave 9.33.

Page 134: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

130 OPGAVER

Opgave 9.35 (Fortsættelse af Opgave 9.33)Lad situationen og notationen være som i Opgave 9.33, og lad H1 være hypotesen

µ = kµ0,

hvor µ0 er en fast vektor. Det svarer til L = span{µ0}.

(1) Vis, at maksimum likelihood estimatoren for k er

k =X∗· Σ

−10 µ0

µ∗0 Σ−10 µ0

.

(2) Vis, atEk = k

og

V k =1n

E[µ∗0 Σ

−10 ΣΣ

−10 µ0

(µ∗0 Σ−10 µ0)2

].

(3) Vis, at likelihood ratio testet er ækvivalent med at forkaste for store værdier af Hotelling’s

T 2 = n(X ·−X∗· Σ

−10 µ0

µ∗0 Σ−10 µ0

µ0)∗S−1(X ·−X∗· Σ

−10 µ0

µ∗0 Σ−10 µ0

µ0),

hvor S = nn−1 Σ0 = 1

n−1 ∑ni=1(X i− X ·)(X i− X ·)∗.

Opgave 9.36 Formålet med denne opgave er at definere nogle tests, som udskrives af statistiskeprogrampakker i forbindelse med analyse af lineære normale modeller for den flerdimensionalenormalfordeling.

Vi har set Wilks test for reduktion fra underrummet L1 af dimension d1 til underrummet L2af dimension d2 i en flerdimensional lineær normal model som

W =|SSD1|

|SSD1 +SSD2|,

hvor SSD1∼W (Σ,n−d1) og SSD2∼W (Σ,d1−d2) er uafhængige. For bekvem sammenligningmed SAS skifter vi notation til

W =|E||E +H|

,

hvor E ∼W (Σ,n− d1) og H ∼W (Σ,d1− d2) er uafhængige. Desuden antages, at n− d1 ≥ p.Her står E for Error og H for Hypothesis. Wilks test og mindst tre andre test kan udtrykkes vedegenværdierne for matricen E−1H.

(1) Vis, at

W =|E||E +H|

=∣∣Ip +E−1H

∣∣−1=

p

∏i=1

(1+λi)−1,

hvor λi, i = 1, . . . , p, er egenværdierne for E−1H.

Page 135: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 131

(2) Vis, at hvis λ er en egenværdi for E−1H, så er λ/(1+λ ) en egenværdi for (E +H)−1H,så

tr(E +H)−1H =p

∑i=1

λi

1+λi.

Dette test kaldes Pillai’s trace.

De to sidste er Hotelling-Lawley’s trace

trE−1H =p

∑i=1

λi

og Roy’s maximum root testλmax = max{λ1, . . . ,λp}.

Opgave 9.37 Vi betragter den flerdimensionale regressionsformulering fra Eksempel 9.29 påside 87, det vil sige, at vi betragter en flerdimensional normalfordeling

X =

X∗1...

X∗n

={

X(1) · · · X(p)}∼ Nn×p(M, In⊗Σ),

hvor X( j) betegner den jte søjle i X . Matricen M af middelværdier er givet på formen M = T B,hvor

T =

t∗1...

t∗n

={

t(1) · · · t(q)}

og B ={

β(1) · · · β(p)}

,

er henholdsvis en n×q matriks af kendte tal med n > q og fuld rang q, og en q× p matriks afukendte parametre. (Vi har ikke brug for at referere eksplicit til søjlerne i X , T og B i denneopgave, men i formuleringen i statistiske programpakker er det søjlerne i X og T , der bruges.)

(1) Opskriv modellen i spørgsmål (1) i Opgave 9.51 som en multipel regressionsmodel.

Vi betragter nu hypoteser på formen

H0: BC = 0,

hvor C er en kendt p× r matriks med p≥ r og fuld rang r.

(2) Overvej, hvilke hypoteser matricerne

C =

−1 −1 −1

1 0 00 1 00 0 1

og C =

1 00 1−1 0

0 −1

definerer i opgave 9.51.

Page 136: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

132 OPGAVER

(3) Vis, at likelihood ratio testet for H0 er ækvivalent med Wilks test med

H = C∗X∗T (T ∗T )−1T ∗XC og E = C∗X∗[In−T (T ∗T )−1T ∗

]XC,

og angiv parametrene for fordelingen af Wilks test.

Opgave 9.38 Vi betragter igen den flerdimensionale regressionsformulering fra Eksempel 9.29,det vil sige, at vi betragter en flerdimensional normalfordeling

X =

X∗1...X∗n

={

X(1) · · · X(p)}∼ Nn×p(T B, In⊗Σ),

hvor T er henholdsvis en n×q matriks af kendte tal med n > q og fuld rang q, og B er en q× pmatriks af ukendte parametre.

Vi skal i denne opgave betragte hypoteser på formen

H0: A1B = D,

hvor A1 er en kendt a1×q matriks af fuld rang a1 og D er en kendt a1× p matriks.

(1) Vis, at vi uden tab af generalitet kan antage, at D = 0.

(Vink: Betragt fordelingen til X−TA∗1(A1A∗1)−1D uden og under H0.)

I det følgende betragtes derfor hypotesen H0: A1B = 0.

(2) Vis, at en testor for H0 er Wilks test med

H = B∗A∗1[A1(T ∗T )−1A∗1

]−1A1B

= X∗T (T ∗T )−1A∗1[A1(T ∗T )−1A∗1

]−1A1(T ∗T )−1T ∗X

ogE = X∗(In−T (T ∗T )−1T ∗)X

og angiv parametrene i Wilks fordeling. Her betegner B estimatet for B i modellen, jævn-før Eksempel 9.29.

De følgende spørgsmål handler om at indse, at hypotesen H0: A1B = 0 er en lineær normalmodel med underrum af dimension q− a1, og at Wilks test i spørgsmål 2 er ækvivalent medlikelihood ratio testet. Lad A2 være en a2×q matriks, hvor a2 = q−a1, så

A ={

A1A2

}er regulær og betragt den tilsvarende opdeling af A−1 =

{A(1) A(2)

}, hvor A(1) og A(2) er

henholdsvis q×a1 og q×a2 matricer.

Page 137: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 133

(3) Vis, at under hypotesen H0: A1B = 0 er

EX =[TA(2)

][A2B]

og dermed, at hypotesen svarer til det lineære underrum L2, som er udspændt af søjlerne iTA(2). Overvej, at L2 ⊂ L1, hvor L1 er underrummet udspændt af søjlerne i T , samt angivdimensionen af L2.

(4) Vis, idet P1 = T (T ∗T )−1T ∗ og P2 betegner projektionen på L2, at likelihood ratio testet Qfor H0 : A1B = 0 er givet ved

Q2n =

|E||E +H|

,

hvorE = X∗

[In−T (T ∗T )−1T ∗

]X

og

H = X∗ [P1−P2]X

= X∗[

T (T ∗T )−1T ∗−TA(2)(

A(2)∗T ∗TA(2))−1

A(2)∗T ∗]

X ,

og angiv parameterene i Wilks fordeling.

Testene i spørgsmål (2) og (4) ser ikke umiddelbart ens ud, men det er de, som det vises ispørgsmål (5).

(5) Vis, at

T (T ∗T )−1 A∗1(

A1 (T ∗T )−1 A∗1)−1

A1 (T ∗T )−1 T ∗

= T (T ∗T )−1T ∗−TA(2)(

A(2)∗T ∗TA(2))−1

A(2)∗T ∗.

(Vink: Definer U =[

U1 U2]= TA−1 =

[TA(1) TA(2)

], lad V = U∗U og

V ={

V11 V12V21 V22

}={

A(1)∗T ∗TA(1) A(1)∗T ∗TA(2)

A(2)∗T ∗TA(1) A(2)∗T ∗TA(2)

}.

Bemærk, at AA−1 = I medfører, at A1A(1) = I og A1A(2) = 0, samt at U (U∗U)−1U∗ =T (T ∗T )−1 T ∗. Benyt nu dette til at vise, at P1−P2 (det andet udtryk i spørgsmål 5) kanskrives

U (U∗U)−1{

Ia1

0

}(V 11)−1{

Ia1 0}

(U∗U)−1U∗

og fortsæt omskrivningen til

U

{V 11 V 12

V 21 V 21 (V 11)−1V 12

}U∗.

Endelig vises, at det første udtryk i spørgsmål (5) kan skrives på samme form.)

Page 138: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

134 OPGAVER

Bemærkning: Hypoteser om regressionsparametrene på formen H0: ABC = D hvor A, C ogD er kendte matricer kaldes i litteraturen for den generelle lineære hypotese.

Opgave 9.39

Opgave 9.51 På 28 korkege er der i hver af retningerne Nord, Øst, Syd og Vest foretaget enboring i barken for at vurdere korklagets tykkelse. Vægten af boringerne er angivet i Tabel 9.2.Data er taget fra C.R.Rao (1948): Test of significance in multivariate analysis, Biometrika 35,58-79. Efter en grundig modelkontrol vælges modellen: 28 uafhængige observationer fra enN4(µ,Σ) fordeling.

Besvarelsen af opgaven kræver omfattende beregninger, men det er tilladt at bruge program-merne i katalogethttp://home.imf.au.dk/statbib/atskurser/stat1/opgaver/flerdimensional_normalfordeling/opgave_51/.

Programmet på filen kork_1.sas viser, hvordan data læses ind og ud af PROC IML og læg-ger op til at regne opgaven med fuld kontrol over den gennemgåede teori. Programmerne påfilen kork_2.sas i samme katalog indeholder programmer, der anskueliggør data og kan bru-ges til modelkontrol. Endelig benytter kork_3.sas procedurerne PROC GLM og PROC REG til atregne opgaven.

(1) Angiv estimaterne for parametrene i modellen og angiv estimaternes fordeling.

Man er interesseret i, om tykkelsen af korken er den samme i alle fire verdenshjørner, altsåom µ1 = µ2 = µ3 = µ4, hvor µ = (µ1,µ2,µ3,µ4).

(2) Overvej, at denne hypotese ikke er en lineær normal model i den firedimensionale normal-fordeling, men at hypotesen bliver en lineær normal model i en passende transformationaf data. Test hypotesen.

(3) Ved nærmere eftertanke forlader man hypotesen i spørgsmål (2) og er nu interesseret i,om tykkelsen af barken er den samme i modsatte verdenshjørner.

Opgave 9.52 Programmet på filen iris_1.sas i katalogethttp://home.imf.au.dk/statbib/atskurser/stat1/opgaver/flerdimensional_normalfordeling/opgave_52/.indeholder indeholder målinger på 50 planter af hver af arterne Iris setosa, Iris versicolor og Irisvirginica. På hver plante har man målt længde og bredde af bægerbladet (sepalum) og længdeog bredde af kronbladet (petalum). Alle målinger er foretaget af samme person.

For hver art opfattes målingerne som uafhængige observationer fra samme firedimensionalenormalfordeling. (Man er velkommen til at kontrollere modellen).

(1) Kan det antages, at de tre iris populationer har samme kovariansmatriks?

Dernæst betragtes kun Iris setosa og Iris versicolor, som voksede i samme koloni.

Page 139: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

OPGAVER 135

N Ø S V N Ø S V72 66 76 77 60 53 66 6356 57 64 58 41 29 36 3832 32 35 36 30 35 34 2639 39 31 27 42 43 31 2537 40 31 25 33 29 27 3632 30 34 28 63 45 74 6354 46 60 52 47 51 52 4391 79 100 75 56 68 47 5079 65 70 61 81 80 68 5878 55 67 60 46 38 37 3839 35 34 37 32 30 30 3260 50 67 54 35 37 48 3939 36 39 31 50 34 37 4043 37 39 50 48 54 57 43

Tabel 9.2 Vægten af fire korkprøver fra hver af 28 korkege. Data fra to træer i hver linje.

(2) Kan det antages, at Iris setosa og Iris versicolor populationerne har samme kovariansma-triks?

Opgave 9.53 Formålet med forsøget bag denne opgave er at undersøge virkningen af kobber påfiskedødelighed. 25 tanke hver med 20 ørreder ørreder blev givet forskellige doser (dosis) afkobber i mg per liter. Andelen af døde fisk efter 8, 14, 24, 36 og 48 timer blev registreret. Disseandele er indlæst i variablene pj, j = 1, . . . ,5. Desuden blev gennemsnitsvægten af fiskene ihver tank også registreret (vgt). Data er gengivet i nedenstående Tabel 9.3, men findes iøvrigtpå filen fisk1.sas i katalogethttp://home.imf.au.dk/statbib/atskurser/stat1/opgaver/kapitel_09/opgave_53/.

For at få observationer, som er approksimativt normalfordelt med samme varians betragtesde transformerede variable

y j = sin−1√

p j, j = 1, . . . ,5.

Desuden bruges logaritmen til dosis som forklarende variabel i stedet for dosis.Benyt en flerdimensional multipel regressionsmodel til at belyse, om

(1) dosis har betydning for dødeligheden.

(2) vægten har betydning for dødeligheden.

(3) dosis og vægt samlet har betydning for dødeligheden.

Page 140: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

136 OPGAVER

p1 p1 p3 p4 p5 dosis vgt0.00 0.00 0.25 0.25 0.25 270 .66950.00 0.10 0.30 0.30 0.30 410 .64050.00 0.50 0.75 0.90 0.90 610 .72900.15 0.65 1.00 1.00 1.00 940 .77000.45 1.00 1.00 1.00 1.00 1450 .56550.00 0.05 0.20 0.20 0.20 270 .78200.05 0.10 0.30 0.30 0.30 410 .81200.05 0.45 0.95 1.00 1.00 610 .82150.10 0.70 1.00 1.00 1.00 940 .86900.20 0.85 1.00 1.00 1.00 1450 .83950.00 0.00 0.00 0.00 0.05 270 .86150.00 0.05 0.15 0.25 0.30 410 .90450.00 0.15 0.95 0.95 0.95 610 1.02800.00 0.55 0.95 1.00 1.00 940 1.04450.10 0.85 1.00 1.00 1.00 1450 1.04550.00 0.00 0.00 0.05 0.10 270 .61950.00 0.05 0.15 0.20 0.25 410 .53050.10 0.45 0.95 0.95 0.95 610 .59700.10 0.70 1.00 1.00 1.00 940 .63850.35 0.95 1.00 1.00 1.00 1450 .66450.00 0.05 0.20 0.20 0.20 270 .56850.00 0.00 0.15 0.25 0.25 410 .60400.00 0.40 0.90 1.00 1.00 610 .63250.05 0.65 1.00 1.00 1.00 940 .68450.30 0.85 1.00 1.00 1.00 1450 .7230

Tabel 9.3 Data til opgave 9.53.

Page 141: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

Indeks

BBartletts test

for identitet af kovariansmatricer . . . . 97, 100Beregninger i SAS

estimation af middelværdi og varians i en to-dimensional normalfordeling . . . . . . . . . . 41Hotellings T 2 for en simpel middelværdihypote-se . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42kontrol for to-dimensional normalfordeling 38PROC CORR . . . . . . . . . . . . . . . . . . . 40PROC DISCRIM; Bartletts test for ens kovari-ansmatricer . . . . . . . . . . . . . . . . . . . . 100PROC G3D . . . . . . . . . . . . . . . . . . . . . 44PROC GCONTOUR . . . . . . . . . . . . . . . 43PROC GLM . . . . . . . . . . . . . . . . . . . . 41PROC GLM; Lineær normal model i Np . 101PROC GLM; MANOVA sætningen . . . . . 41PROC IML . . . . . . . . . . . . . . . . . . . . 105PROC PRINCOMP . . . . . . . . . . . . . 39, 41tegning af niveaukurver for todimensional nor-malfordeling . . . . . . . . . . . . . . . . . . . . 43tegning af tætheden for todimensional normal-fordeling . . . . . . . . . . . . . . . . . . . . . . . 44

EEksempel 8.1 . . . . . . . . . . . . . . . 4, 16, 23, 24

ascorbinsyre i spinat . . . . . . . . . . . . . . 4, 24tørstofprocent og bevaret ascorbinsyre . . . . 4

Eksempel 8.2 . . . . . . . . . . . . . . . 4, 20, 25, 35længde og vægt af tudser . . . . . . . . . . . . . 4skruptudsers længde og vægt . . . . . . . . . 35

Eksempel 9.18 . . . . . . . . . . . . . . . . . . . . 70

flere p-dimensionale normalfordelte variable 70Eksempel 9.26 . . . . . . . . . . . . . . . . . . . . 82

én normalfordelt observationsrække . . . . . 82Eksempel 9.27 . . . . . . . . . . . . . . . . . . . . 82

lineære normale modeller . . . . . . . . . . . 82Eksempel 9.29 . . . . . . . . . . . . . . . . . . . . 87

flerdimensional multipel regression . . . . . 87Eksempel 9.32 . . . . . . . . . . . . . . . . . . . . 92

partiel og multipel korrelation . . . . . . . . . 92Empirisk korrelationskoefficient . . . . . . . . . . 2

FFlerdimensional normalfordeling . . . . . . . . 61

definition . . . . . . . . . . . . . . . . . . . . . . 62estimation af µ når Σ er kendt . . . . . . . . 126fordeling af maksimum likelihood estimater 76karakterisation . . . . . . . . . . . . . . . . . . . 62maksimum likelihood estimation . . . . . . . 74n× p . . . . . . . . . . . . . . . . . . . . . . . . . 70

definition . . . . . . . . . . . . . . . . . . . . . 71egenskaber . . . . . . . . . . . . . . . . . . . . 72

præcision . . . . . . . . . . . . . . . . . . . . . 113præcisionsmatriks . . . . . . . . . . . . . . . 113rang . . . . . . . . . . . . . . . . . . . . . . . . . . 67regulær . . . . . . . . . . . . . . . . . . . . . . . 68tæthed for Np(µ,Σ) . . . . . . . . . . . . . . . 67

HHotellings T 2 . . . . . . . . . . . 30, 34, 78, 79, 124

for identitet af middelværdierne i to todimensio-nale normalfordelinger . . . . . . . . . . . . . . 34sammenligning af to middelværdier . . . . . 34

137

Page 142: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

138 INDEKS

simpel hypotese i middelværdien . . . . . . 30simpel middelværdihypotese . . . . . . . 30, 78skaleret F fordeling . . . . . . . . . . . . . . . 80

Hotellings T 2 for q stikprøver . . . . . . . . . 125

IIML

SAS: Interactive Matrix Language . . . . 105

KKarakteristisk funktion

for N(µ,σ2) . . . . . . . . . . . . . . . . . . . . 62for Np(µ,Σ) . . . . . . . . . . . . . . . . . . . . 62

Konfidensintervalfor korrelationen baseret på stikprøve fra todi-mensional normalfordeling . . . . . . . . . . . 19

Korrelationkorrelationskoefficient . . . . . . . . . . . . . . . 2

Korrelationskoefficientdefinition i sandsynlighedsteori . . . . . . . . . 2todimensional normalfordeling . . . . . . . . . 7

Kovarians . . . . . . . . . . . . . . . . . . . . . . . . 1Kovariansmatriks

regulær . . . . . . . . . . . . . . . . . . . . . . . 68Kronecker produkt

definition . . . . . . . . . . . . . . . . . . . . . . 71regneregler . . . . . . . . . . . . . . . . . . . . . 71

Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . 13Kvadratiske former i normalfordelte variable 119

uafhængighed . . . . . . . . . . . . . . . . . . 119

LLineær normal model i Np . . . . . . . . . 82, 101

beregninger i SAS . . . . . . . . . . . . . . . 101estimatorer og deres fordeling . . . . . . . . . 83PROC GLM og test for uafhængighed af kom-ponenter . . . . . . . . . . . . . . . . . . . . . . 103PROC GLM og Wilks test . . . . . . . 102, 130som flerdimensional multipel regression . . 87test af modelreduktion i middelværdien . . 83uafhængighed af komponenter . . . . . . . . 94

MMatriks

højre og venstre invers . . . . . . . . . . . . 111opdelt . . . . . . . . . . . . . . . . . . . . . . . 112spor . . . . . . . . . . . . . . . . . . . . . . . . . 111

Multipel korrelation . . . . . . . . . . . . . . . . . 93fordeling af estimeret multipel korrelation . 91mellem Xi og X (2) . . . . . . . . . . . . . . . . 66

Multipel regression . . . . . . . . . . . . . . . . 117flerdimensional . . . . . . . . . . . . . . . . . . 87

NNormalfordeling

flerdimensional . . . . . . . . . . . . . . . . . . 61karakteristisk funktion for N(µ,σ2) . . . . . 62karakteristisk funktion for Np(µ,Σ) . . . . . 62n× p dimensional . . . . . . . . . . . . . . . . 70

definition . . . . . . . . . . . . . . . . . . . . . 71egenskaber . . . . . . . . . . . . . . . . . . . . 72

p-dimensional . . . . . . . . . . . . . . . . . . . 62regulær . . . . . . . . . . . . . . . . . . . . . . . 68tæthed for Np(µ,Σ) . . . . . . . . . . . . . . . 67todimensional . . . . . . . . . . . . . . . . . . . . 6

OOpgaver

Kapitel 8 . . . . . . . . . . . . . . . . . . . . . . 49Kapitel 9 . . . . . . . . . . . . . . . . . . . . . 111

PPartiel korrelation . . . . . . . . . . . . . 66, 93, 116

estimation . . . . . . . . . . . . . . . . . . . . . . 89Fishers Z . . . . . . . . . . . . . . . . . . . . . . 90fordeling af estimeret partiel korrelation . . 90mellem Xi og X j for Xk+1, . . . ,Xpfast . . . . 66

Partiel kovarians . . . . . . . . . . . . . . . . . . . 66estimation . . . . . . . . . . . . . . . . . . . . . . 89

Partiel varians . . . . . . . . . . . . . . . . . . . . . 66Pearson korrelationskoefficient . . . . . . . . . . 2PROC CORR

Page 143: Statistik 1 og Statistiske Modeller 2: Todimensionale ... · Institut for Matematiske Fag Det Naturvidenskabelige Fakultet Aarhus Universitet Februar 2005

INDEKS 139

beregning af korrelationer . . . . . . . . . . . 40PROC DISCRIM

Bartletts test for ens kovariansmatricer . . 100PROC G3D

tegning af todimensional tæthed i perspektiv 44PROC GCONTOUR

tegning konturkurver . . . . . . . . . . . . . . . 43PROC GLM

PROC GLM; Lineær normal model i Np . 101NOUNI; i MODEL sætningen . . . . . . . . 41todimensional normalfordeling; MANOVA sæt-ningen . . . . . . . . . . . . . . . . . . . . . . . . . 41

PROC IML . . . . . . . . . . . . . . . . . . . . . 105Projektion . . . . . . . . . . . . . . . . . . . . . . 114Præcision

flerdimensional normalfordeling . . . . . . 113Præcisionsmatriks

flerdimensional normalfordeling . . . . . . 113

SSkewnes . . . . . . . . . . . . . . . . . . . . . . . . 13Skævhed

dansk for skewness . . . . . . . . . . . . . . . . 13

TTest

χ2-test for identitet af korrelationer baseret på kstikprøver fra den todimensional normalforde-ling . . . . . . . . . . . . . . . . . . . . . . . . . . 21t-test for korrelation 0 baseret på én todimensio-nal normal stikprøve . . . . . . . . . . . . . . . 18

Todimensional normalfordeling . . . . . . . . . . 6betingede fordelinger . . . . . . . . . . . . . . . 8empirisk korrelationskoefficient . . . . . . . 11estimation . . . . . . . . . . . . . . . . . . . . . . . 9Fishers Z . . . . . . . . . . . . . . . . . . . . . . 13fortolkning af korrelation . . . . . . . . . . . . 24Hotellings T 2

for identitet af middelværdierne i to todimen-sionale normalfordelinger . . . . . . . . . . 34sammenligning af to middelværdier . . . 34simpel hypotese i middelværdien . . . . . 30simpel middelværdihypotese . . . . . . . . 30

konfidensinterval for ρ . . . . . . . . . . . . . 19konturellipser . . . . . . . . . . . . . . . . . . . . 8korrelation og regression . . . . . . . . . . . . 23korrelationskoefficient . . . . . . . . . . . . . . . 7marginale fordelinger . . . . . . . . . . . . . . . 8modelkontrol . . . . . . . . . . . . . . . . . . . . 15regressionslinjer . . . . . . . . . . . . . . . . . . . 9regression towards mediocrity . . . . . . . . . 8test for ρ = 0 . . . . . . . . . . . . . . . . . . . . 19test for ρ = 0 . . . . . . . . . . . . . . . . . . . . 18

Topstejlheddansk for kurtosis . . . . . . . . . . . . . . . . . 13

WWilks test . . . . . . . . . . . . . . . . . 86, 102, 130

Raos approksimation til fordelingen . . . . . 87Wishart fordeling . . . . . . . . . . . . . . 123, 124

basale egensskaber . . . . . . . . . . . . . . . . 77definition . . . . . . . . . . . . . . . . . . . . . . 76ikke central . . . . . . . . . . . . . . . . . . . . . 76resultater om opdelt Wishart fordelt matriks 89