001 Mat110 Statistikk 1, Formelsamling, (1. Mars 2015)

Formelsamling V-2015

MAT110Statistikk 1 Per Kristian Rekdal

Innhold

1 Beskrivende statistikk 71.1 Populasjon og utvalg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2 Statistiske mal (e`n variabel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.1 Lokaliseringsmal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2.2 Spredningsmal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 Statistiske mal (to variabler) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Sannsynlighetsregning 132.1 Utfallsrom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3 Begivenhet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Mengdelre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Regning med sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.5.1 Addisjonssetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.5.2 Komplementsetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.3 Total sannsynlighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.4 Tvillingsetningene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Kombinatorikk 233.1 Koblinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 4 situasjoner (endelig populasjon) . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Kombinatoriske sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Betinget sannsynlighet 294.1 Betinget sannsynlighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.1.1 Multiplikasjonssetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.1.2 Bayes lov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2 Oppsplitting av . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.3 Uavhengighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5 Tilfeldige variabler, forventning og varians 355.1 Tilfeldige variabler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.2 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.2.1 Forventning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.2.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.2.3 Noen regneregler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3

5.3 Generelle forventninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

6 Simultane sannsynlighetsfordelinger 436.1 Simultan- og marginalfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446.2 Generelle forventninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456.3 Kovarians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

7 Sentrale sannsynlighetsfordelinger 517.1 Den binomiske fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

7.1.1 Forventingsverdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537.1.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7.2 Den hypergeometriske fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . 547.2.1 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

7.3 Sammenheng mellom Hyp[N,M, n] og Bin[n, p] . . . . . . . . . . . . . . . . . . . 577.4 Poissonfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

7.4.1 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607.5 Normalfordelingen (kontinuerlig) . . . . . . . . . . . . . . . . . . . . . . . . . . 61

7.5.1 Standardisering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.5.2 Sammenhengen mellom P (Z z) og G(z) . . . . . . . . . . . . . . . . . . 647.5.3 Standardavvik og %-vis areal . . . . . . . . . . . . . . . . . . . . . . . . 68

7.6 Oversikt: Bin, Hyp, Poi og N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697.7 Sentralgrensesetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727.8 Diskrete fordelinger normalfordeling . . . . . . . . . . . . . . . . . . . . . . 757.9 Sammenheng: Bin, Hyp, Poi og N . . . . . . . . . . . . . . . . . . . . . . . . . . 79

11 Regresjonsanalyse 8111.1 Introduksjon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8211.2 Residual og SSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8311.3 Minste kvadraters regresjonslinje . . . . . . . . . . . . . . . . . . . . . . . . . . . 8511.4 Forklaringsstyrke og SST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4

Forord

Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved hgskolen i Molde.

Formlene i denne formelsamlingen er stort sett de formlene som er markert med rd skrift og rammerundt i kompendiet. Studentene oppfordres til a bruke formelsamlingen aktivt nar vingsoppgaverskal lses.

Hjelpemidler eksamen:

Godkjent kalkulator og formelsamling.

Kun originalversjonen av formelsamlingen utgitt av SiMolde Bok er lov a ha med paeksamen. (Dette fordi det skal vre lett a se at dere har med den riktige og lovlige formel-samlingen pa eksamen).

Det er lov a skrive egne notater i formelsamlingen som dere kan ta med pa eksamen. Men:Ikke skriv av hele eksempler og hele oppgaver. (Dersom dette blir praktisert i stor grad mavi revurdere denne ordningen i forhold til neste ars studenter).

En gratis PDF-versjon av formelsamlingen kan lastes ned fra www.himoldeX.no.

Per Kristian Rekdal

Copyright c Hyskolen i Molde, mars 2015.

5

Kapittel 1

Beskrivende statistikk

1.1 Populasjon og utvalg

Definisjon: ( populasjon )

Populasjon = den totale mengden av objekter/data som vi nsker a analysere

Definisjon: ( utvalg )

Utvalg = en delmengde av populasjonen,dvs. en samling av data som er hentet fra en populasjon

Definisjon: ( statistisk inferens )

Statistisk inferens = det a tolke/analysere utvalget for a finne ut mest mulig omhele populasjonen

7

Populasjon Utvalg

Utvalgsresultater

Trekning av utvalg

Statistisk inferens Beskrivende statistikk

Figur 1.1: Prosessen ved statistisk inferens, generelt.

Prosessen for statistisk inferens er illustrert generelt i figur (1.1).

8

1.2 Statistiske mal (e`n variabel)

1.2.1 Lokaliseringsmal

Definisjon: ( median )

La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:

median =

midtre observasjonen , n = odde

gjennomsnitt av to midterste observasjonene , n = like(1.1)

Definisjon: ( typetall ) 1


typetall = den verdien som forekommer hyppigst (1.2)

Definisjon: ( gjennomsnitt )

La x1, x2, x3, ..., xn vre n antall observasjoner. Da er gjennomsnittet:2

x =1

n

ni=1

xi (1.3)

1Kalles ogsa modus eller modalverdi.2 = den greske bokstaven sigma. F.eks. 3i=1xi = x1 + x2 + x3.

9

1.2.2 Spredningsmal

Definisjon: ( modalprosent )


modalprosent = %-vis andel av observasjonene som har verdi lik typetallet (1.4)

Definisjon: ( variasjonsbredde )


variasjonsbredde = differansen mellom strste og minste verdi (1.5)

Definisjon: ( kvartilavvik )


k1 = nedre kvartil , dvs. 25% av observasjonene har verdi k1 (1.6)

k2 = medianen , dvs.

50% av observasjonene har verdi k2

50% av observasjonene har verdi k2(1.7)

k3 = vre kvartil , dvs. 75% av observasjonene har verdi k3 (1.8)

Da er

kvartilavvik = k3 k1 (1.9)

10

Definisjon: ( empirisk varians ) 3

La x1, x2, x3, ..., xn vre observasjoner, og la x vre gjennomsnittet.Da er den empiriske variansen: 4

S2x =1

n 1ni=1

(xi x)2 (1.10)

Definisjon: ( empirisk standardavvik ) 5

Det empiriske standardavviket er:

Sx =S2x (1.11)

3Kalles ogsa utvalgsvariansen.4Ulike estimater av variansen: I lign.(1.10) deler man pa n 1, og ikke n. Om vi bruker det ene eller det andre

er avhengig om x er gjennomsnittet for hele populajonen, eller bare et utvalg. I dette kurset skal vi imidlertid holdeoss til definisjonen i lign.(1.10).

5Kalles ogsa utvalgstandardavviket.

11

1.3 Statistiske mal (to variabler)

Definisjon: ( empirisk kovarians ) 6

La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner, og la x samt y vre de respektivegjennomsnitt. Den empiriske kovariansen er da: 7

Sxy =1

n 1ni=1

(xi x)(yi y) (1.12)

Definisjon: ( korrelasjonskoeffisient )

La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner. Korrelasjonskoeffisienten er da:

Rxy =Sxy

Sx Sy (1.13)

6Kalles ogsa utvalgskovariansen.7Ulike estimater av kovariansen: (samme kommentar som pa side 11) I lign.(1.12) deler man pa n1, og ikke n.

Om vi bruker det ene eller det andre er avhengig om x og y er gjennomsnitt for hele sine respektive populajoner,eller bare et utvalg. I dette kurset skal vi imidlertid holde oss til definisjonen i lign.(1.12).

12

Kapittel 2

Sannsynlighetsregning

Figur 2.1: Sannsynlighetsregning.

13

2.1 Utfallsrom

Definisjon: ( utfallsrom )

Resultatet av et stokastisk forsk1 kan ikke forutsies entydig, men det kan angis en mengde muligeenkeltutfall. Denne mengden av mulige enkeltutfall kalles utfallsrom: 2

= { mengden av alle mulige enkeltutfall } (2.1)

2.2 Sannsynligheter

Definisjon: ( relativfrekvens )

La n vre totalt antall forsk. Og la nA vre antall ganger, av de totalt n forskene, hvor etbestemt utfall A inntreffer. Den reletive frekevens for utfallet A er da:

fr(nA) =nAn

(2.2)

hvor altsa

n = totalt antall forsk (2.3)

nA = antall ganger hvor utfallet A inntreffer (2.4)

1Dvs. forsk med uforutsigbart utfall.2Den greske bokstaven kalles omega.

14

Definisjon: ( sannsynlighet )

La n vre totalt antall forsk. Og la nA vre antall ganger, av de totalt n forskene, hvor etbestemt utfall A inntreffer. Sannsynligheten for for at utfallet A inntreffer er da:

p(A) = limn

fr(nA) (2.5)

hvor fr(n) er relativ frekvens.

Egenskaper ved sannsynligheter: ( diskret utfallsrom )

Med kortnotasjonen pi p(Ai) sa gjelder:

0 pi 1 , for alle i = 1, 2, 3, ...., n (2.6)

ni=1

pi = 1 (2.7)

hvorn

i=1 pi = p1 + p2 + p3 + ...+ pn.

15

2.3 Begivenhet

Definisjon: ( begivenhet )

begivenhet = delmengde av utfallsrommet (2.8)

A

Figur 2.2: Et venn-diagram for en begivenhet. er utfallsrommet og A er en begivenhet.

Egenskaper for en begivenhet: ( diskret utfallsrom )

P (A) =uA

p(u) (2.9)

I tillegg kan vi na skrive lign.(2.6) og (2.7) pa en alternativ mate:

0 P (A) 1 , for alle A (2.10)

P () =e

p(e) = 1 (2.11)

16

2.4 Mengdelre

For et eksperiment, la A og B vre to begivenheter i utfallsrommet .

A A

A

Utfallsrommet er hele det bl omrdet.

Begivenheten A visualiseres ved det bl omrdet.

A benevnes ikke A

Figur 2.3: Utfallsrommet , begivenheten A og komplementet A.

Snitt: A B betyr A og B. Tilsvarer OVERLAPP av mengder.

Union: A B betyr A eller B. Tilsvarer SUM av mengder.

A B

A B

A

B

Disjunkt: A B = . A og B inntreffer ALDRI samtidig. Ingen felles elementer.

A B

Figur 2.4: Snitt, union og disjunkt.

17

2.5 Regning med sannsynligheter

Definisjon: ( disjunkte begivenheter)

To begivenheter A og B er disjunkte dersom A

og B = .

A

B

Disjunkt: A B = . A og B inntreffer ALDRI samtidig. Ingen felles elementer.

Figur 2.5: A og B er disjunkt.

2.5.1 Addisjonssetningen

Setningen: ( den spesielle addisjonssetningen )

Dersom begivenhetene A og B er disjunkte, dvs. A

og B = , sa gjelder:P (A

eller B) = P (A) + P (B) (2.12)

18

Setningen: ( den generelle addisjonssetningen )

For begivenhetene A og B gjelder:

P (A

eller B) = P (A) + P (B)P (A og B) ekstra ledd

(2.13)

A B

Figur 2.6: Overlappen mellom A og B er A B.

19

Setningen: ( den generelle addisjonssetningen )

For begivenhetene A, B og C gjelder:

P (A B C) eller

= P (A) + P (B) + P (C)

P (A B) P (A C) P (B C)+ P (A B C)

og

(2.14)

som kan illustrereres via venn-diagrammet i figur (2.7).

A B

C

Figur 2.7: Begivenhetene mellom A, B og C.

20

2.5.2 Komplementsetningen

Setningen: ( komplementsetningen )

For begivenheten A og dens komplement A (eller Ac) gjelder:

P (A) = 1 P (A) (2.15)

A A

A benevnes ikke A.

Figur 2.8: Komplementet til A er A (eller Ac).

2.5.3 Total sannsynlighet

Setningen: ( total sannsynlighet )


P (A) = P (A B) + P (A B) (2.16)

A B

AB

A

AB

Figur 2.9: Oppsplitting av begivenhenten A = (A B) (A B).

21

2.5.4 Tvillingsetningene

Setninger: ( tvillingsetningene )

P (A

og B) = 1 P (A eller B) (2.17)

P (A

og B) = 1 P (A eller B) (2.18)

22

Kapittel 3

Kombinatorikk

Figur 3.1: Kombinatorikk. En las med svrt mange kombinasjonsmuligheter.

23

3.1 Koblinger

Definisjon: ( koblinger )

Koblinger = forhold som gjr at et bestemt valg kan pavirke utfallet av andre valg vi skal gjre.

Grunnprinsipp i kombinatorikk: ( antagelse )

Ingen kobling mellom mellom valgmulighetene. (Med koblinger blir det fort vanskelig).

Kombinasjoner: ( uten koblinger )

Dersom vi har

m1 = antall muligheter i valg nr. 1

m2 = antall muligheter i valg nr. 2

.

.

mN = antall muligheter i valg nr. N (3.1)

da er

antall mulige kombinasjoner = m1 m2 m3 ...mN (3.2)

24

3.2 4 situasjoner (endelig populasjon)

Det er ofte vanskelig a telle opp antall elementer i utfallsrommet. Det kan derfor ofte lnne sega bruke urnemodellen. Tenk deg at alle mulige utfall av et eksperiment er representert vedkuler som ligger i en urne. Sa trekker vi kuler etter tur. Da ma vi skille mellom:

er det trekking med eller uten tilbakelegging? betyr det noe i hvilken rekkeflge kulene trekkes?

m/tilbakelegging u/tilbakelegging

ordnet

ikke-ordnet

trekning

situasjon 1 situasjon 2

situasjon 3 situasjon 4 (forekommer sjelden)

Figur 3.2: 4 situasjoner for urnemodellen.

25

Egenskaper til binomialkoeffisienten

(N

s

): ( N over s )

(N

s

)

binomialkoeff.

=N !

(N s)! s! (3.3)

hvor f.eks.

s! = 1 2 3 ... (s 2) (s 1) s (3.4)5! = 1 2 3 4 5 (3.5)

Legg merke til at

(N

0

)=

N !

(N 0)! 0! = 1 (3.6)(N

1

)=

N !

(N 1)! 1! = N (3.7)(N

N

)=

N !

(N N)! N ! = 1 (3.8)

siden 0! = 1.

26

3.3 Kombinatoriske sannsynligheter

La oss se pa en tellesituasjon som kan beskrives med urnemodellen. I slike situasjoner er deten sammenheng mellom sannsynlighet og antall kombinasjoner:

La A tilsvare det a trekke kuler av en bestemt type fra urnen. Dette betyr at kulene representererbegivenheten A. Sannsynligheten for a trekke A er da gitt ved: 1

P (A) =antall gunstige kombinasjoner for A

antall mulige kombinasjoner totalt(3.9)

1Dette er helt analogt med tellesituasjonen som vi diskuterte i kapittel 1. Se f.eks. eksempel 3 i kapittel 1.

27

Kapittel 4

Betinget sannsynlighet

Figur 4.1: Gitt at vi vet hvilke kuler som er i btten, hva er sannsynligheten for a trekke en hvitkule?

29

4.1 Betinget sannsynlighet

4.1.1 Multiplikasjonssetningen

Setning: ( multiplikasjonssetningen, generelle )


P (A

og B) = P (A|B) P (B) (4.1)hvor

P (A B) = og-sannsynligheten for A og B (4.2)P (A|B) = sannsynligheten for A gitt at B allerede har inntruffet (A gitt B)

( betinget sannsynlighet)

P (B) = sannsynligheten for B 6= 0 (4.3)(ubetinget sannsynlighet)

Tilsvarende gjelder: (multiplikasjonssetningen)

= P (AB) P (B A) = P (B|A) P (A) (4.4)

hvor P (A) 6= 0. Denne setningen flger umiddelbart siden P (B A) = P (A B).

30

4.1.2 Bayes lov

Setning: ( Bayes lov )


P (A|B) = P (B|A) P (A)P (B)

(4.5)

eller alternativt:

P (B|A) = P (A|B) P (B)P (A)

(4.6)

Figur 4.2: Bayes lov. Thomas Bayes.

31

4.2 Oppsplitting av

Setningen: ( oppsplitting av i 2 )

Anta at utfallsrommet splittes i to delrom = B1

eller B2, der B1 B2 = , dvs. delrommeneB1 og B2 har ingen felles elementer: de er disjunkte. Enhver mengde A kan da skrives:

A = (A B1)eller (A B2) (oppsplitting) (4.7)

med tilhrende sannsynlighet

P (A) = P (A B1) + P (A B2) (4.8)

Alternativt 1 kan lign.(4.8) skrives:

P (A) = P (A|B1) P (B1) + P (A|B2) P (B2) (4.9)

B2

:

B1

A

Figur 4.3: Oppsplitting av sannsynlighetsrom , jfr. lign.(4.7).

1Via multiplikasjonssetningen i lign.(4.1): P (A

og B) = P (A|B) P (B).32

Setningen: ( oppsplitting av )

Anta at utfallsrommet splittes i delrom = B1

eller B2 eller B3 eller ... eller BN , der alleBi Bj = , dvs. ingen delrom B1, B2, ... , BN har noen felles elementer: disjunkte 2. Enhvermengde A kan da skrives:

A = (A B1)eller (A B2) eller ... eller (A BN) (oppsplitting) (4.10)

med tilhrende sannsynlighet

P (A) = P (A B1) + P (A B2) + ... + P (A BN) (4.11)

Alternativt 3 kan lign.(4.11) skrives:

P (A) = P (A|B1) P (B1) + P (A|B2) P (B2) + ... + P (A|BN) P (BN) (4.12)

B2

:

. . . . . BN B3 B1

A

Figur 4.4: Oppsplitting av sannsynlighetsrom , jfr. lign.(4.10).

2Bitene i et puslespill overlapper akkurat ikke. Bitene i puslespillet er disjunkte.

3Via multiplikasjonssetningen i lign.(4.1): P (A

og B) = P (A|B) P (B).33

4.3 Uavhengighet

Definisjon: ( uavhengighet )

To begivenheter A og B er uavhengige dersom

P (A|B) = P (A) (4.13)

Setning: ( multiplikasjonssetningen, spesielle )

Dersom begivenhetene A og B er uavhengige, sa gjelder:

P (A

og B) uavh.= P (A) P (B) (4.14)

34

Kapittel 5

Tilfeldige variabler, forventning ogvarians

Figur 5.1: Forventning (svart linje) og varians.

35

5.1 Tilfeldige variabler

Definisjon: ( tilfeldig/stokastisk variabel )

En stokastisk variabel er en strrelse X som kan anta ulike verdier x med ulike sannsynligheter. 1

Definisjon: ( sannsynlighetsfordeling, diskret )

En sannsynlighetsfordeling til en diskret variabel er en funksjon definert ved

P (x) liten x for verdier

= P (X = x) stor X for selve variabelen

(5.1)

Definisjon: ( kumulativ sannsynlighetsfordeling, diskret )

Den kumulative sannsynlighetsfordeling F til en diskret variabel X er definert ved

F (x) = P (X x) (5.2)

1En mer teknisk (matematisk) versjon av definisjonen av en stokastisk variabel er: Med en tilfeldig variabelmener vi en funksjon X som til ethvert mulig utfall definerer et bestemt reelt tall.

36

5.2 Forventning og varians

5.2.1 Forventning

Definisjon: ( forventningsverdi, diskret ) 2

For en diskret tilfeldig variabel X med de mulige verdiene x1, x2, ... , xm er forventningsverdien:

E[X] =mi=1

xi P (X = xi) (5.3)

Definisjon: ( forventningsverdi, kontinuerlig )

For en kontinuerlig tilfeldig variabel X er forventningsverdien:

E[X] =

x f(x) dx (5.4)

hvor f(x) = sannsynlighetstettheten av x.

2Jamfr den analoge strrelsen for (empirisk) gjennomsnitt definert i lign.(1.3): x = 1nn

i=1 xi.

37

5.2.2 Varians

Definisjon: ( varians, diskret )

For en diskret tilfeldig variabel X er variansen

V ar[X] = E[ (X E[X])2 ] (5.5)

Variansen er altsa forventningsverdien av (X E[X])2. Lign.(5.5) kan derfor skrives: 3

V ar[X] =mi=1

(xi E[X])2 P (X = xi) (5.6)

A bruke definisjonen for a regne ut V ar[X] via lign.(5.6) kan vre omstendelig. Men det finnesen setning som forenkler regningen i en del tilfeller. Setningen er som flger:

3Jamfr den analoge strrelsen for empirisk varians definert i lign.(1.10): S2x =1

n1n

i=1 (xi x)2.

38

Setning: ( varians )

La X vre en stokastisk variabel. For variansen gjelder da:

V ar[X] = E[X2] E[X]2 (5.7)

Denne formen er en enklere og mer brukt formel enn definisjonen i lign.(5.5). Via lign.(5.3) kandenne setningen skrives:

V ar[X] =mi=1

x2i P (X = xi) ( m

i=1

xi P (X = xi))2

(5.8)

Definisjon: ( standardavvik, diskret ) 4

For en diskret tilfeldig variabel X er standardavviket

[X] V ar[X] (5.9)

4Jamfr den analoge strrelsen for (empirisk) standardavvik definert i lign.(1.11): Sx =S2x.

39

5.2.3 Noen regneregler

La a og b vre konstanter. La videre X og Y vre to stokastiske variabler. Da gjelder:

Regneregler for forventning:

E[a] = a (5.10)

E[a+X] = a+ E[X] (5.11)

E[a X] = a E[X] (5.12)

E[aX + bY ] = aE[X] + bE[Y ] (5.13)

Regneregler for varians:

V ar[a] = 0 (5.14)

V ar[a+X] = V ar[X] (5.15)

V ar[a X] = a2 V ar[X] (5.16)

V ar[X] = V ar[X] (5.17)

Dessuten er alltid V ar[X] 0, dvs. en varians kan aldri vre negativ.

40

5.3 Generelle forventninger

Forventningsverdien i forrige avsnitt kan generaliseres pa flgende mate:

Definisjon: ( generell forventningsverdi, diskret )

For en diskret tilfeldig variabel X og en vanlig funksjon h(X) sa er

E[h(X)] =mi=1

h(xi) P (X = xi) (5.18)

41

Kapittel 6

Simultane sannsynlighetsfordelinger

Figur 6.1: Simultane sannsynlighetsfordelinger.

43

6.1 Simultan- og marginalfordeling

Definisjon: ( simultanfordeling )

La X og Y vre to stokastiske variabler. Med simultanfordeling menes:

p(x, y) = P (X = x og Y = y) (6.1)

Definisjon: ( marginalfordeling )

La X og Y vre to stokastiske variabler. Med marginalfordeling menes:

P (X = x) =y

p(x, y) (6.2)

P (Y = y) =x

p(x, y) (6.3)

Definisjon: ( uavhengighet ) 1

La X og Y vre to stokastiske variabler. Disse er uavhengige dersom:

P (X = x og Y = y) = p(x,y)

= P (X = x) P (Y = y) (6.4)

for alle X = x og Y = y.

1Jamfr den analoge setn. for uavhengighet mellom begivenheter A og B i lign.(4.14): P (A B) = P (A) P (B).

44

6.2 Generelle forventninger

Definisjon: ( generell forventingsverdi, diskret )

For diskrete stokastiske variabel X, Y og funksjonen h(X, Y ) sa gjelder

E[h(X, Y )] =mi=1

nj=1

h(xi, yj) p(xi, yj) (6.5)

Spesialtilfelle:

La oss se pa et spesialtilfelle av lign.(6.5), nemlig det spesialtilfellet nar:

h(X, Y ) = X Y (6.6)

Da er:

E[X Y ] =mi=1

nj=1

xi yj p(xi, yj) (6.7)

45

Setning: ( uavhengighet )

La X og Y vre to uavhengige stokastiske variabler 2. Da gjelder:

E[X Y ] = E[X] E[Y ] (6.9)

2Ut fra definisjonen av uavhengighet mellom to stokastiske variabler ( se lign.(6.4) ) sa vet vi X og Y eruavhengige dersom:

P (X = x og Y = y) = p(x,y)

lign.(6.4)= P (X = x) P (Y = y) (6.8)

for alle X = x og Y = y.

46

6.3 Kovarians

Definisjon: ( kovarians ) 3

La X og Y vre to stokastiske variabler. Med

samvariasjon/korrelasjon kovariansen mellom disse mener vi:

samvariasjon/korrelasjon Cov[X, Y ] = E[ (X E[X])(Y E[Y ]) ] (6.10)

Setning: ( kovarians )

La X og Y vre to stokastiske variabler. For

samvariasjon/korrelasjon kovariansen gjelder da:

samvariasjon/korrelasjon Cov[X, Y ] = E[X Y ] E[X] E[Y ] (6.11)

Setning (spesialtilfelle , kovarians )

La X og Y vre to stokastiske variabler. Dersom X og Y er uavhengige, dvs.:

E[X Y ] uavh.= E[X] E[Y ] (6.12)sa er

Cov[X, Y ] = 0 X og Y ukorrelerte

(6.13)

3Jamfr den analoge definisjonen av empirisk kovarians i lign.(1.12): Sxy =

1n1

ni=1 (xi x)(yi y).

47

Definisjon: ( korrelasjonskoeffisienten ) 4

La X og Y vre to stokastiske variabler. Med korrelasjonskoeffisienten [X, Y ] mener vi da: 5

[X, Y ] =

samvariasjon/korrelasjon Cov[X, Y ]

V ar[X] spredning

V ar[Y ]

spredning

(6.15)

4Jamfr den analoge definisjonen av korrelasjonskoeffisienten Rxy i lign.(1.13): Rxy =SxySxSy .

5Siden [X] V ar[X], se lign.(5.9), sa kan korrelasjonskoeffisienten [X,Y ] skrives pa en alternativ mate:

[X,Y ] =

samvariasjon/korrelasjon Cov[X,Y ]

[X]spredning

[Y ]spredning

(6.14)

48

Setning: ( kovarians II )

La X og Y vre to stokastiske variabler. Generelt gjelder da flgende sammenhengen mellomvariansen og kovariansen:

variasjon/(spredning) V ar[aX + bY ] = a2 V ar[X] + b2 V ar[Y ] + 2ab

samvariasjon Cov[X, Y ] (6.16)

hvor a og b er konstanter.

Setning (spesialtilfelle , kovarians II )

La X og Y vre to stokastiske variabler. Dersom X og Y er ukorrelerte, sa er:

Cov[X, Y ] = 0 (6.17)

Da gjelder:

V ar[aX + bY ] = a2 V ar[X] + b2 V ar[Y ] (6.18)

49

Kapittel 7

Sentrale sannsynlighetsfordelinger

Figur 7.1: Sentralgrensesetningen (CLT).

51

7.1 Den binomiske fordelingen

Definisjon: (

diskret binomisk fordeling , X

2 param. Bin[n, p] )

Punktsannsynlighetene for en binomisk fordeling er

P (X = x)def.=

(n

x

)px (1 p)nx (7.1)

hvor

X = stokastisk variabel (7.2)

= antall suksesser i en binomisk forsksserie pa totalt n forsk

p = sannsynlighet for suksess (7.3)

n = totalt antall forsk (7.4)(n

x

)

binomialkoeff.

=n!

(n x)! x! (n over x) (7.5)

P(X=x)

x

Figur 7.2: Binomiske sannsynlighetsfordelinger P (X = x).

52

7.1.1 Forventingsverdi

Setning: ( forventing av X 2 param.

Bin[n, p] )

La X vre en binomisk variabel, dvs. X Bin[n, p]. Da gjelder:

E[X] = n p (7.6)

7.1.2 Varians

Setning: ( varians av X 2 param.

Bin[n, p] 1 ) )

La X vre en binomisk variabel, dvs. X Bin[n, p]. Da gjelder:

V ar[X] = n p (1 p) (7.7)

1Skrivematen X 2 param.

Bin[n, p] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x)som er binomisk fordelt.

53

7.2 Den hypergeometriske fordelingen

Definisjon: (

diskret hypergeometrisk fordeling , X

3 param. Hyp[N,M, n] 2 )

Punktsannsynlighetene for en hypergeometrisk fordeling er

P (X = x)def.=

(M

x

)(N Mn x

)(N

n

) (7.8)

hvor

X = stokastisk variabel

= antall spesielle elementer i det tilfeldige utvalget pa (7.9)

n trukne elementer

N = antall elementer i grunnmengden (7.10)

M = antall spesielle elementer (7.11)

N M = antall vanlige elementer (7.12)

n = antall trukne elementer (7.13)(N

n

)

binomialkoeff.

=N !

(N n)! n! (N over n) (7.14)

2Skrivematen X Hyp[N,M,n] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x)som er hypergeometrisk fordelt.

54

P(X=x)

x

Figur 7.3: Hypergeometriske sannsynlighetsfordelinger P (X = x).

55

7.2.1 Forventning og varians

Setning: ( forventing av X 3 param.

Hyp[N,M, n]

La X vre en hypergeometrisk variabel, dvs. X Hyp[N,M, n]. Da gjelder:

E[X] = n MN

(7.15)

Setning: ( varians av X 3 param.

Hyp[N,M, n] )

La X vre en hypergeometrisk variabel, dvs. X Hyp[N,M, n]. Da gjelder:

V ar[X] =N nN 1 n

M

N(

1 MN

)(7.16)

56

7.3 Sammenheng mellom Hyp[N,M, n] og Bin[n, p]

Setning: (

3 param. Hyp[N,M, n]

2 param. Bin[n, p] )

Dersom grunnmengden N i en hypergeometrisk forskserie er mye strre enn utvalget n, typisk

N & 20 n (7.17)sa er

X Hyp[N,M, n] N & 20n X Bin[n, p] (7.18)

57

7.4 Poissonfordelingen

Definisjon: (

diskret Poissonfordeling , X

1 param. Poi[] ) 3

Punktsannsynlighetene for en Poissonfordeling er

P (X = x)def.=

x

x!e (7.19)

hvor

X = stokastisk variabel

= antall begivenheter som inntreffer innenfor en gitt tid eller gitt rom (7.20)

= gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom (7.21)

3Kalles ofte loven om sjeldne begivenheter.

58

P(X=x)

x

Figur 7.4: Poissonfordelinger P (X = x).

Setning: (

2 param. Bin[n, p]

1 param. Poi[] )

I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svrt liten ogantall forsk n er svrt stor, typisk

n & 50 og p . 0.05 (7.22)

sa er

X Bin[n, p] n& 50 og p. 0.05 X Poi[] (7.23)

59

7.4.1 Forventning og varians

Setning: ( forventing av X Poi[] 4 )

La X vre en Poissionfordelt variabel, dvs. X Poi[]. Da gjelder:

E[X] = (7.24)

Setning: ( varians av X Poi[] )

La X vre en Poissonfordelt variabel, dvs. X Poi[]. Da gjelder:

V ar[X] = (7.25)

4Skrivematen X Poi[] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) somer Poissonfordelt.

60

7.5 Normalfordelingen (kontinuerlig)

Definisjon: ( generelle

kont. normalfordeling

La X vre en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er 5

fX(x) =1

2pi 2e

(x)222 (7.26)

hvor

= E[X] = forventingen av X ( lokalisering av toppunkt ) (7.27)

2 = V ar[X] = variansen av X (7.28)

=2 = standardavviket av X ( halvbredden av kurven ) (7.29)

fX(x)

x

Figur 7.5: Tetthetsfunksjoner fX(x) til ulike normalfordelinger.

5Lign.(7.26) er en tetthetsfunksjon.

61

Definisjon: ( standardisert

kont. normalfordeling, X N [ = 0, = 1] )

La X vre en kontinuerlig stokastisk variabel. Dersom

E[X] = = 0 , V ar[X] = 2 = 1 (7.30)

sa vil den generelle normalfordelingen i lign.(7.26) redusere seg til

fX(x) =12pi

ex2

2 (7.31)

Dette kalles den standardiserte normalfordelingen.

62

7.5.1 Standardisering

Omskalering: ( variabelskifte )

Z =X

(7.32)

Matematisk sa betyr det faktum at = 0 og = 1 i den nye omskalerte variabelen, flgende:

E[Z] = 0 , V ar[Z] = 1 (7.33)

63

7.5.2 Sammenhengen mellom P (Z z) og G(z)

arealet til venstre for z = sannsynligheten for at den stokastiske variabelen Z

har verdier mindre eller lik z

= P (Z z) (7.34)

Arealet til venstre for z er det samme som integralet under grafen fZ(z):

P (Z z) = stoppstart

=

=G(z) z

fZ(s) dsdef.= G(z) (7.35)

Gaussintegralet G(z) behver ikke regnes ut av oss. Det er tabelloppslag.

1

fZ(z)

= 1

= 0

z

- 1 z

areal = G(z)

Figur 7.6: Arealet som vist representerer sannsynligheten P (Z z).

64

P(Z z) = G(z)

z

65

Setning: ( sammenh. mellom P (Z z), P (Z z) og G(z), dvs. STANDARDISERT form )

La

generell n.-fordeling X N [, ] og

standard n.-fordeling Z N [ = 0, = 1], dvs. X og Z vre kontinuerlige stokastiske variabeler

relatert pa flgende mate:

Z =X

(7.36)

Da er den kumulative sannsynlighetsfordelingen gitt ved:

P (X x) = P (Z z) = G(z) (7.37)

hvor 6

G(z) =

z

fZ(z) dz (7.38)

og fZ(z) er gitt ved lign.(7.31).

En alternativ form pa lign.(7.37) er:

P (X x) = P (Z z) = G(x

)(7.39)

6Dette integralet G(z), Gaussintegralet, behver ikke regnes ut. Det er tabelloppslag. Tabell finnes bakerst ilreboken.

66

Egenskap ved den kumulative sannsynlighetsfordelingen G(z):

fZ(z)

z z

fZ(z)

z - z

areal = G(z)

areal = G(-z)

Figur 7.7: Arealene representerer Gaussintegralene G(z) og G(z).

Fra figur (7.7) innser vi at

G(z) + G(z) = arealet under hele kurven = 1 (7.40)

Altsa vi kan skrive:

G(z) = 1 G(z) (7.41)eller ekvivalent

P (Z z) = 1 P (Z z) (7.42)

67

7.5.3 Standardavvik og %-vis areal

Som vi har lrt tidligere sa er varians og standardavvik et mal pa spredning. For en normalfordelingmed et gitt standardavvik , sa dekker intervallet

X + hele 68.2 % av arealet (7.43)

under sannsynlighetfordelingen fX(x). Tilsvarende dekker intervallet

2 X + 2 hele 95.4 % av arealet (7.44)

under sannsynlighetfordelingen fX(x). Dette er illustrert i denne figuren:

fX(x)

z x

Figur 7.8: Standardavvik og %-vis areal for en normalfordeling.

68

7.6 Oversikt: Bin, Hyp, Poi og N

Vi har i dette kapitlet lrt om fire sannsynlighetsfordelinger:

1. Binomisk fordeling

2. Den hypergeometriske fordeling

3. Poissonfordelingen

4. Normalfording

69

Bin[ n , p ] Hyp[ N , M , n ] Poi[ ] N[ , ]

2 param. 3 param. 1 param. 2 param.

diskret diskret diskret kontinuerlig

Bin[ n , p ] Hyp[ N , M , n ] Poi[ ] N[ , ]

1) 2 mulig utfall 2) samme p for suksess 3) uavhengige

4) n antall forsk

- kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser

- kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser

- rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsk - loven om skjeldne begivenh.

- under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnring vre normalfordelt (f.eks. CLT)

1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle

4) n antall trukne elementer

1) x antall begivenheter innenfor en gitt tid 2) = rate

1) Tetthetsfunksjon fX(x) 2) Gausskurve

7.7 Sentralgrensesetningen

Setning: ( CLT 7 , sentralgrensesetningen )

La X1, X2, X3, ... Xn vre uavhengige stokastiske variabler med samme

diskret ELLER kont. sannsynlighetsfordeling

P (X = xi), dvs.

Xi samme sannsynlighetsfordeling for alle i = 1, 2, 3, ..., n (7.45)

hvor n er antall forsk 8, dvs.

E[Xi] = og V ar[Xi] = 2 , i = 1, 2, 3, ..., n (7.46)

er den samme for alle forsk / gitt stokastisk variabel i.

Da gjelder at gjennomsnittet X:

X =X1 +X2 +X3 + ... +Xn

n(7.47)

er normalfordelt i grensen nar antall forsk n blir stor:

Xn= stor N

[,

n

](7.48)

altsa P (X = x) er normalfordelt med forventning og varians hhv.

E[X ] = og V ar[X ] =2

n(7.49)

7Pa engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem.8For eksemplet med terningkast hadde vi til slutt n = 16 forsk. Det betyr at alle 16 terningkastene hadde

samme fordeling.

72

Det er en alternativ mate a formulere sentralgrensesetningen pa ved bruk av lign.(7.37):

Setning: ( sentralgrensesetningen og G(z) )

LaX1,X2,X3, ...Xn vre n stk. uavhengige stokastiske variabler med samme

diskret ELLER kont. sannsynlighetsfordeling

med som forventingsverdi og 2 som varians, dvs.

E[Xi] = og V ar[Xi] = 2 , i = 1, 2, 3, ..., n (7.50)

Gjennomsnittet X av disse n stk. stokastiske variablene

X =X1 +X2 +X3 + ... +Xn

n(7.51)

er da normalfordelt for store n, dvs.

P (X x) n= stor G(x

n

)(7.52)

hvor

G(z) = gitt ved lign.(7.38) (7.53)

= er standardavviket for en gitt stokastisk variabel Xi (7.54)

73

Kommentar:

Hvor stor n ma vre ( n = antall forsk ) for at sentralgrensesetningen skal gjelde er avhengig avsituasjonen. Men en tommelfingerregel er at vi br ha

n & 30 (7.55)

dvs. antall forsk br vre ca. 30 eller mer.

74

7.8 Diskrete fordelinger normalfordeling

Setning: ( Bin[n, p] N[, ] )

For en

diskret binomisk fordeling, X Bin[n, p], hvor

n p (1 p) & 5 (7.56)

sa er sannsynligheten X har verdien x vre

kont. normalfordelt:

P (X x) G(x+ 0.5 E[X]

[X]

)(7.57)

P (X x) 1 G(x 0.5 E[X]

[X]

)(7.58)

hvor forventning og standardavvik er

E[X]lign.(7.6)

= n p (7.59)

[X]lign.(7.7)

=n p (1 p) (7.60)

75

Setning: ( Hyp[N,M, n] N[, ] )

For en

diskret hypergeometrisk fordeling, X Hyp[N,M, n], hvor

N & 20 n (7.61)

n MN

(1 M

N

)& 5 (7.62)

sa vil X vre tilnrmet en

kont. normalfordeling:

P (X x) G(x+ 0.5 E[X]

[X]

)(7.63)

P (X x) 1 G(x 0.5 E[X]

[X]

)(7.64)


E[X]lign.(7.15)

= n MN

(7.65)

[X]lign.(7.16)

=

N nN 1 n

M

N

(1 M

N

)(7.66)

76

Setning: ( Poi[] N[, ] )

For en

diskret Poissonfordeling, X Poi[], hvor

& 5 (7.67)

sa vil X vre tilnrmet en

kont. normalfordeling:

P (X x) G(x+ 0.5 E[X]

[X]

)(7.68)

P (X x) 1 G(x 0.5 E[X]

[X]

)(7.69)


E[X]lign.(7.24)

= (7.70)

[X]lign.(7.25)

= (7.71)

77

Setning: ( diskret N[, ] )

Dersom X er diskret sannsynlighetsfordeling som er tilnrmet

kont. normalfordelt, dvs.

Xtilnrmet N[, ] (7.72)

og hvor X kun kan ha hele tall, dvs.

X = diskret stokastisk variabel som kun har hele tall (7.73)

da gjelder

P (X x) G(x+ 0.5 E[X]

[X]

)(7.74)

P (X x) 1 G(x 0.5 E[X]

[X]

)(7.75)

hvor

E[X]lign.(7.24)

= forventning til den diskrete variabelen (7.76)

[X]lign.(7.25)

= variansen til den diskrete variabelen (7.77)

78

7.9 Sammenheng: Bin, Hyp, Poi og N

I kapittel (7.3) fant vi sammenhengen mellom Hyp[N,M, n] og Bin[n, p], se lign.(7.18). I kapittel(7.4) fant vi sammenhengen mellom Bin[n, p] og Poi[], se lign.(7.23). Dessuten er alle fordelingeneBin[n, p], Hyp[N,M, n] og Poi[] relatert til N[, ] i visse grenser.

Bin[ n , p ]

Poi[ ] N[ , ] ( kontinuerlig )

Hyp[ N , M , n ]

N[ , ] ( kontinuerlig )

Poi[ ]

N[ , ] ( kontinuerlig )

Bin[ n , p ]

Figur 7.9: Fordelingene Bin[n, p], Hyp[N,M, n], Poi[] og N[, ].De bla pilene representerer setningene i lign.(7.18) og lign.(7.23).

79

Kapittel 11

Regresjonsanalyse

Figur 11.1: Regresjon.

81

11.1 Introduksjon

Regresjonsanalyse:

Teori og metoder for a analysere og utnytte samvariasjon mellom variable. Formal:

konstruere modeller som kan brukes til a ansla verdien (prediksjon/forutsi) av envariabel Y ved hjelp av informasjon om en annen variabel X.

teminologi:

variabel X:

har info om dette/kjenner denne uavhengig variabel eller forklaringsvariabel

variabel Y: avhengig variabel eller responsvariabel nsker a ansla denne

Man skiller ofte mellom liner regresjon og ikke-liner regresjon. I dette kurset skal vi kun se pa:

liner regresjon

samspill mellom bare to variabler

x

y

Figur 11.2: Liner regresjon.

82

11.2 Residual og SSE

1) Observasjoner:De rde punktene i figur (11.3) viser de fem observasjonspunktene (x1, y1), (x2, y2), ... , (x5, y5).

2) Rett linje:Den rde linjen i figur (11.3) viser linjen y = a+ bx, hvor a og b er parametre.For observasjonsverdien xi, hvor i = 1, 2, ..., 5, er det en tilhrende verdi yi pa den rette linjen:

1

yi = a+ bxi (11.1)

Forskjellen mellom de observerte verdiene yi og de tilsvarende verdiene til den rette linjen er deloddrette avstandene (bla linjer) som vist i figur (11.3). Denne forskjellen/avviket mellom observertverdi og prediksjonen som rette linjen foreslar for datapunktet er:

ei = yi yi residual

(11.2)

og kalles residual eller estimat for eksperimentfeilen.Residualen ei maler dermed feilen vi gjr ved a bruke verdien pa den rette linjen istedet for deobserverte verdiene. Residualen ei kan vre positiv, negativ eller 0.

2

y

x

e1 e2

e3 e4

e5

y = a + bx (Dette er ikke den linjen som passer best).

Figur 11.3: Residual.

1Den rde linjen i figur (11.3) er ikke den som passer best. A finne denne den linjen som passer best ertema i neste avsnitt.

2Ingen residual i figur (11.3) er null. Alle er negative.

83

Definisjon: ( SSE ) 3

La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett. Strrelsen SSE, sum squared er-ror, er da definert ved: 4

SSE =ni=1

(yi yi)2 (11.4)

hvor yi er prediksjonene som linjen5

yi = a + bxi prediksjoner

(11.5)

gir for tilhrende observasjonsverdiene xi, og yi er de faktiske observasjonene/dataene:

yifaktiske observasjoner/data

(11.6)

3SSE star for sum square error.

4Siden eilign.(11.2)

= yi yi sa kan SSE alternativt skrives:

SSE =

ni=1

e2i (11.3)

5a og b er parametre.

84

11.3 Minste kvadraters regresjonslinje

Setning: ( minste kvadraters linere regresjonslinje )

La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett.Minste kvadraters linere regresjonslinje er da gitt ved:

y = + x , (11.7)

hvor

=SxyS2x

(11.8)

= y x (11.9)og

S2xlign.(1.10)

=1

n 1ni=1

(xi x)2 (11.10a)

Sxylign.(1.12)

=1

n 1ni=1

(xi x)(yi y) (11.10b)

samt x = 1n

ni=1 xi og y =

1n

ni=1 yi.

y

x

e1 e2

e3 e4

e5

y = a + bx

y

x

e1 e2

e3

e4

e5

y = + x

og som passer best: Vilkrlig a og b:

Figur 11.4: Linje som ikke passer best, og linje som passer best.

85

11.4 Forklaringsstyrke og SST

Definisjon: ( SST ) 6

La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett. Strrelsen SST , sum squared to-tal, er da definert ved:

SST =ni=1

(yi y)2 (11.11)

hvor yi er de faktiske observasjonene/dataene:


(11.12)

og y er det empiriske gjennomsnittet, dvs.

ylign.(1.3)

=1

n

ni=1

yi (11.13)

y

x

y

yi

yi

xi

yi yi = total variasjon yi yi = residual

Figur 11.5: Residual og total variasjon.

6SST star for sum square total.

86

Definisjon: ( forklaringsstyrke )7

La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner. Forklaringsstyrken R2 er da:

R2 = 1 SSESST

(11.14)

hvor

SSE =ni=1

(yi yi)2 (11.15)

SST =ni=1

(yi y)2 (11.16)

hvor yi er de faktiske observasjonene/dataene:


(11.17)

og yi er prediksjonene som linjen8

yi = + xi prediksjoner

(11.18)

samt y er det empiriske gjennomsnittet, dvs.

y =1

n

ni=1

yi (11.19)

7Kalls ogsa forklaringsgrad.8Se lign.(11.7). Parametrene/koeffisientene og er parametre gitt ved lign.(11.9) og (11.8).

87

Beskrivende statistikkPopulasjon og utvalgStatistiske ml (n variabel)LokaliseringsmlSpredningsml

Statistiske ml (to variabler)

SannsynlighetsregningUtfallsromSannsynligheterBegivenhetMengdelreRegning med sannsynligheterAddisjonssetningenKomplementsetningenTotal sannsynlighetTvillingsetningene

KombinatorikkKoblinger4 situasjoner (endelig populasjon)Kombinatoriske sannsynligheter

Betinget sannsynlighetBetinget sannsynlighetMultiplikasjonssetningenBayes lov

Oppsplitting av Uavhengighet

Tilfeldige variabler, forventning og variansTilfeldige variablerForventning og variansForventningVariansNoen regneregler

Generelle forventninger

Simultane sannsynlighetsfordelingerSimultan- og marginalfordelingGenerelle forventningerKovarians

Sentrale sannsynlighetsfordelingerDen binomiske fordelingenForventingsverdiVarians

Den hypergeometriske fordelingenForventning og varians

Sammenheng mellom Hyp[N,M,n] og Bin[n,p]PoissonfordelingenForventning og varians

Normalfordelingen (kontinuerlig) StandardiseringSammenhengen mellom P(Z z) og G(z)Standardavvik og %-vis areal

Oversikt: Bin, Hyp, Poi og N SentralgrensesetningenDiskrete fordelinger -3mu normalfordelingSammenheng: Bin, Hyp, Poi og N

RegresjonsanalyseIntroduksjonResidual og SSEMinste kvadraters regresjonslinjeForklaringsstyrke og SST

Documents

001 Mat110 Statistikk 1, Formelsamling, (1. Mars 2015)