Upload
per-kristian-rekdal
View
30
Download
6
Embed Size (px)
DESCRIPTION
Formulas in statistics. In Norwegian.
Citation preview
Formelsamling V-2015
MAT110Statistikk 1 Per Kristian Rekdal
Innhold
1 Beskrivende statistikk 71.1 Populasjon og utvalg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2 Statistiske mal (e`n variabel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Lokaliseringsmal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2.2 Spredningsmal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Statistiske mal (to variabler) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Sannsynlighetsregning 132.1 Utfallsrom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3 Begivenhet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Mengdelre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Regning med sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.1 Addisjonssetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.5.2 Komplementsetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.3 Total sannsynlighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.4 Tvillingsetningene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Kombinatorikk 233.1 Koblinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 4 situasjoner (endelig populasjon) . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Kombinatoriske sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Betinget sannsynlighet 294.1 Betinget sannsynlighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1.1 Multiplikasjonssetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.1.2 Bayes lov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Oppsplitting av . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.3 Uavhengighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 Tilfeldige variabler, forventning og varians 355.1 Tilfeldige variabler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.2 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2.1 Forventning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.2.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.2.3 Noen regneregler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3
5.3 Generelle forventninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6 Simultane sannsynlighetsfordelinger 436.1 Simultan- og marginalfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446.2 Generelle forventninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456.3 Kovarians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7 Sentrale sannsynlighetsfordelinger 517.1 Den binomiske fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.1.1 Forventingsverdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537.1.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.2 Den hypergeometriske fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . 547.2.1 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.3 Sammenheng mellom Hyp[N,M, n] og Bin[n, p] . . . . . . . . . . . . . . . . . . . 577.4 Poissonfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.4.1 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607.5 Normalfordelingen (kontinuerlig) . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.5.1 Standardisering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.5.2 Sammenhengen mellom P (Z z) og G(z) . . . . . . . . . . . . . . . . . . 647.5.3 Standardavvik og %-vis areal . . . . . . . . . . . . . . . . . . . . . . . . 68
7.6 Oversikt: Bin, Hyp, Poi og N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697.7 Sentralgrensesetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727.8 Diskrete fordelinger normalfordeling . . . . . . . . . . . . . . . . . . . . . . 757.9 Sammenheng: Bin, Hyp, Poi og N . . . . . . . . . . . . . . . . . . . . . . . . . . 79
11 Regresjonsanalyse 8111.1 Introduksjon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8211.2 Residual og SSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8311.3 Minste kvadraters regresjonslinje . . . . . . . . . . . . . . . . . . . . . . . . . . . 8511.4 Forklaringsstyrke og SST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4
Forord
Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved hgskolen i Molde.
Formlene i denne formelsamlingen er stort sett de formlene som er markert med rd skrift og rammerundt i kompendiet. Studentene oppfordres til a bruke formelsamlingen aktivt nar vingsoppgaverskal lses.
Hjelpemidler eksamen:
Godkjent kalkulator og formelsamling.
Kun originalversjonen av formelsamlingen utgitt av SiMolde Bok er lov a ha med paeksamen. (Dette fordi det skal vre lett a se at dere har med den riktige og lovlige formel-samlingen pa eksamen).
Det er lov a skrive egne notater i formelsamlingen som dere kan ta med pa eksamen. Men:Ikke skriv av hele eksempler og hele oppgaver. (Dersom dette blir praktisert i stor grad mavi revurdere denne ordningen i forhold til neste ars studenter).
En gratis PDF-versjon av formelsamlingen kan lastes ned fra www.himoldeX.no.
Per Kristian Rekdal
Copyright c Hyskolen i Molde, mars 2015.
5
6
Kapittel 1
Beskrivende statistikk
1.1 Populasjon og utvalg
Definisjon: ( populasjon )
Populasjon = den totale mengden av objekter/data som vi nsker a analysere
Definisjon: ( utvalg )
Utvalg = en delmengde av populasjonen,dvs. en samling av data som er hentet fra en populasjon
Definisjon: ( statistisk inferens )
Statistisk inferens = det a tolke/analysere utvalget for a finne ut mest mulig omhele populasjonen
7
Populasjon Utvalg
Utvalgsresultater
Trekning av utvalg
Statistisk inferens Beskrivende statistikk
Figur 1.1: Prosessen ved statistisk inferens, generelt.
Prosessen for statistisk inferens er illustrert generelt i figur (1.1).
8
1.2 Statistiske mal (e`n variabel)
1.2.1 Lokaliseringsmal
Definisjon: ( median )
La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:
median =
midtre observasjonen , n = odde
gjennomsnitt av to midterste observasjonene , n = like(1.1)
Definisjon: ( typetall ) 1
La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:
typetall = den verdien som forekommer hyppigst (1.2)
Definisjon: ( gjennomsnitt )
La x1, x2, x3, ..., xn vre n antall observasjoner. Da er gjennomsnittet:2
x =1
n
ni=1
xi (1.3)
1Kalles ogsa modus eller modalverdi.2 = den greske bokstaven sigma. F.eks. 3i=1xi = x1 + x2 + x3.
9
1.2.2 Spredningsmal
Definisjon: ( modalprosent )
La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:
modalprosent = %-vis andel av observasjonene som har verdi lik typetallet (1.4)
Definisjon: ( variasjonsbredde )
La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:
variasjonsbredde = differansen mellom strste og minste verdi (1.5)
Definisjon: ( kvartilavvik )
La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:
k1 = nedre kvartil , dvs. 25% av observasjonene har verdi k1 (1.6)
k2 = medianen , dvs.
50% av observasjonene har verdi k2
50% av observasjonene har verdi k2(1.7)
k3 = vre kvartil , dvs. 75% av observasjonene har verdi k3 (1.8)
Da er
kvartilavvik = k3 k1 (1.9)
10
Definisjon: ( empirisk varians ) 3
La x1, x2, x3, ..., xn vre observasjoner, og la x vre gjennomsnittet.Da er den empiriske variansen: 4
S2x =1
n 1ni=1
(xi x)2 (1.10)
Definisjon: ( empirisk standardavvik ) 5
Det empiriske standardavviket er:
Sx =S2x (1.11)
3Kalles ogsa utvalgsvariansen.4Ulike estimater av variansen: I lign.(1.10) deler man pa n 1, og ikke n. Om vi bruker det ene eller det andre
er avhengig om x er gjennomsnittet for hele populajonen, eller bare et utvalg. I dette kurset skal vi imidlertid holdeoss til definisjonen i lign.(1.10).
5Kalles ogsa utvalgstandardavviket.
11
1.3 Statistiske mal (to variabler)
Definisjon: ( empirisk kovarians ) 6
La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner, og la x samt y vre de respektivegjennomsnitt. Den empiriske kovariansen er da: 7
Sxy =1
n 1ni=1
(xi x)(yi y) (1.12)
Definisjon: ( korrelasjonskoeffisient )
La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner. Korrelasjonskoeffisienten er da:
Rxy =Sxy
Sx Sy (1.13)
6Kalles ogsa utvalgskovariansen.7Ulike estimater av kovariansen: (samme kommentar som pa side 11) I lign.(1.12) deler man pa n1, og ikke n.
Om vi bruker det ene eller det andre er avhengig om x og y er gjennomsnitt for hele sine respektive populajoner,eller bare et utvalg. I dette kurset skal vi imidlertid holde oss til definisjonen i lign.(1.12).
12
Kapittel 2
Sannsynlighetsregning
Figur 2.1: Sannsynlighetsregning.
13
2.1 Utfallsrom
Definisjon: ( utfallsrom )
Resultatet av et stokastisk forsk1 kan ikke forutsies entydig, men det kan angis en mengde muligeenkeltutfall. Denne mengden av mulige enkeltutfall kalles utfallsrom: 2
= { mengden av alle mulige enkeltutfall } (2.1)
2.2 Sannsynligheter
Definisjon: ( relativfrekvens )
La n vre totalt antall forsk. Og la nA vre antall ganger, av de totalt n forskene, hvor etbestemt utfall A inntreffer. Den reletive frekevens for utfallet A er da:
fr(nA) =nAn
(2.2)
hvor altsa
n = totalt antall forsk (2.3)
nA = antall ganger hvor utfallet A inntreffer (2.4)
1Dvs. forsk med uforutsigbart utfall.2Den greske bokstaven kalles omega.
14
Definisjon: ( sannsynlighet )
La n vre totalt antall forsk. Og la nA vre antall ganger, av de totalt n forskene, hvor etbestemt utfall A inntreffer. Sannsynligheten for for at utfallet A inntreffer er da:
p(A) = limn
fr(nA) (2.5)
hvor fr(n) er relativ frekvens.
Egenskaper ved sannsynligheter: ( diskret utfallsrom )
Med kortnotasjonen pi p(Ai) sa gjelder:
0 pi 1 , for alle i = 1, 2, 3, ...., n (2.6)
ni=1
pi = 1 (2.7)
hvorn
i=1 pi = p1 + p2 + p3 + ...+ pn.
15
2.3 Begivenhet
Definisjon: ( begivenhet )
begivenhet = delmengde av utfallsrommet (2.8)
A
Figur 2.2: Et venn-diagram for en begivenhet. er utfallsrommet og A er en begivenhet.
Egenskaper for en begivenhet: ( diskret utfallsrom )
P (A) =uA
p(u) (2.9)
I tillegg kan vi na skrive lign.(2.6) og (2.7) pa en alternativ mate:
0 P (A) 1 , for alle A (2.10)
P () =e
p(e) = 1 (2.11)
16
2.4 Mengdelre
For et eksperiment, la A og B vre to begivenheter i utfallsrommet .
A A
A
Utfallsrommet er hele det bl omrdet.
Begivenheten A visualiseres ved det bl omrdet.
A benevnes ikke A
Figur 2.3: Utfallsrommet , begivenheten A og komplementet A.
Snitt: A B betyr A og B. Tilsvarer OVERLAPP av mengder.
Union: A B betyr A eller B. Tilsvarer SUM av mengder.
A B
A B
A
B
Disjunkt: A B = . A og B inntreffer ALDRI samtidig. Ingen felles elementer.
A B
Figur 2.4: Snitt, union og disjunkt.
17
2.5 Regning med sannsynligheter
Definisjon: ( disjunkte begivenheter)
To begivenheter A og B er disjunkte dersom A
og B = .
A
B
Disjunkt: A B = . A og B inntreffer ALDRI samtidig. Ingen felles elementer.
Figur 2.5: A og B er disjunkt.
2.5.1 Addisjonssetningen
Setningen: ( den spesielle addisjonssetningen )
Dersom begivenhetene A og B er disjunkte, dvs. A
og B = , sa gjelder:P (A
eller B) = P (A) + P (B) (2.12)
18
Setningen: ( den generelle addisjonssetningen )
For begivenhetene A og B gjelder:
P (A
eller B) = P (A) + P (B)P (A og B) ekstra ledd
(2.13)
A B
Figur 2.6: Overlappen mellom A og B er A B.
19
Setningen: ( den generelle addisjonssetningen )
For begivenhetene A, B og C gjelder:
P (A B C) eller
= P (A) + P (B) + P (C)
P (A B) P (A C) P (B C)+ P (A B C)
og
(2.14)
som kan illustrereres via venn-diagrammet i figur (2.7).
A B
C
Figur 2.7: Begivenhetene mellom A, B og C.
20
2.5.2 Komplementsetningen
Setningen: ( komplementsetningen )
For begivenheten A og dens komplement A (eller Ac) gjelder:
P (A) = 1 P (A) (2.15)
A A
A benevnes ikke A.
Figur 2.8: Komplementet til A er A (eller Ac).
2.5.3 Total sannsynlighet
Setningen: ( total sannsynlighet )
For begivenhetene A og B gjelder:
P (A) = P (A B) + P (A B) (2.16)
A B
AB
A
AB
Figur 2.9: Oppsplitting av begivenhenten A = (A B) (A B).
21
2.5.4 Tvillingsetningene
Setninger: ( tvillingsetningene )
P (A
og B) = 1 P (A eller B) (2.17)
P (A
og B) = 1 P (A eller B) (2.18)
22
Kapittel 3
Kombinatorikk
Figur 3.1: Kombinatorikk. En las med svrt mange kombinasjonsmuligheter.
23
3.1 Koblinger
Definisjon: ( koblinger )
Koblinger = forhold som gjr at et bestemt valg kan pavirke utfallet av andre valg vi skal gjre.
Grunnprinsipp i kombinatorikk: ( antagelse )
Ingen kobling mellom mellom valgmulighetene. (Med koblinger blir det fort vanskelig).
Kombinasjoner: ( uten koblinger )
Dersom vi har
m1 = antall muligheter i valg nr. 1
m2 = antall muligheter i valg nr. 2
.
.
mN = antall muligheter i valg nr. N (3.1)
da er
antall mulige kombinasjoner = m1 m2 m3 ...mN (3.2)
24
3.2 4 situasjoner (endelig populasjon)
Det er ofte vanskelig a telle opp antall elementer i utfallsrommet. Det kan derfor ofte lnne sega bruke urnemodellen. Tenk deg at alle mulige utfall av et eksperiment er representert vedkuler som ligger i en urne. Sa trekker vi kuler etter tur. Da ma vi skille mellom:
er det trekking med eller uten tilbakelegging? betyr det noe i hvilken rekkeflge kulene trekkes?
m/tilbakelegging u/tilbakelegging
ordnet
ikke-ordnet
trekning
situasjon 1 situasjon 2
situasjon 3 situasjon 4 (forekommer sjelden)
Figur 3.2: 4 situasjoner for urnemodellen.
25
Egenskaper til binomialkoeffisienten
(N
s
): ( N over s )
(N
s
)
binomialkoeff.
=N !
(N s)! s! (3.3)
hvor f.eks.
s! = 1 2 3 ... (s 2) (s 1) s (3.4)5! = 1 2 3 4 5 (3.5)
Legg merke til at
(N
0
)=
N !
(N 0)! 0! = 1 (3.6)(N
1
)=
N !
(N 1)! 1! = N (3.7)(N
N
)=
N !
(N N)! N ! = 1 (3.8)
siden 0! = 1.
26
3.3 Kombinatoriske sannsynligheter
La oss se pa en tellesituasjon som kan beskrives med urnemodellen. I slike situasjoner er deten sammenheng mellom sannsynlighet og antall kombinasjoner:
La A tilsvare det a trekke kuler av en bestemt type fra urnen. Dette betyr at kulene representererbegivenheten A. Sannsynligheten for a trekke A er da gitt ved: 1
P (A) =antall gunstige kombinasjoner for A
antall mulige kombinasjoner totalt(3.9)
1Dette er helt analogt med tellesituasjonen som vi diskuterte i kapittel 1. Se f.eks. eksempel 3 i kapittel 1.
27
28
Kapittel 4
Betinget sannsynlighet
Figur 4.1: Gitt at vi vet hvilke kuler som er i btten, hva er sannsynligheten for a trekke en hvitkule?
29
4.1 Betinget sannsynlighet
4.1.1 Multiplikasjonssetningen
Setning: ( multiplikasjonssetningen, generelle )
For begivenhetene A og B gjelder:
P (A
og B) = P (A|B) P (B) (4.1)hvor
P (A B) = og-sannsynligheten for A og B (4.2)P (A|B) = sannsynligheten for A gitt at B allerede har inntruffet (A gitt B)
( betinget sannsynlighet)
P (B) = sannsynligheten for B 6= 0 (4.3)(ubetinget sannsynlighet)
Tilsvarende gjelder: (multiplikasjonssetningen)
= P (AB) P (B A) = P (B|A) P (A) (4.4)
hvor P (A) 6= 0. Denne setningen flger umiddelbart siden P (B A) = P (A B).
30
4.1.2 Bayes lov
Setning: ( Bayes lov )
For begivenhetene A og B gjelder:
P (A|B) = P (B|A) P (A)P (B)
(4.5)
eller alternativt:
P (B|A) = P (A|B) P (B)P (A)
(4.6)
Figur 4.2: Bayes lov. Thomas Bayes.
31
4.2 Oppsplitting av
Setningen: ( oppsplitting av i 2 )
Anta at utfallsrommet splittes i to delrom = B1
eller B2, der B1 B2 = , dvs. delrommeneB1 og B2 har ingen felles elementer: de er disjunkte. Enhver mengde A kan da skrives:
A = (A B1)eller (A B2) (oppsplitting) (4.7)
med tilhrende sannsynlighet
P (A) = P (A B1) + P (A B2) (4.8)
Alternativt 1 kan lign.(4.8) skrives:
P (A) = P (A|B1) P (B1) + P (A|B2) P (B2) (4.9)
B2
:
B1
A
Figur 4.3: Oppsplitting av sannsynlighetsrom , jfr. lign.(4.7).
1Via multiplikasjonssetningen i lign.(4.1): P (A
og B) = P (A|B) P (B).32
Setningen: ( oppsplitting av )
Anta at utfallsrommet splittes i delrom = B1
eller B2 eller B3 eller ... eller BN , der alleBi Bj = , dvs. ingen delrom B1, B2, ... , BN har noen felles elementer: disjunkte 2. Enhvermengde A kan da skrives:
A = (A B1)eller (A B2) eller ... eller (A BN) (oppsplitting) (4.10)
med tilhrende sannsynlighet
P (A) = P (A B1) + P (A B2) + ... + P (A BN) (4.11)
Alternativt 3 kan lign.(4.11) skrives:
P (A) = P (A|B1) P (B1) + P (A|B2) P (B2) + ... + P (A|BN) P (BN) (4.12)
B2
:
. . . . . BN B3 B1
A
Figur 4.4: Oppsplitting av sannsynlighetsrom , jfr. lign.(4.10).
2Bitene i et puslespill overlapper akkurat ikke. Bitene i puslespillet er disjunkte.
3Via multiplikasjonssetningen i lign.(4.1): P (A
og B) = P (A|B) P (B).33
4.3 Uavhengighet
Definisjon: ( uavhengighet )
To begivenheter A og B er uavhengige dersom
P (A|B) = P (A) (4.13)
Setning: ( multiplikasjonssetningen, spesielle )
Dersom begivenhetene A og B er uavhengige, sa gjelder:
P (A
og B) uavh.= P (A) P (B) (4.14)
34
Kapittel 5
Tilfeldige variabler, forventning ogvarians
Figur 5.1: Forventning (svart linje) og varians.
35
5.1 Tilfeldige variabler
Definisjon: ( tilfeldig/stokastisk variabel )
En stokastisk variabel er en strrelse X som kan anta ulike verdier x med ulike sannsynligheter. 1
Definisjon: ( sannsynlighetsfordeling, diskret )
En sannsynlighetsfordeling til en diskret variabel er en funksjon definert ved
P (x) liten x for verdier
= P (X = x) stor X for selve variabelen
(5.1)
Definisjon: ( kumulativ sannsynlighetsfordeling, diskret )
Den kumulative sannsynlighetsfordeling F til en diskret variabel X er definert ved
F (x) = P (X x) (5.2)
1En mer teknisk (matematisk) versjon av definisjonen av en stokastisk variabel er: Med en tilfeldig variabelmener vi en funksjon X som til ethvert mulig utfall definerer et bestemt reelt tall.
36
5.2 Forventning og varians
5.2.1 Forventning
Definisjon: ( forventningsverdi, diskret ) 2
For en diskret tilfeldig variabel X med de mulige verdiene x1, x2, ... , xm er forventningsverdien:
E[X] =mi=1
xi P (X = xi) (5.3)
Definisjon: ( forventningsverdi, kontinuerlig )
For en kontinuerlig tilfeldig variabel X er forventningsverdien:
E[X] =
x f(x) dx (5.4)
hvor f(x) = sannsynlighetstettheten av x.
2Jamfr den analoge strrelsen for (empirisk) gjennomsnitt definert i lign.(1.3): x = 1nn
i=1 xi.
37
5.2.2 Varians
Definisjon: ( varians, diskret )
For en diskret tilfeldig variabel X er variansen
V ar[X] = E[ (X E[X])2 ] (5.5)
Variansen er altsa forventningsverdien av (X E[X])2. Lign.(5.5) kan derfor skrives: 3
V ar[X] =mi=1
(xi E[X])2 P (X = xi) (5.6)
A bruke definisjonen for a regne ut V ar[X] via lign.(5.6) kan vre omstendelig. Men det finnesen setning som forenkler regningen i en del tilfeller. Setningen er som flger:
3Jamfr den analoge strrelsen for empirisk varians definert i lign.(1.10): S2x =1
n1n
i=1 (xi x)2.
38
Setning: ( varians )
La X vre en stokastisk variabel. For variansen gjelder da:
V ar[X] = E[X2] E[X]2 (5.7)
Denne formen er en enklere og mer brukt formel enn definisjonen i lign.(5.5). Via lign.(5.3) kandenne setningen skrives:
V ar[X] =mi=1
x2i P (X = xi) ( m
i=1
xi P (X = xi))2
(5.8)
Definisjon: ( standardavvik, diskret ) 4
For en diskret tilfeldig variabel X er standardavviket
[X] V ar[X] (5.9)
4Jamfr den analoge strrelsen for (empirisk) standardavvik definert i lign.(1.11): Sx =S2x.
39
5.2.3 Noen regneregler
La a og b vre konstanter. La videre X og Y vre to stokastiske variabler. Da gjelder:
Regneregler for forventning:
E[a] = a (5.10)
E[a+X] = a+ E[X] (5.11)
E[a X] = a E[X] (5.12)
E[aX + bY ] = aE[X] + bE[Y ] (5.13)
Regneregler for varians:
V ar[a] = 0 (5.14)
V ar[a+X] = V ar[X] (5.15)
V ar[a X] = a2 V ar[X] (5.16)
V ar[X] = V ar[X] (5.17)
Dessuten er alltid V ar[X] 0, dvs. en varians kan aldri vre negativ.
40
5.3 Generelle forventninger
Forventningsverdien i forrige avsnitt kan generaliseres pa flgende mate:
Definisjon: ( generell forventningsverdi, diskret )
For en diskret tilfeldig variabel X og en vanlig funksjon h(X) sa er
E[h(X)] =mi=1
h(xi) P (X = xi) (5.18)
41
42
Kapittel 6
Simultane sannsynlighetsfordelinger
Figur 6.1: Simultane sannsynlighetsfordelinger.
43
6.1 Simultan- og marginalfordeling
Definisjon: ( simultanfordeling )
La X og Y vre to stokastiske variabler. Med simultanfordeling menes:
p(x, y) = P (X = x og Y = y) (6.1)
Definisjon: ( marginalfordeling )
La X og Y vre to stokastiske variabler. Med marginalfordeling menes:
P (X = x) =y
p(x, y) (6.2)
P (Y = y) =x
p(x, y) (6.3)
Definisjon: ( uavhengighet ) 1
La X og Y vre to stokastiske variabler. Disse er uavhengige dersom:
P (X = x og Y = y) = p(x,y)
= P (X = x) P (Y = y) (6.4)
for alle X = x og Y = y.
1Jamfr den analoge setn. for uavhengighet mellom begivenheter A og B i lign.(4.14): P (A B) = P (A) P (B).
44
6.2 Generelle forventninger
Definisjon: ( generell forventingsverdi, diskret )
For diskrete stokastiske variabel X, Y og funksjonen h(X, Y ) sa gjelder
E[h(X, Y )] =mi=1
nj=1
h(xi, yj) p(xi, yj) (6.5)
Spesialtilfelle:
La oss se pa et spesialtilfelle av lign.(6.5), nemlig det spesialtilfellet nar:
h(X, Y ) = X Y (6.6)
Da er:
E[X Y ] =mi=1
nj=1
xi yj p(xi, yj) (6.7)
45
Setning: ( uavhengighet )
La X og Y vre to uavhengige stokastiske variabler 2. Da gjelder:
E[X Y ] = E[X] E[Y ] (6.9)
2Ut fra definisjonen av uavhengighet mellom to stokastiske variabler ( se lign.(6.4) ) sa vet vi X og Y eruavhengige dersom:
P (X = x og Y = y) = p(x,y)
lign.(6.4)= P (X = x) P (Y = y) (6.8)
for alle X = x og Y = y.
46
6.3 Kovarians
Definisjon: ( kovarians ) 3
La X og Y vre to stokastiske variabler. Med
samvariasjon/korrelasjon kovariansen mellom disse mener vi:
samvariasjon/korrelasjon Cov[X, Y ] = E[ (X E[X])(Y E[Y ]) ] (6.10)
Setning: ( kovarians )
La X og Y vre to stokastiske variabler. For
samvariasjon/korrelasjon kovariansen gjelder da:
samvariasjon/korrelasjon Cov[X, Y ] = E[X Y ] E[X] E[Y ] (6.11)
Setning (spesialtilfelle , kovarians )
La X og Y vre to stokastiske variabler. Dersom X og Y er uavhengige, dvs.:
E[X Y ] uavh.= E[X] E[Y ] (6.12)sa er
Cov[X, Y ] = 0 X og Y ukorrelerte
(6.13)
3Jamfr den analoge definisjonen av empirisk kovarians i lign.(1.12): Sxy =
1n1
ni=1 (xi x)(yi y).
47
Definisjon: ( korrelasjonskoeffisienten ) 4
La X og Y vre to stokastiske variabler. Med korrelasjonskoeffisienten [X, Y ] mener vi da: 5
[X, Y ] =
samvariasjon/korrelasjon Cov[X, Y ]
V ar[X] spredning
V ar[Y ]
spredning
(6.15)
4Jamfr den analoge definisjonen av korrelasjonskoeffisienten Rxy i lign.(1.13): Rxy =SxySxSy .
5Siden [X] V ar[X], se lign.(5.9), sa kan korrelasjonskoeffisienten [X,Y ] skrives pa en alternativ mate:
[X,Y ] =
samvariasjon/korrelasjon Cov[X,Y ]
[X]spredning
[Y ]spredning
(6.14)
48
Setning: ( kovarians II )
La X og Y vre to stokastiske variabler. Generelt gjelder da flgende sammenhengen mellomvariansen og kovariansen:
variasjon/(spredning) V ar[aX + bY ] = a2 V ar[X] + b2 V ar[Y ] + 2ab
samvariasjon Cov[X, Y ] (6.16)
hvor a og b er konstanter.
Setning (spesialtilfelle , kovarians II )
La X og Y vre to stokastiske variabler. Dersom X og Y er ukorrelerte, sa er:
Cov[X, Y ] = 0 (6.17)
Da gjelder:
V ar[aX + bY ] = a2 V ar[X] + b2 V ar[Y ] (6.18)
49
50
Kapittel 7
Sentrale sannsynlighetsfordelinger
Figur 7.1: Sentralgrensesetningen (CLT).
51
7.1 Den binomiske fordelingen
Definisjon: (
diskret binomisk fordeling , X
2 param. Bin[n, p] )
Punktsannsynlighetene for en binomisk fordeling er
P (X = x)def.=
(n
x
)px (1 p)nx (7.1)
hvor
X = stokastisk variabel (7.2)
= antall suksesser i en binomisk forsksserie pa totalt n forsk
p = sannsynlighet for suksess (7.3)
n = totalt antall forsk (7.4)(n
x
)
binomialkoeff.
=n!
(n x)! x! (n over x) (7.5)
P(X=x)
x
Figur 7.2: Binomiske sannsynlighetsfordelinger P (X = x).
52
7.1.1 Forventingsverdi
Setning: ( forventing av X 2 param.
Bin[n, p] )
La X vre en binomisk variabel, dvs. X Bin[n, p]. Da gjelder:
E[X] = n p (7.6)
7.1.2 Varians
Setning: ( varians av X 2 param.
Bin[n, p] 1 ) )
La X vre en binomisk variabel, dvs. X Bin[n, p]. Da gjelder:
V ar[X] = n p (1 p) (7.7)
1Skrivematen X 2 param.
Bin[n, p] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x)som er binomisk fordelt.
53
7.2 Den hypergeometriske fordelingen
Definisjon: (
diskret hypergeometrisk fordeling , X
3 param. Hyp[N,M, n] 2 )
Punktsannsynlighetene for en hypergeometrisk fordeling er
P (X = x)def.=
(M
x
)(N Mn x
)(N
n
) (7.8)
hvor
X = stokastisk variabel
= antall spesielle elementer i det tilfeldige utvalget pa (7.9)
n trukne elementer
N = antall elementer i grunnmengden (7.10)
M = antall spesielle elementer (7.11)
N M = antall vanlige elementer (7.12)
n = antall trukne elementer (7.13)(N
n
)
binomialkoeff.
=N !
(N n)! n! (N over n) (7.14)
2Skrivematen X Hyp[N,M,n] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x)som er hypergeometrisk fordelt.
54
P(X=x)
x
Figur 7.3: Hypergeometriske sannsynlighetsfordelinger P (X = x).
55
7.2.1 Forventning og varians
Setning: ( forventing av X 3 param.
Hyp[N,M, n]
La X vre en hypergeometrisk variabel, dvs. X Hyp[N,M, n]. Da gjelder:
E[X] = n MN
(7.15)
Setning: ( varians av X 3 param.
Hyp[N,M, n] )
La X vre en hypergeometrisk variabel, dvs. X Hyp[N,M, n]. Da gjelder:
V ar[X] =N nN 1 n
M
N(
1 MN
)(7.16)
56
7.3 Sammenheng mellom Hyp[N,M, n] og Bin[n, p]
Setning: (
3 param. Hyp[N,M, n]
2 param. Bin[n, p] )
Dersom grunnmengden N i en hypergeometrisk forskserie er mye strre enn utvalget n, typisk
N & 20 n (7.17)sa er
X Hyp[N,M, n] N & 20n X Bin[n, p] (7.18)
57
7.4 Poissonfordelingen
Definisjon: (
diskret Poissonfordeling , X
1 param. Poi[] ) 3
Punktsannsynlighetene for en Poissonfordeling er
P (X = x)def.=
x
x!e (7.19)
hvor
X = stokastisk variabel
= antall begivenheter som inntreffer innenfor en gitt tid eller gitt rom (7.20)
= gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom (7.21)
3Kalles ofte loven om sjeldne begivenheter.
58
P(X=x)
x
Figur 7.4: Poissonfordelinger P (X = x).
Setning: (
2 param. Bin[n, p]
1 param. Poi[] )
I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svrt liten ogantall forsk n er svrt stor, typisk
n & 50 og p . 0.05 (7.22)
sa er
X Bin[n, p] n& 50 og p. 0.05 X Poi[] (7.23)
59
7.4.1 Forventning og varians
Setning: ( forventing av X Poi[] 4 )
La X vre en Poissionfordelt variabel, dvs. X Poi[]. Da gjelder:
E[X] = (7.24)
Setning: ( varians av X Poi[] )
La X vre en Poissonfordelt variabel, dvs. X Poi[]. Da gjelder:
V ar[X] = (7.25)
4Skrivematen X Poi[] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) somer Poissonfordelt.
60
7.5 Normalfordelingen (kontinuerlig)
Definisjon: ( generelle
kont. normalfordeling
La X vre en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er 5
fX(x) =1
2pi 2e
(x)222 (7.26)
hvor
= E[X] = forventingen av X ( lokalisering av toppunkt ) (7.27)
2 = V ar[X] = variansen av X (7.28)
=2 = standardavviket av X ( halvbredden av kurven ) (7.29)
fX(x)
x
Figur 7.5: Tetthetsfunksjoner fX(x) til ulike normalfordelinger.
5Lign.(7.26) er en tetthetsfunksjon.
61
Definisjon: ( standardisert
kont. normalfordeling, X N [ = 0, = 1] )
La X vre en kontinuerlig stokastisk variabel. Dersom
E[X] = = 0 , V ar[X] = 2 = 1 (7.30)
sa vil den generelle normalfordelingen i lign.(7.26) redusere seg til
fX(x) =12pi
ex2
2 (7.31)
Dette kalles den standardiserte normalfordelingen.
62
7.5.1 Standardisering
Omskalering: ( variabelskifte )
Z =X
(7.32)
Matematisk sa betyr det faktum at = 0 og = 1 i den nye omskalerte variabelen, flgende:
E[Z] = 0 , V ar[Z] = 1 (7.33)
63
7.5.2 Sammenhengen mellom P (Z z) og G(z)
arealet til venstre for z = sannsynligheten for at den stokastiske variabelen Z
har verdier mindre eller lik z
= P (Z z) (7.34)
Arealet til venstre for z er det samme som integralet under grafen fZ(z):
P (Z z) = stoppstart
=
=G(z) z
fZ(s) dsdef.= G(z) (7.35)
Gaussintegralet G(z) behver ikke regnes ut av oss. Det er tabelloppslag.
1
fZ(z)
= 1
= 0
z
- 1 z
areal = G(z)
Figur 7.6: Arealet som vist representerer sannsynligheten P (Z z).
64
P(Z z) = G(z)
z
65
Setning: ( sammenh. mellom P (Z z), P (Z z) og G(z), dvs. STANDARDISERT form )
La
generell n.-fordeling X N [, ] og
standard n.-fordeling Z N [ = 0, = 1], dvs. X og Z vre kontinuerlige stokastiske variabeler
relatert pa flgende mate:
Z =X
(7.36)
Da er den kumulative sannsynlighetsfordelingen gitt ved:
P (X x) = P (Z z) = G(z) (7.37)
hvor 6
G(z) =
z
fZ(z) dz (7.38)
og fZ(z) er gitt ved lign.(7.31).
En alternativ form pa lign.(7.37) er:
P (X x) = P (Z z) = G(x
)(7.39)
6Dette integralet G(z), Gaussintegralet, behver ikke regnes ut. Det er tabelloppslag. Tabell finnes bakerst ilreboken.
66
Egenskap ved den kumulative sannsynlighetsfordelingen G(z):
fZ(z)
z z
fZ(z)
z - z
areal = G(z)
areal = G(-z)
Figur 7.7: Arealene representerer Gaussintegralene G(z) og G(z).
Fra figur (7.7) innser vi at
G(z) + G(z) = arealet under hele kurven = 1 (7.40)
Altsa vi kan skrive:
G(z) = 1 G(z) (7.41)eller ekvivalent
P (Z z) = 1 P (Z z) (7.42)
67
7.5.3 Standardavvik og %-vis areal
Som vi har lrt tidligere sa er varians og standardavvik et mal pa spredning. For en normalfordelingmed et gitt standardavvik , sa dekker intervallet
X + hele 68.2 % av arealet (7.43)
under sannsynlighetfordelingen fX(x). Tilsvarende dekker intervallet
2 X + 2 hele 95.4 % av arealet (7.44)
under sannsynlighetfordelingen fX(x). Dette er illustrert i denne figuren:
fX(x)
z x
Figur 7.8: Standardavvik og %-vis areal for en normalfordeling.
68
7.6 Oversikt: Bin, Hyp, Poi og N
Vi har i dette kapitlet lrt om fire sannsynlighetsfordelinger:
1. Binomisk fordeling
2. Den hypergeometriske fordeling
3. Poissonfordelingen
4. Normalfording
69
Bin[ n , p ] Hyp[ N , M , n ] Poi[ ] N[ , ]
2 param. 3 param. 1 param. 2 param.
diskret diskret diskret kontinuerlig
Bin[ n , p ] Hyp[ N , M , n ] Poi[ ] N[ , ]
1) 2 mulig utfall 2) samme p for suksess 3) uavhengige
4) n antall forsk
- kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser
- kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser
- rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsk - loven om skjeldne begivenh.
- under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnring vre normalfordelt (f.eks. CLT)
1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle
4) n antall trukne elementer
1) x antall begivenheter innenfor en gitt tid 2) = rate
1) Tetthetsfunksjon fX(x) 2) Gausskurve
7.7 Sentralgrensesetningen
Setning: ( CLT 7 , sentralgrensesetningen )
La X1, X2, X3, ... Xn vre uavhengige stokastiske variabler med samme
diskret ELLER kont. sannsynlighetsfordeling
P (X = xi), dvs.
Xi samme sannsynlighetsfordeling for alle i = 1, 2, 3, ..., n (7.45)
hvor n er antall forsk 8, dvs.
E[Xi] = og V ar[Xi] = 2 , i = 1, 2, 3, ..., n (7.46)
er den samme for alle forsk / gitt stokastisk variabel i.
Da gjelder at gjennomsnittet X:
X =X1 +X2 +X3 + ... +Xn
n(7.47)
er normalfordelt i grensen nar antall forsk n blir stor:
Xn= stor N
[,
n
](7.48)
altsa P (X = x) er normalfordelt med forventning og varians hhv.
E[X ] = og V ar[X ] =2
n(7.49)
7Pa engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem.8For eksemplet med terningkast hadde vi til slutt n = 16 forsk. Det betyr at alle 16 terningkastene hadde
samme fordeling.
72
Det er en alternativ mate a formulere sentralgrensesetningen pa ved bruk av lign.(7.37):
Setning: ( sentralgrensesetningen og G(z) )
LaX1,X2,X3, ...Xn vre n stk. uavhengige stokastiske variabler med samme
diskret ELLER kont. sannsynlighetsfordeling
med som forventingsverdi og 2 som varians, dvs.
E[Xi] = og V ar[Xi] = 2 , i = 1, 2, 3, ..., n (7.50)
Gjennomsnittet X av disse n stk. stokastiske variablene
X =X1 +X2 +X3 + ... +Xn
n(7.51)
er da normalfordelt for store n, dvs.
P (X x) n= stor G(x
n
)(7.52)
hvor
G(z) = gitt ved lign.(7.38) (7.53)
= er standardavviket for en gitt stokastisk variabel Xi (7.54)
73
Kommentar:
Hvor stor n ma vre ( n = antall forsk ) for at sentralgrensesetningen skal gjelde er avhengig avsituasjonen. Men en tommelfingerregel er at vi br ha
n & 30 (7.55)
dvs. antall forsk br vre ca. 30 eller mer.
74
7.8 Diskrete fordelinger normalfordeling
Setning: ( Bin[n, p] N[, ] )
For en
diskret binomisk fordeling, X Bin[n, p], hvor
n p (1 p) & 5 (7.56)
sa er sannsynligheten X har verdien x vre
kont. normalfordelt:
P (X x) G(x+ 0.5 E[X]
[X]
)(7.57)
P (X x) 1 G(x 0.5 E[X]
[X]
)(7.58)
hvor forventning og standardavvik er
E[X]lign.(7.6)
= n p (7.59)
[X]lign.(7.7)
=n p (1 p) (7.60)
75
Setning: ( Hyp[N,M, n] N[, ] )
For en
diskret hypergeometrisk fordeling, X Hyp[N,M, n], hvor
N & 20 n (7.61)
n MN
(1 M
N
)& 5 (7.62)
sa vil X vre tilnrmet en
kont. normalfordeling:
P (X x) G(x+ 0.5 E[X]
[X]
)(7.63)
P (X x) 1 G(x 0.5 E[X]
[X]
)(7.64)
hvor forventning og standardavvik er
E[X]lign.(7.15)
= n MN
(7.65)
[X]lign.(7.16)
=
N nN 1 n
M
N
(1 M
N
)(7.66)
76
Setning: ( Poi[] N[, ] )
For en
diskret Poissonfordeling, X Poi[], hvor
& 5 (7.67)
sa vil X vre tilnrmet en
kont. normalfordeling:
P (X x) G(x+ 0.5 E[X]
[X]
)(7.68)
P (X x) 1 G(x 0.5 E[X]
[X]
)(7.69)
hvor forventning og standardavvik er
E[X]lign.(7.24)
= (7.70)
[X]lign.(7.25)
= (7.71)
77
Setning: ( diskret N[, ] )
Dersom X er diskret sannsynlighetsfordeling som er tilnrmet
kont. normalfordelt, dvs.
Xtilnrmet N[, ] (7.72)
og hvor X kun kan ha hele tall, dvs.
X = diskret stokastisk variabel som kun har hele tall (7.73)
da gjelder
P (X x) G(x+ 0.5 E[X]
[X]
)(7.74)
P (X x) 1 G(x 0.5 E[X]
[X]
)(7.75)
hvor
E[X]lign.(7.24)
= forventning til den diskrete variabelen (7.76)
[X]lign.(7.25)
= variansen til den diskrete variabelen (7.77)
78
7.9 Sammenheng: Bin, Hyp, Poi og N
I kapittel (7.3) fant vi sammenhengen mellom Hyp[N,M, n] og Bin[n, p], se lign.(7.18). I kapittel(7.4) fant vi sammenhengen mellom Bin[n, p] og Poi[], se lign.(7.23). Dessuten er alle fordelingeneBin[n, p], Hyp[N,M, n] og Poi[] relatert til N[, ] i visse grenser.
Bin[ n , p ]
Poi[ ] N[ , ] ( kontinuerlig )
Hyp[ N , M , n ]
N[ , ] ( kontinuerlig )
Poi[ ]
N[ , ] ( kontinuerlig )
Bin[ n , p ]
Figur 7.9: Fordelingene Bin[n, p], Hyp[N,M, n], Poi[] og N[, ].De bla pilene representerer setningene i lign.(7.18) og lign.(7.23).
79
80
Kapittel 11
Regresjonsanalyse
Figur 11.1: Regresjon.
81
11.1 Introduksjon
Regresjonsanalyse:
Teori og metoder for a analysere og utnytte samvariasjon mellom variable. Formal:
konstruere modeller som kan brukes til a ansla verdien (prediksjon/forutsi) av envariabel Y ved hjelp av informasjon om en annen variabel X.
teminologi:
variabel X:
har info om dette/kjenner denne uavhengig variabel eller forklaringsvariabel
variabel Y: avhengig variabel eller responsvariabel nsker a ansla denne
Man skiller ofte mellom liner regresjon og ikke-liner regresjon. I dette kurset skal vi kun se pa:
liner regresjon
samspill mellom bare to variabler
x
y
Figur 11.2: Liner regresjon.
82
11.2 Residual og SSE
1) Observasjoner:De rde punktene i figur (11.3) viser de fem observasjonspunktene (x1, y1), (x2, y2), ... , (x5, y5).
2) Rett linje:Den rde linjen i figur (11.3) viser linjen y = a+ bx, hvor a og b er parametre.For observasjonsverdien xi, hvor i = 1, 2, ..., 5, er det en tilhrende verdi yi pa den rette linjen:
1
yi = a+ bxi (11.1)
Forskjellen mellom de observerte verdiene yi og de tilsvarende verdiene til den rette linjen er deloddrette avstandene (bla linjer) som vist i figur (11.3). Denne forskjellen/avviket mellom observertverdi og prediksjonen som rette linjen foreslar for datapunktet er:
ei = yi yi residual
(11.2)
og kalles residual eller estimat for eksperimentfeilen.Residualen ei maler dermed feilen vi gjr ved a bruke verdien pa den rette linjen istedet for deobserverte verdiene. Residualen ei kan vre positiv, negativ eller 0.
2
y
x
e1 e2
e3 e4
e5
y = a + bx (Dette er ikke den linjen som passer best).
Figur 11.3: Residual.
1Den rde linjen i figur (11.3) er ikke den som passer best. A finne denne den linjen som passer best ertema i neste avsnitt.
2Ingen residual i figur (11.3) er null. Alle er negative.
83
Definisjon: ( SSE ) 3
La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett. Strrelsen SSE, sum squared er-ror, er da definert ved: 4
SSE =ni=1
(yi yi)2 (11.4)
hvor yi er prediksjonene som linjen5
yi = a + bxi prediksjoner
(11.5)
gir for tilhrende observasjonsverdiene xi, og yi er de faktiske observasjonene/dataene:
yifaktiske observasjoner/data
(11.6)
3SSE star for sum square error.
4Siden eilign.(11.2)
= yi yi sa kan SSE alternativt skrives:
SSE =
ni=1
e2i (11.3)
5a og b er parametre.
84
11.3 Minste kvadraters regresjonslinje
Setning: ( minste kvadraters linere regresjonslinje )
La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett.Minste kvadraters linere regresjonslinje er da gitt ved:
y = + x , (11.7)
hvor
=SxyS2x
(11.8)
= y x (11.9)og
S2xlign.(1.10)
=1
n 1ni=1
(xi x)2 (11.10a)
Sxylign.(1.12)
=1
n 1ni=1
(xi x)(yi y) (11.10b)
samt x = 1n
ni=1 xi og y =
1n
ni=1 yi.
y
x
e1 e2
e3 e4
e5
y = a + bx
y
x
e1 e2
e3
e4
e5
y = + x
og som passer best: Vilkrlig a og b:
Figur 11.4: Linje som ikke passer best, og linje som passer best.
85
11.4 Forklaringsstyrke og SST
Definisjon: ( SST ) 6
La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett. Strrelsen SST , sum squared to-tal, er da definert ved:
SST =ni=1
(yi y)2 (11.11)
hvor yi er de faktiske observasjonene/dataene:
yifaktiske observasjoner/data
(11.12)
og y er det empiriske gjennomsnittet, dvs.
ylign.(1.3)
=1
n
ni=1
yi (11.13)
y
x
y
yi
yi
xi
yi yi = total variasjon yi yi = residual
Figur 11.5: Residual og total variasjon.
6SST star for sum square total.
86
Definisjon: ( forklaringsstyrke )7
La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner. Forklaringsstyrken R2 er da:
R2 = 1 SSESST
(11.14)
hvor
SSE =ni=1
(yi yi)2 (11.15)
SST =ni=1
(yi y)2 (11.16)
hvor yi er de faktiske observasjonene/dataene:
yifaktiske observasjoner/data
(11.17)
og yi er prediksjonene som linjen8
yi = + xi prediksjoner
(11.18)
samt y er det empiriske gjennomsnittet, dvs.
y =1
n
ni=1
yi (11.19)
7Kalls ogsa forklaringsgrad.8Se lign.(11.7). Parametrene/koeffisientene og er parametre gitt ved lign.(11.9) og (11.8).
87
Beskrivende statistikkPopulasjon og utvalgStatistiske ml (n variabel)LokaliseringsmlSpredningsml
Statistiske ml (to variabler)
SannsynlighetsregningUtfallsromSannsynligheterBegivenhetMengdelreRegning med sannsynligheterAddisjonssetningenKomplementsetningenTotal sannsynlighetTvillingsetningene
KombinatorikkKoblinger4 situasjoner (endelig populasjon)Kombinatoriske sannsynligheter
Betinget sannsynlighetBetinget sannsynlighetMultiplikasjonssetningenBayes lov
Oppsplitting av Uavhengighet
Tilfeldige variabler, forventning og variansTilfeldige variablerForventning og variansForventningVariansNoen regneregler
Generelle forventninger
Simultane sannsynlighetsfordelingerSimultan- og marginalfordelingGenerelle forventningerKovarians
Sentrale sannsynlighetsfordelingerDen binomiske fordelingenForventingsverdiVarians
Den hypergeometriske fordelingenForventning og varians
Sammenheng mellom Hyp[N,M,n] og Bin[n,p]PoissonfordelingenForventning og varians
Normalfordelingen (kontinuerlig) StandardiseringSammenhengen mellom P(Z z) og G(z)Standardavvik og %-vis areal
Oversikt: Bin, Hyp, Poi og N SentralgrensesetningenDiskrete fordelinger -3mu normalfordelingSammenheng: Bin, Hyp, Poi og N
RegresjonsanalyseIntroduksjonResidual og SSEMinste kvadraters regresjonslinjeForklaringsstyrke og SST