87
Formelsamling V-2015 MAT110 Statistikk 1 Per Kristian Rekdal

001 Mat110 Statistikk 1, Formelsamling, (1. Mars 2015)

Embed Size (px)

DESCRIPTION

Formulas in statistics. In Norwegian.

Citation preview

  • Formelsamling V-2015

    MAT110Statistikk 1 Per Kristian Rekdal

  • Innhold

    1 Beskrivende statistikk 71.1 Populasjon og utvalg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2 Statistiske mal (e`n variabel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.2.1 Lokaliseringsmal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2.2 Spredningsmal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.3 Statistiske mal (to variabler) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2 Sannsynlighetsregning 132.1 Utfallsrom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3 Begivenhet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Mengdelre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Regning med sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.5.1 Addisjonssetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.5.2 Komplementsetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.3 Total sannsynlighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5.4 Tvillingsetningene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3 Kombinatorikk 233.1 Koblinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 4 situasjoner (endelig populasjon) . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Kombinatoriske sannsynligheter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    4 Betinget sannsynlighet 294.1 Betinget sannsynlighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4.1.1 Multiplikasjonssetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.1.2 Bayes lov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.2 Oppsplitting av . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.3 Uavhengighet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    5 Tilfeldige variabler, forventning og varians 355.1 Tilfeldige variabler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.2 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5.2.1 Forventning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.2.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.2.3 Noen regneregler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    3

  • 5.3 Generelle forventninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    6 Simultane sannsynlighetsfordelinger 436.1 Simultan- og marginalfordeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446.2 Generelle forventninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456.3 Kovarians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    7 Sentrale sannsynlighetsfordelinger 517.1 Den binomiske fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    7.1.1 Forventingsverdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537.1.2 Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    7.2 Den hypergeometriske fordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . 547.2.1 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    7.3 Sammenheng mellom Hyp[N,M, n] og Bin[n, p] . . . . . . . . . . . . . . . . . . . 577.4 Poissonfordelingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    7.4.1 Forventning og varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607.5 Normalfordelingen (kontinuerlig) . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    7.5.1 Standardisering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.5.2 Sammenhengen mellom P (Z z) og G(z) . . . . . . . . . . . . . . . . . . 647.5.3 Standardavvik og %-vis areal . . . . . . . . . . . . . . . . . . . . . . . . 68

    7.6 Oversikt: Bin, Hyp, Poi og N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697.7 Sentralgrensesetningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727.8 Diskrete fordelinger normalfordeling . . . . . . . . . . . . . . . . . . . . . . 757.9 Sammenheng: Bin, Hyp, Poi og N . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    11 Regresjonsanalyse 8111.1 Introduksjon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8211.2 Residual og SSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8311.3 Minste kvadraters regresjonslinje . . . . . . . . . . . . . . . . . . . . . . . . . . . 8511.4 Forklaringsstyrke og SST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

    4

  • Forord

    Dette er formelsamlingen i emnet MAT110 Statistikk 1 ved hgskolen i Molde.

    Formlene i denne formelsamlingen er stort sett de formlene som er markert med rd skrift og rammerundt i kompendiet. Studentene oppfordres til a bruke formelsamlingen aktivt nar vingsoppgaverskal lses.

    Hjelpemidler eksamen:

    Godkjent kalkulator og formelsamling.

    Kun originalversjonen av formelsamlingen utgitt av SiMolde Bok er lov a ha med paeksamen. (Dette fordi det skal vre lett a se at dere har med den riktige og lovlige formel-samlingen pa eksamen).

    Det er lov a skrive egne notater i formelsamlingen som dere kan ta med pa eksamen. Men:Ikke skriv av hele eksempler og hele oppgaver. (Dersom dette blir praktisert i stor grad mavi revurdere denne ordningen i forhold til neste ars studenter).

    En gratis PDF-versjon av formelsamlingen kan lastes ned fra www.himoldeX.no.

    Per Kristian Rekdal

    Copyright c Hyskolen i Molde, mars 2015.

    5

  • 6

  • Kapittel 1

    Beskrivende statistikk

    1.1 Populasjon og utvalg

    Definisjon: ( populasjon )

    Populasjon = den totale mengden av objekter/data som vi nsker a analysere

    Definisjon: ( utvalg )

    Utvalg = en delmengde av populasjonen,dvs. en samling av data som er hentet fra en populasjon

    Definisjon: ( statistisk inferens )

    Statistisk inferens = det a tolke/analysere utvalget for a finne ut mest mulig omhele populasjonen

    7

  • Populasjon Utvalg

    Utvalgsresultater

    Trekning av utvalg

    Statistisk inferens Beskrivende statistikk

    Figur 1.1: Prosessen ved statistisk inferens, generelt.

    Prosessen for statistisk inferens er illustrert generelt i figur (1.1).

    8

  • 1.2 Statistiske mal (e`n variabel)

    1.2.1 Lokaliseringsmal

    Definisjon: ( median )

    La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:

    median =

    midtre observasjonen , n = odde

    gjennomsnitt av to midterste observasjonene , n = like(1.1)

    Definisjon: ( typetall ) 1

    La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:

    typetall = den verdien som forekommer hyppigst (1.2)

    Definisjon: ( gjennomsnitt )

    La x1, x2, x3, ..., xn vre n antall observasjoner. Da er gjennomsnittet:2

    x =1

    n

    ni=1

    xi (1.3)

    1Kalles ogsa modus eller modalverdi.2 = den greske bokstaven sigma. F.eks. 3i=1xi = x1 + x2 + x3.

    9

  • 1.2.2 Spredningsmal

    Definisjon: ( modalprosent )

    La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:

    modalprosent = %-vis andel av observasjonene som har verdi lik typetallet (1.4)

    Definisjon: ( variasjonsbredde )

    La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:

    variasjonsbredde = differansen mellom strste og minste verdi (1.5)

    Definisjon: ( kvartilavvik )

    La n vre en serie med tall/observasjoner i ordnet rekkeflge. Da er:

    k1 = nedre kvartil , dvs. 25% av observasjonene har verdi k1 (1.6)

    k2 = medianen , dvs.

    50% av observasjonene har verdi k2

    50% av observasjonene har verdi k2(1.7)

    k3 = vre kvartil , dvs. 75% av observasjonene har verdi k3 (1.8)

    Da er

    kvartilavvik = k3 k1 (1.9)

    10

  • Definisjon: ( empirisk varians ) 3

    La x1, x2, x3, ..., xn vre observasjoner, og la x vre gjennomsnittet.Da er den empiriske variansen: 4

    S2x =1

    n 1ni=1

    (xi x)2 (1.10)

    Definisjon: ( empirisk standardavvik ) 5

    Det empiriske standardavviket er:

    Sx =S2x (1.11)

    3Kalles ogsa utvalgsvariansen.4Ulike estimater av variansen: I lign.(1.10) deler man pa n 1, og ikke n. Om vi bruker det ene eller det andre

    er avhengig om x er gjennomsnittet for hele populajonen, eller bare et utvalg. I dette kurset skal vi imidlertid holdeoss til definisjonen i lign.(1.10).

    5Kalles ogsa utvalgstandardavviket.

    11

  • 1.3 Statistiske mal (to variabler)

    Definisjon: ( empirisk kovarians ) 6

    La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner, og la x samt y vre de respektivegjennomsnitt. Den empiriske kovariansen er da: 7

    Sxy =1

    n 1ni=1

    (xi x)(yi y) (1.12)

    Definisjon: ( korrelasjonskoeffisient )

    La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner. Korrelasjonskoeffisienten er da:

    Rxy =Sxy

    Sx Sy (1.13)

    6Kalles ogsa utvalgskovariansen.7Ulike estimater av kovariansen: (samme kommentar som pa side 11) I lign.(1.12) deler man pa n1, og ikke n.

    Om vi bruker det ene eller det andre er avhengig om x og y er gjennomsnitt for hele sine respektive populajoner,eller bare et utvalg. I dette kurset skal vi imidlertid holde oss til definisjonen i lign.(1.12).

    12

  • Kapittel 2

    Sannsynlighetsregning

    Figur 2.1: Sannsynlighetsregning.

    13

  • 2.1 Utfallsrom

    Definisjon: ( utfallsrom )

    Resultatet av et stokastisk forsk1 kan ikke forutsies entydig, men det kan angis en mengde muligeenkeltutfall. Denne mengden av mulige enkeltutfall kalles utfallsrom: 2

    = { mengden av alle mulige enkeltutfall } (2.1)

    2.2 Sannsynligheter

    Definisjon: ( relativfrekvens )

    La n vre totalt antall forsk. Og la nA vre antall ganger, av de totalt n forskene, hvor etbestemt utfall A inntreffer. Den reletive frekevens for utfallet A er da:

    fr(nA) =nAn

    (2.2)

    hvor altsa

    n = totalt antall forsk (2.3)

    nA = antall ganger hvor utfallet A inntreffer (2.4)

    1Dvs. forsk med uforutsigbart utfall.2Den greske bokstaven kalles omega.

    14

  • Definisjon: ( sannsynlighet )

    La n vre totalt antall forsk. Og la nA vre antall ganger, av de totalt n forskene, hvor etbestemt utfall A inntreffer. Sannsynligheten for for at utfallet A inntreffer er da:

    p(A) = limn

    fr(nA) (2.5)

    hvor fr(n) er relativ frekvens.

    Egenskaper ved sannsynligheter: ( diskret utfallsrom )

    Med kortnotasjonen pi p(Ai) sa gjelder:

    0 pi 1 , for alle i = 1, 2, 3, ...., n (2.6)

    ni=1

    pi = 1 (2.7)

    hvorn

    i=1 pi = p1 + p2 + p3 + ...+ pn.

    15

  • 2.3 Begivenhet

    Definisjon: ( begivenhet )

    begivenhet = delmengde av utfallsrommet (2.8)

    A

    Figur 2.2: Et venn-diagram for en begivenhet. er utfallsrommet og A er en begivenhet.

    Egenskaper for en begivenhet: ( diskret utfallsrom )

    P (A) =uA

    p(u) (2.9)

    I tillegg kan vi na skrive lign.(2.6) og (2.7) pa en alternativ mate:

    0 P (A) 1 , for alle A (2.10)

    P () =e

    p(e) = 1 (2.11)

    16

  • 2.4 Mengdelre

    For et eksperiment, la A og B vre to begivenheter i utfallsrommet .

    A A

    A

    Utfallsrommet er hele det bl omrdet.

    Begivenheten A visualiseres ved det bl omrdet.

    A benevnes ikke A

    Figur 2.3: Utfallsrommet , begivenheten A og komplementet A.

    Snitt: A B betyr A og B. Tilsvarer OVERLAPP av mengder.

    Union: A B betyr A eller B. Tilsvarer SUM av mengder.

    A B

    A B

    A

    B

    Disjunkt: A B = . A og B inntreffer ALDRI samtidig. Ingen felles elementer.

    A B

    Figur 2.4: Snitt, union og disjunkt.

    17

  • 2.5 Regning med sannsynligheter

    Definisjon: ( disjunkte begivenheter)

    To begivenheter A og B er disjunkte dersom A

    og B = .

    A

    B

    Disjunkt: A B = . A og B inntreffer ALDRI samtidig. Ingen felles elementer.

    Figur 2.5: A og B er disjunkt.

    2.5.1 Addisjonssetningen

    Setningen: ( den spesielle addisjonssetningen )

    Dersom begivenhetene A og B er disjunkte, dvs. A

    og B = , sa gjelder:P (A

    eller B) = P (A) + P (B) (2.12)

    18

  • Setningen: ( den generelle addisjonssetningen )

    For begivenhetene A og B gjelder:

    P (A

    eller B) = P (A) + P (B)P (A og B) ekstra ledd

    (2.13)

    A B

    Figur 2.6: Overlappen mellom A og B er A B.

    19

  • Setningen: ( den generelle addisjonssetningen )

    For begivenhetene A, B og C gjelder:

    P (A B C) eller

    = P (A) + P (B) + P (C)

    P (A B) P (A C) P (B C)+ P (A B C)

    og

    (2.14)

    som kan illustrereres via venn-diagrammet i figur (2.7).

    A B

    C

    Figur 2.7: Begivenhetene mellom A, B og C.

    20

  • 2.5.2 Komplementsetningen

    Setningen: ( komplementsetningen )

    For begivenheten A og dens komplement A (eller Ac) gjelder:

    P (A) = 1 P (A) (2.15)

    A A

    A benevnes ikke A.

    Figur 2.8: Komplementet til A er A (eller Ac).

    2.5.3 Total sannsynlighet

    Setningen: ( total sannsynlighet )

    For begivenhetene A og B gjelder:

    P (A) = P (A B) + P (A B) (2.16)

    A B

    AB

    A

    AB

    Figur 2.9: Oppsplitting av begivenhenten A = (A B) (A B).

    21

  • 2.5.4 Tvillingsetningene

    Setninger: ( tvillingsetningene )

    P (A

    og B) = 1 P (A eller B) (2.17)

    P (A

    og B) = 1 P (A eller B) (2.18)

    22

  • Kapittel 3

    Kombinatorikk

    Figur 3.1: Kombinatorikk. En las med svrt mange kombinasjonsmuligheter.

    23

  • 3.1 Koblinger

    Definisjon: ( koblinger )

    Koblinger = forhold som gjr at et bestemt valg kan pavirke utfallet av andre valg vi skal gjre.

    Grunnprinsipp i kombinatorikk: ( antagelse )

    Ingen kobling mellom mellom valgmulighetene. (Med koblinger blir det fort vanskelig).

    Kombinasjoner: ( uten koblinger )

    Dersom vi har

    m1 = antall muligheter i valg nr. 1

    m2 = antall muligheter i valg nr. 2

    .

    .

    mN = antall muligheter i valg nr. N (3.1)

    da er

    antall mulige kombinasjoner = m1 m2 m3 ...mN (3.2)

    24

  • 3.2 4 situasjoner (endelig populasjon)

    Det er ofte vanskelig a telle opp antall elementer i utfallsrommet. Det kan derfor ofte lnne sega bruke urnemodellen. Tenk deg at alle mulige utfall av et eksperiment er representert vedkuler som ligger i en urne. Sa trekker vi kuler etter tur. Da ma vi skille mellom:

    er det trekking med eller uten tilbakelegging? betyr det noe i hvilken rekkeflge kulene trekkes?

    m/tilbakelegging u/tilbakelegging

    ordnet

    ikke-ordnet

    trekning

    situasjon 1 situasjon 2

    situasjon 3 situasjon 4 (forekommer sjelden)

    Figur 3.2: 4 situasjoner for urnemodellen.

    25

  • Egenskaper til binomialkoeffisienten

    (N

    s

    ): ( N over s )

    (N

    s

    )

    binomialkoeff.

    =N !

    (N s)! s! (3.3)

    hvor f.eks.

    s! = 1 2 3 ... (s 2) (s 1) s (3.4)5! = 1 2 3 4 5 (3.5)

    Legg merke til at

    (N

    0

    )=

    N !

    (N 0)! 0! = 1 (3.6)(N

    1

    )=

    N !

    (N 1)! 1! = N (3.7)(N

    N

    )=

    N !

    (N N)! N ! = 1 (3.8)

    siden 0! = 1.

    26

  • 3.3 Kombinatoriske sannsynligheter

    La oss se pa en tellesituasjon som kan beskrives med urnemodellen. I slike situasjoner er deten sammenheng mellom sannsynlighet og antall kombinasjoner:

    La A tilsvare det a trekke kuler av en bestemt type fra urnen. Dette betyr at kulene representererbegivenheten A. Sannsynligheten for a trekke A er da gitt ved: 1

    P (A) =antall gunstige kombinasjoner for A

    antall mulige kombinasjoner totalt(3.9)

    1Dette er helt analogt med tellesituasjonen som vi diskuterte i kapittel 1. Se f.eks. eksempel 3 i kapittel 1.

    27

  • 28

  • Kapittel 4

    Betinget sannsynlighet

    Figur 4.1: Gitt at vi vet hvilke kuler som er i btten, hva er sannsynligheten for a trekke en hvitkule?

    29

  • 4.1 Betinget sannsynlighet

    4.1.1 Multiplikasjonssetningen

    Setning: ( multiplikasjonssetningen, generelle )

    For begivenhetene A og B gjelder:

    P (A

    og B) = P (A|B) P (B) (4.1)hvor

    P (A B) = og-sannsynligheten for A og B (4.2)P (A|B) = sannsynligheten for A gitt at B allerede har inntruffet (A gitt B)

    ( betinget sannsynlighet)

    P (B) = sannsynligheten for B 6= 0 (4.3)(ubetinget sannsynlighet)

    Tilsvarende gjelder: (multiplikasjonssetningen)

    = P (AB) P (B A) = P (B|A) P (A) (4.4)

    hvor P (A) 6= 0. Denne setningen flger umiddelbart siden P (B A) = P (A B).

    30

  • 4.1.2 Bayes lov

    Setning: ( Bayes lov )

    For begivenhetene A og B gjelder:

    P (A|B) = P (B|A) P (A)P (B)

    (4.5)

    eller alternativt:

    P (B|A) = P (A|B) P (B)P (A)

    (4.6)

    Figur 4.2: Bayes lov. Thomas Bayes.

    31

  • 4.2 Oppsplitting av

    Setningen: ( oppsplitting av i 2 )

    Anta at utfallsrommet splittes i to delrom = B1

    eller B2, der B1 B2 = , dvs. delrommeneB1 og B2 har ingen felles elementer: de er disjunkte. Enhver mengde A kan da skrives:

    A = (A B1)eller (A B2) (oppsplitting) (4.7)

    med tilhrende sannsynlighet

    P (A) = P (A B1) + P (A B2) (4.8)

    Alternativt 1 kan lign.(4.8) skrives:

    P (A) = P (A|B1) P (B1) + P (A|B2) P (B2) (4.9)

    B2

    :

    B1

    A

    Figur 4.3: Oppsplitting av sannsynlighetsrom , jfr. lign.(4.7).

    1Via multiplikasjonssetningen i lign.(4.1): P (A

    og B) = P (A|B) P (B).32

  • Setningen: ( oppsplitting av )

    Anta at utfallsrommet splittes i delrom = B1

    eller B2 eller B3 eller ... eller BN , der alleBi Bj = , dvs. ingen delrom B1, B2, ... , BN har noen felles elementer: disjunkte 2. Enhvermengde A kan da skrives:

    A = (A B1)eller (A B2) eller ... eller (A BN) (oppsplitting) (4.10)

    med tilhrende sannsynlighet

    P (A) = P (A B1) + P (A B2) + ... + P (A BN) (4.11)

    Alternativt 3 kan lign.(4.11) skrives:

    P (A) = P (A|B1) P (B1) + P (A|B2) P (B2) + ... + P (A|BN) P (BN) (4.12)

    B2

    :

    . . . . . BN B3 B1

    A

    Figur 4.4: Oppsplitting av sannsynlighetsrom , jfr. lign.(4.10).

    2Bitene i et puslespill overlapper akkurat ikke. Bitene i puslespillet er disjunkte.

    3Via multiplikasjonssetningen i lign.(4.1): P (A

    og B) = P (A|B) P (B).33

  • 4.3 Uavhengighet

    Definisjon: ( uavhengighet )

    To begivenheter A og B er uavhengige dersom

    P (A|B) = P (A) (4.13)

    Setning: ( multiplikasjonssetningen, spesielle )

    Dersom begivenhetene A og B er uavhengige, sa gjelder:

    P (A

    og B) uavh.= P (A) P (B) (4.14)

    34

  • Kapittel 5

    Tilfeldige variabler, forventning ogvarians

    Figur 5.1: Forventning (svart linje) og varians.

    35

  • 5.1 Tilfeldige variabler

    Definisjon: ( tilfeldig/stokastisk variabel )

    En stokastisk variabel er en strrelse X som kan anta ulike verdier x med ulike sannsynligheter. 1

    Definisjon: ( sannsynlighetsfordeling, diskret )

    En sannsynlighetsfordeling til en diskret variabel er en funksjon definert ved

    P (x) liten x for verdier

    = P (X = x) stor X for selve variabelen

    (5.1)

    Definisjon: ( kumulativ sannsynlighetsfordeling, diskret )

    Den kumulative sannsynlighetsfordeling F til en diskret variabel X er definert ved

    F (x) = P (X x) (5.2)

    1En mer teknisk (matematisk) versjon av definisjonen av en stokastisk variabel er: Med en tilfeldig variabelmener vi en funksjon X som til ethvert mulig utfall definerer et bestemt reelt tall.

    36

  • 5.2 Forventning og varians

    5.2.1 Forventning

    Definisjon: ( forventningsverdi, diskret ) 2

    For en diskret tilfeldig variabel X med de mulige verdiene x1, x2, ... , xm er forventningsverdien:

    E[X] =mi=1

    xi P (X = xi) (5.3)

    Definisjon: ( forventningsverdi, kontinuerlig )

    For en kontinuerlig tilfeldig variabel X er forventningsverdien:

    E[X] =

    x f(x) dx (5.4)

    hvor f(x) = sannsynlighetstettheten av x.

    2Jamfr den analoge strrelsen for (empirisk) gjennomsnitt definert i lign.(1.3): x = 1nn

    i=1 xi.

    37

  • 5.2.2 Varians

    Definisjon: ( varians, diskret )

    For en diskret tilfeldig variabel X er variansen

    V ar[X] = E[ (X E[X])2 ] (5.5)

    Variansen er altsa forventningsverdien av (X E[X])2. Lign.(5.5) kan derfor skrives: 3

    V ar[X] =mi=1

    (xi E[X])2 P (X = xi) (5.6)

    A bruke definisjonen for a regne ut V ar[X] via lign.(5.6) kan vre omstendelig. Men det finnesen setning som forenkler regningen i en del tilfeller. Setningen er som flger:

    3Jamfr den analoge strrelsen for empirisk varians definert i lign.(1.10): S2x =1

    n1n

    i=1 (xi x)2.

    38

  • Setning: ( varians )

    La X vre en stokastisk variabel. For variansen gjelder da:

    V ar[X] = E[X2] E[X]2 (5.7)

    Denne formen er en enklere og mer brukt formel enn definisjonen i lign.(5.5). Via lign.(5.3) kandenne setningen skrives:

    V ar[X] =mi=1

    x2i P (X = xi) ( m

    i=1

    xi P (X = xi))2

    (5.8)

    Definisjon: ( standardavvik, diskret ) 4

    For en diskret tilfeldig variabel X er standardavviket

    [X] V ar[X] (5.9)

    4Jamfr den analoge strrelsen for (empirisk) standardavvik definert i lign.(1.11): Sx =S2x.

    39

  • 5.2.3 Noen regneregler

    La a og b vre konstanter. La videre X og Y vre to stokastiske variabler. Da gjelder:

    Regneregler for forventning:

    E[a] = a (5.10)

    E[a+X] = a+ E[X] (5.11)

    E[a X] = a E[X] (5.12)

    E[aX + bY ] = aE[X] + bE[Y ] (5.13)

    Regneregler for varians:

    V ar[a] = 0 (5.14)

    V ar[a+X] = V ar[X] (5.15)

    V ar[a X] = a2 V ar[X] (5.16)

    V ar[X] = V ar[X] (5.17)

    Dessuten er alltid V ar[X] 0, dvs. en varians kan aldri vre negativ.

    40

  • 5.3 Generelle forventninger

    Forventningsverdien i forrige avsnitt kan generaliseres pa flgende mate:

    Definisjon: ( generell forventningsverdi, diskret )

    For en diskret tilfeldig variabel X og en vanlig funksjon h(X) sa er

    E[h(X)] =mi=1

    h(xi) P (X = xi) (5.18)

    41

  • 42

  • Kapittel 6

    Simultane sannsynlighetsfordelinger

    Figur 6.1: Simultane sannsynlighetsfordelinger.

    43

  • 6.1 Simultan- og marginalfordeling

    Definisjon: ( simultanfordeling )

    La X og Y vre to stokastiske variabler. Med simultanfordeling menes:

    p(x, y) = P (X = x og Y = y) (6.1)

    Definisjon: ( marginalfordeling )

    La X og Y vre to stokastiske variabler. Med marginalfordeling menes:

    P (X = x) =y

    p(x, y) (6.2)

    P (Y = y) =x

    p(x, y) (6.3)

    Definisjon: ( uavhengighet ) 1

    La X og Y vre to stokastiske variabler. Disse er uavhengige dersom:

    P (X = x og Y = y) = p(x,y)

    = P (X = x) P (Y = y) (6.4)

    for alle X = x og Y = y.

    1Jamfr den analoge setn. for uavhengighet mellom begivenheter A og B i lign.(4.14): P (A B) = P (A) P (B).

    44

  • 6.2 Generelle forventninger

    Definisjon: ( generell forventingsverdi, diskret )

    For diskrete stokastiske variabel X, Y og funksjonen h(X, Y ) sa gjelder

    E[h(X, Y )] =mi=1

    nj=1

    h(xi, yj) p(xi, yj) (6.5)

    Spesialtilfelle:

    La oss se pa et spesialtilfelle av lign.(6.5), nemlig det spesialtilfellet nar:

    h(X, Y ) = X Y (6.6)

    Da er:

    E[X Y ] =mi=1

    nj=1

    xi yj p(xi, yj) (6.7)

    45

  • Setning: ( uavhengighet )

    La X og Y vre to uavhengige stokastiske variabler 2. Da gjelder:

    E[X Y ] = E[X] E[Y ] (6.9)

    2Ut fra definisjonen av uavhengighet mellom to stokastiske variabler ( se lign.(6.4) ) sa vet vi X og Y eruavhengige dersom:

    P (X = x og Y = y) = p(x,y)

    lign.(6.4)= P (X = x) P (Y = y) (6.8)

    for alle X = x og Y = y.

    46

  • 6.3 Kovarians

    Definisjon: ( kovarians ) 3

    La X og Y vre to stokastiske variabler. Med

    samvariasjon/korrelasjon kovariansen mellom disse mener vi:

    samvariasjon/korrelasjon Cov[X, Y ] = E[ (X E[X])(Y E[Y ]) ] (6.10)

    Setning: ( kovarians )

    La X og Y vre to stokastiske variabler. For

    samvariasjon/korrelasjon kovariansen gjelder da:

    samvariasjon/korrelasjon Cov[X, Y ] = E[X Y ] E[X] E[Y ] (6.11)

    Setning (spesialtilfelle , kovarians )

    La X og Y vre to stokastiske variabler. Dersom X og Y er uavhengige, dvs.:

    E[X Y ] uavh.= E[X] E[Y ] (6.12)sa er

    Cov[X, Y ] = 0 X og Y ukorrelerte

    (6.13)

    3Jamfr den analoge definisjonen av empirisk kovarians i lign.(1.12): Sxy =

    1n1

    ni=1 (xi x)(yi y).

    47

  • Definisjon: ( korrelasjonskoeffisienten ) 4

    La X og Y vre to stokastiske variabler. Med korrelasjonskoeffisienten [X, Y ] mener vi da: 5

    [X, Y ] =

    samvariasjon/korrelasjon Cov[X, Y ]

    V ar[X] spredning

    V ar[Y ]

    spredning

    (6.15)

    4Jamfr den analoge definisjonen av korrelasjonskoeffisienten Rxy i lign.(1.13): Rxy =SxySxSy .

    5Siden [X] V ar[X], se lign.(5.9), sa kan korrelasjonskoeffisienten [X,Y ] skrives pa en alternativ mate:

    [X,Y ] =

    samvariasjon/korrelasjon Cov[X,Y ]

    [X]spredning

    [Y ]spredning

    (6.14)

    48

  • Setning: ( kovarians II )

    La X og Y vre to stokastiske variabler. Generelt gjelder da flgende sammenhengen mellomvariansen og kovariansen:

    variasjon/(spredning) V ar[aX + bY ] = a2 V ar[X] + b2 V ar[Y ] + 2ab

    samvariasjon Cov[X, Y ] (6.16)

    hvor a og b er konstanter.

    Setning (spesialtilfelle , kovarians II )

    La X og Y vre to stokastiske variabler. Dersom X og Y er ukorrelerte, sa er:

    Cov[X, Y ] = 0 (6.17)

    Da gjelder:

    V ar[aX + bY ] = a2 V ar[X] + b2 V ar[Y ] (6.18)

    49

  • 50

  • Kapittel 7

    Sentrale sannsynlighetsfordelinger

    Figur 7.1: Sentralgrensesetningen (CLT).

    51

  • 7.1 Den binomiske fordelingen

    Definisjon: (

    diskret binomisk fordeling , X

    2 param. Bin[n, p] )

    Punktsannsynlighetene for en binomisk fordeling er

    P (X = x)def.=

    (n

    x

    )px (1 p)nx (7.1)

    hvor

    X = stokastisk variabel (7.2)

    = antall suksesser i en binomisk forsksserie pa totalt n forsk

    p = sannsynlighet for suksess (7.3)

    n = totalt antall forsk (7.4)(n

    x

    )

    binomialkoeff.

    =n!

    (n x)! x! (n over x) (7.5)

    P(X=x)

    x

    Figur 7.2: Binomiske sannsynlighetsfordelinger P (X = x).

    52

  • 7.1.1 Forventingsverdi

    Setning: ( forventing av X 2 param.

    Bin[n, p] )

    La X vre en binomisk variabel, dvs. X Bin[n, p]. Da gjelder:

    E[X] = n p (7.6)

    7.1.2 Varians

    Setning: ( varians av X 2 param.

    Bin[n, p] 1 ) )

    La X vre en binomisk variabel, dvs. X Bin[n, p]. Da gjelder:

    V ar[X] = n p (1 p) (7.7)

    1Skrivematen X 2 param.

    Bin[n, p] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x)som er binomisk fordelt.

    53

  • 7.2 Den hypergeometriske fordelingen

    Definisjon: (

    diskret hypergeometrisk fordeling , X

    3 param. Hyp[N,M, n] 2 )

    Punktsannsynlighetene for en hypergeometrisk fordeling er

    P (X = x)def.=

    (M

    x

    )(N Mn x

    )(N

    n

    ) (7.8)

    hvor

    X = stokastisk variabel

    = antall spesielle elementer i det tilfeldige utvalget pa (7.9)

    n trukne elementer

    N = antall elementer i grunnmengden (7.10)

    M = antall spesielle elementer (7.11)

    N M = antall vanlige elementer (7.12)

    n = antall trukne elementer (7.13)(N

    n

    )

    binomialkoeff.

    =N !

    (N n)! n! (N over n) (7.14)

    2Skrivematen X Hyp[N,M,n] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x)som er hypergeometrisk fordelt.

    54

  • P(X=x)

    x

    Figur 7.3: Hypergeometriske sannsynlighetsfordelinger P (X = x).

    55

  • 7.2.1 Forventning og varians

    Setning: ( forventing av X 3 param.

    Hyp[N,M, n]

    La X vre en hypergeometrisk variabel, dvs. X Hyp[N,M, n]. Da gjelder:

    E[X] = n MN

    (7.15)

    Setning: ( varians av X 3 param.

    Hyp[N,M, n] )

    La X vre en hypergeometrisk variabel, dvs. X Hyp[N,M, n]. Da gjelder:

    V ar[X] =N nN 1 n

    M

    N(

    1 MN

    )(7.16)

    56

  • 7.3 Sammenheng mellom Hyp[N,M, n] og Bin[n, p]

    Setning: (

    3 param. Hyp[N,M, n]

    2 param. Bin[n, p] )

    Dersom grunnmengden N i en hypergeometrisk forskserie er mye strre enn utvalget n, typisk

    N & 20 n (7.17)sa er

    X Hyp[N,M, n] N & 20n X Bin[n, p] (7.18)

    57

  • 7.4 Poissonfordelingen

    Definisjon: (

    diskret Poissonfordeling , X

    1 param. Poi[] ) 3

    Punktsannsynlighetene for en Poissonfordeling er

    P (X = x)def.=

    x

    x!e (7.19)

    hvor

    X = stokastisk variabel

    = antall begivenheter som inntreffer innenfor en gitt tid eller gitt rom (7.20)

    = gjennsomsnittlig antall begivenheter innenfor en gitt tid eller gitt rom (7.21)

    3Kalles ofte loven om sjeldne begivenheter.

    58

  • P(X=x)

    x

    Figur 7.4: Poissonfordelinger P (X = x).

    Setning: (

    2 param. Bin[n, p]

    1 param. Poi[] )

    I en binomisk sannsynlighetsfordeling, dersom sannsynligheten for suksess p er svrt liten ogantall forsk n er svrt stor, typisk

    n & 50 og p . 0.05 (7.22)

    sa er

    X Bin[n, p] n& 50 og p. 0.05 X Poi[] (7.23)

    59

  • 7.4.1 Forventning og varians

    Setning: ( forventing av X Poi[] 4 )

    La X vre en Poissionfordelt variabel, dvs. X Poi[]. Da gjelder:

    E[X] = (7.24)

    Setning: ( varians av X Poi[] )

    La X vre en Poissonfordelt variabel, dvs. X Poi[]. Da gjelder:

    V ar[X] = (7.25)

    4Skrivematen X Poi[] betyr at den stokastiske variabelen X har en sannsynlighetsfordeling P (X = x) somer Poissonfordelt.

    60

  • 7.5 Normalfordelingen (kontinuerlig)

    Definisjon: ( generelle

    kont. normalfordeling

    La X vre en kontinuerlig stokastisk variabel. Den generelle normalfordelingen for X er 5

    fX(x) =1

    2pi 2e

    (x)222 (7.26)

    hvor

    = E[X] = forventingen av X ( lokalisering av toppunkt ) (7.27)

    2 = V ar[X] = variansen av X (7.28)

    =2 = standardavviket av X ( halvbredden av kurven ) (7.29)

    fX(x)

    x

    Figur 7.5: Tetthetsfunksjoner fX(x) til ulike normalfordelinger.

    5Lign.(7.26) er en tetthetsfunksjon.

    61

  • Definisjon: ( standardisert

    kont. normalfordeling, X N [ = 0, = 1] )

    La X vre en kontinuerlig stokastisk variabel. Dersom

    E[X] = = 0 , V ar[X] = 2 = 1 (7.30)

    sa vil den generelle normalfordelingen i lign.(7.26) redusere seg til

    fX(x) =12pi

    ex2

    2 (7.31)

    Dette kalles den standardiserte normalfordelingen.

    62

  • 7.5.1 Standardisering

    Omskalering: ( variabelskifte )

    Z =X

    (7.32)

    Matematisk sa betyr det faktum at = 0 og = 1 i den nye omskalerte variabelen, flgende:

    E[Z] = 0 , V ar[Z] = 1 (7.33)

    63

  • 7.5.2 Sammenhengen mellom P (Z z) og G(z)

    arealet til venstre for z = sannsynligheten for at den stokastiske variabelen Z

    har verdier mindre eller lik z

    = P (Z z) (7.34)

    Arealet til venstre for z er det samme som integralet under grafen fZ(z):

    P (Z z) = stoppstart

    =

    =G(z) z

    fZ(s) dsdef.= G(z) (7.35)

    Gaussintegralet G(z) behver ikke regnes ut av oss. Det er tabelloppslag.

    1

    fZ(z)

    = 1

    = 0

    z

    - 1 z

    areal = G(z)

    Figur 7.6: Arealet som vist representerer sannsynligheten P (Z z).

    64

  • P(Z z) = G(z)

    z

    65

  • Setning: ( sammenh. mellom P (Z z), P (Z z) og G(z), dvs. STANDARDISERT form )

    La

    generell n.-fordeling X N [, ] og

    standard n.-fordeling Z N [ = 0, = 1], dvs. X og Z vre kontinuerlige stokastiske variabeler

    relatert pa flgende mate:

    Z =X

    (7.36)

    Da er den kumulative sannsynlighetsfordelingen gitt ved:

    P (X x) = P (Z z) = G(z) (7.37)

    hvor 6

    G(z) =

    z

    fZ(z) dz (7.38)

    og fZ(z) er gitt ved lign.(7.31).

    En alternativ form pa lign.(7.37) er:

    P (X x) = P (Z z) = G(x

    )(7.39)

    6Dette integralet G(z), Gaussintegralet, behver ikke regnes ut. Det er tabelloppslag. Tabell finnes bakerst ilreboken.

    66

  • Egenskap ved den kumulative sannsynlighetsfordelingen G(z):

    fZ(z)

    z z

    fZ(z)

    z - z

    areal = G(z)

    areal = G(-z)

    Figur 7.7: Arealene representerer Gaussintegralene G(z) og G(z).

    Fra figur (7.7) innser vi at

    G(z) + G(z) = arealet under hele kurven = 1 (7.40)

    Altsa vi kan skrive:

    G(z) = 1 G(z) (7.41)eller ekvivalent

    P (Z z) = 1 P (Z z) (7.42)

    67

  • 7.5.3 Standardavvik og %-vis areal

    Som vi har lrt tidligere sa er varians og standardavvik et mal pa spredning. For en normalfordelingmed et gitt standardavvik , sa dekker intervallet

    X + hele 68.2 % av arealet (7.43)

    under sannsynlighetfordelingen fX(x). Tilsvarende dekker intervallet

    2 X + 2 hele 95.4 % av arealet (7.44)

    under sannsynlighetfordelingen fX(x). Dette er illustrert i denne figuren:

    fX(x)

    z x

    Figur 7.8: Standardavvik og %-vis areal for en normalfordeling.

    68

  • 7.6 Oversikt: Bin, Hyp, Poi og N

    Vi har i dette kapitlet lrt om fire sannsynlighetsfordelinger:

    1. Binomisk fordeling

    2. Den hypergeometriske fordeling

    3. Poissonfordelingen

    4. Normalfording

    69

  • Bin[ n , p ] Hyp[ N , M , n ] Poi[ ] N[ , ]

    2 param. 3 param. 1 param. 2 param.

    diskret diskret diskret kontinuerlig

  • Bin[ n , p ] Hyp[ N , M , n ] Poi[ ] N[ , ]

    1) 2 mulig utfall 2) samme p for suksess 3) uavhengige

    4) n antall forsk

    - kjenner ikke fordelingen i urnen - m / tilbakelegging - teller opp antall suksesser

    - kjenner fordelingen i urnen - u / tilbakelegging - teller opp antall suksesser

    - rate ( konstant ) - antall begivenheter innenfor en gitt tid eller gitt rom - telleforsk - loven om skjeldne begivenh.

    - under bestemte betingelser vil mange diskrete og kontinuerige fordelinger med god tilnring vre normalfordelt (f.eks. CLT)

    1) x antall suksesser / spesielle 2) N antall i grunnmengden 3) M antall spesielle

    4) n antall trukne elementer

    1) x antall begivenheter innenfor en gitt tid 2) = rate

    1) Tetthetsfunksjon fX(x) 2) Gausskurve

  • 7.7 Sentralgrensesetningen

    Setning: ( CLT 7 , sentralgrensesetningen )

    La X1, X2, X3, ... Xn vre uavhengige stokastiske variabler med samme

    diskret ELLER kont. sannsynlighetsfordeling

    P (X = xi), dvs.

    Xi samme sannsynlighetsfordeling for alle i = 1, 2, 3, ..., n (7.45)

    hvor n er antall forsk 8, dvs.

    E[Xi] = og V ar[Xi] = 2 , i = 1, 2, 3, ..., n (7.46)

    er den samme for alle forsk / gitt stokastisk variabel i.

    Da gjelder at gjennomsnittet X:

    X =X1 +X2 +X3 + ... +Xn

    n(7.47)

    er normalfordelt i grensen nar antall forsk n blir stor:

    Xn= stor N

    [,

    n

    ](7.48)

    altsa P (X = x) er normalfordelt med forventning og varians hhv.

    E[X ] = og V ar[X ] =2

    n(7.49)

    7Pa engelsk brukes ofte forkortelsen CLT, dvs. central limit theorem.8For eksemplet med terningkast hadde vi til slutt n = 16 forsk. Det betyr at alle 16 terningkastene hadde

    samme fordeling.

    72

  • Det er en alternativ mate a formulere sentralgrensesetningen pa ved bruk av lign.(7.37):

    Setning: ( sentralgrensesetningen og G(z) )

    LaX1,X2,X3, ...Xn vre n stk. uavhengige stokastiske variabler med samme

    diskret ELLER kont. sannsynlighetsfordeling

    med som forventingsverdi og 2 som varians, dvs.

    E[Xi] = og V ar[Xi] = 2 , i = 1, 2, 3, ..., n (7.50)

    Gjennomsnittet X av disse n stk. stokastiske variablene

    X =X1 +X2 +X3 + ... +Xn

    n(7.51)

    er da normalfordelt for store n, dvs.

    P (X x) n= stor G(x

    n

    )(7.52)

    hvor

    G(z) = gitt ved lign.(7.38) (7.53)

    = er standardavviket for en gitt stokastisk variabel Xi (7.54)

    73

  • Kommentar:

    Hvor stor n ma vre ( n = antall forsk ) for at sentralgrensesetningen skal gjelde er avhengig avsituasjonen. Men en tommelfingerregel er at vi br ha

    n & 30 (7.55)

    dvs. antall forsk br vre ca. 30 eller mer.

    74

  • 7.8 Diskrete fordelinger normalfordeling

    Setning: ( Bin[n, p] N[, ] )

    For en

    diskret binomisk fordeling, X Bin[n, p], hvor

    n p (1 p) & 5 (7.56)

    sa er sannsynligheten X har verdien x vre

    kont. normalfordelt:

    P (X x) G(x+ 0.5 E[X]

    [X]

    )(7.57)

    P (X x) 1 G(x 0.5 E[X]

    [X]

    )(7.58)

    hvor forventning og standardavvik er

    E[X]lign.(7.6)

    = n p (7.59)

    [X]lign.(7.7)

    =n p (1 p) (7.60)

    75

  • Setning: ( Hyp[N,M, n] N[, ] )

    For en

    diskret hypergeometrisk fordeling, X Hyp[N,M, n], hvor

    N & 20 n (7.61)

    n MN

    (1 M

    N

    )& 5 (7.62)

    sa vil X vre tilnrmet en

    kont. normalfordeling:

    P (X x) G(x+ 0.5 E[X]

    [X]

    )(7.63)

    P (X x) 1 G(x 0.5 E[X]

    [X]

    )(7.64)

    hvor forventning og standardavvik er

    E[X]lign.(7.15)

    = n MN

    (7.65)

    [X]lign.(7.16)

    =

    N nN 1 n

    M

    N

    (1 M

    N

    )(7.66)

    76

  • Setning: ( Poi[] N[, ] )

    For en

    diskret Poissonfordeling, X Poi[], hvor

    & 5 (7.67)

    sa vil X vre tilnrmet en

    kont. normalfordeling:

    P (X x) G(x+ 0.5 E[X]

    [X]

    )(7.68)

    P (X x) 1 G(x 0.5 E[X]

    [X]

    )(7.69)

    hvor forventning og standardavvik er

    E[X]lign.(7.24)

    = (7.70)

    [X]lign.(7.25)

    = (7.71)

    77

  • Setning: ( diskret N[, ] )

    Dersom X er diskret sannsynlighetsfordeling som er tilnrmet

    kont. normalfordelt, dvs.

    Xtilnrmet N[, ] (7.72)

    og hvor X kun kan ha hele tall, dvs.

    X = diskret stokastisk variabel som kun har hele tall (7.73)

    da gjelder

    P (X x) G(x+ 0.5 E[X]

    [X]

    )(7.74)

    P (X x) 1 G(x 0.5 E[X]

    [X]

    )(7.75)

    hvor

    E[X]lign.(7.24)

    = forventning til den diskrete variabelen (7.76)

    [X]lign.(7.25)

    = variansen til den diskrete variabelen (7.77)

    78

  • 7.9 Sammenheng: Bin, Hyp, Poi og N

    I kapittel (7.3) fant vi sammenhengen mellom Hyp[N,M, n] og Bin[n, p], se lign.(7.18). I kapittel(7.4) fant vi sammenhengen mellom Bin[n, p] og Poi[], se lign.(7.23). Dessuten er alle fordelingeneBin[n, p], Hyp[N,M, n] og Poi[] relatert til N[, ] i visse grenser.

    Bin[ n , p ]

    Poi[ ] N[ , ] ( kontinuerlig )

    Hyp[ N , M , n ]

    N[ , ] ( kontinuerlig )

    Poi[ ]

    N[ , ] ( kontinuerlig )

    Bin[ n , p ]

    Figur 7.9: Fordelingene Bin[n, p], Hyp[N,M, n], Poi[] og N[, ].De bla pilene representerer setningene i lign.(7.18) og lign.(7.23).

    79

  • 80

  • Kapittel 11

    Regresjonsanalyse

    Figur 11.1: Regresjon.

    81

  • 11.1 Introduksjon

    Regresjonsanalyse:

    Teori og metoder for a analysere og utnytte samvariasjon mellom variable. Formal:

    konstruere modeller som kan brukes til a ansla verdien (prediksjon/forutsi) av envariabel Y ved hjelp av informasjon om en annen variabel X.

    teminologi:

    variabel X:

    har info om dette/kjenner denne uavhengig variabel eller forklaringsvariabel

    variabel Y: avhengig variabel eller responsvariabel nsker a ansla denne

    Man skiller ofte mellom liner regresjon og ikke-liner regresjon. I dette kurset skal vi kun se pa:

    liner regresjon

    samspill mellom bare to variabler

    x

    y

    Figur 11.2: Liner regresjon.

    82

  • 11.2 Residual og SSE

    1) Observasjoner:De rde punktene i figur (11.3) viser de fem observasjonspunktene (x1, y1), (x2, y2), ... , (x5, y5).

    2) Rett linje:Den rde linjen i figur (11.3) viser linjen y = a+ bx, hvor a og b er parametre.For observasjonsverdien xi, hvor i = 1, 2, ..., 5, er det en tilhrende verdi yi pa den rette linjen:

    1

    yi = a+ bxi (11.1)

    Forskjellen mellom de observerte verdiene yi og de tilsvarende verdiene til den rette linjen er deloddrette avstandene (bla linjer) som vist i figur (11.3). Denne forskjellen/avviket mellom observertverdi og prediksjonen som rette linjen foreslar for datapunktet er:

    ei = yi yi residual

    (11.2)

    og kalles residual eller estimat for eksperimentfeilen.Residualen ei maler dermed feilen vi gjr ved a bruke verdien pa den rette linjen istedet for deobserverte verdiene. Residualen ei kan vre positiv, negativ eller 0.

    2

    y

    x

    e1 e2

    e3 e4

    e5

    y = a + bx (Dette er ikke den linjen som passer best).

    Figur 11.3: Residual.

    1Den rde linjen i figur (11.3) er ikke den som passer best. A finne denne den linjen som passer best ertema i neste avsnitt.

    2Ingen residual i figur (11.3) er null. Alle er negative.

    83

  • Definisjon: ( SSE ) 3

    La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett. Strrelsen SSE, sum squared er-ror, er da definert ved: 4

    SSE =ni=1

    (yi yi)2 (11.4)

    hvor yi er prediksjonene som linjen5

    yi = a + bxi prediksjoner

    (11.5)

    gir for tilhrende observasjonsverdiene xi, og yi er de faktiske observasjonene/dataene:

    yifaktiske observasjoner/data

    (11.6)

    3SSE star for sum square error.

    4Siden eilign.(11.2)

    = yi yi sa kan SSE alternativt skrives:

    SSE =

    ni=1

    e2i (11.3)

    5a og b er parametre.

    84

  • 11.3 Minste kvadraters regresjonslinje

    Setning: ( minste kvadraters linere regresjonslinje )

    La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett.Minste kvadraters linere regresjonslinje er da gitt ved:

    y = + x , (11.7)

    hvor

    =SxyS2x

    (11.8)

    = y x (11.9)og

    S2xlign.(1.10)

    =1

    n 1ni=1

    (xi x)2 (11.10a)

    Sxylign.(1.12)

    =1

    n 1ni=1

    (xi x)(yi y) (11.10b)

    samt x = 1n

    ni=1 xi og y =

    1n

    ni=1 yi.

    y

    x

    e1 e2

    e3 e4

    e5

    y = a + bx

    y

    x

    e1 e2

    e3

    e4

    e5

    y = + x

    og som passer best: Vilkrlig a og b:

    Figur 11.4: Linje som ikke passer best, og linje som passer best.

    85

  • 11.4 Forklaringsstyrke og SST

    Definisjon: ( SST ) 6

    La (x1, y2), (x2, y2), ..., (xn, yn) vre observasjonspar/datasett. Strrelsen SST , sum squared to-tal, er da definert ved:

    SST =ni=1

    (yi y)2 (11.11)

    hvor yi er de faktiske observasjonene/dataene:

    yifaktiske observasjoner/data

    (11.12)

    og y er det empiriske gjennomsnittet, dvs.

    ylign.(1.3)

    =1

    n

    ni=1

    yi (11.13)

    y

    x

    y

    yi

    yi

    xi

    yi yi = total variasjon yi yi = residual

    Figur 11.5: Residual og total variasjon.

    6SST star for sum square total.

    86

  • Definisjon: ( forklaringsstyrke )7

    La x1, x2, x3, ..., xn og y1, y2, y3, ..., yn vre observasjoner. Forklaringsstyrken R2 er da:

    R2 = 1 SSESST

    (11.14)

    hvor

    SSE =ni=1

    (yi yi)2 (11.15)

    SST =ni=1

    (yi y)2 (11.16)

    hvor yi er de faktiske observasjonene/dataene:

    yifaktiske observasjoner/data

    (11.17)

    og yi er prediksjonene som linjen8

    yi = + xi prediksjoner

    (11.18)

    samt y er det empiriske gjennomsnittet, dvs.

    y =1

    n

    ni=1

    yi (11.19)

    7Kalls ogsa forklaringsgrad.8Se lign.(11.7). Parametrene/koeffisientene og er parametre gitt ved lign.(11.9) og (11.8).

    87

    Beskrivende statistikkPopulasjon og utvalgStatistiske ml (n variabel)LokaliseringsmlSpredningsml

    Statistiske ml (to variabler)

    SannsynlighetsregningUtfallsromSannsynligheterBegivenhetMengdelreRegning med sannsynligheterAddisjonssetningenKomplementsetningenTotal sannsynlighetTvillingsetningene

    KombinatorikkKoblinger4 situasjoner (endelig populasjon)Kombinatoriske sannsynligheter

    Betinget sannsynlighetBetinget sannsynlighetMultiplikasjonssetningenBayes lov

    Oppsplitting av Uavhengighet

    Tilfeldige variabler, forventning og variansTilfeldige variablerForventning og variansForventningVariansNoen regneregler

    Generelle forventninger

    Simultane sannsynlighetsfordelingerSimultan- og marginalfordelingGenerelle forventningerKovarians

    Sentrale sannsynlighetsfordelingerDen binomiske fordelingenForventingsverdiVarians

    Den hypergeometriske fordelingenForventning og varians

    Sammenheng mellom Hyp[N,M,n] og Bin[n,p]PoissonfordelingenForventning og varians

    Normalfordelingen (kontinuerlig) StandardiseringSammenhengen mellom P(Z z) og G(z)Standardavvik og %-vis areal

    Oversikt: Bin, Hyp, Poi og N SentralgrensesetningenDiskrete fordelinger -3mu normalfordelingSammenheng: Bin, Hyp, Poi og N

    RegresjonsanalyseIntroduksjonResidual og SSEMinste kvadraters regresjonslinjeForklaringsstyrke og SST