40
Forelesing 27 Oppsummering Torstein Fjeldstad Institutt for matematiske fag, NTNU 18.04.2018

Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Forelesing 27OppsummeringTorstein Fjeldstad

Institutt for matematiske fag, NTNU

18.04.2018

Page 2: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

I dag

— Lineær regresjon (sjekk av modellantagelser)— Praktisk informasjon— Andre statistikk-kurs— Oversikt over pensum

2

Page 3: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Eksamen

— Onsdag 23.05 kl. 09:00 - 13:00— Alle deloppgåver tel like mykje (men dei er ikkje like vanskelege)— Ta med naturlege mellomrekningar. Merk det er skilnad på "skriv

opp" og "utlei"

3

Page 4: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Tillate hjelpemidler på eksamen

— Tabeller og formler i statistikk— Bestemd, enkel kalkulator— Stempla gult A5-ark med eigne handskrivne formlar og notat (du

kan skrive på begge sider av arket)

4

Page 5: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Korleis førebu seg føre eksamen

— Kræsjkurs: tysdag 15.05 i R1 (tidspunkt er ikkje endelegbestemd)

— Eksamenslab:• Onsdag 09.05 kl. 13:00 - 16:00 i S1• Måndag 14.05 kl. 13:00 - 16:00 i S2• Onsdag 16.05 kl. 13:00 - 16:00 i S2• Tysdag 22.05 kl. 13:00 - 16:00 i S2

— Gamle eksamensoppgåver er god trening

5

Page 6: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Naturlege neste kurs i statistikk

1. TM4265 Stokastisk modellering (H2018)• sannsynsrekning• rekne på prosesser som utviklar seg i tid

2. TMA4255 Anvendt statistikk (V2019)• statistisk inferens• multippel lineær regresjon, forsøksplanlegging

3. TMA4267 Lineære statistiske modeller (V2019)• Som TMA4255, men noko meir matematisk

4. TMA4268 Statistisk læring (V2019)• Regresjon, ikkje-linearitet, klassifikasjon• Fokus på programmering i R

6

Page 7: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

DEL 1: Sannsynsrekning

7

Page 8: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Sannsyn

Stokastisk forsøk : eit eksperiment der resultatet er underlagttilfeldigheter,

Utfallsrom S : mengda av moglege resultat i eit stokastisk forsøk.Utfall x : eit element i utfallsrommet S.

Ein sannsynsmål på eit utfallsrom S er ein reell funksjon definert påhendingane i S slik at:— 0 ≤ P(A) ≤ 1 for alle A ⊂ S.— P(S) = 1— Dersom A1,A2, . . . er parvis disjunkte (dvs. Ai ∩ Aj = ∅ for alle

i 6= j), så er

P

(∞⋃i=1

Ai

)=∞∑

i=1

P(Ai).

8

Page 9: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Reknereglar for sannsyn

Additiv regel: P(A ∪ B) = P(A) + P(B)− P(A ∩ B)

Komplementærsetninga: P(A) = 1− P(Ac)

Betinga sannsyn: P(A|B) = P(A∩B)P(B)

Multiplikasjonssetninga: P(A ∩ B) = P(B)P(A|B) = P(A)P(B|A)

Uavhengighet: A,B uavhengige⇔ P(A|B) = P(A)

P(A ∩ B) = P(A)P(B)

Bayes regel: P(A|B) = P(A)P(B|A)P(B)

Lova om total sannsyn: B1,B2, . . . ,Bn partisjon av S

P(A) =n∑

i=1

P(Bi ∩ A) =n∑

i=1

P(A|Bi)P(Bi)

9

Page 10: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Stokastiske variabel og sannsynsfordeling

Ein stokastisk variabeler ein reell funksjon, X , definert på eitutfallsrom.Eigenskapar til X :

— f (x)

{punktsannsyn diskretsannsynstettleik kontinuerleg

— F (x) = P(X ≤ x) same tolkning for båe diskret og kontinuerlegtilfelle

10

Page 11: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Forventningsverdi og varians

— Forventningsverdi (tolkning: gjennomsnitt av uendeleg mangerealisasjonar)

E(g(X )) =

{∑x g(x)f (x) diskret∫∞−∞ g(x)f (x)dx kontinuerleg

E(aX + bY + c) = aE(X ) + bE(Y ) + c

— Varians (tolkning: måler spredning/variasjon)

Var(X ) = E((X − E(X )2) = E(X 2)− (E(X ))2

Var(aX + b) = a2Var(X )

Var(X + Y ) = Var(X ) + Var(Y ) + 2Cov(X ,Y )

— Kovarians (tolkning: kan tolke forteiknet)

Cov(X ,Y ) = E((X − E(X ))(Y − E(Y )))

X ,Y uavhengige⇒ Cov(X ,Y ) = 0

11

Page 12: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

12

Page 13: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

13

Page 14: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Viktig diskrete fordelingar

Binomisk fordeling: Trekning frå urne med tilbakelegging— n uavhengige forsøk— suksess eller fiasko i kvart forsøk med konstant

sannsyn for suksess p— X er talet på suksessar

Multinomisk fordeling: Som binomisk, men k mogleg utfall i kvartforsøk

Hypergeometrisk fordeling: Trekning frå urne utan tilbakelegging— N kuler totalt, k raude og N − k gule. X er talet på

raude du trekkNegativ binomisk fordeling: same situasjon som for binomisk, men

trekk inntil k suksessar (k = 1 gir geometrisk fordeling).X er talet på trekningar

Poissonfordeling: X er talet på hendingar på intervallet [0, t ] i einpoissonprosess

14

Page 15: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

15

Page 16: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

16

Page 17: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Viktige kontinuerlege fordelingar

Normalfordeling: X ∼ n(x ;µ, σ)

— lineærkombinasjon av uavhengige normalfordeltestokastiske variabler er normalfordelt

— X ∼ n(x ;µ, σ)⇔ Z = X−µσ ∼ n(z; 0,1)

Eksponensialfordeling: X tid til første hending/tid mellometterfølgande hendingar i ein poissonprosess

17

Page 18: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

18

Page 19: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

19

Page 20: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

20

Page 21: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Transformasjon av stokastiske variablar

Situasjon: X ∼ f (x)Mål: finne fordelinga til Y = u(X ) (merk: X = w(Y ))

g(y) =

{f (w(y)) diskretf (w(y))|w ′(y)| kontinuerleg

21

Page 22: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Nokre samanhenger mellom fordelingar

— Hypergeometrisk ≈ binomisk dersom N er stor i forhold til k— Binomisk ≈ poisson viss n stor og p liten— Binomisk ≈ normal viss n stor

22

Page 23: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Ordningsvariablar

Situasjon: X1,X2, . . . ,Xn tilfeldig utval med Xi ∼ f (xi)

Maksimum:V = max(X1,X2, . . . ,Xn)

FV (v) = P(max(X1,X2, . . . ,Xn) ≤ v)

=n∏

i=1

P(Xi ≤ v) = (FX (v))n

Minimum:U = min(X1,X2, . . . ,Xn)

FU(u) = P(min(X1,X2, . . . ,Xn) ≤ u)

=1−n∏

i=1

[1− P(Xi ≤ u)] = 1− (1− FX (u))n

23

Page 24: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Momentgenererande funksjon

Definisjon: MX (t) = E(etX )Reknereglar:— MaX (t) = MX (at)— Ma+X (t) = aMX (t)— X1,X2, . . . ,Xn uavhengige

MX1+X2+...Xn (t) = MX1(t)MX2(t) . . .MXn (t)

Eigenskapar:

— M(r)X (0) = E(X r )

— Fordelinga til X og Y er like viss MX (t) = MY (t) for alle t

24

Page 25: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

DEL 2: Statistikk

25

Page 26: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Sentralgrenseteoremet

Viss X̄ er gjennomsnittet av eit tilfeldig utval av storleik n tatt frå einpopulasjon med forventningsverdi µ og varians σ2 <∞ vil

Z =X̄ − µσ/√

n→ n(z; 0,1) når n→∞.

26

Page 27: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Estimator

Situasjon: X1,X2, . . . ,Xn tilfeldig utval med Xi ∼ f (xi ; θ)Mål: ynskjer å anslå verdien til θ (og seie noko om tilhøyrande uvisse)

Observator: funksjon av stokastiske variablarEstimator: ein observator θ̂ som nyttes til å estimere verdien til den

ukjende parameteren θ

27

Page 28: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Sannsynsmaksimering

Situasjon: X1,X2, . . . ,Xn tilfeldig utval Xi ∼ f (xi ; θ)

1. Definer rimelighetsfunksjonen

L(θ) =n∏

i=1

f (xi ; θ)

2. Ofte er det enklare å sjå på log-rimelighetsfunksjonen

l(θ) =n∑

i=1

ln f (xi ; θ)

3. Maksimer l(θ) (ofte ved å derivere og setje lik null)

28

Page 29: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Eigenskapar til estimatorar

— Ynskjer ein forventningsrett (eng: unbiased) estimator

E(θ̂) = θ

— For to forventningsrette estimatorar θ̂1, θ̂2 vil me velge den medlågast varians:

Var(θ̂1) < Var(θ̂)⇒ velg θ̂1

29

Page 30: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

30

Page 31: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

31

Page 32: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Konfidensintervall

Situasjon: X1,X2, . . . ,Xn tilfeldig utval Xi ∼ f (xi ; θ)Mål: ynskjer konfidensintervall [θ̂L(X1,X2, . . . ,Xn, θ̂U(X1,X2, . . . ,Xn)]slik at

P(θ̂L(X1,X2, . . . ,Xn ≤ θ ≤ θ̂U(X1,X2, . . . ,Xn)]) = 1− α

32

Page 33: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Generell framgangsmåte for konfidensintervall

1. Estimator for θ, θ̂ (t.d. SME)2. La Z = h(θ̂, θ) der h(·, ·) er ein funksjon s.a. Z har ei kjend

fordeling.3. Har då

P(z1−α/2 ≤ h(θ̂, θ) ≤ zα/2) = 1− α

4. Løys ulikskapane (mhp. θ) kvar for seg og finn eit uttrykk med θ imidten

P(θ̂L(X1,X2, . . . ,Xn) ≤ θ ≤ θ̂U(X1,X2, . . . ,Xn)) = 1− α

5. Et (1− α) · 100 % konfidensintervall for θ er[θ̂L(X1,X2, . . . ,Xn), θ̂U(X1,X2, . . . ,Xn)

]33

Page 34: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Hypotesetesting

H0 riktig H1 riktigForkast H0 Type I-feil Ok

Ikkje forkast H0 Ok Type II-feil

Ide: vi må vere "sikre" før me påstår at H1 er rett. Me velgsigninifikansnivået α liten og krev

P(Type I-feil) = P(Forkast H0 når H0 er riktig) ≤ α

β = P(Type II-feil) = P(Ikkje forkast H0 når H1 er riktig)

34

Page 35: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Generell framgangsmåte

Situasjon: X1,X2, . . . ,Xn tilfeldig utval med Xi ∼ f (xi ; θ).1. Ynskjer å teste:

a) H0 : θ = θ0 mot H1 : θ > θ0b) H0 : θ = θ0 mot H1 : θ < θ0c) H0 : θ = θ0 mot H1 : θ 6= θ0

2. Estimator for θ; θ̂3. La Z = h(θ̂, θ0), der h(·, ·) er ein funksjon s.a. Z har ei kjend

fordeling under H0

4. Bestem eit forkastningskriterium (antar Z stor når θ̂ stor)a) Forkast H0 dersom Z > kb) Forkast H0 dersom Z < kc) Forkast H0 dersom Z < kl eller Z > ku

der k bestemmes frå kravet

P(Forkast H0 når H0 er riktig) ≤ α

5. Sett inn tal og konkluder35

Page 36: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

p-verdi

Ein p-verdi er det lågaste signifikansnivået α slik at observert verdifor observatoren gjev at me skal forkaste H0. Det vil seie, forkast H0dersom p-verdien er mindre enn α.

Teststyrke

Styrken til ein test er sannsynet for å forkaste H0 gitt at ein spesifikkalternativ hypotese er sann.

36

Page 37: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

37

Page 38: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Lineær regresjon

Situasjon: observert (x1, y1), (x2, y2), . . . , (xn, yn)Modell:

Yi |xi ∼ n(yi ;α + βxi , σ)

Kan tilpasse α, β, σ— Minste kvadraters metode (kun α, β)— Sannsynsmaksimering

38

Page 39: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

39

Page 40: Forelesing 27 Oppsummering · 1 1 g(x)f(x)dx kontinuerleg E(aX + bY + c) = aE(X) + bE(Y) + c ... Estimator:ein observator bsom nyttes til å estimere verdien til den ukjende parameteren

Prediksjon lineær regresjon

Merk at det er skilnad på følgande:— Forventa respons µY |x0

— Ein ny observasjon Y0 (gitt x0)

40