56
Distribucions Cont´ ınues: Exponencial, Normal i associades (log-normal, khi-quadrat) Albert Satorra UPF Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 1 / 56

Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucions Contınues: Exponencial, Normal iassociades (log-normal, khi-quadrat)

Albert Satorra

UPF

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 1 / 56

Page 2: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Continguts

1 Distribucio Exponencial

2 Distribucio Normal

3 Distribucio relacionades amb la normal

4 Altres distribucions contınues notables

5 Transformacio de variables

6 Metode de Monte Carlo

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 2 / 56

Page 3: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio Exponencial

Tenim un proces de Poisson (per exemple, no. de cotxes que arriben a lagasolinera en una hora) i observem el temps X d’espera fins que apareixun exit (temps d’espera fins l’arribada d’un cotxe a la gasolinera)

Exemple

- A sobre un pont de l’autopista, el temps d’espera abans no passa unaltra cotxe.

- El temps d’espera fins que hi ha una falla en el sistema

- Temps d’espera abans no arriba la seguent trucada al mobil del’estudiant, un divendres el vespre...

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 3 / 56

Page 4: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Es diu que una variable aleatoria X segueix una distribucio exponencial deparametre λ > 0, que denotarem X ∼ exp(λ) si la seva funcio de densitates

fX (x) =

λ e−λx x ≥ 0

0 en cas contrari

. . . e es el no. 2.718281828459045 . . .

L’esperanca i la variancia d’una distribucio exp(β) son 1

E [X ] =1

λ, var [X ] =

(1

λ

)2

1http://www.econ.upf.edu/~satorra/P/ValorEsperatExponencial.pdfEl valoresperat de l’exponencial. Contribucio de l’estudiant Adrian Segura, Nov. 2014

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 4 / 56

Page 5: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

La funcio de distribucio acumulada es,

FX (x) =

1− e−λx x ≥ 0

0 en cas contrari

- La distribucio exponencial es adequada per a modelar el temps entredos esdeveniments que es produeixen de forma independent, separadai uniforme per unitat de temps.

- Concretament si el nombre mitja d’esdeveniments que es produeixenen una unitat de temps es λ, la v.a. que mesura el temps d’esperaentre dos d’aquests esdeveniments segueix una exp(λ)

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 5 / 56

Page 6: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

Suposem que el temps de vida de unes components esta distribuıtexponencialment de mitja 10 hores. Trobeu,

1 La probabilitat que una component sobrevisqui > 10 hores.Sigui W la variable aleatoria que mesura el temps de vida d’unacomponent triada a l’atzar entre les de la poblacio. W ∼ exp(0.1).P(W > 10) = e−0.1·10 = e−1

2 La mediana del temps de vida.Cerquem m tal que 0.5 = P(W > m), per tant, 0.5 = e−0.1·m es a dirm = −ln(0.5) · 10 = 6.93

3 La desviacio standard del temps de vida.√var [W ] =

√102 = 10

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 6 / 56

Page 7: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

La durada en hores d’un component electronic X te funcio de distribucioF (x) = 1− e−

x100 , si x ≥ 0 i val 0 si x < 0.

1 Determineu la f.densitat de X . Derivant la de distribucio,

f (x) =

1

100 e−x

100 x > 0

0 altrament

2 Calculeu la probabilitat que component treballi mes de 200 h.P(X > 200) = 1− P(X ≤ 200) = 1− F (200) = e−2 = 0.1353

3 La durada mitjana dels components.Observem que X ∼ Exp(0.01) i per tant E [X ] = 100

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 7 / 56

Page 8: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Manca de memoria en la distribucio exponencial

Si X ∼ exp(λ), aleshores es verifica que ∀t, s > 0,

P(X ≥ t + s|X ≥ t) = P(X ≥ s)

Prova. Utilitzar P(X ≥ x) = e−λx

Exemple

A una botiga arriben una mitjana de 20 clients per hora.1.- Calculeu la probabilitat que passin com a mınim 5 minuts entrel’arribada de dos clients consecutius.2.- Quin es el temps esperat entre l’arribada de dos clients?3.- Fa 1/2 hora que no entra cap client a la botiga i volem fer una trucadaurgent de durada estimada 3 minuts. Probabilitat que entri un client enaquests 3 minuts?

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 8 / 56

Page 9: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

L’arribada dels clients a la botiga, si la unitat de temps son hores,correspondra aproximadament a un proces de Poisson de mitjana λ = 20,sempre que es pugui suposar,-els clients arriben independentment-no arriben dos clients alhora-el nombre de clients arriba uniforme en tot el perıode

1.- X :=”temps (hores) entre dues arribades consecutives” ∼ exp(20).

P(X > 112) = e−

2012 = 0.1889

2.- E [X ] = 1/20 hores, es a dir 3 minuts.3.- P (X ≥ 0.55|X ≥ 0.5) = P(X ≥ 0.05) = e−20·0.05 = 0.3679.La probabilitat demanada es 1− 0.3679 = 0.6321

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 9 / 56

Page 10: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Problema de la setmana

Un autobus que opera normalment passa per una certa parada cada 8minuts. Aixı, si un usuari arriba a la parada, el temps que ha d’esperar esuna variable aleatoria amb funcio de densitat

f (x) =

18 0 < x < 8

0 en cas contrari

En algunes ocasions, l’autobus porta retard i el temps d’espera te densitat

g(x) =

0.1e−0.1x si x > 0

0 en cas contrari

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 10 / 56

Page 11: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

1 Calculeu la probabilitat de que un usuari hagi d’esperar mes de 5minuts sabent que l’autobus no porta retard.

2 Calculeu la probabilitat de que un usuari hagi d’esperar mes de 5minuts sabent que l’autobus porta retard.

3 Coneixem que si agafem l’autobus a la mateixa hora, un de cada tresdias l’autobus porta retard. Calculeu la probabilitat de que un usuarihagi d’esperar mes de 5 minuts.

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 11 / 56

Page 12: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

1. Sigui X1 la variable aleatoria que mesura el temps d’espera quanl’autobus no porta retard. La funcio de densitat de probabilitat X1 es f .Llavors,

P(X1 > 5) =

∫ 8

5

1

8dx =

8− 5

8=

3

8= 0.3750

2. Sigui X0 la variable aleatoria que mesura el temps d’espera quanl’autobus porta retard. X0 ∼ Exp(10). Aleshores,

P(X0 > 5) = 1− Fx0(5) = 0.6065

3. Sigui Y la variable aleatoria que val 0 si l’autobus no porta retard i 1 sien porta. Y ∼ Bern(13). Sigui A:=Un usuari hagi d’esperar mes de 5minuts. Aleshores,

P(A) = P(X1 > 5) · P(Y = 0) + P(X0 > 5) · P(Y = 1) = 0.4522

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 12 / 56

Page 13: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

La Normal X ∼ N(µ, σ2) i el Deutsche Bundesbank

Figure : Bitllet de 10 marcs, Alemanya

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 13 / 56

Page 14: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Figure : histograma i fdp de les notes d’un test

histograma de 3000 obs. de la normal mu=47 variancia 12

x

Density

35 40 45 50 55

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 14 / 56

Page 15: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio de notes d’un examen

Histograma de notes de PAAU (3609 estudiants, any xx)

PAAU

Den

sity

2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

mitjana = 5.616

var. = 1.263

perc. 4 −− 8 = 0.913(aprox. normal = 0.908)

Figure : Histograma de les notes de PAAU, any x, amb la f.d. de la Normal(mitjana=5.616, var = 1.263)

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 15 / 56

Page 16: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio Normal

Hi ha una distribucio amb un paper central en probabilitat i estadıstica: ladistribucio de Gauss o distribucio Normal. Fou descoberta per A. deMoivre el 1733 (que la va fer servir per aproximar probabilitats de labinomial quan n es molt gran) i investigada per C.F. Gauss i P.S. Laplaceal final del segle XVIII i principis del XIX . Es una familia de distribucionsparametritzades per µ i σ.La funcio de densitat de probabilitat de la normal estandarditzada Z es

f (z) =1√2π

e−z2/2 −∞ < z < +∞

Les grafiques de f (z) i F (z) =∫ z−∞ f (u)du son

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 16 / 56

Page 17: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Funcio densitat de probabilitat (pdf) de la Normal, Corbade Gauss

!"#$

Figure : p.d.f de la Normal

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 17 / 56

Page 18: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Funcio de distribucio (cdf) de la Normal

F(x), Normal Est...ndard

F(x)

0.0

0.2

0.4

0.6

0.8

1.0

Figure : CDF of a N(0, 1), ZAlbert Satorra ( UPF ) AD/E-GRAU Tardor 2014 18 / 56

Page 19: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio Normal X ∼ N(µ, σ2)

Una v.a. X segueix la distribucio Normal de mitja µ i variancia σ2,X ∼ N(µ, σ2), si seva funcio de densitat de probabilitat es

fX (x) =1√

2πσ2e−

(x−µ)2

2σ2 , x ∈ R

Podem veure que E [X ] = µ i Var [x ] = σ2.Quan posem N(3, 4) volem dir una normal de mitjana µ = 3 i varianciaσ2 = 4. Molt de compte: en R, rnorm(1000, 3,4) indica observacionsde una normal de µ = 3 pero desviacio estandar σ = 4.rnorm(1000) indica observacions aleatories de una Z . Tambe tenimpnorm(1.40), qnorm(0.2) ...

rnorm(12)

[1] -1.19091845 -0.04238734 0.78825318 0.90059809 -0.75633339 -0.09455597 0.78836556 -0.42159241

[9] -0.28610998 -1.41885245 -1.30371811 -0.31332491

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 19 / 56

Page 20: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Figure : Taules de la Normal: F (z) de Z ∼ N(0, 1)

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 20 / 56

Page 21: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

La funcio de distribucio acumulada de X ∼ N(µ, σ2) es

FX (x0) =

∫ x0

−∞

1√2πσ2

e−(x−µ)2

2σ2 dx

Si a i b son dos possibles valors de X ∼ N(µ, σ2) i a < b,

P(a < X < b) = FX (b)− FX (a)

No existeix una expressio algebraica simple per a FX !!!pnorm(x0;µ;σ);pnorm(x0)

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 21 / 56

Page 22: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Llei normal dels 1-2-3 sigmas (σ):

Probabilitat (aproximada) que una Normal X ∼ N(µ, σ2) prengui valorsque difereixen de µ menys de

1 1 σ: 68%, P[µ− σ ≤ X ≤ µ+ σ]

2 2 σ: 95%, P[µ− 2σ ≤ X ≤ µ+ 2σ]

3 3 σ: 99%, P[µ− 3σ ≤ X ≤ µ+ 3σ]

Si Z ∼ N(0, 1) normal estandard, o X estandarditzada Z = X−µσ

1 P[−1 ≤ Z ≤ 1] ≈ 68%

2 P[−2 ≤ Z ≤ 2] ≈ 95%

3 P[−3 ≤ Z ≤ 3] ≈ 99%

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 22 / 56

Page 23: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Funcio de distribucio Φ(z)En una Normal estandard, fora de [−3, 3] no hi ha practicamentprobabilitat, solament el 1%!La funcio de distribucio acumulada de la Z , P[Z ≤ z ] s’anomena Φ(z), enR es: pnorm(z). La inversa Φ−1(p) es: qnorm(p). Per exemple

> pnorm(1.3)

[1] 0.9031995

---> P(Z < 1.3) = 0.9031995

> qnorm(0.93)

[1] 1.475791

---> P(Z < 1.475791) = 0.93

> dnorm(0.4)

[1] 0.3682701

---> z=0.4 f(z) =0.3682

> pnorm(0.4, 1, 4)

[1] 0.3682701

---> z=0.4 f(z) =0.3682

> pnorm(0.4, mean = 1,sd = 2)

[1] 0.3820886 --> P(X < 0.4), quan E(X) = 1,sigma(X)=2Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 23 / 56

Page 24: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

R Statistical Tables

Figure : Random variables in R

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 24 / 56

Page 25: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Z ∼ N(0, 1) segueix una distribucio normal estandard. La funcio dedistribucio acumulada de Z , que denotarem Φ(·) es troba tabulada.

Exemple

Z ∼ N(0, 1). Aleshores,

P(Z < 1.96) = Φ(1.96) = 0.9750P(Z < −0.75) = Φ(−0.75) = 0.2266P(Z > 0.75) = 0.2266 = 1− Φ(0.75)P(Z < 0.75) = Φ(0.75) = 0.7734(= 1− 0.2266)P(−0.75 < Z < 1.96) = Φ(1.96)− Φ(0.75) = 0.7484

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 25 / 56

Page 26: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Estandarditzacio en la normal

Probabilitats acumulades per a N(µ, σ2) en base a la normal estandard,

X ∼ N(µ, σ2)⇔ Z =X − µσ

∼ N(0, 1)

Exemple

Una companyia de reparacio de fotocopiadores considera que el tempsinvertit en un servei pot representar-se com una variable aleatoriaN(75, 202). Proporcio de serveis en menys d’una hora?X :=”temps invertit en un servei triat a l’atzar”.Volem determinar P(X < 60). Sigui Z ∼ N(0, 1); aleshores,

P

(X − 75

20<

60− 75

20

)= P(Z < −0.75) = pnorm(−0.75) = 0.2266

El 23% dels serveis es fan en menys d’una hora.

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 26 / 56

Page 27: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

El perıode de gestacio en humans, des de la fecundacio de l’ovul fins alnaixement del nado, te una distribucio aproximadament normal de mitjana266 dies i d.tıpica 16 dies. Aleshores, quina durada (aproximada) tenen el2, 5% dels embarassos mes llargs?X:=”perıode gestacio nado triat a l’atzar”. Z ∼ N(0, 1). x0

0.025 = P(X > x0)⇔ x0 0.025 = P(Z >x0 − 266

16)

Taules: 0.025 = Φ(1.96); x0 = 266 + 1.96 · 16 = 297.36 ≈ 297 d i 8 h

Amb R:qnorm(0.975)

qnorm(0.975, 266, 16)

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 27 / 56

Page 28: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

La Meritxell va obtenir 680 punts en una prova de acces al Conservatori deMusica (C).La Sara, vol estudiar a l’Escola de Musica (E), va passar una prova ambresultat de 27 punts.La distribucio dels resultats a C es considera N(500, 1002) i la distribuciodels resultats a E es considera N(18, 62).Aleshores, suposant que tots dos examens son comparables, quina de lesseguents afirmacions es falsa,

1 La Meritxell es troba entre el 5% amb millor nota a C

2 La Sara es troba entre el 10% amb millor nota a E

3 La Meritxell va puntuar, dins C, millor del que la Sara a E

4 La Sara va puntuar, dins E, millor que la Meritxell dins C

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 28 / 56

Page 29: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Per a poder comparar les estudiantes, necessitem estandarditzar lespuntuacions obtingudes per totes dues.

La puntuacio estandarditzada Meritxell es (680-500)/100 = 1.8

La puntuacio estandarditzada de la Sara es (27-18)/6 = 1.5Φ(1.8) = 0.9641 i Φ(1.8) = 0.9332: a) i b) son certes.

Com la puntuacio estandarditzada de la Meritxell es superior a la de laSara, l’opcio c) tambe es certa i l’opcio d) es la falsa.

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 29 / 56

Page 30: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

Es considera que el temps que una famosa banda de rock esta a l’escenaridurant els seus concerts segueix una distribucio normal de mitjana 200minuts i desviacio estandard 20 minuts.

1 Calculeu la proporcio de concerts d’aquesta banda que duren entre180 i 200 minuts.

2 Aquesta temporada, la banda te programats 150 concerts. Quantss’espera que durin entre 180 i 200 minuts? Simuleu i representeugraficament la durada dels 150 concerts de la gira.

3 Una persona de l’audiencia vol gravar el concert en una cinta de 245minuts. Quina es la probabilitat de que no tingui espai suficient pergravar el concert complet?

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 30 / 56

Page 31: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Sigui X :=” la durada d’un concert triat a l’atzar”∼ N(200, 202).

1 La proporcio de concerts entre 180 i 200 minuts es del 34%:

P(180 < X < 200) = 0.5− 0.1587 = 0.3413

2 Dels 150 concerts, s’espera que 0.3413 · 150 = 51.195 ≈ 51 entre 180i 200 minuts (Bin(150; 0.3413)).

x=rnorm(150, 200, 20)

hist(x, col="blue", main="Rock", prob=T)

y=seq(120, 260, 0.01)

lines(y, dnorm(y, 200, 20), col="red")

3 La probabilitat de no poder gravar el concert complet en la cinta de245 minuts la calculem com,

P(X > 245) = pnorm(2.25, lower .tail = F ) = 0.0122

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 31 / 56

Page 32: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Salaris (en escala original)

Figure : histogram de salarisAlbert Satorra ( UPF ) AD/E-GRAU Tardor 2014 32 / 56

Page 33: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Transformada log dels salaris

Figure : la transformada logaritmica dels salarisAlbert Satorra ( UPF ) AD/E-GRAU Tardor 2014 33 / 56

Page 34: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

DistribucioLog-Normal

Direm que una variable aleatoria X segueix una distribucio Log-Normal sila variable Y = ln(X ) ∼ N(µ, σ2). Tenim,

E [X ] = eµ+12σ2

var [X ] =(

eσ2 − 1

)e2µ+σ

2

Moda = eµ−σ2

Mediana = eµ

Exemple

Sigui X una variable aleatoria Log-Normal t.q ln(X ) ∼ N(2, 12).Determina P(X > 10).

P(X > 10) = P(ln(X ) > ln(10)) = P

(ln(X )− 2

1>

ln(10)− 2

1

)=

= φ(−0.3026) = pnorm(−0.3026) = 0.3810974

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 34 / 56

Page 35: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

La renda del pais X segueix una distribucio log–normal amb E [ln(X )] = 6y var [ln(X )] = 2. Aleshores, quina es la probabilitat que un individu triat al’atzar tingui una renda superior a 3000 euros?

P(X > 3000) = P(ln(X ) > ln(300)) = P

(ln(X )− 6√

2>

ln(3000)− 6√2

)=

= φ(−1.419) = pnorm(−1.419) = 0.07794951

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 35 / 56

Page 36: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucions relacionades amb la Normal: χ2

Siguin Z1,Z2, . . .Zk v.a. independents ∼ N(0, 1). Aleshores,

Y = (Z1)2 + (Z2)2 + . . . (Zk)2

segueix distribucio chi-quadrat amb k graus llibertat, Y ∼ χ2k . Es dona en

la distribucio de l’estadıstic χ2 (Estadıstica)L’esperanca i la variancia d’una distribucio χ2

k son,

E [Y ] = k var [Y ] = 2 k

Fet rellevant: Y1 ∼ χ2k1

, Y2 ∼ χ2k2

i Y1, Y2 son independents:

Y1 + Y2 ∼ χ2k1+k2

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 36 / 56

Page 37: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

Tirem una moneda a l’aire 1000 vegades. Obtenim

Observades

C 553X 447

Hi ha evidencia de que la moneda esta trucada?

Calculem l’estadıstic χ2,

T =k∑

i=1

(Oi − Ei )2

Ei∼ χ2

k−1

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 37 / 56

Page 38: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

En aquest cas k = 2 i doncs χ21...

Oi Ei Oi − Ei (Oi − Ei )2/Ei

C 553 500 53 5.618X 447 500 −53 5.618

L’estadıstic T = 11.236.Podem interpretar aquesta magnitud com una distancia entre el modelteoric (la moneda esta equilibrada) i l’observat: es elevada?

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 38 / 56

Page 39: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Es extrem el valor observat de 11.236?Per saber si la distancia es gran o petita, simulem la distribucio χ2

1:

> round(rchisq(1000, 1),2)

[1] 0.01 0.01 0.63 2.14 0.90 0.17 0.02 0.65 3.00 5.34 0.58

[12] 0.02 0.03 0.50 0.81 0.32 0.40 0.03 3.18 2.22 1.50 0.24

[23] 1.04 0.43 0.18 2.65 0.51 0.26 4.06 1.05 0.16 2.90 0.05

[34] 0.48 1.55 3.93 0.06 0.01 0.02 0.02 0.31 0.09 1.84 0.73

[45] 0.59 0.05 0.27 0.17 0.25 0.00 1.48 0.55 0.28 0.13 0.27

[56] 0.89 3.37 0.01 0.86 0.96 0.01 0.38 0.05 0.03 0.05 1.08

[67] 3.20 0.32 1.14 0.01 0.39 3.76 1.37 2.06 0.31 0.65 0.25

[78] 5.56 1.50 2.44 0.25 0.15 0.04 0.28 0.19 0.42 0.11 0.30

[89] 0.90 0.18 0.39 0.79 0.29 0.00 0.64 1.53 0.60 0.57 0.45

[100] 0.39 0.23 0.24 1.17 1.15 0.08 0.01 0.75 0.00 1.40 2.65

[111] 4.03 0.36 1.38 0.14 0.29 0.01 0.37 0.30 0.31 4.09 1.97

[122] 1.20 0.02 0.03 8.88 4.47 0.16 1.81 2.03 0.28 0.69 1.43

[133] 0.08 0.04 2.09 8.23 0.64 0.11 0.03 1.81 2.39 4.28 0.67

[144] 1.31 0.00 3.51 1.27 1.26 2.93 3.76 0.05 1.44 0.21 0.03

> max(rchisq(1000, 1))

[1] 10.70115

> max(rchisq(10000, 1))

[1] 15.47877

> sum(rchisq(100000, 1)> 11.237)/100000

[1] 0.00088

> 1-pchisq(11.236, 1)

[1] 0.0008022587

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 39 / 56

Page 40: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Contrast chi-quadrat: Hi ha biaix a sample ? (biaix en undau?)

n = 100

O=table(sample(1:6,n, replace=TRUE))

E=n*rep(1/6,6)

T=sum(((O-E)^2)/E)

signific = 1-pchisq(T, 5)

> O

1 2 3 4 5 6

14 16 9 25 18 18

> E

[1] 16.66667 16.66667 16.66667 16.66667 16.66667 16.66667

> T

[1] 8.36

> signific

[1] 0.1374797

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 40 / 56

Page 41: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio t-Student

“The derivation of the t-distribution was first published in 1908 by WilliamSealy Gosset, while he worked at a Guinness Brewery in Dublin. Due toproprietary issues, the paper was written under the pseudonym Student.The t-test and the associated theory became well-known through the workof R.A. Fisher, who called the distribution ”Student’s distribution”.”WikipediaSorgeix en l’estimacio de la mitjana poblacional quan desconeixem lavariancia. La t de Student de r graus de llibertat es:

tr =Z√χ2r /r

on Z ∼ N(0, 1).

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 41 / 56

Page 42: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio t-Student comparada amb la Normal

Figure : Distribucio t - Student

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

X

pdf

t1t5t100Norm

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 42 / 56

Page 43: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio t-Student

> rt(10,4)

[1] 1.3499174 -0.7918188 1.7990769 1.0624056 0.2052549 1.3976543 -0.1952794 -1.1263405

[9] 2.0617611 0.6975450

Valor esperat: E (tr ) = 0 per r > 1 (per r = 1 no existeix)

Varianciat: V (tr ) = rr−2 per r > 2 (per r = 1, 2 infinita)

CA : 0 per r > 3 (per r = 1, 2, 3 no existeix)

Excess de kurtosis= CAp -3: 6r−4 per r > 4.

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 43 / 56

Page 44: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Comparacio de distribucions

Figure : Normal, ts, Cauchy

0.0

0.1

0.2

0.3

0.4

Normal, t's (df=2, and df=20) and Cauchy

densitat

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 44 / 56

Page 45: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio F

Tenim

F(d1,d2) =χ2d1/d1

χ2d2/d2

on les dues chi-squadrats es consdieren son independents. Els valors d1 id2 s’anomenen graus de llibertat del numerador i denominadorrespectivament.

> pf(2.4,3,24)

[1] 0.907244

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 45 / 56

Page 46: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Distribucio F

Figure : Distribucio F

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 46 / 56

Page 47: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Taula de distribucions

Figure : Taula de distribucions de probabilitat

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 47 / 56

Page 48: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Transformacions de v.a.

Sigui X una v.a. i Y = g(X ) amb g funcio 1-a-1 i diferenciable (d’uninterval obert I a un altre interval obert J)Aleshores,

fY (y) = fX (g−1(y))1

|g ′(g−1(y)))|, y ∈ J

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 48 / 56

Page 49: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

. . . mes simple

Suposeu, per exemple, la v.a. X amb funcio de densitat uniforme a [0, 10].Considerem la ransformada Y = X 2. Quina es la distribucio de Y ?; es adir, quina es la seva funcio de densitat de probabilitat fY (y)?. ConeixemfX (x) que en el nostre cas es fX (x) = 1/10, x ∈ [0, 1]; fX (x) = 0 forade [0, 1]. Considereu la igualtat de masses de probabilitat seguent:

fX (x)dx = fY (y)dy

que implica

fY (y)dy = fX (x)dx

dy= fX (x)

1

y ′

De manera que, en el nostre problema,

fY (y) =1

10× 1

2x=

1

10× 2×√y=

1

20√

y, y ∈ [0, 100]

fY (y) = 0 fora de [0, 100]

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 49 / 56

Page 50: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple

Exemple

Sigui X una v.a. amb funcio de densitat fX (x) = c · (1 + x2) si 0 < x < 1i 0 altrament.a.- Determineu el valor de la constant c.b.- Sabent que X es mes gran que 1

3 , determineu la probabilitat que siguiinferior a 2

3 .c.- Quina es la funcio de densitat de la variable aleatoria Y = X 2 + 3?

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 50 / 56

Page 51: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Suposem X amb fX (x) = 3x2, x ∈ [0, 1]. Considerem la transformada(no-lineal) Y = X 2. Determineu la funcio de densitat de la nova variableY . Com que tenim una transformacio g(x) = x2 monotona (bijectiva)g : [0, 1]→ [0, 1]:

fY (y)dy = fX (x)dx ⇒ fY (y) = fX (x) | 1

y ′|

⇒ fY (y) = 3x2 1

2x=

3

2x =

3

2

√y

En general, si Y = g(X ), X = g−1(Y ), amb g(.) bijectiva i continuamentdiferentiable2,

fY (y) = fX (x)× 1

|g ′(x)|= fX (g−1(y))

1

|g ′(g−1(y))|, y ∈ B

D’aquı s’en despren el metode de Monte Carlo per generar observacionsd’una distribucio qualsevol.

2C1 a un interval obert A en un altre interval obert BAlbert Satorra ( UPF ) AD/E-GRAU Tardor 2014 51 / 56

Page 52: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Metode de Monte Carlo

Si X es v.a. continua amb funcio de distribucio F (x), aleshores

U = F (X ) ∼ U[0, 1]

uniforme a [0, 1]. De manera que F−1(U) ∼ fX . 3

Si volem simular observacions de X , cal nomes simular X = F−1(U), on Ute distribucio uniforme a [0, 1].

3F (.) es diferentiable amb derivada f (.), de manera que

fU(u) = fX (x)1

|F ′(x)| = fX (x)1

|fX (x)| = 1, u ∈ [0, 1]

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 52 / 56

Page 53: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Metode de Monte Carlo: exemple

Obtenir 1000 observacions aleatories de X ∼ f (x) = 2x , x ∈ [0, 1]. Comque F (x) = x2, F−1(u) =

√x , de manera que X ∼

√U on U ∼ U(0, 1).

En R:

> U= runif(10)

> U

[1] 0.53739263 0.68816987 0.88647438 0.53192244 0.71055824 0.05436115 0.90868059 0.14912553

[9] 0.64718433 0.75310826

> X = sqrt(U)

> X

[1] 0.7330707 0.8295600 0.9415277 0.7293301 0.8429462 0.2331548 0.9532474 0.3861677 0.8044777

[10] 0.8678181

son 10 observacions aleatories de X. Si simulem mes observacions, podemfer un histograma

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 53 / 56

Page 54: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Histograme de les dades simulades

histogram of n=100000 replications of X: sqrt(runif(n))

X

Density

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

Figure : simulacio n = 10000 ) observacions de X ∼ f (x) = 2x , x ∈ [0, 1]

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 54 / 56

Page 55: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Exemple de Metode de Monte Carlo.

Exemple 2: Volem bservacions aleatories de la variable X ∼ f (x) = 3x2.Tenim que U = F (x) = x3, per tant cal simplement transformar X = U1/3

les observacions U d’una distribucio uniforme. La simulacio de 10observacions de X es:

> u=runif(10)

> x=u^(1/3)

> x

[1] 0.2058851 0.7937641 0.9666047 0.7647873 0.7218360 0.5965476 0.9699959

0.4529079 0.6111965

[10] 0.9792118

>

El histograme de la simulacio de n = 10000 observacions de X es el de lafigura seguent

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 55 / 56

Page 56: Unitat de Coordinació Acadèmica d'Economia i Empresa (UPF) - …84.89.132.1/~satorra/P/P2014L6.pdf · 2014. 11. 21. · -La distribuci o exponencial es adequada per a modelar el

Histograme de les dades simulades

Histogram of y

y

Density

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

Figure : Histograma (simulacio n = 10000 ) i funcio de densitat deX ∼ f (x) = 3x2

Albert Satorra ( UPF ) AD/E-GRAU Tardor 2014 56 / 56