41
Universidad de El Salvador Facultad de Ciencias Naturales y Matemática Escuela de Matemática Proyecto # 2 de Estadística II: Simulaciones en R Docente: Msc. Rolando Lemus Integrantes: Gómez Juárez, César Omar GJ12001 Sola Gutiérrez, Vitelio Alexander SG12031

Simulación en R

Embed Size (px)

DESCRIPTION

Simulaciones en el programa R que incluyen lanzamiento de dados entre otros.

Citation preview

Page 1: Simulación en R

Universidad de El Salvador

Facultad de Ciencias Naturales y Matemática

Escuela de Matemática

Proyecto # 2 de Estadística II: Simulaciones en R

Docente: Msc. Rolando Lemus

Integrantes:

Gómez Juárez, César Omar GJ12001

Sola Gutiérrez, Vitelio Alexander SG12031

Page 2: Simulación en R

CASO 1Considere la población de lanzamientos de un dado que se genera la lanzar un número infinitamente grande de veces. Graficar la distribución de probabilidad de esta población.

Page 3: Simulación en R

> table(t)

t

1 2 3 4 5 6

1619 1655 1706 1627 1668 1725

> table(t)/sum(table(t))

t

1 2 3 4 5 6

0.1619 0.1655 0.1706 0.1627 0.1668 0.1725

1 2 3 4 5 6

0.00

0.05

0.10

0.15

Page 4: Simulación en R

Obtenga una muestra de n=5 observaciones de esta población, simulando el lanzamiento de un dado 5 veces y registre las 5 observaciones. En seguida, calcule la suma y la media de las 5 observaciones.

> s<-sample(1:6,5,rep=T);s

[1] 5 1 6 1 1

> mean(s)

[1] 2.8

> sum(s)

[1] 14

Page 5: Simulación en R

Para propósitos experimentales, repita el procedimiento de muestreo 100 veces. Luego, construya el histograma de frecuencias de la suma y media para las 100 muestras y observe la distribución resultante y coméntela.

Page 6: Simulación en R

Histogram of sumatorias

sumatorias

Frequency

10 15 20 25

05

10

15

20

Se observa que en los extremos del histograma se acumula poca frecuencia; mientras que en el centro se acumula una frecuencia mayor, podríamos decir que existe una aproximación a la curva normal, aunque no es muy notable ya que las muestras que se han tomado constan, únicamente de 5 observaciones.

Page 7: Simulación en R

Histogram of medias

medias

Frequency

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

05

10

15

20

25

30

¿Qué sucede si repite el experimento que se describió con una muestra de mayor tamaño, digamos n=10?

Se observa, con respecto al gráfico anterior una mejor aproximación a la curva normal, es decir puesto que cada muestra que se ha tomado consta de 10 observaciones, la distribución tienen una aproximación más cercana a la normal.

Page 8: Simulación en R

En este experimento se ilustra la idea básica contenida en el teorema del límite central (TLC). Enúncielo para el caso de la suma y la media respectivamente.

Page 9: Simulación en R

Histogram of medias

medias

Frequency

2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

05

10

15

20

25

30

Histogram of sumatorias

sumatorias

Frequency

20 25 30 35 40 45 50 55

05

10

15

20

25

30

Page 10: Simulación en R

CASO 2Suponga que cada Xi está distribuida uniformemente sobre [0,1]. Encuentre la media y desviación estándar correspondientes.

Page 11: Simulación en R
Page 12: Simulación en R

Luego defina Z según el TLC. Para n = 50, genere 500 simulaciones de S50 en el computador y grafique el histograma de área total 1 y ajuste la función de densidad normal sobre él.

z=Sn−nμ

σ √n=

s50−50μ

σ √5050 distribuciones uniformes

Page 13: Simulación en R

500 simulaciones de S50

> mean(X)

[1] 0.4981792

> sd(X)

[1] 0.2868496

> medianorm<-(mean(X)*50);medianorm

[1] 24.90896

> varianzanorm<-(sd(X)*sqrt(50));varianzanorm

[1] 2.028333

Page 14: Simulación en R

Histogram of S50

S50

Density

20 22 24 26 28 30 32

0.00

0.05

0.10

0.15

0.20

Page 15: Simulación en R

CASO 3Sean T1 , … , Tn variables aleatorias independientes idénticamente distribuidas exponencialmente con parámetro . Entonces Sn = T1 + …+ Tn tiene distribución gamma. Luego el TLC reclama que Sn , una vez estandarizado, tiene una densidad que es aproximadamente N(0,1) para n grande. Para valores diferentes de n (2, 4, 8, 16, 32), fijo muestre la densidad de Z con la densidad de N(0,1) superpuesta, cuando el experimento se repite en cada caso.Sugerencia: utilice el software R para las muestras, cálculos y gráficos del experimento.

Page 16: Simulación en R
Page 17: Simulación en R

Histogram of u

u

Density

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Page 18: Simulación en R

Para n=4

Page 19: Simulación en R
Page 20: Simulación en R

Histogram of S4

S4

Density

0 2 4 6

0.0

0.1

0.2

0.3

0.4

Page 21: Simulación en R

Para n=8

Page 22: Simulación en R
Page 23: Simulación en R

Histogram of S8

S8

Density

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

0.25

Page 24: Simulación en R

Para n=16

Page 25: Simulación en R
Page 26: Simulación en R

Histogram of S16

S16

Density

5 10 15

0.00

0.05

0.10

0.15

0.20

Page 27: Simulación en R

Para n=32

Page 28: Simulación en R
Page 29: Simulación en R

Histogram of S32

S32

Density

10 15 20 25

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Page 30: Simulación en R

CASO 4Presentar n ensayos de Bernoulli con probabilidad p de éxito. La fracción de las veces que resulta éxito es

X=1n

( X 1+…+Xn )=Sn

n

Donde Xi es 1 ó 0 con probabilidad p, q respectivamente. Puesto que μ=E ( X i )=p .

P(|X−p|≥ ε )❑→

0

Cuando n →∞ para cada ε>0 fijado.

a) Probar que la ley de los grandes números lleva a la interpretación frecuencial de probabilidad.

La varianza de la variable aleatoria binomial X ~ Bin(n,p) está dada por V(X)=np(1-p). Usando la desigualdad de Chebyshev,

P {|X−np|<nε }=1−P {|X−np|≥ nε }≥1− 1(nε )2

V ( X ) ≥1−p(1−p)

n ε2

Como p(1−p)≤14

, entonces

P {|Xn

−p|<ε}≥1− 1

4nε2

Así si n→∞ entonces1− 1

4nε2→1 , paraunϵ>0 fijo , así pues P {|X

n−p|<ε}=1, y por complemento:

P {|Xn

−p|>ε}=0

Page 31: Simulación en R

b) Simule el lanzamiento de una moneda 50 veces, y observar el número de caras que aparecen. Fije un valor ε>0, verifique la ley de los grandes número para la fracción de veces que aparece éxito; vaya incrementando el tamaño de la muestra.

> moneda <- c("C", "+"); moneda

[1] "C" "+"

> lanzamientos <- sample(moneda, 50, replace=TRUE); lanzamientos

[1] "C" "+" "C" "C" "+" "C" "C" "C" "+" "C" "+" "C" "C" "C"

[15] "C" "+" "C" "C" "+" "+" "C" "+" "C" "C" "C" "C" "+" "C"

[29] "+" "+" "C" "C" "+" "C" "C" "C" "C" "+" "C" "+" "+" "+"

[43] "+" "C" "C" "+" "C" "C" "C" "C"

> table(lanzamientos)

lanzamientos

+ C

18 32

> epsilon<-0.025;epsilon

[1] 1e-10

> x<-rbinom(50,1,prob=26/50);x

[1] 1 0 1 1 0 1 0 0 0 0 1 1 1 0 1 0 0 0 0 0 1 1 1 1 0 0 0 1 0

[30] 0 0 1 0 1 1 0 1 0 0 0 0 1 1 1 1 0 0 1 1 1

Page 32: Simulación en R

> m<-mean(x);m

[1] 0.48

> p<-26/50

> abs(p-m)

[1] 0.04

Incremento la muestra n=100

zamientos <- sample(moneda,100, replace=TRUE); lanzamientos

[1] "+" "+" "C" "C" "C" "C" "+" "+" "C" "+" "C" "C" "+" "C" "+" "C" "C" "+"

[19] "+" "C" "C" "C" "C" "+" "C" "C" "C" "+" "+" "C" "C" "C" "C" "C" "+" "+"

[37] "+" "C" "+" "C" "+" "C" "+" "+" "+" "C" "+" "+" "C" "C" "C" "C" "C" "C"

[55] "+" "C" "C" "+" "+" "+" "C" "C" "+" "C" "C" "+" "C" "C" "C" "C" "C" "C"

[73] "C" "+" "C" "+" "+" "+" "C" "C" "C" "C" "C" "+" "+" "+" "C" "+" "+" "C"

[91] "+" "+" "C" "+" "+" "+" "C" "+" "C" "C"

> table(lanzamientos)

lanzamientos

+ C

43 57

> p<-48/100

> x<-rbinom(100,1,prob=48/100);x

Page 33: Simulación en R

[1] 0 0 1 1 1 0 1 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1 0 0 1

[38] 1 0 0 1 0 1 0 0 1 1 0 0 1 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1

[75] 1 1 1 0 1 0 0 1 0 1 0 1 0 0 1 1 1 0 1 1 0 1 1 1 1 1

> m<-mean(x);m

[1] 0.52

> abs(p-m)

[1] 0.04

Incrementando la muestra a n=1000

Page 34: Simulación en R

> table(lanzamientos)

lanzamientos

+ C

496 504

> m<-mean(x);m

Page 35: Simulación en R

[1] 0.536

> abs(p-m)

[1] 0.021