Download doc - GENERADOR DE VARIABLES ALEATORIAS … · Web view.pdf sobre aplicación de números aleatorios en Criptografía y Seguridad en Computadoras 146.83.41.79/profesor/jmbm/io2/ApunSimu3.doc

Universidad de Mendoza Ing. Jesús Rubén Azor Montoya

GENERADOR DE VARIABLES ALEATORIAS UNFORMES

http://www.math.keio.ac.jp/~matumoto/MT2002/emt19937ar.htmlhttp://www.fourmilab.ch/hotbits/http://www.random.org/http://www.quantum.univie.ac.at/research/rng/http://ebook.stat.ucla.edu/calculators/cdf/poisson/poissonrand.phtmlhttp://ebook.stat.ucla.edu/calculators/cdf/normal/normalrand.phtmlPermite recibir por e-mail un conjunto de datos distribuidos según Normal o Poissonhttp://www.winguides.com/security/password.phpGenerador de Passwords basados en aleatoriedad.http://www.csse.monash.edu.au/community/postmodern.htmlGenerador de textos aleatorioshttp://worldwidemart.com/scripts/rand_link.shtmlSitio de links generales sobre aleatoriedadhttp://nhse.npac.syr.edu/random/Librería de Generadores de Números Aleatorios.(en Castellano)http://www.sc.ehu.es/sbweb/fisica/cursoJava/fundamentos/clases1/azar.htmhttp://webs.ono.com/usr005/jsuarez/aleat1.htmGeneralidades sobre números aleatorios (en Castellano)http://teorica.fis.ucm.es/programas/MonteCarlo.pdf Simulación de Distribuciones de Poisson. Simulación de Distribuciones Generales El método de Montecarlo. (Acrobat Reader, en Castellano)

Propiedades deseadas

En simulación estocástica las variables aleatorias con distribución uniforme en el intervalo [0,1] son empleadas de muchas maneras:

En forma directa. Para generar distribuciones discretas o continuas. Para generar conjuntos de variables aleatorias dependientes (procesos estocásticos y/o

distribuciones multivariadas).

Debe quedar bien en claro que en la mayoría de las veces, la performance de una simulación estará fuertemente correlacionada con el generador de uniformes usado. De ahí la importancia del mismo.

Un generador "razonable" que entrega una secuencia de variables aleatorias con distibución uniforme, debe satisfacer las dos siguientes propiedades:

1) "repetibilidad" y "portabilidad"2) "velocidad computacional"

Por "repetibilidad" se entiende que, dados los mismos parámetros que lo definen, el generador produzca la misma secuencia siempre que así se deseara."Portabilidad" significa que, sobre las mismas condiciones de definición, una secuencia sea la "misma", independientemente del modo computacional usado para implementar el

Cátedra Estadística II

http://webs.ono.com/usr005/jsuarez/aleat1.htm

http://www.sc.ehu.es/sbweb/fisica/cursoJava/fundamentos/clases1/azar.htm

http://nhse.npac.syr.edu/random/

http://worldwidemart.com/scripts/rand_link.shtml

http://www.csse.monash.edu.au/community/postmodern.html

http://www.winguides.com/security/password.php

http://ebook.stat.ucla.edu/calculators/cdf/normal/normalrand.phtml

http://ebook.stat.ucla.edu/calculators/cdf/poisson/poissonrand.phtml

http://www.quantum.univie.ac.at/research/rng/

http://www.random.org/

http://www.fourmilab.ch/hotbits/

http://www.math.keio.ac.jp/~matumoto/MT2002/emt19937ar.html


algoritmo de generación, o del computador usado.En cuanto a la "velocidad computacional" la misma está estrechamente ligada a la

precisión deseada en los resultados finales de simulación en la que es usado el computador. Cuanto más rápido sea un generador, más resultados serán obtenidos en el mismo tiempo de uso del computador. Esto, en principio hará que la precisión pueda ser incrementada.

Algoritmo Congruencial Lineal

www.inf.utfsm.cl/~hallende/download/04_Numeros_Aletorios.ppt Power Point sobre generación de números aleatorios con sus propiedades correspondientes.http://www-gris.det.uvigo.es/~rebeca/lsim/simulacion/node11.htmlPágina sobre Generadores congruenciales lineales de números pseudoaleatorios incluyendo multiplicativos y mixtos.w3.mor.itesm.mx/~jtorres/Tesistas/tesishipergrafosat.pdf Tesis en .pdf sobre números aleatorios.www.dragones.org/Biblioteca/Articulos/Criptografia.pdf .pdf sobre aplicación de números aleatorios en Criptografía y Seguridad en Computadoras146.83.41.79/profesor/jmbm/io2/ApunSimu3.doc Algoritmo para generar números aleatorios por el Método congruencial mixto

La estructura básica de un algoritmo congruencial lineal es la siguiente:

yi+1 = ( a * yi + c) mod M para todo i >= 0

donde a, c e y0 son enteros del conjunto {0,...,M-1}En la terminología usual, a es el multiplicador, c el incremento y M el módulo.

Si c=0 el generador se llama multiplicativo.Para valores de los parámetros M = 2 ^ 31 - 1 y a = 950706376 se presenta uno de

los casos de los llamados "generadores multiplicativos óptimos".

a 950706376 M 231 1y0 123546 semilla (seed)

n 1000 longitud de la secuencia a obteneri 0 n índice

yi 1 mod a yi M algoritmo

k 0 n 1 índice auxiliar

uky k 1( )

M

el vector y obtenido queda "normalizado" con esta operación (elementos con valores comprendidos entre 0 y 1)

Prueba de "calidad"


http://www.dragones.org/Biblioteca/Articulos/Criptografia.pdf

http://www-gris.det.uvigo.es/~rebeca/lsim/simulacion/node11.html


La más sencilla consiste en observar el histograma de la secuencia obtenida:

n1 8 número de intervalosk 0 n1 índice para generar n intervalos

interk min u( )max u( ) min u( )

n1k vector de intervalos

h hist inter u( ) vector que cuenta las frecuencias en cada intervalok1 0 n1 1 índice auxiliar

La media poblacional de una distribución uniforme en el intervalo [0,1] es 0.5, para esta muestra de n valores, la media da:

mu mean u( ) mu 0.502 media de la muestra

La varianza poblacional para la misma distribución es 1/12 = 0.083, la muestral da:

sigma var u( ) sigma 0.083 varianza muestral

l length u( ) Longitud del vector i 0 l 1V_ord sort u( ) Vector ordenado

Con esto es posible calcular la mediana del conjunto de valores:

Med if floorl2

l2

V_ordfloor

l2

1V_ord

floorl2

2 V_ord

floorl2

Med 0.507 mediana resultante



Para calcular el número de valores distintos de la mediana, se recurre a:

Vauxi if ui Med 0 1 Vaux 1 103

valores distintos de 0.25

k 0 Vaux 1 Indice auxiliar

Para calcular los valores por encima y por debajo de la mediana se procede del siguiente modo:

Vauxi if ui Med 1 0 n1 Vaux

Vauxi if ui Med 1 0 n2 Vaux

n1 500 valores por encima de Medn2 500 valores por debajo de Med

A continuación se "absorben" los valores iguales a la mediana con el inmediato anterior, lo que no genera modificación en el número de corridas;

V1i if ui Med ui 1 ui

Posteriormente se resta a cada valor la mediana, con lo que quedan en el vector resultante dos tipos de valores: lo que están por encima de ella (positivos) y lo que están por debajo (negativos):

V1 V1 Med( )

Finalmente se procede a la cuenta de corridas:i 0 length u( ) 2 índice auxiliar

C0 1 Número inicial de corridasCi 1 if V1i V1i 1 Ci 1 Ci

El último elemento de C contiene el número de corridas

corr Clength u( ) 1

_u 2 n1n2

n1 n2 1 _u 501 media

_u 2 n1 n22 n1 n2 n1 n2

n1 n2( )2 n1 n2 1( )

_u 15.803 desv. standard



zcorr _u

_u

Estadístico

Decisión:

1 cnorm z( ) 0.671

Por ser menor que el nivel de significación se rechaza la Ho, luego se acepta la alternativa, esto es el Arreglo no es aleatorio.

TEOREMA DEL LIMITE CENTRAL

http://www.stat.sc.edu/~west/javahtml/CLT.htmlApplet demostrativo del teorema a partir de lanzamiento de dados (en inglés) http://www.ideamas.cl/cursoProb/javaEstat/quincunx/quincunx.1.htmlhttp://seneca.fis.ucm.es/expint/html/fises/tlc/tlc.htmlApplets demostrativos del teorema (en castellano)http://www.terra.es/personal2/jpb00000/ttcentrallimite.htmExplicativo de la Ley de los grandes números y Teorema del Límite Central con experimentos.http://www.cema.edu.ar/~rdp/MetodosCuantitativos/Central.htmlDemostración y ejemplos de aplicaciónhttp://147.96.33.165/Cursos/Bioestadistica/Limite_Central.htmlmatheron.uv.es/docencia/bioest/practica4.pdfEjercicios y definiciones

Si xm es la media de una muestra aleatoria de tamaño n extraída de un población que tiene la media y la varianza finita 2, entonces:

z = (xm - ) / ( / n1/2)

es el valor de una variable aleatoria cuya función de distribución se aproxima a la de la distribución normal standard cuando n tiende a infinito.

Lo interesante de este teorema es su generalidad, ya que la población muestreada puede tener cualquier distribución.

A modo de ejemplo se considerará una muestra extraída de una población con distribución triangular:

f x( ) 2 x 2 función densidad (válida para 0 < x < 1)

La función acumulada es, por simple integración:

F x b( ) x2 2 x


http://147.96.33.165/Cursos/Bioestadistica/Limite_Central.html

http://www.cema.edu.ar/~rdp/MetodosCuantitativos/Central.html

http://www.terra.es/personal2/jpb00000/ttcentrallimite.htm

http://seneca.fis.ucm.es/expint/html/fises/tlc/tlc.html

http://www.ideamas.cl/cursoProb/javaEstat/quincunx/quincunx.1.html

http://www.stat.sc.edu/~west/javahtml/CLT.html


Si se despeja x de esta expresión y se hace tomar a F(x) valores uniformemente distribuidos entre 0 y 1, se obtiene una muestra con distribución de triangular. A modo de ejemplo:

n 1000 número de elementos de la muestra

i 0 n 1 índice

yi 1 1 rnd 1( )

n1 8 número de intervalos

k 0 n1 índice para generar n intervalos

interk min y( )max y( ) min y( )


h hist inter y( ) vector que cuenta las frecuencias en cada intervalo

k1 0 n1 1 índice auxiliar

Para poder apreciar la calidad de la distribución de valores, se contrastará el histograma generado a partir de estos valores con los que surgen del área bajo la función densidad entre los extremos de intervalo.

mu mean y( ) mu 0.33 media de la muestra

sigma stdev y( ) sigma 0.233 desviación standard

j 0n2

1 índice auxiliar

Zjy2 j y2 j 1

2 muestras de tamaño 2 a las que se le extrae la media



zjZj mu

sigma

2



interk min z( )max z( ) min z( )


h hist inter z( ) vector que cuenta las frecuencias en cada intervalo


Para verificar que el conjunto de valores determinados por el vector z tiene distribución normal standard, se elabora con él el histograma correspondiente y superpuesto a este último se dibuja la distribución normal standard correspondiente a los mismos intervalos.

f1 x( )1

2 exp

x2

2

función densidad de la distribución normal standard

Con lo observado en el gráfico se aprecia la exactitud del enunciado del teorema.También se puede verificar el concepto que "la media de la distribución de medias

es un estimador de la media poblacional" y "la varianza de la distribución de medias es un estimador de la varianza poblacional dividida por n, el tamaño de la muestra sobre la que se calculan las medias"



0

1xf x( ) x

d 0.333 media poblacional

mean Z( ) 0.33 media de la distribución de medias

0

1

xf x( ) x0

1xf x( ) x

d

2

d 0.056 varianza poblacional

var Z( ) 2 0.053 varianza de la distribución de medias

Otro ejemplo, se considerará una muestra extraída de una población con distribución parabólica:

f x( ) x2 función densidad ( válida para 0 < x < 3^(1/3) )

La función acumulada es, por simple integración:

F x b( )x3

3

Si se despeja x de esta expresión y se hace tomar a F(x) valores uniformemente distribuidos entre 0 y 1, se obtiene una muestra con distribución de parabólica. A modo de ejemplo:


i 0 n 1 índice

yi 3 rnd 1( )( )

13



interk min y( )max y( ) min y( )


h hist inter y( ) vector que cuenta las frecuencias en cada intervalo


Para poder apreciar la calidad de la distribución de valores, se contrastará el histograma generado a partir de estos valores con los que surgen del área bajo la función densidad entre los extremos de intervalo.



mu mean y( ) mu 1.074 media de la muestra

sigma stdev y( ) sigma 0.282 desviación standard

j 0n2

1 índice auxiliar

Zjy2 j y2 j 1

2 muestras de tamaño 2 a las que se le extrae la media

zjZj mu

sigma

2



interk min z( )max z( ) min z( )


h hist inter z( ) vector que cuenta las frecuencias en cada intervalo


Para verificar que el conjunto de valores determinados por el vector z tiene distribución normal standard, se elabora con él el histograma correspondiente y superpuesto a este último se dibuja la distribución normal standard correspondiente a los mismos intervalos.

f1 x( )1

2 exp

x2

2

función densidad de la distribución normal standard



Con lo observado en el gráfico se aprecia la exactitud del enunciado del teorema.También se puede verificar el concepto que "la media de la distribución de medias

es un estimador de la media poblacional" y "la varianza de la distribución de medias es un estimador de la varianza poblacional dividida por n, el tamaño de la muestra sobre la que se calculan las medias"

0

3

13

xf x( ) x

d 1.082media poblacional

mean Z( ) 1.074 media de la distribución de medias

0

3

13

xf x( ) x0

3

13

xf x( ) x

d

2

d 0.078

varianza poblacional

var Z( ) 2 0.08 varianza de la distribución de medias

EJEMPLO DE DISTRIBUCION DE VARIANZAS

Se va a estudiar una población normal standard (varianza = 1) a la que se le extraerán muestras de tamaño n, calculándose la varianza muestral de cada una de ellas y ejecutándose el correspondiente histograma.



j 0 11 índice auxiliar

n 5 tamaño de la muestra

k 0 n 1 índice auxiliar

i 0 999 cantidad de muestras

Bi k

j

rnd 1( ) 6 matríz de muestras

BT BT matríz de muestras traspuesta

bi var BT i n 1( ) vector de varianzas de cada muestra

n1 10 número de intervalos para el histograma

k1 0 n1 índice para n1 intervalos


Ik1 k1 vector de intervalos

h hist I b( ) histograma

nu n 1 grados de libertad

A continuación se representa el histograma comparado con la distribución chi-cuadrado esperada:

f x( )1

2

nu2

nu2

x

nu2

1 e

x2 Función densidad chi-cuadrado



PRUEBAS DE HIPOTESIS

En vez de estimar el valor de un parámetro, a veces se debe decidir si una afirmación relativa a un parámetro es verdadero o falso, vale decir probar una hipótesis relativa a dicho parámetro.

Ejemplo: Un fabricante dice que su pintura tiene un tiempo de secado promedio de 20 minutos, el potencial comprador pinta 36 tableros para verificar lo dicho por el vendedor y dice que si la media de tiempos de secado excede los 20.75 min no acepta la partida. Si por experiencia se sabe que = 2.4min, cuál es la probabilidad de rechazar la partida aún siendo la media de 20 min?

n 36 tamaño de la muestra

2.4 desviación standard de la población

n desviación standard de la distribución de medias

20.75 límite de aceptación

20 media indicada por el fabricante

z

z 1.875 variable normalizada

1 cnorm z( ) 0.03 probabilidad de rechazar la partida (t>20.75 min)

Supóngase ahora que la media real del tiempo de secado es = 21 min.Luego, la probabilidad de obtener una media muestral menor o igual que 20.75 min

(y por lo tanto equivocarse en la aceptación, está dada por:



para calcular esta probabilidad se procede del siguiente modo:

21 media supuesta

z

z 0.625 variable normalizada

cnorm z( ) 0.266 probabilidad de aceptar la partida (t < 20.75 min)

Resumiendo el proceso, se puede decir:

También al Error Tipo I se lo llama (coincide con el concepto de nivel de significancia) y al Error Tipo II se lo llama .

Obsérvese que siempre el Error tipo II esta asociado a un valor de (en este caso visto, 21), cosa que no ocurre para el Error Tipo I.

DETERMINACION DE ERROR TIPO II (cola derecha)

Problema: Se desea investigar la afirmación de que la intensidad de sonido de ciertas aspiradoras es una variable aleatoria que tiene una distribución normal de media 75.20 db, con un desviación standard de 3.6 db. Específicamente se quiere probar la hipótesis nula = 75.20 contra la hipótesis alterna > 75.20 en base a mediciones de la intensidad de sonido de n = 15 de tales máquinas. Si la probabilidad de cometer un error tipo I es de = 0.05, cuál es la probabilidad de cometer un error tipo II para = 77.0?




3.6 desviación standard de la población

mu 75.20 media que se quiere probar

z_a 1.65 z correspondiente al nivel de significacion (en este caso para = 0.05)

x_pru 77 media asociada al error tipo II

x mu z_a

n x 76.734 abscisa que deja hacia la derecha

un área de 0.05

z_bx x_pru

n

z_b 0.286

abscisa que deja hacia la izquierda

el área correspondiente a la probabilidad de Error Tipo II.

cnorm z_b( ) 0.387 Error Tipo II, asociado con x_pru

Verificación:

x 70 70.1 80 rango

f x( )1

2

n

exp12

x mu

n

2

f1 x( )1

2

n

exp12

x x_pru

n

2

70

76.734xf1 x( )

d 0.387 área



DETERMINACION DE ERROR TIPO II (cola izquierda)

Para el problema del tránsito:


0.8 desviación estándar de la población

mu 25 media que se quiere probar

2.33 z correspondiente al nivel de significacion (en este casopara = 0.01)

xpru 24 media asociada al error tipo II

x mu

n x 24.411 abscisa que deja hacia la izquierda

un área de 0.01

x xpru

n

1.623 abscisa que deja hacia la derecha el área correspondiente a la probabilidad de Error Tipo II.

1 cnorm 0.052 Error Tipo II, asociado con xpru.

DETERMINACION DE ERROR TIPO II (dos colas)

Para el problema de las pruebas mecánicas:

n 30 numero de elementos de la muestra

0.05 desviación estándar de la población

mu 2 media que se quiere probar

1.96 z correspondiente al nivel de significacion (en este caso



para = 0.05)xpru 2.01 media asociada al error tipo II

x1 mu

n

x1 1.982 abscisa que deja hacia la izquierda un área de 0.01

x2 mu

n

x2 2.018 abscisa que deja hacia la derecha un área de 0.01

x1 xpru

n

3.055 abscisa que deja hacia la izquierda un area:

A1 cnorm A1 1.124 10 3

x2 xpru

n

0.865 abscisa que deja hacia la izquierda un área:

A2 cnorm A2 0.806 cnorm 1.65( ) 0.951

El Error Tipo II es la diferencia entre estas dos áreas:

A2 A1 0.805

CURVAS CARACTERISTICAS DE OPERACION

Se pretende graficar el error tipo II en su forma más general para un nivel de significación = 0.05 y prueba de cola derecha:

del esquema se ve que: z = (x - 0) / / sqr(n))



y z = (x - ) / / sqr(n))

Restando miembro a miembro, y siendo z = 1.65, queda:

1.65 - z = [( - 0) /] * sqr (n)

Llamando d a una variable dada por:

d = ( - 0) /

resulta:

zd = 1.65 - d * sqr(n)

Finalmente, el error tipo II es:

d = cnorm ( z)

lo que da un juego de curvas, con parámetro n: n 1 5 9 d 0 0.01 3

d n( ) cnorm 1.65 d n

Para pruebas de cola izquierda, los gráficos son la "imagen del espejo" de los anteriores, con lo cual (para generalizar) se usa como abscisa el valor absoluto de d, sirviendo entonces el juego de curvas para amabas pruebas.

Para pruebas de dos colas:



Se puede verificar que el error tipo II, en este caso, sigue la siguiente función:

2 d n( ) cnorm 1.96 d n cnorm 1.96 d n

que bajo las condiciones de representación anterior (n con valores 1, 5 y 9) da:

CURVAS CARACTERISTICAS DE OPERACION

Se pretende graficar el error tipo II para el ejemplo de la pintura de secado rápido en función de (para un 0=20 y como límite de rechazo r = 20.75)

0 20 r 20.75 Datos del problema

..,19 19.25 22 Rango de variación de

n 36 n1 50 Análisis para dos tamaños muestrales

2.4 Desviación standard

El área bajo la normal (error tipo II) en función de y para un n determinado, está



dado por:

f( ) cnormr

n

Para un valor distinto de n, si se quiere mantener el mismo , se debe recalcular r:

1 cnormr 0

n

= 0.03

La abscisa normalizada correspondiente es 1.88, luego:

r 0 .1.88

n1=r 20.638

f1( ) cnormr

n1

Para el caso de una prueba de cola izquierda, supóngase que el valor limite sea =19.25:

..,18 18.01 20.5 Rango de variación de



f( ), n 1 cnorm19.25

2.4

n

ESTIMACION BAYESIANA

Hay métodos de inferencia que consideran a los parámetros como variables aleatorias. Aquí se valoran conceptos de probabilidad subjetiva.

Se presentará un método bayesiano para estimar la media de una población considerando a como una variable aleatoria, cuya distribución es subjetiva.

Para el analista, esta clase de Distribución A Priori, obtenida de manera subjetiva, tiene una media 0 y una desviación standard 0.

Como problema concreto, supóngase un problema de emisión de óxido de azufre de una planta industrial, donde el ingeniero jefe supone, por experiencia, que la emisión tiene las siguientes características (Distribución A Priori):

17.5 2.5 media y desviación standard

x 12 12.1 24 rango de variación de x (para graficar la distribución)

f x( )1

2 exp

x ( )2

2 2

función densidad de la distribución 'a priori'



18

19xf x( )

d 0.146487 Probabilidad que la emisión esté entre 18 y 19

gráficamente:

Si posteriormente se realiza la toma de 80 muestras y los resultados dan:

x' 18.85 5.55 media y desviación standard de las 80 muestras

n 80 número de muestras

Los parámetros de la distribución "a posteriori" serán (aquí se combinan creencias previas con evidencias muestrales directas):

n x' 2 2

n 2 2 18.771659

2 2

n 2 2 0.602236

f1 x( )1

2 exp

x ( )2

2 2

función densidad de la distribución 'a

posteriori'

18

19xf1 x( )

d 0.547674 Probabilidad que la emisión esté entre 18 y 19

gráficamente:



Si no se hubiese hecho el análisis bayesiano y se hubiera considerado la muestra "cruda", la probabilidad de emisión entre 18 y 19 sería:

x' 18.85

evidentemente menor que aplicando Bayes (0.55).

DISTRIBUCION DE LA DIFERENCIA DE DOS POBLACIONES

Se dice que 'si las distribuciones de dos variables aleatorias independientes tienen las medias1 y 2 y las varianzas 12 y 22 entonces la distribución de su suma (o



diferencia) tiene la media 1 + 2 (ó 1 + 2) y la varianza 12 + 22.Para demostrar esta aseveración se generan dos muestras de tamaño 1000

provenientes de poblaciones normales con medias y varianzas conocidas

i 0 999 índice para elementos de las muestras

k 0 11 índice para la generación

1 .5 media y desviación standard de la primera población

3 1 media y desviación standard de la segunda población

Ai

k

rnd 1( ) 6

Ai Ai

cálculo de los elementos de la primera muestra

Bi

k

rnd 1( ) 6

Bi Bi

cálculo de los elementos de la segunda muestra

Ci Ai Bi con esto se crea una tercera muestra (diferencia de la otras dos)

mean C( ) 1.975 cuya media coincide con la diferencia de medias

2 stdev C( ) 1.152

y cuya desviacion standard es

2

2

1.118

ESTIMACION DE PROPORCIONES

La información que suele disponerse al estimar una proporción es el número de veces x que un evento ocurre en n ensayos, ocasiones u observaciones. La estimación puntual suele ser x/n (proporción muestral).

Para construir un intervalo de confianza para p (parámetro poblacional) que tenga aproximadamente un nivel de confianza (1 - ) 100%, se debe proceder como en el siguiente caso:

Se desean hallar los intervalos con un nivel de confianza del 95%, aproximadamente, parap en muestras de tamaño n=20.

n 20 numero de experimentos



p .1 .2 .9 valores de probabilidad

probabilidad que el evento ocurra x veces:

b x n p( )n

x n x( )px 1 p( )n x

k 0 n columnas del arreglo

k1 0 8 filas del arreglo

A k k1( ) b k nk1 1( )

10

arreglo de probabilidades

i 0 n 1 índice

Ai 1 k1 Ai k1 Ai 1 k1 Matriz de sumas de probabilidades acumuladas

la matriz de elementos menores que puestos a 1, será

ak k1 if A k1 k 0.005 1 0

X0k1 a k1 1

valores de X0

X1k1 n X08 k1 valores de X1

j 0 8 Pjj 110

probabilidades expresadas como vector

Resumen:



P

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

X0

1

1

0

2

3

5

7

10

13

X1

7

10

13

15

17

18

20

21

21

Curvas correspondientes:

Para un valor dado de x, es posible obtener cuotas de p, con un nivel de confianza de aproximadamente el 95% (en el caso de este ejemplo) con sólo desplazarse horizontalmente de una curva a la otra y marcando los correspondientes valores de p.

Para x = 10:



Resulta 0.20 < p <0.80 con un 95 % de confianza.

HIPOTESIS RELATIVA A VARIAS PROPORCIONES

Ejemplo: Muestras de tres tipos de materiales sujetas a cambios extremos de temperatura producen los resultados que aparecen en la siguiente tabla:

utilizar el nivel de significación 0.05 para probar si, bajo las condiciones establecidas, la probabilidad de desmoronamiento es la misma en los tres tipos de materiales.

Observ41

79

27

53

22

78

Matriz de frecuencias observadas

n cols Observ( ) número de muestras

i 0 n 1 índice de columnas

j 0 rows Observ( ) 1 índice de filas

Suma_filasji

Observj i suma de filas de la matriz

Suma_colij

Observj i suma de columnas de la matriz



Gran_total Suma_filas gran total

p_estimadoSuma_filas0Gran_total

probabilidad estimada

Esper0 i Suma_coliSuma_filas0Gran_total

La matriz de valores esperados en celda será

Esper1 i Suma_coliGran_total Suma_filas0

Gran_total

Esper36

84

24

56

30

70

ji_cuadrado

j i

Observj i Esperj i 2

Esperj i estadístico

ji_cuadrado 4.575

nu cols Observ( ) 1 grados de libertad

x 0 .1 7 rango

f x( )1

2

nu2

nu2

x

nu2

1 e

x2 Función densidad chi-cuadrado

10

ji_cuadradoxf x( )

d 0.101 área a la derecha de ji_cuadrado

Por ser este valor superior al nivel de significación 0.05, ji_cuadrado se encuentra dentro de la zona de aceptación de H0, razón por la cual no se debe rechazar la Hipótesis Nula. Esto es, la probabilidad de desmoronamiento es significativamente igual en las tres muestras.



TRANSFORMACION DE CONJUNTO DE DATOS EXPONENCIAL A LINEAL

Un conjunto de parejas de datos que conste de n puntos (xi,yi) "se enderezan" cuando son graficados sobre ejes escalados adecuadamente. Por ejemplo, al ser representados sobre papel semilogarítmico un conjunto de datos que responden a una función exponencial, se puede observar que se agrupan formando una recta.Si la ecuación predictora está dada por:

y = * x

tomando logaritmos en ambos miembros, queda:

log ( y ) = log ( ) + x * log ( )

lo que implica una linealización si en lugar de considerar el conjunto de los valores de y, se considera el de los logaritmos de cada uno de los mismos.

Sean los vectores fila X e Y:

X ( )1 2 5 10 20 30 40 50Y ( )98.2 91.7 81.3 64 36.4 32.6 17.1 11.3

X TX convierte X a vector columna

Y1T

log( )Y convierte a Y en vector columna en la que los elementos son

los logarítmos de cada uno de ellos

n length( )X longitud del vectori ..0 n 1 índice

En base a esto, los gráficos de dispersión quedan:



exponencial linealizado

Para formar las ecuaciones normales (a los vectores X e Y1):

x1 2 y1 1 valores de intento

Given

.n x1 .

i

Xi y1

i

Y1i primera ecuación

.

i

Xi x1 .

i

Xi2 y1

i

.Xi Y1i segunda ecuación

z Find( ),x1 y1 =z2

0.019soluciones, coeficientes de la recta

Los valores encontrados son los coeficientes del ajuste lineal, para volver al conjunto original (de ley exponencial):

a 10z0 =a 99.941 coeficientes de la exponencial

b 10z1 =b 0.958

Vista la recta de ajuste:

x1 ..,0 0.2 55 y( )x1 z0.z1 x1 ecuación



Vista de la exponencial de ajuste:

y( )x1 .a bx1 ecuación

TRANSFORMACION DE CONJUNTO DE DATOS POTENCIAL A LINEAL

Si al ser representado el conjunto de datos sobre papel logarítmico toma la forma de recta, significa que los valores siguen una ley potencial.Si la ecuación predictora está dada por:

y = * x

tomando logaritmos en ambos miembros, queda:

log ( y ) = log ( ) + * log ( x) .

En este caso habrá que considerar tanto los logaritmos de los elementos de y como los de x.



Sean los vectores fila X e Y:

X ( )1 2 3 4 5 6 7Y ( )6.5 40 90 140 250 500 700

X1T

log( )X convierte X a vector columna en la que los elementos son

los logaritmos de cada uno de ellos

Y1T

log( )Y convierte a Y en vector columna en la que los elementos son

los logaritmos de cada uno de ellos

n length TX longitud del vector

i ..0 n 1 índiceEn base a esto, los gráficos de dispersión quedan:

exponencial linealizado

Para formar las ecuaciones normales (a los vectores X1 e Y1):

x1 2 y1 1 valores de intento

Given

.n x1 .

i

X1i y1

i

Y1i primera ecuación

.

i

X1i x1 .

i

X1i2 y1

i

.X1i Y1i segunda ecuación

z Find( ),x1 y1 =z0.829

2.338 soluciones, coeficientes de la recta



Los valores encontrados son los coeficientes del ajuste lineal, para volver al conjunto original (de ley potencial):

a 10z0 =a 6.743 coeficientes de la potencial

b z1 =b 2.338

Vista la recta de ajuste:

x1 ..,0 0.2 8 y( )x1 z0.z1 x1

Vista de la potencial de ajuste:

y x1( ) a x1b ecuación



INTERPOLACION LINEAL

Es posible encontrar un valor interpolado linealmente en x para dos vectores dados vx y vy. El formato Mathcad para la interpolación lineal es:

linterp(vx,vy,x) Donde:

vx es un vector de datos de elementos reales en orden ascendente. Estos corresponden a los valores de x. vy es un vector de datos de elementos reales en orden ascendente. Estos corresponden a los valores de y. El número de elementos es igual al de vx. x es el valor de la variable independiente en la cual se desea obtener el resultado interpolado. Para mejores resultados, este deberá a acompañar a los valores de vx.

A modo de ejemplo:

i 0 5 x 0 1 5 vxi i vyi rnd 1( )

linterp vx vy 1.5( ) 0.389 Caso particular x=1.5

f x( ) linterp vx vy x( ) Caso general, función.

Supóngase ahora el caso de un conjunto de 11 valores definidos como aleatorios, obtenidos por aplicación de la función RND (random) de Mathcad:

i 0 10 índice x 0 .01 10 rango de valores de x

vxi i vyi rnd i( ) conjunto de valores aleatorios



vs1 lspline vx vy( ) spline lineal

vs2 pspline vx vy( ) spline parabólico

vs3 cspline vx vy( ) spline cúbicof1 x( ) interp vs1 vx vy x( )f2 x( ) interp vs2 vx vy x( ) funciones interpoladasf3 x( ) interp vs3 vx vy x( )

CORRELACION

La expresión de la distribución normal bivariada tiene la siguiente forma:

f x y 1 1 1

2 1exp

x 1 2

2 1 2

1

2 exp

y x 2

2 2

o bien:

f x y 1 1 12 1

expy x

2

2 2

x 1 2

2 1 2

(1)

Se requieren cinco parámetros: 1,1, , y.

1 0 1 1 1 0 1



i 0 20 j 0 20 min 3 max 3

xi minmax min

20i yj min

max min20

j

Mi j f xi yj 1 1 matriz con los valores de la función con -3 < x <3 y -3 < y , 3

La expresión gráfica de la función densidad de una distribución normal bivariada con 1,1, , ydados,será:

Por razones de simetría, se acostumbra a expresar la densidad normal bivariada en función de1,1,2, yDondeyson la media y la desviación standard de la distribución marginal f2(x). es el coeficiente de correlación de la población, y se define como: 2 = 1 -222

es positivo cuando > 0 y negativo cuando< 0.Además:

2 = + 1 22 = 2 + 212

Sustituyendo lo anterior en la expresión (1) queda:



2 1 2 2

2

12 1

2

2 2

f x y( )1

2 1 2 1 2

exp

x 1

1

22

x 1

1

y 2

2

y 2

2

2

2 1 2

Los casos límite se dan cuando es igual a +1 ó -1 (para lo cual = 0 ) caso degenerado en el cual la probabilidad se concentra a lo largo de y = + x (relación perfecta entre x e y)

Cuando = 0 implica que también es nulo, luego la línea de regresión es horizontal y el conocimiento de x no ayuda en la predicción de y.

2 es la variación de las y cuando x se conoce2 es la variación de las y cuando x no se conoce2 - 2 es la variación de las y que se explica por la relación lineal.

Luego 2 indica que proporción de la variación de las y puede atribuirse a la relación lineal con x.

Ejemplo 1: Los datos siguientes corresponden al número de minutos x que tardan 10 mecánicos en ensamblar cierta pieza de una maquinaria en la mañana, e y representa el tiempo que ocupan en la tarde.

x 11.1 10.3 12 15.1 13.7 18.5 17.3 14.2 14.8 15.3( )y 10.9 14.2 13.8 21.5 13.2 21.1 16.4 19.3 17.4 19( )

n length xT i 0 n 1

Sxx n

i

xT i

2

i

xT i

2 Sxx 603.81

Syy n

i

yT i

2

i

yT i

2 Syy 1.156 103

Sxy n

i

xT i

yT

i

i

xT i

i

yT i

Sxy 611.26



rSxy

Sxx Syy r 0.732 coeficiente de correlación muestral

Esto implica que 100 * r2 = 53 % de la variación entre los tiempos de la tarde responden a diferencias correspondientes entre los tiempos de la mañana.

Ejemplo 2: En relación con el ejemplo anterior (donde n=10 y r = 0.732) probar la hipótesis nula que = 0 contra la alterna <> 0 con un nivel de significancia 0.05.

1) Hipótesis nula: = 0 Hipótesis alterna: <> 0

2) Nivel de significación = 0.05

3) Criterio: se rechaza Ho si z < -1.96 o si z > 1.96

4) Cálculos:

zn 32

ln1 r1 r

z 2.467 estadístico

Decisión: ya que 2.467 es mayor que 1.96, se rechaza Ho. Luego existe una relación entre el tiempo que se ocupa en la mañana y en la tarde.

Ejemplo 3: Si r = 0.70 para las calificaciones en física y matemática de 30 estudiantes, construir un intervalo de confianza con un nivel de confianza del 95% para el coeficiente de correlación de la población.

r 0.7 n 30 Z12

ln1 r1 r

Z 0.867 z_ 1.96

El intervalo de confianza para z será: Z ± z_/ sqr (n-3)

El intervalo de confianza para será:

ro_supe2 mu_sup 1

e2 mu_sup 1 ro_inf

e2 mu_inf 1

e2 mu_inf 1

ro_sup 0.847 ro_inf 0.454

La respuesta es: 0.454 < < 0.847



Ejemplo 4: Si r = 0.20 para una muestra aleatoria de n = 40 parejas de datos, construir un intervalo de confianza del 95 % para .

r 0.2 n 40 Z12

ln1 r1 r

Z 0.203

El intervalo de confianza para z será: Z ± z_ / sqr (n-3)

mu_sup Zz_a

n 3 mu_inf Z

z_a

n 3

El intervalo de confianza para será:

ro_supe2 mu_sup 1

e2 mu_sup 1 ro_inf

e2 mu_inf 1

e2 mu_inf 1

ro_sup 0.482 ro_inf 0.119

La respuesta es: -0.119 < < 0.482

En los dos últimos ejemplos los intervalos de confianza son grandes para . Esto ilustra el hecho de que los coeficientes de correlación basados en muestras relativamente chicas suelen ser poco confiables.

VARIANZA RESIDUAL

Dado el conjunto de datos:x .5 1.5 2.5 5.5 6.5 9.5 10.5 12.5 14.5 15.5( ) x xT

y 3 7 12.5 14.5 16 14.5 16 16 21 23( ) y yT

n length x( ) i 0 n 1

Para ajuste lineal:

a intercept x y( ) b slope x y( )

y_est x1( ) a b x1 función de la recta del mejor ajuste

y2i a b xi ordenadas estimadas

Con una interpolación cúbica se puede apreciar la "trayectoria" aproximada para todos los puntos



vs cspline x y( ) f x1( ) interp vs x y x1( )

x1 0 .2 16 Rango de variación

var_res0i

yi y2i 2n 2

var_res0 7.207 varianza residual para ajuste lineal---------------------------------------------------------------------------------------------------------

Para ajuste cuadrático:Aquí se plantea y resuelve el sistema de ecuaciones normales en forma matricial

A1

i

yi

i

yi xi

i

yi xi 2

A2

n

i

xi

i

xi 2

i

xi

i

xi 2

i

xi 3

i

xi 2

i

xi 3

i

xi 4

B A2 1 A1 B

5.399

1.5

0.033

coeficientes de la parábola de mejor ajuste



y2i B0 B1 xi B2 xi 2 ordenadas estimadas

var_res1i

yi y2i 2n 3

var_res1 7.58 varianza residual para ajuste cuadrático

y_est x1( ) B0 B1 x1 B2 x12 función de la parábola del mejor ajuste

Para ajuste cúbicoAquí se generaliza el proceso:

i1 0 n 7 j1 0 n 7 índices auxiliares

A1i1

i

yi xi i1 A2i1 j1

i

xi i1 j1

B A2 1 A1 B

0.497

5.793

0.714

0.028

coeficientes de la parábola cúbica de mejor ajuste

y2i

i1

Bi1 xi i1 ordenadas estimadas

var_resn 8i

yi y2i 2n 4

var_resn 8 1.021

varianza residual para ajuste cúbico



y_est x1( )

i1

Bi1 x1i1 función de la parábola cúbica del mejor ajuste

Para ajuste cuártico

i1 0 n 6 j1 0 n 6

A1i1

i

yi xi i1 A2i1 j1

i

xi i1 j1

B A2 1 A1 B

0.57

7.2

1.113

0.067

1.207 10 3

y2i

i1

Bi1 xi i1

var_resn 7i

yi y2i 2n 5

var_resn 7 0.992

Resumen:



Se ve que el salto mayor se produce entre el ajuste cuadrático y el cúbico, por lo tanto el mejor estimador lo constituye el ajuste cúbico.

PRUEBAS DE ALEATORIEDAD (Medianas)

Se puede utilizar la prueba de secuencias para probar la aleatoriedad de muestras que constan de datos numéricos, contando las secuencias por encima y por debajo de la mediana. A modo de ejemplo se propone el siguiente problema.

Un ingeniero está preocupado debido a que están realizando demasiadas modificaciones al ajustar un torno automático. Dados los siguientes diámetros medios (en pulgadas) de 40 ejes maquinados sucesivamente en el torno:

M

.261

.252

.248

.247

.258

.250

.252

.250

.249

.253

.254

.253

.251

.247

.250

.247

.247

.251

.247

.249

.256

.243

.253

.253

.250

.258

.251

.246

.247

.251

.246

.251

.255

.245

.249

.249

.243

.250

.252

.253

Emplear el nivel de significación 0.01 para probar la hipótesis nula de aleatoriedad contra la alterna de que existe un patrón que se repite con frecuencia.

1) Hipótesis Nula: El arreglo es aleatorio Hipótesis Alterna: No lo es. Existe un patrón de repetición.

2) Nivel de significación: 0.01

3) Se rechaza Ho si z > 2.33

4) Cálculos:

i 0 cols M( ) 1 j 0 rows M( ) 1 h 0 rows M( ) cols M( ) 1 Indices

Vh Mfloor

hcols M( )

mod h cols M( )( )

Esta expresión transforma la Matríz M en el vector V.



l length V( ) Longitud del vector

V_ord sort V( ) Vector ordenado

Con esto es posible calcular la mediana del conjunto de valores:

Med if floorl2

l2

V_ordfloor

l2

1V_ord

floorl2

2 V_ord

floorl2

Med 0.25 mediana resultante

Para calcular el número de valores distintos de la mediana, se recurre a:

Vauxh if Vh Med 0 1 Vaux 35 valores distintos de 0.25

k 0 Vaux 1 Indice auxiliar

Para calcular los valores por encima y por debajo de la mediana se procede del siguiente modo:

Vauxh if Vh Med 1 0 n1 Vaux

Vauxh if Vh Med 1 0 n2 Vaux

n1 19 valores por encima de Med

n2 16 valores por debajo de Med

A continuación se "absorben" los valores iguales a la mediana con el inmediato anterior, lo que no genera modificación en el número de corridas;

V1h if Vh Med Vh 1 Vh

Posteriormente se resta a cada valor la mediana, con lo que quedan en el vector resultante dos tipos de valores: lo que están por encima de ella (positivos) y lo que están por debajo (negativos):

V1 V1 Med( )

Finalmente se procede a la cuenta de corridas:



i 0 length V( ) 2 índice auxiliar

C0 1 Número inicial de corridas

Ci 1 if V1i V1i 1 Ci 1 Ci

El último elemento de C contiene el número de corridas

u Clength V( ) 1 u 27

_u 2 n1n2

n1 n2 1 _u 18.371 media

_u 2 n1 n22 n1 n2 n1 n2

n1 n2( )2 n1 n2 1( ) _u 2.892 desv. standard

zu _u

_u z 2.983 Estadístico

5) Decisión:

1 cnorm z( ) 1.425 10 3

Por ser menor que el nivel de significación se rechaza la Ho, luego se acepta la aternativa, esto es el Arreglo no es aleatorio.

REGRESION MULTIPLE

Dadas N tuplas de datos, la meta es encontrar un plano que mejor ajuste a los puntos de datos en el sentido de los mínimos cuadrados.

Se deben seguir los pasos que se detallan:

1. Ubicar una columna de datos (valores de y) en un vector b de N elementos.2. Ubicar las otras n-1 columnas en una matríz X de N columnas.3. La primera columna de X debe ser una columna de 1s.4. Los coeficientes del plano que mejor ajusta a los datos se encuentran en el

vector:

Ejemplo: Los datos siguientes provienen del número de torsiones necesarias para romper



una barra hecha con cierto tipo de aleación y los porcentajes de metales que la integran:

Ajustar un plano de regresión por mínimos cuadrados y estimar el número de torsiones para un 2.5% del elemento A y un 12% del elemento B.

b

38

40

85

59

40

60

68

53

31

35

42

59

18

34

29

42

x

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

3

4

1

2

3

4

1

2

3

4

1

2

3

4

5

5

5

5

10

10

10

10

15

15

15

15

20

20

20

20

vector y matríz datos

A xT x 1xT b A

48.187

7.825

1.755

vector de coeficientes:

La ecuación del plano estimador será, en este ejemplo:



y x1 x2( ) A0 A1 x1 A2 x2 y 2.5 12( ) 46.69

DISEÑOS COMPLETAMENTE ALEATORIOS

Problema: Suponer el siguiente esquema de mediciones de cuatro laboratorios de un parámetro determinado del que se quiere probar que las medias obtenidas por cada uno de ellos es significativamente igual (hipótesis nula). Construir una Tabla de análisis de varianza.

y

.25

.18

.19

.23

.27

.28

.25

.30

.22

.21

.27

.28

.30

.23

.24

.28

.27

.25

.18

.24

.28

.20

.26

.34

.32

.27

.28

.20

.24

.19

.24

.18

.31

.24

.25

.24

.26

.22

.20

.28

.21

.29

.21

.22

.28

.16

.19

.21

n cols y( ) tamaño de cada muestra

k rows y( ) número de tratamientos

i 0 k 1 j 0 n 1 índices

ymi mean yT i

vector con elementos que son la media de cada tratamiento

yt mean ym( ) yt 0.2435 gran total

SS_Tr n

i

ymi yt 2

SS_Tr 0.013 suma de cuadrados de tratamientos

SSE

i j

yi j ymi 2 SSE 0.0679 suma de cuadrados de error

SST

i j

yi j yt 2 SST 0.0809 suma de cuadrados total



El estadístico F será entonces:

F0.00430.0015

F 2.8667

Luego el área entre esta abscisa e infinito estará dada por:

nu1 k 1 nu2 k n 1( ) Grados de libertad del num. y denom.

f x( )

nu1 nu22

nu12

nu22

nu1

nu12 nu2

nu22

x

nu1 22

nu1 x nu2( )

nu1 nu22

función densidad

10

2.8667xf x( )

d 0.0472 área de cola derecha desde abscisa F

Si este valor es menor que el nivel de significación (por ejemplo 0.05) esto significa que está dentro de la zona de rechazo. Luego, las medias obtenidas por los laboratorios son significativamente diferentes.

Para el problema ejemplo, esto se grafica del siguiente modo:

x 0 0.1 12