Transcript
  • Muestreo, Generación de Valores de Variables Aleatorias y Entropía

    Dr. José Elías Rodríguez Muñ[email protected]. de Matemáticas, U. de Gto.

    Tercer Verano de Probabilidad y Estadística en el CIMAT, 19/07/2010.

    1/21

    mailto:[email protected]:[email protected]

  • Muestra

    Una muestra, S, es un subconjunto de la población, U

    2/21

    S

    U

  • ¿Cómo generar valores de una distribución Bernoulli?(¿qué tipo de fenómenos modela una Bernoulli?)

    Contexto

    3/21

    U1 (N

    1)

    U (N)

    S (n)

    U2 (N

    2)

  • ¿Cómo generar valores de una distribución Bernoulli?

    Procedimiento

    1. Seleccionar n elementos, con probabilidades iguales y con reemplazo;

    2. Para cada uno de los elementos seleccionados, registrar un 1 si pertenece a la población U1 y 0 en caso contrario.

    4/21

  • ¿Cómo generar valores de una distribución Bernoulli?

    Si la variable aleatoria X modela los valores así obtenidos, ¿cuál es la distribución de X?

    Bernoulli(q), esto es:P(X=1)=q y P(X=0)=1-q,

    donde q=N1N

    .(¿Cómo estimar el tamaño de la población o el de la subpoblación?, ¿cómo genera estos

    valores un programa de cómputo?)

    5/21

  • ¿Cómo generar valores de una distribución Binomial?(¿qué tipo de fenómenos modela una binomial?)

    Procedimiento

    Repetir m veces lo siguiente:1. Seleccionar n elementos, con probabilidades iguales y

    con reemplazo;2. Para cada uno de los elementos seleccionados,

    registrar un 1 si pertenece a la población U1 y 0 en caso contrario;

    3. Sumar los n valores así obtenidos.

    6/21

  • ¿Cómo generar valores de una distribución Binomial?

    Si la variable aleatoria X modela la suma de los valores, entonces:

    P X=x =nxqx 1−q n−x ,para x=0,1,, n .

    7/21

  • ¿Cómo generar valores de una distribución Binomial Negativa?

    (¿y ahora que modela esta distribución?)

    Selección de la muestra

    Repetir lo siguiente tantas veces como sea necesario hasta obtener n elementos de la subpoblación U1:

    1. Seleccionar un elemento de la población con probabilidades iguales;

    2. Registrar un 1 si el elemento seleccionado pertenece a la población U1 y 0 en caso contrario;

    3. Regresar el elemento seleccionado a la población.(¿cuál es el tamaño de la muestra para este caso?)

    8/21

  • ¿Cómo generar valores de una distribución Binomial Negativa?

    Si la variable aleatoria X modela el número de selecciones realizadas hasta obtener los n elementos de la subpoblación, entonces:

    P X=x =x−1n−1qn 1−q x−n ,para x=n ,n1,

    Si n=1, entonces obtenemos el caso particular de la distribución Geométrica.

    9/21

  • ¿Cómo generar valores de una Hipergeométrica?(¿que onda con esta?)

    Hasta ahora las selecciones de los elementos en la muestra se han hecho con reemplazo. Para la distribución en cuestión simplemente las selecciones las haremos sin reemplazo.

    1. Seleccionar n elementos, con probabilidades iguales y sin reemplazo;

    2. Contar los elementos seleccionados que pertenecen a la subpoblación U1.

    10/21

  • ¿Cómo generar valores de una Hipergeométrica?

    Si X modela el número de elementos de la subpoblación en la muestra, entonces:

    P X=x =N1x N−N1n−x

    Nn ,

    para max 0,nN1−N ≤x≤min N1, n .(¿existe la hipergeométrica negativa? ¿para qué se podría utilizar?)

    11/21

  • Y podemos seguir así, mostrando como podemos generar valores de otras distribuciones conocidas pero esto comienza a ser tedioso. Así que demos un ligero cambio de curso a esta plática.

    Hasta ahora hemos establecido la distribución y después la forma de seleccionar la muestra para generar valores de dicha distribución.

    Ahora, primero demos información de la distribución, después establezcamos dicha distribución y por último proporcionemos una forma de producir valores de esta.

    12/21

  • Contexto

    Se tiene una población U con tres subpoblaciones: U1, U2 y U3, los tamaños de las subpoblaciones son desconocidos. Los elementos están etiquetados con los números 1, 2 y 3 respectivamente. Con anterioridad, alguien seleccionó una muestra, cuyo tamaño desconocemos, con probabilidades iguales y con reemplazo. Esta persona promedió los valores observados y sólo tenemos la información de que dicho promedio fue 2.3.

    Denotamos por q1, q2 y q3 las fracciones de elementos de la población en las respectivas subpoblaciones. Si sólo utilizamos la información del promedio obtenido con anterioridad, ¿qué valores debemos (¿podríamos?) asignar a dichas fracciones?

    13/21

  • Entropía

    En varias áreas del conocimiento existe el concepto de entropía:

    • Entropía termodinámica: medida del desorden presente en un sistema.

    • Teoría de la información: medida de la cantidad de información en un mensaje.

    • Entropía estadística: medida de la cantidad de información de una distribución.

    14/21

  • Entropía(en Estadística)

    Sea q1,q2,,q r la distribución de una variable aleatoria discreta. La entropía para esta distribución se define por:

    H=−∑j=1

    r

    q j ln q j .• No es trivial demostrar que H es “la medida” de

    información de la distribución en cuestión;• Es relativamente fácil demostrar que la distribución que

    maximiza la entropía es q j=1r , para j=1,, r . En este

    caso H=ln r .(¿cómo se interpreta esta medida?)

    15/21

  • Retornemos a nuestro problema. Este se puede plantear como maximizar con respecto a {q1,q2,q3} :

    −∑j=1

    3

    q j ln q j 1∑j=13

    jq j−x2∑j=13

    q j−1Solución:

    q1=3−x−q2

    2

    q2=4−3 x−22 −1

    3

    q3=x−1−q2

    2

    16/21

  • Gráfica de la solución:

    (Sí pero, ¿cómo seleccionamos una muestra de esta distribución?)

    17/21

  • Muestreo de Poblaciones Finitas

    Pilares del muestreo:

    • Diseños de Muestreo• Métodos de Estimación• Métodos de Inferencia

    18/21

  • Muestreo de Poblaciones Finitas

    Problema: Se desea seleccionar una muestra de tamaño n, con probabilidades desiguales 1 ,,N (probabilidades de inclusión de primer orden) y sin reemplazo.

    Definamos:

    D={s∈{0,1}N :∑k=1N

    sk=n}Ecuación a maximizar:

    −∑s∈D

    p s ln p s − ∑k=1

    N

    k ∑s∈D sk p s − k−∑s∈D p s − 1

    19/21

  • Solución:

    pME s =exp −T s ∑r ∈D

    exp −T r

    donde T=1,,N .

    Además:

    k=∑s∈D

    skexp −T s ∑r∈D

    exp −T r

    20/21

  • Bibliografía

    • Baclawski, K. (2008). Introduction to probability with R. Chapman & Hall/CRC.

    • Jaynes, E. T. (2003). Probability theory: the logic of science. Cambridge University Press.

    • Tillé, Y. (2006). Sampling Algorithms. Springer.

    21/21


Recommended