15
DEPARTAMENTO DE ELECTRICA Y ELECTRONICA CARRERA DE INGENIERIA ELECTRONICA ASIGNATURA: ESTOCÁSTICOS LABORATORIO III Profesor: Ing. Vinicio Carrera NOMBRE: Alex Báez Espinosa

Laboratorio_3AlexBaez

Embed Size (px)

DESCRIPTION

Procesos estocásticos, tenenemos simulaciones de distribución de probabilidad de poisson

Citation preview

  • DEPARTAMENTO DE ELECTRICA Y ELECTRONICA

    CARRERA DE INGENIERIA ELECTRONICA

    ASIGNATURA: ESTOCSTICOS

    LABORATORIO III

    Profesor: Ing. Vinicio Carrera

    NOMBRE:

    Alex Bez Espinosa

  • 1. INTRODUCCION

    Para intentar resolver los problemas planteados se debe tener una clara

    revisin, a travs del anlisis y comparacin acontecimientos ejemplares que

    nos permitan encontrar y entender sobre una distribucin de probabilidad y

    transicin de estados con cadenas de Markov, implementados en Matlab.

    2. CONFIRMANDO EL MODELO

    Bajo ciertas condiciones de laboratorio, una neurona se encuentra que tiene

    una tasa de anillo media de 10 Hz, en otras palabras, se dispara en

    promedio una vez cada 0,1 segundos.

    Decimos que T es el intersticio de medida variable aleatoria entre los

    tiempos de disparo sucesivos. Los datos sobre los tiempos de disparo de la

    neurona se han recogido en el laboratorio. Comprobars que estos datos es

    un buen modelo para la variable aleatoria T.

    Cargando el archivo lab3a.mat, que contiene 1.000 grabaciones entre

    tiempos de disparo sucesivos de muestras T.

    1. Calcular la funcin de densidad de probabilidad para T, suponiendo que

    tiene una distribucin exponencial.

    ( )

    La ecuacin podemos indagar a partir de la distribucin de probabilidad, de

    la cual tenemos.

    ( )

    Donde el parmetro T tomara los valores que corresponden a los datos

    tomados en el laboratorio. (FiringData)

  • clc T=firingData; Lambda=10; y=Lambda*exp(-Lambda*T);

    plot(T,y,'.') title('Densidad de Probabilidad'); xlabel('Segundos'); ylabel('Frecuencia HZ');

    2. Dado que sabemos la tasa media del anillo sea 10 Hz, cul es la

    mejor opcin del parmetro, , del modelo de distribucin exponencial?

    El problema nos plantea que en las condiciones de laboratorio la tasa de

    anillo media de 10 Hz, entonces este valor sera la mejor opcin para

    trabajar puesto que ya lo menciona.

    Puedes utilizar un histograma para representar grficamente la densidad de

    probabilidad de los datos de anillos de muestra. Para producir un

    histograma, utilice los siguientes comandos de Matlab:

  • >> n=histc(firingData, 0:0.025:1)

    n =

    Columns 1 through 16

    235 153 112 112 91 57 53 32 35 25 17 25 16 6 4 6

    Columns 17 through 32

    2 4 3 4 2 2 2 0 0 0 0 0 1 1 0 0

    Columns 33 through 41

    0 0 0 0 0 0 0 0 0

    >> bar(0:0.025:1, n/(1000*0.025),'histc');

    El primer comando divide las muestras en contenedores', cada uno

    con un ancho de 0.025, y produce una cuenta, n, de cuntas muestras

    se encuentran en cada bandeja.

    La segunda lnea calcula la probabilidad de cada contenedor, por

    medio de la divisin por el nmero total de muestras (1000) y la

    anchura de la bandeja, y despus representa esto como un grfico de

    barras. Entonces:

    1. Producir el histograma de probabilidad, tal como se describe ms

    arriba.

    2. Sobre la misma parcela, mostrar la funcin de densidad de

    probabilidad para la distribucin exponencial con el parmetro elegido

    en la pregunta 2

    Qu tan bien se ajusta a los datos experimentales?

    Podemos comprobara la veracidad del experimento ya que la grfica

    no indica una curva exponencial

  • >> gtext('P(x)= lambda *e^-(lambda.T)');

  • 3. USANDO EL MODELO

    Utilice el modelo exponencial para calcular:

    1. P (T > y=1-exp(-10*0.15)

    y =

    0.7769

    2. p(T > 0.1)

    Podemos decir tambin que si:

    ( ) ( ) ( )

    >> y=exp(-10*0.1)

    y =

    0.3679

    3. p(T > 0.15/ T > 0.05).

    En la distribucin de Poisson los eventos son siempre sin memoria. Por lo

    tanto:

    >> y=exp(-10*0.15)

    y =

    0.2231

  • 4. Puede explicar la conexin entre sus dos ltimas respuestas?

    Hay que considerar sobre los procesos sin memoria donde una probabilidad presente no

    depende de una probabilidad anterior o ya dada, pues ser la misma que empez con

    anterioridad el anlisis en el caso que se considere el mismo espacio.

    4. ENTROPIA Y MODELANDO LENGUAJE

    4.1 Hacer una lista de las letras ordenados por la frecuencia con que se

    producen en el diccionario de ingls.

    Referenciamos a cada letra con los siguientes nmeros.

    A 1

    B 2

    C 3

    D 4

    E 5

    F 6

    G 7

    H 8

    I 9

    J 10

    K 11

    L 12

    M 13

    N 14

    O 15

    P 16

    Q 17

    R 18

    S 19

    T 20

    U 21

    V 22

    W 23

    X 24

    Y 25

    Z 26

  • 27

    a(1:27,1)=(unigram_counts); a(1:27,2)=1:27 for i=1:n for j=1:n-i if a(j)

  • Tomando la informacin de la siguiente pgina,

    http://www.reddit.com/r/linux/comments/18cj7u/out_of_98569_words_in_my_us

    rsharedictwords_one/

    podemos encontrar que la cantidad total de palabras en este diccionario es

    98,569 words. Y adems de los datos del laboratorio acerca del diccionario

    donde el vector unigram_counts representa el nmero de ocurrencias de

    cada letra, tenemos que sumatoria es:

    >> sum(unigram_counts)

    ans =

    3722373

    Entonces podemos calcular que el tamao promedio de una palabra es:

    3. Calcular la probabilidad de observar cada letra (incluyendo separaciones

    de palabras), suponiendo letras sucesivas en una palabra son

    independientes.

    Con los datos planteados en unigram_counts , calculamos la probabilidad

    que tiene cada letra en aparecer en el diccionario, dividiendo la cantidad de

    cada una por el total

    for i=1:27 prob(i,1)=unigram_counts(i)/sum(unigram_counts); end disp(prob)

  • 4. Clculo de la entropa de la distribucin. Cul es el nmero

    esperado de bits por letra necesarios para codificar una palabra en

    Ingls?

    Investigando sobre la entropa de la informacin, donde nos habla acerca de

    una encriptacin, reduccin de informacin o de lo incertidumbre. Tenemos

    el siguiente concepto

    La informacin que aporta un determinado valor (smbolo), xi, de una variable

    aleatoria discreta X, se define como:

    ( ) ( ) ( ) cuya unidad es el bit cuando se utiliza el

    logaritmo en base 2.

    Entonces con los datos basados en la probabilidad de cada letra, obtenemos

    el valor I(xi) de cada uno, para luego obtener su media.

    suma=0; for i=1:27 probab(i,1)=unigram_counts(i,1)/sum(unigram_counts); probab(i,2)=log10(probab(i,1))/(log10(2)); suma=suma+probab(i,2); end disp(probab) fprintf('numero esperado de bits %f\n',suma/27)

  • 0.0735 -3.7653

    0.0166 -5.9097

    0.0393 -4.6687

    0.0292 -5.0992

    0.0984 -3.3452

    0.0105 -6.5772

    0.0217 -5.5282

    0.0233 -5.4231

    0.0805 -3.6354

    0.0014 -9.5152

    0.0069 -7.1713

    0.0505 -4.3069

    0.0270 -5.2136

    0.0654 -3.9338

    0.0651 -3.9402

    0.0294 -5.0875

    0.0015 -9.3533

    0.0641 -3.9642

    0.0662 -3.9163

    0.0603 -4.0529

    0.0342 -4.8710

    0.0088 -6.8294

    0.0059 -7.3951

    0.0027 -8.5176

    0.0182 -5.7782

    0.0038 -8.0451

    0.0955 -3.3881

    nmero esperado de bits -5.527098

    Es decir este valor esperado, nos dice que podramos reducir hasta 5 bits en

    la compresi

    5. Qu suposiciones ha hecho usted en la pregunta 4 que significa que

    su respuesta es poco probable que sea cierto en la prctica para la

    codificacin de texto Ingls?

    La media de bits que normalmente se utiliza en una palabra es de 8 bits, con

    este clculo podramos reducir a 5 bits, segn la encriptacin que no es

    posible encontrar esta probabilidad con el logaritmo mencionado

    anteriormente, para que no sea posible reducir este tamao sera en un caso

    en que la velocidad de muestro de las letras en las pginas no sea el

    adecuado o eficaz para hacer la compresin del diccionario.

  • 4.2 Modelos Bigrama

    Las probabilidades en el apartado anterior, constituyen un modelo de

    lenguaje unigrama. Ahora se crear un modelo de lenguaje bigram. Esto

    hace la suposicin de Markov que habla la probabilidad de una letra

    depende de la letra anterior, pero, dada la letra anterior, sta es

    independiente de todas las dems letras.

    .1 Utilice los datos de los recuentos bigram para calcular el conjunto de

    probabilidades bigram para las cartas, p (L1 | L1_1), donde L1is cualquier

    letra y L1_1 es la letra anterior.

    for i=1:27 for j=1:27 prob_bigram(i,j) = bigram_counts(i,j)/sum(bigram_counts(i,:)); end end disp(prob_bigram);

  • 2. Use el unigrama original para calcular las probabilidades de observar una

    palabra enjoyment, y de observar la palabra falsa eejmnnoty. (Es de ayuda

    trabajar con logaritmos).

    Como en la explicacin de modelos Bigram, nos dice que las probabilidades

    de cada letra son independientes, podemos encontrar una probabilidad que

    conlleve todas las probabilidades de las letras, es decir una multiplicacin de

    las probabilidades de cada letra que comprenden la palabra.

    Por ejemplo para enjoyment podemos calcular a partir de los datos de la

    matriz prob calculada en el anterior ejercicio 3 de la parte 4.1, el cual

    proviene de las matriz unigram_counts, matriz que contiene la probabilidad

    de ocurrencia de cada letra.

    Con ello podramos plantear el siguiente clculo para enjoyment:

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ) ( ) ( )

  • En el command window tendramos:

    >> penjoyment=prob(5)^2*prob(14)^2*prob(10)*prob(15)*prob(25)*prob(13)*prob(20)

    penjoyment =

    1.0921e-013

    para eejmnnoty tendramos:

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ) ( ) ( )

    >> penjoyment=prob(5)^2*prob(14)^2*prob(10)*prob(15)*prob(25)*prob(13)*prob(20)

    penjoyment =

    1.0921e-013

    3. Ahora utilice el modelo del bigrama para calcular la misma probabilidad. Comente sus hallazgos. Utilizando la matriz bigrama podemos caer en cuenta de la dependencia de

    cada letra a una anterior, el proceso correspondera a una matriz de

    transicin de una cadena de Markov donde se pueden observar la

    probabilidad que sucedan las letras dado que una letra anterior ya ocurri,

    para la probabilidad de cada palabra tendramos lo siguiente.

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

    ( )

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

    ( )

  • El resultados de estas dos probabilidades las podemos calcular a partir de la

    matriz de probabilidad prob_bigram encontrada de la matriz de

    bigram_counts, en el ejercicio 4.2.1:

    >>

    ProbEnjoyment=prob_bigram(5)*prob_bigram(5,14)*prob_bigram(14,10)*prob_bigram(10,15)*pro

    b_bigram(15,25)*prob_bigram(25,13)*prob_bigram(13,5)*prob_bigram(5,14)*prob_bigram(14,20)

    ProbEnjoyment =

    4.8190e-013

    >>

    ProbEejmnnoty=prob_bigram(5)*prob_bigram(5,5)*prob_bigram(5,10)*prob_bigram(10,13)*prob_

    bigram(13,14)*prob_bigram(14,14)*prob_bigram(14,15)*prob_bigram(15,20)*prob_bigram(20,25)

    ProbEejmnnoty =

    1.1286e-017

    5 CONCLUSIONES.

    La distribucin de probabilidad exponencial se pudo observar para un caso

    de investigacin cientfica, donde el nmero de muestras era un valor

    grande, y su distribucin bastante aproximada.

    Las cadenas de Markov nos sirvieron para poder determinar aquellos casos

    donde sucesos contiguos, en la mayor parte de veces dependen de un

    acontecimiento anterior, pues para sucesos bastante largos, las matrices de

    este mtodo son bastante tiles y abreviados.