Laboratorio_3AlexBaez

DEPARTAMENTO DE ELECTRICA Y ELECTRONICA

CARRERA DE INGENIERIA ELECTRONICA

ASIGNATURA: ESTOCSTICOS

LABORATORIO III

Profesor: Ing. Vinicio Carrera

NOMBRE:

Alex Bez Espinosa

1. INTRODUCCION

Para intentar resolver los problemas planteados se debe tener una clara

revisin, a travs del anlisis y comparacin acontecimientos ejemplares que

nos permitan encontrar y entender sobre una distribucin de probabilidad y

transicin de estados con cadenas de Markov, implementados en Matlab.

2. CONFIRMANDO EL MODELO

Bajo ciertas condiciones de laboratorio, una neurona se encuentra que tiene

una tasa de anillo media de 10 Hz, en otras palabras, se dispara en

promedio una vez cada 0,1 segundos.

Decimos que T es el intersticio de medida variable aleatoria entre los

tiempos de disparo sucesivos. Los datos sobre los tiempos de disparo de la

neurona se han recogido en el laboratorio. Comprobars que estos datos es

un buen modelo para la variable aleatoria T.

Cargando el archivo lab3a.mat, que contiene 1.000 grabaciones entre

tiempos de disparo sucesivos de muestras T.

1. Calcular la funcin de densidad de probabilidad para T, suponiendo que

tiene una distribucin exponencial.

( )

La ecuacin podemos indagar a partir de la distribucin de probabilidad, de

la cual tenemos.

( )

Donde el parmetro T tomara los valores que corresponden a los datos

tomados en el laboratorio. (FiringData)

clc T=firingData; Lambda=10; y=Lambda*exp(-Lambda*T);

plot(T,y,'.') title('Densidad de Probabilidad'); xlabel('Segundos'); ylabel('Frecuencia HZ');

2. Dado que sabemos la tasa media del anillo sea 10 Hz, cul es la

mejor opcin del parmetro, , del modelo de distribucin exponencial?

El problema nos plantea que en las condiciones de laboratorio la tasa de

anillo media de 10 Hz, entonces este valor sera la mejor opcin para

trabajar puesto que ya lo menciona.

Puedes utilizar un histograma para representar grficamente la densidad de

probabilidad de los datos de anillos de muestra. Para producir un

histograma, utilice los siguientes comandos de Matlab:

>> n=histc(firingData, 0:0.025:1)

n =

Columns 1 through 16

235 153 112 112 91 57 53 32 35 25 17 25 16 6 4 6


2 4 3 4 2 2 2 0 0 0 0 0 1 1 0 0


0 0 0 0 0 0 0 0 0

>> bar(0:0.025:1, n/(1000*0.025),'histc');

El primer comando divide las muestras en contenedores', cada uno

con un ancho de 0.025, y produce una cuenta, n, de cuntas muestras

se encuentran en cada bandeja.

La segunda lnea calcula la probabilidad de cada contenedor, por

medio de la divisin por el nmero total de muestras (1000) y la

anchura de la bandeja, y despus representa esto como un grfico de

barras. Entonces:

1. Producir el histograma de probabilidad, tal como se describe ms

arriba.

2. Sobre la misma parcela, mostrar la funcin de densidad de

probabilidad para la distribucin exponencial con el parmetro elegido

en la pregunta 2

Qu tan bien se ajusta a los datos experimentales?

Podemos comprobara la veracidad del experimento ya que la grfica

no indica una curva exponencial

>> gtext('P(x)= lambda *e^-(lambda.T)');

3. USANDO EL MODELO

Utilice el modelo exponencial para calcular:

1. P (T > y=1-exp(-10*0.15)

y =

0.7769

2. p(T > 0.1)

Podemos decir tambin que si:

( ) ( ) ( )

>> y=exp(-10*0.1)

y =

0.3679

3. p(T > 0.15/ T > 0.05).

En la distribucin de Poisson los eventos son siempre sin memoria. Por lo

tanto:

>> y=exp(-10*0.15)

y =

0.2231

4. Puede explicar la conexin entre sus dos ltimas respuestas?

Hay que considerar sobre los procesos sin memoria donde una probabilidad presente no

depende de una probabilidad anterior o ya dada, pues ser la misma que empez con

anterioridad el anlisis en el caso que se considere el mismo espacio.

4. ENTROPIA Y MODELANDO LENGUAJE

4.1 Hacer una lista de las letras ordenados por la frecuencia con que se

producen en el diccionario de ingls.

Referenciamos a cada letra con los siguientes nmeros.

A 1

B 2

C 3

D 4

E 5

F 6

G 7

H 8

I 9

J 10

K 11

L 12

M 13

N 14

O 15

P 16

Q 17

R 18

S 19

T 20

U 21

V 22

W 23

X 24

Y 25

Z 26

27

a(1:27,1)=(unigram_counts); a(1:27,2)=1:27 for i=1:n for j=1:n-i if a(j)

Tomando la informacin de la siguiente pgina,

http://www.reddit.com/r/linux/comments/18cj7u/out_of_98569_words_in_my_us

rsharedictwords_one/

podemos encontrar que la cantidad total de palabras en este diccionario es

98,569 words. Y adems de los datos del laboratorio acerca del diccionario

donde el vector unigram_counts representa el nmero de ocurrencias de

cada letra, tenemos que sumatoria es:

>> sum(unigram_counts)

ans =

3722373

Entonces podemos calcular que el tamao promedio de una palabra es:

3. Calcular la probabilidad de observar cada letra (incluyendo separaciones

de palabras), suponiendo letras sucesivas en una palabra son

independientes.

Con los datos planteados en unigram_counts , calculamos la probabilidad

que tiene cada letra en aparecer en el diccionario, dividiendo la cantidad de

cada una por el total

for i=1:27 prob(i,1)=unigram_counts(i)/sum(unigram_counts); end disp(prob)

4. Clculo de la entropa de la distribucin. Cul es el nmero

esperado de bits por letra necesarios para codificar una palabra en

Ingls?

Investigando sobre la entropa de la informacin, donde nos habla acerca de

una encriptacin, reduccin de informacin o de lo incertidumbre. Tenemos

el siguiente concepto

La informacin que aporta un determinado valor (smbolo), xi, de una variable

aleatoria discreta X, se define como:

( ) ( ) ( ) cuya unidad es el bit cuando se utiliza el

logaritmo en base 2.

Entonces con los datos basados en la probabilidad de cada letra, obtenemos

el valor I(xi) de cada uno, para luego obtener su media.

suma=0; for i=1:27 probab(i,1)=unigram_counts(i,1)/sum(unigram_counts); probab(i,2)=log10(probab(i,1))/(log10(2)); suma=suma+probab(i,2); end disp(probab) fprintf('numero esperado de bits %f\n',suma/27)

0.0735 -3.7653

0.0166 -5.9097

0.0393 -4.6687

0.0292 -5.0992

0.0984 -3.3452

0.0105 -6.5772

0.0217 -5.5282

0.0233 -5.4231

0.0805 -3.6354

0.0014 -9.5152

0.0069 -7.1713

0.0505 -4.3069

0.0270 -5.2136

0.0654 -3.9338

0.0651 -3.9402

0.0294 -5.0875

0.0015 -9.3533

0.0641 -3.9642

0.0662 -3.9163

0.0603 -4.0529

0.0342 -4.8710

0.0088 -6.8294

0.0059 -7.3951

0.0027 -8.5176

0.0182 -5.7782

0.0038 -8.0451

0.0955 -3.3881

nmero esperado de bits -5.527098

Es decir este valor esperado, nos dice que podramos reducir hasta 5 bits en

la compresi

5. Qu suposiciones ha hecho usted en la pregunta 4 que significa que

su respuesta es poco probable que sea cierto en la prctica para la

codificacin de texto Ingls?

La media de bits que normalmente se utiliza en una palabra es de 8 bits, con

este clculo podramos reducir a 5 bits, segn la encriptacin que no es

posible encontrar esta probabilidad con el logaritmo mencionado

anteriormente, para que no sea posible reducir este tamao sera en un caso

en que la velocidad de muestro de las letras en las pginas no sea el

adecuado o eficaz para hacer la compresin del diccionario.

4.2 Modelos Bigrama

Las probabilidades en el apartado anterior, constituyen un modelo de

lenguaje unigrama. Ahora se crear un modelo de lenguaje bigram. Esto

hace la suposicin de Markov que habla la probabilidad de una letra

depende de la letra anterior, pero, dada la letra anterior, sta es

independiente de todas las dems letras.

.1 Utilice los datos de los recuentos bigram para calcular el conjunto de

probabilidades bigram para las cartas, p (L1 | L1_1), donde L1is cualquier

letra y L1_1 es la letra anterior.

for i=1:27 for j=1:27 prob_bigram(i,j) = bigram_counts(i,j)/sum(bigram_counts(i,:)); end end disp(prob_bigram);

2. Use el unigrama original para calcular las probabilidades de observar una

palabra enjoyment, y de observar la palabra falsa eejmnnoty. (Es de ayuda

trabajar con logaritmos).

Como en la explicacin de modelos Bigram, nos dice que las probabilidades

de cada letra son independientes, podemos encontrar una probabilidad que

conlleve todas las probabilidades de las letras, es decir una multiplicacin de

las probabilidades de cada letra que comprenden la palabra.

Por ejemplo para enjoyment podemos calcular a partir de los datos de la

matriz prob calculada en el anterior ejercicio 3 de la parte 4.1, el cual

proviene de las matriz unigram_counts, matriz que contiene la probabilidad

de ocurrencia de cada letra.

Con ello podramos plantear el siguiente clculo para enjoyment:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( )

En el command window tendramos:

>> penjoyment=prob(5)^2*prob(14)^2*prob(10)*prob(15)*prob(25)*prob(13)*prob(20)

penjoyment =

1.0921e-013

para eejmnnoty tendramos:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( )

>> penjoyment=prob(5)^2*prob(14)^2*prob(10)*prob(15)*prob(25)*prob(13)*prob(20)

penjoyment =

1.0921e-013

3. Ahora utilice el modelo del bigrama para calcular la misma probabilidad. Comente sus hallazgos. Utilizando la matriz bigrama podemos caer en cuenta de la dependencia de

cada letra a una anterior, el proceso correspondera a una matriz de

transicin de una cadena de Markov donde se pueden observar la

probabilidad que sucedan las letras dado que una letra anterior ya ocurri,

para la probabilidad de cada palabra tendramos lo siguiente.

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( )

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( )

El resultados de estas dos probabilidades las podemos calcular a partir de la

matriz de probabilidad prob_bigram encontrada de la matriz de

bigram_counts, en el ejercicio 4.2.1:

>>

ProbEnjoyment=prob_bigram(5)*prob_bigram(5,14)*prob_bigram(14,10)*prob_bigram(10,15)*pro

b_bigram(15,25)*prob_bigram(25,13)*prob_bigram(13,5)*prob_bigram(5,14)*prob_bigram(14,20)

ProbEnjoyment =

4.8190e-013

>>

ProbEejmnnoty=prob_bigram(5)*prob_bigram(5,5)*prob_bigram(5,10)*prob_bigram(10,13)*prob_

bigram(13,14)*prob_bigram(14,14)*prob_bigram(14,15)*prob_bigram(15,20)*prob_bigram(20,25)

ProbEejmnnoty =

1.1286e-017

5 CONCLUSIONES.

La distribucin de probabilidad exponencial se pudo observar para un caso

de investigacin cientfica, donde el nmero de muestras era un valor

grande, y su distribucin bastante aproximada.

Las cadenas de Markov nos sirvieron para poder determinar aquellos casos

donde sucesos contiguos, en la mayor parte de veces dependen de un

acontecimiento anterior, pues para sucesos bastante largos, las matrices de

este mtodo son bastante tiles y abreviados.

Documents

Laboratorio_3AlexBaez