Upload
importaciones-espinoza
View
214
Download
0
Embed Size (px)
DESCRIPTION
Procesos estocásticos, tenenemos simulaciones de distribución de probabilidad de poisson
Citation preview
DEPARTAMENTO DE ELECTRICA Y ELECTRONICA
CARRERA DE INGENIERIA ELECTRONICA
ASIGNATURA: ESTOCSTICOS
LABORATORIO III
Profesor: Ing. Vinicio Carrera
NOMBRE:
Alex Bez Espinosa
1. INTRODUCCION
Para intentar resolver los problemas planteados se debe tener una clara
revisin, a travs del anlisis y comparacin acontecimientos ejemplares que
nos permitan encontrar y entender sobre una distribucin de probabilidad y
transicin de estados con cadenas de Markov, implementados en Matlab.
2. CONFIRMANDO EL MODELO
Bajo ciertas condiciones de laboratorio, una neurona se encuentra que tiene
una tasa de anillo media de 10 Hz, en otras palabras, se dispara en
promedio una vez cada 0,1 segundos.
Decimos que T es el intersticio de medida variable aleatoria entre los
tiempos de disparo sucesivos. Los datos sobre los tiempos de disparo de la
neurona se han recogido en el laboratorio. Comprobars que estos datos es
un buen modelo para la variable aleatoria T.
Cargando el archivo lab3a.mat, que contiene 1.000 grabaciones entre
tiempos de disparo sucesivos de muestras T.
1. Calcular la funcin de densidad de probabilidad para T, suponiendo que
tiene una distribucin exponencial.
( )
La ecuacin podemos indagar a partir de la distribucin de probabilidad, de
la cual tenemos.
( )
Donde el parmetro T tomara los valores que corresponden a los datos
tomados en el laboratorio. (FiringData)
clc T=firingData; Lambda=10; y=Lambda*exp(-Lambda*T);
plot(T,y,'.') title('Densidad de Probabilidad'); xlabel('Segundos'); ylabel('Frecuencia HZ');
2. Dado que sabemos la tasa media del anillo sea 10 Hz, cul es la
mejor opcin del parmetro, , del modelo de distribucin exponencial?
El problema nos plantea que en las condiciones de laboratorio la tasa de
anillo media de 10 Hz, entonces este valor sera la mejor opcin para
trabajar puesto que ya lo menciona.
Puedes utilizar un histograma para representar grficamente la densidad de
probabilidad de los datos de anillos de muestra. Para producir un
histograma, utilice los siguientes comandos de Matlab:
>> n=histc(firingData, 0:0.025:1)
n =
Columns 1 through 16
235 153 112 112 91 57 53 32 35 25 17 25 16 6 4 6
Columns 17 through 32
2 4 3 4 2 2 2 0 0 0 0 0 1 1 0 0
Columns 33 through 41
0 0 0 0 0 0 0 0 0
>> bar(0:0.025:1, n/(1000*0.025),'histc');
El primer comando divide las muestras en contenedores', cada uno
con un ancho de 0.025, y produce una cuenta, n, de cuntas muestras
se encuentran en cada bandeja.
La segunda lnea calcula la probabilidad de cada contenedor, por
medio de la divisin por el nmero total de muestras (1000) y la
anchura de la bandeja, y despus representa esto como un grfico de
barras. Entonces:
1. Producir el histograma de probabilidad, tal como se describe ms
arriba.
2. Sobre la misma parcela, mostrar la funcin de densidad de
probabilidad para la distribucin exponencial con el parmetro elegido
en la pregunta 2
Qu tan bien se ajusta a los datos experimentales?
Podemos comprobara la veracidad del experimento ya que la grfica
no indica una curva exponencial
>> gtext('P(x)= lambda *e^-(lambda.T)');
3. USANDO EL MODELO
Utilice el modelo exponencial para calcular:
1. P (T > y=1-exp(-10*0.15)
y =
0.7769
2. p(T > 0.1)
Podemos decir tambin que si:
( ) ( ) ( )
>> y=exp(-10*0.1)
y =
0.3679
3. p(T > 0.15/ T > 0.05).
En la distribucin de Poisson los eventos son siempre sin memoria. Por lo
tanto:
>> y=exp(-10*0.15)
y =
0.2231
4. Puede explicar la conexin entre sus dos ltimas respuestas?
Hay que considerar sobre los procesos sin memoria donde una probabilidad presente no
depende de una probabilidad anterior o ya dada, pues ser la misma que empez con
anterioridad el anlisis en el caso que se considere el mismo espacio.
4. ENTROPIA Y MODELANDO LENGUAJE
4.1 Hacer una lista de las letras ordenados por la frecuencia con que se
producen en el diccionario de ingls.
Referenciamos a cada letra con los siguientes nmeros.
A 1
B 2
C 3
D 4
E 5
F 6
G 7
H 8
I 9
J 10
K 11
L 12
M 13
N 14
O 15
P 16
Q 17
R 18
S 19
T 20
U 21
V 22
W 23
X 24
Y 25
Z 26
27
a(1:27,1)=(unigram_counts); a(1:27,2)=1:27 for i=1:n for j=1:n-i if a(j)
Tomando la informacin de la siguiente pgina,
http://www.reddit.com/r/linux/comments/18cj7u/out_of_98569_words_in_my_us
rsharedictwords_one/
podemos encontrar que la cantidad total de palabras en este diccionario es
98,569 words. Y adems de los datos del laboratorio acerca del diccionario
donde el vector unigram_counts representa el nmero de ocurrencias de
cada letra, tenemos que sumatoria es:
>> sum(unigram_counts)
ans =
3722373
Entonces podemos calcular que el tamao promedio de una palabra es:
3. Calcular la probabilidad de observar cada letra (incluyendo separaciones
de palabras), suponiendo letras sucesivas en una palabra son
independientes.
Con los datos planteados en unigram_counts , calculamos la probabilidad
que tiene cada letra en aparecer en el diccionario, dividiendo la cantidad de
cada una por el total
for i=1:27 prob(i,1)=unigram_counts(i)/sum(unigram_counts); end disp(prob)
4. Clculo de la entropa de la distribucin. Cul es el nmero
esperado de bits por letra necesarios para codificar una palabra en
Ingls?
Investigando sobre la entropa de la informacin, donde nos habla acerca de
una encriptacin, reduccin de informacin o de lo incertidumbre. Tenemos
el siguiente concepto
La informacin que aporta un determinado valor (smbolo), xi, de una variable
aleatoria discreta X, se define como:
( ) ( ) ( ) cuya unidad es el bit cuando se utiliza el
logaritmo en base 2.
Entonces con los datos basados en la probabilidad de cada letra, obtenemos
el valor I(xi) de cada uno, para luego obtener su media.
suma=0; for i=1:27 probab(i,1)=unigram_counts(i,1)/sum(unigram_counts); probab(i,2)=log10(probab(i,1))/(log10(2)); suma=suma+probab(i,2); end disp(probab) fprintf('numero esperado de bits %f\n',suma/27)
0.0735 -3.7653
0.0166 -5.9097
0.0393 -4.6687
0.0292 -5.0992
0.0984 -3.3452
0.0105 -6.5772
0.0217 -5.5282
0.0233 -5.4231
0.0805 -3.6354
0.0014 -9.5152
0.0069 -7.1713
0.0505 -4.3069
0.0270 -5.2136
0.0654 -3.9338
0.0651 -3.9402
0.0294 -5.0875
0.0015 -9.3533
0.0641 -3.9642
0.0662 -3.9163
0.0603 -4.0529
0.0342 -4.8710
0.0088 -6.8294
0.0059 -7.3951
0.0027 -8.5176
0.0182 -5.7782
0.0038 -8.0451
0.0955 -3.3881
nmero esperado de bits -5.527098
Es decir este valor esperado, nos dice que podramos reducir hasta 5 bits en
la compresi
5. Qu suposiciones ha hecho usted en la pregunta 4 que significa que
su respuesta es poco probable que sea cierto en la prctica para la
codificacin de texto Ingls?
La media de bits que normalmente se utiliza en una palabra es de 8 bits, con
este clculo podramos reducir a 5 bits, segn la encriptacin que no es
posible encontrar esta probabilidad con el logaritmo mencionado
anteriormente, para que no sea posible reducir este tamao sera en un caso
en que la velocidad de muestro de las letras en las pginas no sea el
adecuado o eficaz para hacer la compresin del diccionario.
4.2 Modelos Bigrama
Las probabilidades en el apartado anterior, constituyen un modelo de
lenguaje unigrama. Ahora se crear un modelo de lenguaje bigram. Esto
hace la suposicin de Markov que habla la probabilidad de una letra
depende de la letra anterior, pero, dada la letra anterior, sta es
independiente de todas las dems letras.
.1 Utilice los datos de los recuentos bigram para calcular el conjunto de
probabilidades bigram para las cartas, p (L1 | L1_1), donde L1is cualquier
letra y L1_1 es la letra anterior.
for i=1:27 for j=1:27 prob_bigram(i,j) = bigram_counts(i,j)/sum(bigram_counts(i,:)); end end disp(prob_bigram);
2. Use el unigrama original para calcular las probabilidades de observar una
palabra enjoyment, y de observar la palabra falsa eejmnnoty. (Es de ayuda
trabajar con logaritmos).
Como en la explicacin de modelos Bigram, nos dice que las probabilidades
de cada letra son independientes, podemos encontrar una probabilidad que
conlleve todas las probabilidades de las letras, es decir una multiplicacin de
las probabilidades de cada letra que comprenden la palabra.
Por ejemplo para enjoyment podemos calcular a partir de los datos de la
matriz prob calculada en el anterior ejercicio 3 de la parte 4.1, el cual
proviene de las matriz unigram_counts, matriz que contiene la probabilidad
de ocurrencia de cada letra.
Con ello podramos plantear el siguiente clculo para enjoyment:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
En el command window tendramos:
>> penjoyment=prob(5)^2*prob(14)^2*prob(10)*prob(15)*prob(25)*prob(13)*prob(20)
penjoyment =
1.0921e-013
para eejmnnoty tendramos:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
>> penjoyment=prob(5)^2*prob(14)^2*prob(10)*prob(15)*prob(25)*prob(13)*prob(20)
penjoyment =
1.0921e-013
3. Ahora utilice el modelo del bigrama para calcular la misma probabilidad. Comente sus hallazgos. Utilizando la matriz bigrama podemos caer en cuenta de la dependencia de
cada letra a una anterior, el proceso correspondera a una matriz de
transicin de una cadena de Markov donde se pueden observar la
probabilidad que sucedan las letras dado que una letra anterior ya ocurri,
para la probabilidad de cada palabra tendramos lo siguiente.
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( )
El resultados de estas dos probabilidades las podemos calcular a partir de la
matriz de probabilidad prob_bigram encontrada de la matriz de
bigram_counts, en el ejercicio 4.2.1:
>>
ProbEnjoyment=prob_bigram(5)*prob_bigram(5,14)*prob_bigram(14,10)*prob_bigram(10,15)*pro
b_bigram(15,25)*prob_bigram(25,13)*prob_bigram(13,5)*prob_bigram(5,14)*prob_bigram(14,20)
ProbEnjoyment =
4.8190e-013
>>
ProbEejmnnoty=prob_bigram(5)*prob_bigram(5,5)*prob_bigram(5,10)*prob_bigram(10,13)*prob_
bigram(13,14)*prob_bigram(14,14)*prob_bigram(14,15)*prob_bigram(15,20)*prob_bigram(20,25)
ProbEejmnnoty =
1.1286e-017
5 CONCLUSIONES.
La distribucin de probabilidad exponencial se pudo observar para un caso
de investigacin cientfica, donde el nmero de muestras era un valor
grande, y su distribucin bastante aproximada.
Las cadenas de Markov nos sirvieron para poder determinar aquellos casos
donde sucesos contiguos, en la mayor parte de veces dependen de un
acontecimiento anterior, pues para sucesos bastante largos, las matrices de
este mtodo son bastante tiles y abreviados.