Markov

  • Upload
    daaha2

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

FACULTAD DE INGENIERA MECNICA Y ELCTRICA

M.I. GRISELDA CORTES MORALES

INVESTIGACIN:

CADENAS DE MARKOV

ALUMNO:

ANGEL JUREZ MENDOZA7 ISC A

INTRODUCCINLas cadenas de Markov son una herramienta para analizar el comportamiento y el gobierno de determinados tipos de procesos estocsticos, esto es, procesos que evolucionan de forma no determinista a lo largo del tiempo en torno a un conjunto de estados.Una cadena de Markov, por tanto, representa un sistema que vara su estado a lo largo del tiempo, siendo cada cambio una transicin del sistema. Dichos cambios no estn predeterminados, aunque s lo est la probabilidad del prximo estado en funcin de los estados anteriores, probabilidad que es constante a lo largo del tiempo (sistema homogneo en el tiempo). Eventualmente, en una transicin, el nuevo estado puede ser el mismo que el anterior y es posible que exista la posibilidad de influir en las probabilidades de transicin actuando adecuadamente sobre el sistema (decisin).En este mdulo nos ocuparemos de las llamadas cadenas de Markov finitas, caracterizadas porque el nmero de estados del sistema es finito.Formalmente, para definir una cadena de Markov finita hace falta determinar por lo tanto los siguientes elementos:a) Un conjunto de estados del sistema.b) La definicin de transicin.c) Una ley de probabilidad condicional, que defina la probabilidad del nuevo estado en funcin de los anteriores.Los estados son una caracterizacin de la situacin en que se halla el sistema en un instante dado, dicha caracterizacin puede ser tanto cuantitativa como cualitativa. Desde un punto de vista prctico probablemente, la mejor definicin de qu debe entenderse por estado es la respuesta que se dara a la pregunta "cmo estn las cosas?".Formalmente, el estado de un sistema en un instante t es una variable cuyos valores slo pueden pertenecer al conjunto de estados del sistema. El sistema modelizado por la cadena, por lo tanto, es una variable que cambia de valor en el tiempo, cambio al que llamamos transicin.Dicho de otro modo, se trata de una coleccin indexada de variables Et, donde t denota intervalos temporales significativos para el fenmeno estudiado. Los posibles valores de Et se toman de un conjunto de categoras mutuamente excluyentes, denominadas estados del sistema. Por ser el sistema estocstico, no se conocer con certeza el estado del sistema en un determinado instante, sino tan solo la probabilidad asociada a cada uno de los estados. Este hecho puede expresarse en trminos de probabilidad condicional:p{Et = j Et-1 = i, Et-2 = et-2, Et-3 = et-3, ... , E0 = e0} = p{Et = j Et-1 = i, Et-2 = et-2, Et-3 = et-3, ..., Et-k = et-k} donde i, j, ei pertenecen al conjunto de estados posibles del sistema.Para el caso particular de una cadena de Markov de orden 1, tenemos:p{Et = j Et-1 = i, Et-2 = et-2, Et-3 = et-3, ... , E0 = e0} = p{Et = j Et-1 = i} = pijDonde pij recibe el nombre de probabilidad de transicin del estado i al estado j. En una cadena de Markov de orden 1, el estado del sistema en el futuro j slo depende del estado presente i.Las cadenas de Markov en su mayora contienen las propiedades siguientes: Con un nmero n finito de estados (en oposicin a cadenas de Markov de infinitos estados posibles). De orden 1 (si bien veremos cmo transformar las de orden superior en cadenas de orden 1).Para este tipo de cadenas, tendremos que la ley de probabilidad condicional es de la forma: p{Et+s = j Et+s-1 = i} = p{Et = j Et-1 = i}CONCEPTOS BSICOSCadena de Markov:Una cadena de Markov de orden k es un proceso estocstico cuyas probabilidades de transicin estn determinadas por los valores de los estados alcanzados en las k transiciones anteriores. Dichasprobabilidades de transicin se mantienen inalterables a lo largo del tiempo (de otro modo, son

independientes de la transicin en que nos encontremos). Cualquier cadena de Markov puede reducirse a una cadena de orden 1.

Cadena de Markov cclica:Cadena de Markov con una nica clase final cclica. Puede tener clases de paso (cadena semiergdica cclica) o no tenerlas (cadena ergdica cclica).

Cadena de Markov ergdica:Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son iguales, de manera que ninguno de los elementos de P* es igual a cero. Se trata de una cadena con una sola clase final y sin clases de paso.

Cadena de Markov mixta:Cadena de Markov no ergdica con clases finales cclicas y acclicas.Cadena de Markov no ergdica:Cadena de Markov cuyas probabilidades estacionarias dependen del estado inicial, por lo que las filas de P* pueden ser diferentes entre si. Se trata de una cadena con dos o ms clases finales y al menos una clase de paso.

Cadena de Markov regular:Cadena de Markov semiergdica cuya nica clase final es acclica.

Cadena de Markov regular positiva:Cadena de Markov ergdica cuya nica clase final es acclica.

Cadena de Markov semiergdica:Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son iguales, de manera que alguno de los elementos de P* es igual a cero. Se trata de una cadena con una

sola clase final y al menos una clases de paso.

Cadena de Markov semirregular:Cadena de Markov no ergdica con todas sus clases finales acclicas.

Cadena de Markov policclica:Cadena de Markov no ergdica con todas sus clases finales cclicas.

Camino:Decimos que existe un camino entre los estados i y j si i es descendiente de j.

Ciclo:Decimos que existe un ciclo en una cadena de Markov si existe un camino que comunique a un estado

i consigo mismo.

Clase final:Conjunto de estados comunicados entre s tal que si en algn momento el proceso llega a alguno de los estados de la clase final, en las transiciones siguientes el estado evoluciona entre los estados de la clase

final.Clase final acclica (o aperidica):Clase final de una cadena de Markov de periodo superior a uno.

Clase final cclica (o peridica):Clase final de una cadena de Markov de periodo igual a uno.

Clase de paso:Conjunto de estados comunicados entre s tal que si en algn momento el proceso llega a alguno de los estados de la case de paso, en las transiciones siguientes puede evolucionar a algn estado diferente.

Decisin:Variable de un proceso estocstico que puede ser gobernada por el observador. Cada estado tiene definido un nmero de decisiones di. Cada una de ellas da lugar a diferentes probabilidades de transicin y remuneraciones para ese estado.

Estado:Variable descriptiva de la situacin en que se encuentra el proceso en un momento del tiempo. Puede ser una variable cuantitativa o cualitativa. Tambin puede ser continua o discreta, aunque en este mdulo slo se trata el ltimo caso.

Estado absorbente:Estado cuya nica transicin posible es volver al mismo estado. Un estado absorbente constituye una clase final de un nico estado.

Estado descendiente:Un estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula de que el proceso llegue a j.

Estados comunicados:Decimos que dos estados i y j se comunican cuando i es descendiente de j y j es descendiente de i. La comunicacin entre estados es una relacin de equivalencia, puesto que es reflexiva, simtrica y transitiva.Iteracin en el espacio de las polticas:Obtencin de la remuneracin esperada a largo plazo para una poltica determinada.

Iteracin en el espacio de los estados:Obtencin de la remuneracin esperada cuando faltan N etapas para finalizar el proceso, operando transicin a transicin. Usando la normalizacin, podemos llegar la obtener la remuneracin esperada

por transicin a largo plazo despus de operar para un nmero de transiciones lo bastante elevado.

Longitud de un ciclo:Nmero mnimo de transiciones necesarias para volver al estado i en un ciclo, si se inici el proceso en ese estado.

Matriz de probabilidades de transicin de un paso (P):Matriz cuadrada de orden n, donde n es igual al nmero de estados del proceso. Sus componentes son las probabilidades de transicin de un paso pij.

Matriz de probabilidades estacionarias (P*):Matriz cuadrada de orden n, donde n es igual al nmero de estados del proceso. Sus componentes son

las probabilidades estacionarias ij.

Matriz de remuneraciones (R):Matriz cuadrada de orden n, donde n es igual al nmero de estados del proceso. Sus componentes son las remuneraciones rij.

Mdulo z:El mdulo z de un nmero n es el resto de la divisin de n por z. Los valores posibles del mdulo z van de 0 a z 1. Por ejemplo, el mdulo 2 de 7 es 1, y el mdulo 3 de 11 es 2.

Normalizacin:Tcnica utilizada en la iteracin en el espacio de los estados, para obtener la remuneracin esperada por transicin en el largo plazo. Vase la seccin 5.1.2 para una definicin en su contexto.

Periodo de una clase final:Mximo comn divisor de las longitudes de ciclo que pueden encontrarse en una clase final.

Poltica:Se obtiene una poltica para una transicin escogiendo una variable de decisin para cada uno de los estados. Una vez fijada una poltica, un proceso markoviano de decisin se convierte en una cadena de Markov.

Probabilidad de transicin de k pasos (pij(k)):Probabilidad de que el proceso evolucione al estado j dentro de k transiciones, si en este momento se

encuentra en el estado i.

Probabilidad de transicin de un paso (pij):Probabilidad de que el proceso evolucione al estado j en la siguiente transicin, si en este momento se

encuentra en el estado i. En una cadena de Markov de orden uno, las probabilidades de transicin de un paso no varan con el tiempo y no dependen de la evolucin seguida en etapas anteriores.

Probabilidades estacionarias (ij):Probabilidad de que el proceso se encuentre en el estado j despus de un nmero elevado de

transiciones (una vez alcanzado el rgimen permanente), si el sistema comenz su evolucin en el estado i.

Proceso estocstico:Proceso que evoluciona de manera no determinista a lo largo del tiempo, tomando cada vez valores de entre un conjunto de estados. Suele conocerse la ley de probabilidad que rige la transicin de un estado

a otro.

Remuneracin (rij):Valor numrico asociado a la transicin de i a j con probabilidad de transicin pij diferente de cero.Puede ser un valor positivo, negativo o nulo. Su significado depender de la situacin modelizada.

Transicin:Momento en que una cadena de Markov puede cambiar de estado. Es usual que una transicin se produzca a intervalos regulares de tiempo.

Valor propio y vector propio:Para una matriz cuadrada A, podremos encontrar un conjunto de escalares complejos y otro de vectores tal que Av = v. Diremos entonces que v es un vector propio y un valor propio de la matriz A. Los valores propios pueden encontrarse resolviendo el sistema det(A I) = 0. Una vez hallados los valores , pueden hallarse los v correspondientes resolviendo el sistema (compatible indeterminado) A I = 0.

CLCULO DE PROBABILIDADES DE TRANSICINEn las cadenas finitas de orden 1 (es decir las que estudiamos aqu), la forma ms cmoda de expresar la ley de probabilidad condicional de la misma es mediante la llamada matriz de probabilidades de transicin P, o ms sencillamente, matriz de la cadena.Dicha matriz es cuadrada con tantas filas y columnas como estados tiene el sistema, y los elementos de la matriz representan la probabilidad de que el estado prximo sea el correspondiente a la columna si el estado actual es el correspondiente a la fila.Como el sistema debe evolucionar a t a alguno de los n estados posibles, las probabilidades de transicin cumplirn la propiedad siguiente:n pij 1j 1Adems, por definicin de probabilidad, cada una de ellas ha de ser no negativa:pij 0Cuando las pij cumplen las propiedades arriba indicadas, la matriz P es una matriz estocstica: la suma de valores de las filas de la matriz ser siempre igual a 1 (la suma de valores de las columnas no tiene ninguna propiedad especial).Para ms adelante, es interesante recordar dos propiedades de este tipo de matrices: Si P, Q son matrices estocsticas, su producto PQ tambin lo es. Los valores propios de una matriz estocstica tienen siempre mdulo inferior o igual a 1.3.1.1 Matrices de orden superiorLa condicin antes expresada de que nicamente se tratarn en este mdulo las matrices de orden 1 puede parecer una limitacin a las posibilidades de modelizacin de procesos estocsticos, pero en realidad no lo es, ya que es posible estudiar las cadenas de orden superior (k > 1) mediante las de orden 1, transformndolas adecuadamente.Dada una cadena de orden k con n estados, se puede definir una cadena equivalente de orden 1 de la siguiente forma:Los estados de la cadena de orden 1 se definen como los diferentes conjuntos (ordenados) en los que puede estar la cadena superior en las k ltimas transiciones. As los estados de la cadena de orden 1 se definirn por:Xt = {Et, Et-1, Et-2, .... Et-k} De esta forma, la nueva cadena tiene x = nk estados.Naturalmente, no todas las transiciones sern posibles en la nueva cadena: solamente aquellas en que los estados correspondientes para la cadena superior sean coherentes con la definicin anterior. Dicho de otro modo:Si Xt = {Et, Et-1, Et-2, .... Et-k} y X't-1 = {E't-1, E't-2, .... E't-k-1} la probabilidad de transicin P'{Xt | X't- 1}podr ser distinta de cero si y slo si Et-1 = E't-1, Et-2 = E't-2, etc.y en este caso:P' { Xt | X't-1 }= P {Et| Et-1, Et-2, .... Et-k , Et-k-1}Ejemplo 3.1.3.a: cadena de Markov de orden 2Despus de analizar en profundidad la evolucin de la cotizacin de un valor burstil de renta variable, un inversor ha llegado a la conclusin de que la probabilidad de que dicho valor suba su cotizacin (estado A), la mantenga (estado B) o baje (estado C) durante una semana de cotizacin depende de su comportamiento en las dos semanas anteriores. Las probabilidades se indican en la siguiente tabla:Et-1Etp(A)p(B)p(C)

AA0,70,10,2

AB0,30,50,2

AC0,50,30,2

BA0,40,10,5

BB0,20,70,1

BC0,10,30,6

CA0,30,30,4

CB0,30,10,6

CC0,20,10,7

Atendiendo a las definiciones que hemos indicado antes, nos encontramos ante una cadena de Markov de n = 3 estados y de orden k = 2. Pero, definiendo los estados como (Et-1, Et-2) podemos convertir la cadena de orden 2 en cadena de orden 1. Contaremos con 32 = 9 estados posibles. Como cada estado puede evolucionar slo a otros 3 en el instante siguiente, tendremos 27 transiciones posibles. Endefinitiva, tendremos la matriz de transicin que se muestra a continuacin, en la que los orgenes son (Et-1, Et-2) y los destinos (Et, Et-1). En cada celda, se ha indicado el valor de Et, y la probabilidad correspondiente.AAABACBABBBCCACBCC

AAA/0,7B/0,1C/0,2

ABA/0,3B/0,5C/0,2

ACA/0,5B/0,3C/0,2

BAA/0,4B/0,1C/0,5

BBA/0,2B/0,7C/0,1

BCA/0,1B/0,3C/0,6

CAA/0,3B/0,3C/0,4

CBA/0,3B/0,1C/0,6

CCA/0,2B/0,1C/0,7

PROBLEMAS3.7.1 Servicio en tenisEs bien conocido que en el deporte de tenis, el jugador que sirve tiene dos oportunidades para que la pelota entre en el cuadrado de servicio. Si falla las dos veces, pierde el punto.En cada servicio, el tenista puede optar por sacar fuerte o flojo. Si saca fuerte, tiene una probabilidad de que la pelota entre en el cuadro de 0,5. Si saca flojo, la probabilidad de entrar la pelota en el cuadro es de 0,8. Ahora bien, si entra el servicio fuerte, su probabilidad de ganar el punto es de 0,7, y si entra el servicio flojo su probabilidad de ganar el punto es de 0,4. La ganancia por punto ganado es de +10, y la ganancia por punto perdido de 10.Se desea conocer la estrategia a seguir para maximizar la ganancia esperada por servicio en el largo plazo.Se pregunta:a) Formule el problema como un proceso markoviano con remuneracin y decisin, definiendo los estados posibles del sistema, la variable de decisin y las matrices P y R para todas las posibilidades.b) Mediante iteracin en el espacio de los estados, identifique una posible poltica de servicio ptima.c) Determine la ganancia esperada por servicio a largo plazo, si el tenista opta siempre por el servicio fuerte.Solucin problema del tenisLa forma ms adecuada de resolver el problema es definir sus parmetros del siguiente modo: Etapas: cada servicio es una etapa en la evolucin del sistema. Si se trata de un primer servicio, puede ser que el servicio d lugar a un punto (si entra en el cuadro) o a un segundo servicio (si no entra). El segundo servicio dar lugar, en todos los casos, a un punto, que podr ser ganado o perdido. Estados: por lo que se acaba de exponer, la informacin que necesitamos saber para conocer la evolucin del sistema consiste en saber si estamos en el primer servicio (estado 1) o en el segundo servicio (estado 2). Por lo tanto, se trata de un sistema dinmico con dos estados. Variable de decisin: el tenista puede, en parte, controlar con sus acciones la evolucin del sistema. En este caso, puede hacerlo sirviendo fuerte (FU) o sirviendo flojo (FL). El tenista puede sacar fuerte o flojo tanto en el primer servicio como en el segundo.Por lo tanto, nos encontramos ante un sistema de Markov con remuneracin y decisin (caso particular de los modelos de programacin dinmica aleatoria homognea en el tiempo), del que nos interesa conocer el comportamiento a largo plazo (esto es, el problema de horizonte infinito).Las reglas del juego del tenis, junto con las probabilidades que expresan las capacidades del jugador, nos permitirn determinar las matrices de probabilidades de transicin y de remuneracin, para todos los valores de estados del sistema y de variables de decisin.Primer servicioSi estamos en el primer servicio y lo entramos en el cuadro, se disputar el punto y el sistema evolucionar al estado 1 (volveremos al primer servicio). Veamos qu probabilidades y qu remuneraciones obtenemos para cada una de las variables de decisin.Si saca fuerte, la probabilidad de entrar el servicio es de 0,5. sta ser, entonces, la probabilidad de transicin. Dado que el tenista tiene una probabilidad de ganar el punto de 0,7 (y de perderlo de 0,3), la remuneracin ser:0,7(+10) + 0,3(-10) = +4Si, en cambio, saca flojo, la probabilidad de entrar el servicio es de 0,8. sta ser, una vez ms, la probabilidad de transicin al estado 1. Sin embargo, las probabilidades de ganar el punto en estas condiciones no son tan halageas como en el caso anterior, y tenemos:0,4(+10) + 0,6(-10) = -2Si no entra el primer servicio, no se disputa el punto y pasamos al segundo servicio: en trminos del problema, evolucionamos al estado 2. Al no disputarse el punto, la remuneracin es cero. Las probabilidades de que esto suceda dependen de la variable de decisin:Si saca fuerte, la probabilidad de fallar el servicio es de 0,5.Si saca flojo, la probabilidad de fallar el servicio es de 0,2.Segundo servicioEn el segundo servicio, el punto est en juego, y si el tenista falla el servicio pierde el punto. Pase lo que pase, el prximo saque ser un primer servicio. Por lo tanto, en el estado 2 la probabilidad de transicin al estado 1 es de 1, y en consecuencia la probabilidad de transicin al estado 2 es de 0.Cmo puede ganar el punto el tenista en el segundo servicio? Entrando el servicio y ganando el punto. Por el contrario, el tenista pierde el punto si falla el servicio, o si entra el servicio y pierde el punto. En consecuencia, las remuneraciones valdrn:Si saca fuerte: 0,50,7(+10) + {0,50,3 + 0,5}(-10) = -3Si saca flojo: 0,80,4(+10) + {0,80,6 + 0,}(-10) = -3,6Matrices de transicin y remuneracinAhora ya podemos formular el problema como un sistema markoviano de remuneracin y decisin.Las matrices de remuneracin y decisin quedan como:Estado 2FU FL

Matriz PMatriz RVector qEn la tabla adjunta se muestra la iteracin para el espacio de los estados, que muestra que la poltica ptima a largo plazo es la {FU, FU}, esto es, sacar siempre fuerte.012345678910111213

f (1,FU)f (1, FL)f (0, FU)f (0, FL)0.000 2.000 4.500 3.250 3.875 3.563 3.719 3.641 3.680 3.660 3.670 3.665 3.667 3.6660.000 -1.600 2.400 0.400 1.400 0.900 1.150 1.025 1.088 1.056 1.072 1.064 1.068 1.0660.000 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.3330.000 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600

f*(1)f*(0)0.000 2.000 4.500 3.250 3.875 3.563 3.719 3.641 3.680 3.660 3.670 3.665 3.667 3.6660.000 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333

f'(1)f'(0) g0.000 5.000 2.500 3.750 3.125 3.438 3.281 3.359 3.320 3.340 3.330 3.335 3.333 3.3340.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.0000.000 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333

Podemos determinar de manera exacta el comportamiento del sistema a largo plazo planteando para la poltica {FU, FU}:g + w1 = 2 + 0,5w1 + 0,5w2 g + w2 = -3 + w1Haciendo w1 = 0, obtenemos: g = 0,33 y w2 = 3,33.En definitiva, adoptando la poltica{FU, FU} el tenista puede ganar su servicio a largo plazo, puesto que la ganancia por servicio a largo plazo es positiva.En la resolucin manual, basta con iterar dos o tres etapas y resolver el sistema para la poltica obtenida (como puede verse, la convergencia es bastante lenta en este caso).Estado 1Estado 2Estado 1Estado 2Estado 1FU FL0,50,5+040+20,80,2-20-1,610-3-310-3,6-3,6