82
EMALCA CIMAT, Guanajuato Agosto 1–12, 2005 CONTROL OPTIMO Y JUEGOS ESTOCASTICOS On´ esimo Hern ´ andez–Lerma Departamento de Matem ´ aticas CINVESTAV–IPN exico, D.F. Resumen: Estas son notas para un mini–curso (de 7.5 horas, aproximadamente) introductorio sobre algunos aspectos de los juegos din´ amicos, incluyendo juegos determin´ ısticos y estoc ´ asticos, a tiempo discreto y tiempo continuo. Se presenta una breve introducci´ on a problemas de control ´ optimo y despu´ es se ven los principales tipos de equilibrios cooperativos y equilibrios no–cooperativos. El curso est´ a dirigido a estudiantes avanzados de licenciatura o principiantes de posgrado. No es necesario que los estudiantes satisfagan ning ´ un requisito en particular, s´ olo que no se asusten si oyen frases como “ecuaci´ on diferencial”, “variable aleatoria”, etc.

CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

Embed Size (px)

Citation preview

Page 1: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

EMALCACIMAT, GuanajuatoAgosto 1–12, 2005

CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

Onesimo Hernandez–LermaDepartamento de Matematicas

CINVESTAV–IPNMexico, D.F.

Resumen: Estas son notas para un mini–curso (de 7.5 horas, aproximadamente)introductorio sobre algunos aspectos de los juegos dinamicos, incluyendo juegosdeterminısticos y estocasticos, a tiempo discreto y tiempo continuo. Se presentauna breve introduccion a problemas de control optimo y despues se ven losprincipales tipos de equilibrios cooperativos y equilibrios no–cooperativos. Elcurso esta dirigido a estudiantes avanzados de licenciatura o principiantes deposgrado. No es necesario que los estudiantes satisfagan ningun requisito enparticular, solo que no se asusten si oyen frases como “ecuacion diferencial”,“variable aleatoria”, etc.

Page 2: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

2

C O N T E N I D O

1. Introduccion 6

Parte 1: Problemas de control optimo (juegos con un jugador)

2. Definicion del problema de control optimo 10Procesos de MarkovProcesos de control markovianos

3. El principio del maximo 23

4. Programacion dinamica 32

5. Control minimax (juegos contra la naturaleza) 41

Parte 2: Juegos cooperativos

6. Equilibrios de Pareto 45

7. Equilibrios de compromiso 51

8. El problema de negociacion de Nash 55

Parte 3: Juegos no–cooperativos

9. Equilibrios de Nash 59

10. Juegos simetricos y de suma cero 65

11. Juegos de Stackelberg 70

Referencias 73

Page 3: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

3

Observaciones sobre la bibliografıa

La literatura sobre juegos estaticos es extensısima, pero para juegos dinami-cos esta limitada a artıculos sobre casos especiales y a un punado de libros, comolos siguientes.

• Para juegos diferenciales (determinısticos) una buena referencia es el libro deDockner et al. (2000). Algunos libros clasicos en este tema son los de Isaacs(1965) y Leitmann (1974), aunque el primero solo trata juegos de suma cero.

• El libro de Basar y Olsder (1999) solo considera equilibrios no–cooperativos,pero tiene la “ventaja” de que estudia algunos tipos de juegos diferenciales tantodeterminısticos como estocasticos y, ademas, juegos a tiempo discreto. La “desven-taja” es que el material y su presentacion son un tanto arcaicos, porque el librose escribio originalmente en 1982 y entre esa fecha y la de la segunda edicion, en1999, han habido muchos nuevos desarrollos.

• El libro de Filar y Vrieze (1997) estudia juegos estocasticos a tiempo discreto,con espacio de estados finito.

Por supuesto, algunos textos de teorıa de juegos incluyen “algo” sobre juegosdinamicos, por ejemplo, Fudenberg y Tirole (1991), Gibbons (1992), Petrosjan yZenkevich (1996).

Advertencia

Un concepto fundamental en teorıa de juegos es el de equilibrio de Nash,tambien conocido como equilibrio no–cooperativo, introducido por John Nash(1950). Para juegos dinamicos, la existencia de tales equilibrios se conoce enuna variedad de casos especiales, pero para juegos con espacio de estados no–numerable sigue siendo un problema abierto. Lamentablemente, hay publica-ciones que aseguran la existencia de equilibrios de Nash pero cuyas demostra-ciones son incorrectas. Ejemplos de estas publicaciones, para juegos a tiempodiscreto, son los artıculos:

• Lai, H.–C. Tanaka, K. (1984). On an N–person noncooperative Markovgame with a metric state space. J. Math. Anal. Appl. 101, pp. 78–96.

Page 4: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

4

• Sobel, M.J. (1973). Continuous stochastic games. J. Appl. Prob. 10, pp.597–604.

Para juegos a tiempo continuo:

• Borkar, V.S., Ghosh, M.K. (1992). Stochastic differential games: an occu-pation measure based approach. J. Optim. Theory Appl. 73, pp. 359–385;correction: ibid, 88 (1996), pp. 251–252.

Por desgracia el resultado (erroneo) en este ultimo artıculo se ha reproducido entrabajos posteriores, por ejemplo:

• Ramachandran, K.M. (2002). Stochastic differential games and applica-tions. Chapter 8 in Handbook of Stochastic Analysis and Applications, ed. byD. Kannan and V. Lakshmikantan, Marcel Dekker, New York.

Los equilibrios de Nash estan entre los muchısimos conceptos que son tri-viales de analizar para juegos estaticos o juegos repetidos, pero que para juegosdinamicos (con espacio de estados no–numerable) han permanecido casi “into-cables” hasta la fecha.

Page 5: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

5

Indice de notacion

– Si A es una matriz, A′ = transpuesta de A.

– Los vectores se escribiran como matrices columna:x = (x1, . . . , xn)′.

– Si x, y son vectores, x ≤ y significa quexi ≤ yi para todo i.

– El producto escalar de vectores x, y se escribe x · y o x′y.

– Dada una funcion real f : IRn → IR y un vectorx = (x1, . . . , xn)′, las derivadas parciales se denotaran con subındices:

fxi= ∂f/∂xi.

fx (vector fila) denota el gradiente de f , y fxx la matriz de segundas deri-vadas parciales (la matriz Hessiana), es decir,

fx = (fx1 , . . . , fxn),

fxx = (fxixj).

Si f : IRn → IRk es una funcion vectorial, fx = (∂fi/∂xj) denota la matrizJacobiana.

Page 6: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

6

1 Introduccion

En esta seccion se presentan algunos ejemplos que serviran para motivar e ilus-trar algunos de los conceptos que se introduciran en secciones posteriores.

Ejemplo 1.1: Oligopolios

Oligopolio: Mercado con pocos vendedores (tambien llamados productores ofirmas) y muchos compradores.

Ejemplos de oligopolios:

• Servicios de transporte (autobuses, aerolıneas, ...)

• Mercados de energeticos (gas, petroleo, electricidad, ...)

• Bebidas (refrescos, cerveza, ...), etc.

El hecho de que haya pocos vendedores implica que las acciones de cua-lesquiera de ellos afecta el precio del producto y, por lo tanto, tiene un impactomedible sobre los competidores.

Casos especiales:

• Duopolio: El duopolio de Cournot (1838) fue la primera aplicacion deteorıa de juegos a economıa.

• Monopolio (una unica firma): en este caso el “juego” se reduce a un pro-blema de control optimo que se estudia en el contexto de sistemas de pro-duccion. 2

Ejemplo 1.2. Un oligopolio a tiempo discreto, N firmas, [Kirman, Sobel (1974)].En cada tiempo t = 0, 1, . . . tenemos:

• Estado del juego: xt = (x1t , . . . , x

Nt ), donde

xit := nivel de inventario de la firma i (i = 1, . . . , N) al inicio del periodo t.

• Accion de control de la firma i : ait = (zi

t, ρit) donde

zit := cantidad que decide producir en el periodo t,

ρit := precio que anuncia.

Page 7: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

1. INTRODUCCION 7

• Demanda dit del producto de la firma i. La demanda puede ser deter-

minıstica, estocastica o incierta.

• Modelo dinamico del juego: el estado xt = (x1t , . . . , x

Nt ) satisface

xt+1 = xt + zt − dt ∀ t = 0, 1, . . . . (1.1)

• Ganancia neta de la firma i : rit(x

it, a

it, d

it). Por ejemplo, si yi

t := xit + zi

t,entonces

rit(· · · ) = ρi

tdit − hi · (yi

t − dit)

+ − bi · (dit − yi

t)+ − cizi

t, (1.2)

donde hi, bi, ci son constantes dadas que representan, respectivamente, cos-tos unitarios de almacenamiento, de penalizacion (por no satisfacer la de-manda total) y de produccion.

Una estrategia del jugador i es una regla, digamos πi = {πit, t = 0, 1, . . .},

que en cada tiempo t le dice al jugador que accion tomar, digamos, ait = (zi

t, ρit).

πit

Informacion −→ Acciones ait

Una multiestrategia es un vector π = (π1, . . . , πN) donde πi es una estrategiadel jugador i.

Sea Vi(π, x0) la ganancia neta total del jugador i, dado que las firmas usan lamultiestrategia π = (π1, . . . , πN) y los inventarios iniciales son x0 = (x1

0, . . . , xN0 ).

Por ejemplo, en un juego con horizonte finito T ,

Vi(π, x0) := Eπx0

[T−1∑t=0

rit(x

it, a

it, d

it) + ri

T (xiT )

]. (1.3)

En un juego con horizonte infinito se tendrıa (e.g.)

Vi(π, x0) := Eπx0

[∞∑

t=0

αtir

it(x

it, a

it, d

it)

](1.4)

donde 0 < αi < 1 es un “factor de descuento”.

Page 8: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

8

• En principio, cada jugador o firma desea “maximizar” su ganancia neta.

Sin embargo, la regla es que no existen multiestrategias que satisfagan tal condi-cion. Por tal motivo, en teorıa de juegos se habla de equilibrios en lugar demultiestrategias “optimas”.

• En el caso estocastico, el oligopolio anterior es un caso especial de cier-tos juegos a tiempo discreto conocidos como juegos estocasticos o juegosmarkovianos, introducidos por Shapley (1953). 2

Ejemplo 1.3. Un duopolio a tiempo continuo con “sticky prices” [Dockner etal. (2000)]

• N = 2 firmas; el producto es homogeneo.

• Para i = 1, 2, ai(t) ≥ 0 es la tasa de produccion de la firma i.

• El precio de mercado (del producto) varıa de acuerdo con la funcion dedemanda α− [a1(t) + a2(t)], donde α > 0 es una constante.

• El precio es pegajoso, lo cual significa que el precio de mercado no se ajustainstantaneamente al precio indicado por la funcion de demanda; de hecho,la tasa de cambio del precio p(t) es

p(t) = s{α− [a1(t) + a2(t)]− p(t)} para t > 0, p(0) = p0, (1.5)

donde s > 0 es el parametro de rapidez de ajuste del precio.

• La funcion de costo de produccion es la misma para ambas firmas:

C(ai) := c ai +1

2a2

i , con 0 < c < α constante.

• Dada una multiestrategia π = (a1(·), a2(·)) la funcion objetivo de la firmai (i = 1, 2) es

Vi(π) :=

∫ ∞

0

e−rt[p(t)ai(t)− c ai(t)−1

2a2

i (t)]dt, (1.6)

donde r > 0 es el factor de descuento. Cada firma desea maximizar sufuncion objetivo (1.6) sujeta a (1.5) y ai(·) ≥ 0. 2

Page 9: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

1. INTRODUCCION 9

Ejemplo 1.4: Juegos LQ. El juego (1.5)–(1.6) es un ejemplo de juego LQ, delingles: Linear system, Quadratic cost. Este tipo de juegos es muy importantedebido a sus multiples aplicaciones y, sobre todo, porque en muchos casos sepueden resolver explıcitamente.

En general, en un juego LQ a tiempo discreto el estado evoluciona de acuerdoa una ecuacion de la forma

xt+1 = Atxt + Btat + ξt para t = 0, 1, . . . (1.7)

donde xt y at son vectores que representan, respectivamente, el estado del juegoy el vector de acciones de los jugadores, y los coeficientes At y Bt son matricesde dimensiones adecuadas. El vector ξt en (1.7) representa “perturbaciones”, yasean determinısticas o estocasticas. Asimismo, en el caso LQ la funcion ri

t en(1.3) o (1.4) resulta ser cuadratica en el estado xt y cuadratica en el vector at deacciones de control, digamos (escribiendo y′ por la transpuesta de una matriz ovector y),

cit(xt, at) = x′tQ

itxt + a′tR

itat (1.8)

donde Qit es una matriz simetrica y definida no–negativa, y Ri

t es simetrica ydefinida positiva. La funcion “terminal” ri

T en (1.3) tambien es cuadratica, di-gamos ri

T (xT ) = x′T SiT xT , con Si

T matriz simetrica definida no–negativa.

Page 10: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

10

Parte 1. Problemas de control optimo

2 Definicion del problema de control optimo

Un problema de control optimo (PCO) es un juego dinamico con un jugador. Enparticular, los Ejemplos 1.2 y 1.3 con N = 1 se reducen a PCOs.

En un PCO debemos especificar:

1. como evoluciona el sistema de interes; es decir, se debe especificar el modelodinamico del sistema;

2. como se va a controlar el sistema; es decir, se debe especificar el conjunto deestrategias admisibles, tambien llamadas polıticas de control o simplementepolıticas o estrategias;

3. restricciones adicionales (por ejemplo, en el estado del sistema o en las estrate-gias), si es necesario hacerlas;

4. como se va a “medir” la respuesta del sistema a cada una de las distintas es-trategias admisibles; es decir, se debe especificar la funcion objetivo, tambienllamada ındice de funcionamiento.

Dadas estas cuatro componentes, el PCO se puede resumir como sigue: optimizarla funcion objetivo sujeta a las restricciones en 1, 2 y 3.

En esta seccion describiremos las componentes 1 a 4 de un PCO.

Definicion 2.1: El modelo dinamico. Los modelos mas comunes (aunque no losunicos) son los siguientes.

Sistemas a tiempo discreto:

xt+1 = F (xt, at, ξt) para t = 0, 1, . . . , T, (2.1)

con condicion inicial x0 = x, donde T ≤ ∞ es el horizonte del problema, y lasξt son “perturbaciones”. Dependiendo de las ξt, se dice que (2.1) representa un

• sistema estocastico si las ξt son variables aleatorias;

Page 11: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

2. DEFINICION DEL PROBLEMA DE CONTROL OPTIMO 11

• sistema determinıstico si las ξt forman una sucesion de constantes convalores conocidos;

• sistema incierto si se sabe que las ξt son constantes con valores en algunconjunto dado, pero no se conoce el valor particular de cada ξt.

En todo caso (incluyendo los modelos a tiempo continuo que veremos a con-tinuacion), el conjunto en donde toman sus valores las variables xt se llama elespacio de estados del PCO y lo denotaremos por X. Para fijar ideas supon-dremos que X es un subconjunto cerrado de IRd para algun entero d ≥ 1. (Masgeneralmente, basta suponer que X es un espacio de Borel, es decir, un subcon-junto de Borel de un espacio metrico separable y completo.)

Sistemas a tiempo continuo:

• Caso determinıstico:

xt = F (t, xt, at) para 0 ≤ t ≤ T, (2.2)

con T ≤ ∞ y condicion inicial dada x0 = x.

• Caso estocastico: este caso admite una gran diversidad de modelos. Elmas estudiado es el de una ecuacion diferencial estocastica

dxt = F (t, xt, at)dt + σ(t, xt, at)dWt, 0 ≤ t ≤ T, x0 = x, (2.3)

con T ≤ ∞, y Wt es un proceso de Wiener. El estado inicial x0 puede serdeterminıstico o estocastico. Otros modelos estocasticos a tiempo continuoson las cadenas de Markov, los procesos de Levy, los procesos hıbridos (e.g., elsistema (2.3) pero, ademas, con una componente de saltos),...

Definicion 2.2: Estrategias admisibles. Una estrategia de control, digamos π ={at}, generalmente se especifica imponiendo restricciones

(a) en las acciones de control at directamente, y/o

(b) en la informacion que puede o debe usar el controlador en cada tiempo t.

Por ejemplo, en (a), un caso muy comun es pedir

at ∈ A(xt) ∀ t, (2.4)

Page 12: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

12

donde A(x) es el conjunto de acciones factibles cuando el estado es x.

Con respecto a (b), un caso muy general es el de una estrategia no–anticipan-te, tambien conocida como estrategia con memoria (memory strategy), en laque, en cada tiempo t, la accion at depende de “toda la historia del procesohasta el tiempo t”. Por ejemplo, en un PCO a tiempo discreto tenemos

at = g(t, x0, . . . , xt, a0, . . . , at−1),

donde g es una funcion dada. El otro extremo es cuando g depende de t unica-mente,

sistema

controlador� �

- -

a x

Figura 2.1. Un esquema de retroalimentacion.

controlador- -

t at

Figura 2.2. Una estrategia de lazo abierto.

es decir,at = g(t) ∀ t, (2.5)

en cuyo caso se dice que π es una estrategia de lazo abierto (open loop). Si gdepende solo de t y xt, es decir,

at = g(t, xt) ∀ t, (2.6)

Page 13: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

2. DEFINICION DEL PROBLEMA DE CONTROL OPTIMO 13

decimos que π es una estrategia de retroalimentacion (feedback), tambien lla-mada estrategia de lazo cerrado (closed loop) o estrategia markoviana. Si ade-mas g no depende de t, i.e.

at = g(xt) ∀ t, (2.7)

entonces π es una estrategia markoviana estacionaria.

Las estrategias mencionadas se dice que son determinısticas, y generalmenteson “suficientes” para estudiar problemas de control. Sin embargo, en algunosproblemas de control con restricciones o en problemas de juegos es indispensa-ble usar estrategias aleatorizadas, tambien conocidas como estrategias mixtaso controles relajados (relaxed controls), en las que cada accion de control at esuna variable aleatoria con una distribucion de probabilidad φt concentrada enel conjunto A(xt) en (2.4), lo cual denotamos como

at ∼ φt(·). (2.8)

Mas explıcitamente, φt(B) := Prob (at ∈ B) para B ⊂ A(xt). En algunos casos,la distribucion φt depende no solo del tiempo t sino tambien del estado xt. Eneste caso escribimos

at ∼ φt(·|xt) ∀ t. (2.9)

Las estrategias en (2.8) y (2.9) son la version aleatorizada (o “relajada”) de lasestrategias de lazo abierto y de lazo cerrado en (2.5) y (2.6), respectivamente.

Para cada estado x ∈ X, el conjunto de acciones factibles A(x) en (2.4) es unsubconjunto cerrado de un espacio A que se llama el espacio de acciones. Amenos que se especifique lo contrario, supondremos que A es un subconjuntocerrado de IRm para algun m ≥ 1. (Mas generalmente, basta suponer que A esun espacio de Borel.)

Definicion 2.3. Restricciones adicionales. Estas restricciones pueden dependerde la naturaleza del PCO. Por ejemplo, en un problema de control de pobla-ciones (e.g. pesquerıas, epidemias, etc.) el estado xt del sistema es el tamanode la poblacion al tiempo t, y obviamente se debe pedir una condicion de no–negatividad,

xt ≥ 0 ∀ t.

Esta misma restriccion se debe cumplir en problemas de control de recursos re-novables (e.g. agua, bosques) o no–renovables (e.g. petroleo, minerales), o en

Page 14: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

14

problemas financieros en los que el estado es un capital. En otras situaciones sepuede requerir que el estado terminal xT pertenezca a un cierto conjunto K, i.e.xT ∈ K.

Otro caso muy comun es cuando se desea optimizar una cierta funcion obje-tivo, digamos V0(π), sobre todas las estrategias π para las que

Vi(π) ≤ bi ∀ i = 1, . . . , n, (2.10)

donde las Vi(·) son funciones dadas y las bi son constantes. Por ejemplo, en unproblema de control de produccion, tıpicamente se desea maximizar la ganan-cia neta V0(π) sujeta a que ciertos costos Vi(π) (e.g. costos de manufactura, dealmacenamiento, de distribucion, etc.) estan acotados por arriba, como en (2.10).

Definicion 2.4. La funcion objetivo o ındice de funcionamiento. Para un PCOdeterminıstico a tiempo discreto, ejemplos tıpicos de funcion objetivo son: paracada estrategia π = {at} y cada estado inicial x0 = x,

• costo total con horizonte finito T :

V (π, x) :=T−1∑t=0

c(xt, at) + CT (xT ), (2.11)

donde c(x, a) es el costo por etapa, y CT (x) es el costo terminal

• costo total descontado con horizonte infinito:

V (π, x) :=∞∑

t=0

αtc(xt, at), (2.12)

donde 0 < α < 1 es el factor de descuento.

En un PCO estocastico a tiempo discreto se debe tomar la esperanza en ellado derecho de (2.11) y (2.12); por ejemplo, en lugar de (2.11) tendrıamos

V (π, x) := E

[T−1∑t=0

c(xt, at) + CT (xT )

]. (2.13)

Page 15: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

2. DEFINICION DEL PROBLEMA DE CONTROL OPTIMO 15

En un PCO a tiempo continuo las sumatorias en (2.11) y (2.12) se reemplazanpor integrales. Por ejemplo, en el caso de horizonte finito

V (π, x) :=

∫ T

0

c(xt, at)dt + CT (xT ). (2.14)

Si ademas el PCO es estocastico, se debe tomar la esperanza en el lado derecho,i.e.

V (π, x) = E

[∫ T

0

c(xt, at)dt + CT (xT )

]. (2.15)

En teorıa de juegos, a una funcion objetivo tambien se le llama funcion depago (payoff function).

Finalmente, como ya mencionamos al principio de esta seccion, en un PCOse especifican la funcion objetivo V (π, x) (alguna de las funciones (2.11) a (2.15))y el conjunto, digamos Π, de estrategias admisibles y entonces el PCO consisteen optimizar (ya sea minimizar o maximizar) V (π, x) sobre todas las estrategiasπ ∈ Π para las que el proceso de estados {xt} sigue el modelo dinamico corres-pondiente (e.g. (2.1) a (2.3)) y satisface las restricciones adicionales (e.g. (2.10)),si las hay. A la funcion

V ∗(x) := infπ∈Π

V (π, x) ∀ x ∈ X, (2.16)

se le llama la funcion de valor del PCO. En el caso de “costos”, como en (2.11)–(2.15), a V ∗(x) tambien se le llama funcion de costo mınimo. Si en lugar decostos tenemos “ganancias” o “utilidades” que se desean maximizar, entoncesen lugar de (2.16) la funcion de valor es

V ∗(x) := supπ∈Π

V (π, x) (2.17)

y se le llama tambien la funcion de ganancia (o de utilidad) maxima.

En todo caso, si existe una estrategia π∗ ∈ Π tal que

V ∗(x) = V (π∗, x) ∀ x ∈ X, (2.18)

se dice que π∗ es una estrategia optima.

Ejemplo 3.5. El siguiente PCO se conoce como problema de seleccion de porta-folio (de inversion) o como problema de inversion y consumo, y se puede

Page 16: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

16

plantear a tiempo discreto o a tiempo continuo.

Tiempo discreto. Considerese un mercado financiero con dos tipos de ac-tivos:

• un activo libre de riesgos (e.g. algun tipo de bonos o CETES = Certificadosde la Tesorerıa) con una tasa fija de interes r > 0, y

• un activo con riesgo (e.g. algun tipo de acciones) con una tasa aleatoria deinteres ξt ≥ 0. Obviamente, pedimos que E(ξt) > r.

La variable de estado es el capital xt de un cierto inversionista, que en cadatiempo t (t = 0, 1, . . . , T ≤ ∞) debe decidir cuanto consumir y cuanto invertir.Entonces las acciones de control son

at = (ct, pt) ∈ [0, xt]× [0, 1], (2.19)

donde

• ct := cantidad que el inversionista decide consumir,

• pt := fraccion de xt − ct que decide invertir en el activo con riesgo, de modoque 1− pt es la fraccion de xt − ct que invertira en el activo sin riesgo.

El conjunto A(x) := [0, x] × [0, 1] en (2.19) es el conjunto de “acciones factibles”,como en (2.4).

El modelo dinamico del sistema es

xt+1 = [(1− pt)(1 + r) + ptξt](xt − ct) ∀ t = 0, 1, . . . (2.20)

con condicion inicial x0 = x > 0. Una funcion objetivo tıpica es una “utilidad deconsumo”

V (π, x) := Eπx

[T∑

t=0

αtU(ct)

](2.21)

donde T ≤ ∞, α ∈ (0, 1) es el factor de descuento, y U(c) es una funcion deutilidad. El PCO consiste en maximizar la funcion en (2.21) sobre todas las es-trategias π = {at} con at como en (2.19), bajo la “restriccion” (2.20).

Tiempo continuo. En este caso el precio b(t) del activo sin riesgo (el bono,digamos) varıa de acuerdo a una ecuacion diferencial ordinaria

db(t) = rb(t)dt.

Page 17: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

2. DEFINICION DEL PROBLEMA DE CONTROL OPTIMO 17

con r > 0, mientras que el precio s(t) del activo con riesgo (el “stock”) esta dadopor una ecuacion diferencial estocastica

ds(t) = s(t)[mdt + σdw(t)],

donde m > r y σ > 0 son constantes, y w(·) es un proceso de Wiener estandar.Las acciones de control a(t) = (c(t), p(t)) tienen la misma interpretacion que en(2.19). El modelo de sistema, en lugar de (2.20), ahora resulta ser la ecuaciondiferencial estocastica.

dx(t) = (1− p(t))x(t)r dt + p(t)x(t)[m dt + σdw(t)]− c(t)dt, (2.22)

con x(0) = x > 0. Los tres terminos en el lado derecho de (2.22) corresponden,respectivamente, a la ganancia por el capital invertido en el bono, la gananciapor la inversion en el stock, y la disminucion del capital debida al consumo.

Por ultimo, la funcion objetivo que se desea optimizar es de nuevo como en(2.21), pero en “tiempo continuo”, i.e.

V (π, x) := Eπx

[∫ T

0

e−ρtU(c(t))dt

], (2.23)

donde ρ > 0 es el factor de descuento.

Notese que en (2.20) necesariamente se tiene xt ≥ 0 para todo t, si x0 = x > 0,mientras que en (2.22) la condicion de no–negatividad no es evidente (por laspropiedades del proceso w(·)); se debe imponer la condicional adicional x(t) ≥ 0.Otra forma de asegurar la condicion de no–negatividad consiste en sustituir eltiempo terminal T en (2.23) por el tiempo aleatorio

τ := min{T, τ0},

donde τ0 := inf{t ≥ 0 | x(t) = 0} es el primer tiempo en el que el proceso x(·)llega a cero.

Las aplicaciones del control optimo a problemas de finanzas se iniciaron conlos trabajos de Samuelson (1969) y Merton (1969) para problemas a tiempo dis-creto y tiempo continuo, respectivamente. Actualmente, dichas aplicaciones son

Page 18: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

18

material estandar; ver e.g. Fleming y Rishel (1975), Fleming y Soner (1992), Sethiy Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).

Procesos de Markov

Para motivar la definicion de “proceso de Markov”, considerese la ecuaciondiferencial ordinaria, en IRn,

x(t) = F (x(t)) ∀ t ≥ 0, con x(0) = x0. (2.24)

(La funcion F podrıa depender del tiempo t.) Bajo ciertas hipotesis sobre F , estaecuacion tiene una solucion unica

x(s) = x0 +

∫ s

0

F (x(r))dr ∀ s ≥ 0.

Ademas, para t > s ≥ 0 tenemos

x(t) = x(s) +

∫ t

s

F (x(r))dr. (2.25)

Interpretando a s como el “tiempo presente” y a t > s como el “tiempo futuro”,la ecuacion (2.25) dice que el estado presente x(s) determina el futuro x(t); o bien,que dado el estado presente x(s), el futuro x(t) es independiente del pasado x(r), parar < s. Por este motivo se dice que (2.25) es una condicion de causalidad (elpresente determina el futuro); tambien se dice que el sistema determinıstico x(·)no tiene memoria o que satisface la condicion de Markov (tambien llamadapropiedad de Markov).

Para procesos estocasticos la condicion de Markov se expresa de manera si-milar a (2.25). Por ejemplo, si x• = {xt, t ≥ 0} es un proceso estocastico a tiempocontinuo, con valores en algun espacio de estados X, se dice que x• satisface lacondicion de Markov o que x• es un proceso de Markov si para todo conjuntoB ⊂ X y tiempos t ≥ s ≥ 0 se tiene

P(xt ∈ B | xr ∀ 0 ≤ r ≤ s) = P(xt ∈ B | xs). (2.26)

En particular, comparando esta expresion con (2.25) vemos que el sistema deter-minıstico x(·) es un proceso de Markov. Los procesos de Markov incluyen lassoluciones de ecuaciones diferenciales estocasticas

dxt = F (xt)dt + σ(xt)dWt, (2.27)

Page 19: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

2. DEFINICION DEL PROBLEMA DE CONTROL OPTIMO 19

bajo ciertas hipotesis sobre los coeficientes F y σ, los cuales pueden dependertambien del tiempo t, no solo del estado xt (vea (2.3)). Otros ejemplos son lascadenas de Markov (cuyo espacio de estados es un conjunto numerable), losprocesos de Levy, ...

Para un proceso estocastico a tiempo discreto, x• = {xt, t = 0, 1, . . .} conespacio de estados X, la propiedad de Markov se puede escribir como:

P(xt+1 ∈ B | x0, . . . , xt) = P(xt+1 ∈ B | xt) (2.28)

para todo t = 0, 1, . . . y B ⊂ X. Esta es una probabilidad de transicion en unpaso, de t a t+1, pero se puede demostrar que es equivalente a una condicion enk pasos, de t a t + k, para k = 1, 2, . . .

Un proceso de Markov a tiempo discreto tambien se conoce como cadena deMarkov.

En muchısimas aplicaciones, una cadena de Markov x• = {xt, t = 0, 1, . . .} sedefine mediante una ecuacion de diferencias

xt+1 = F (xt, ξt) ∀ t = 0, 1, . . . ; x0 dado, (2.29)

donde {ξt} es una sucesion de variables aleatorias independientes, con valoresen algun conjunto S, e independientes del estado inicial x0, y F : X × S → Xes una funcion dada. Por ejemplo, un proceso muy comun es el proceso autore-gresivo de primer orden definido por

xt+1 = G(xt) + ξt, (2.30)

tambien conocido como proceso con “ruido aditivo”. Un caso especial son lossistemas lineales

xt+1 = Γxt + ξt

con X = S = IRn y Γ una matriz cuadrada de orden n.

Procesos de control markovianos: tiempo discreto

Sea x• = {xt, t = 0, 1, . . .} un proceso controlado con valores es un espacioX. Por analogıa con la propiedad de Markov (2.28), se dice que x• es un procesode control markoviano (PCM) si para cualquier estrategia π = {at, t = 0, 1, . . .}

Page 20: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

20

y cualquier t = 0, 1, . . . , la distribucion de x• en el tiempo t + 1, dada toda la“historia del proceso hasta el tiempo t” depende solo del estado y la accion en eltiempo t, es decir

Prob(xt+1 ∈ B | x0, a0, . . . , xt, at) = Prob(xt+1 ∈ B | xt, at)

=: Q(B|xt, at) (2.31)

para todo B ⊂ X. La funcion Q en (2.31), i.e.

Q(B|x, a) := Prob(xt+1 ∈ B | xt = x, at = a) (2.32)

se llama la ley de transicion del PCM.

Por ejemplo, supongase que tenemos variables aleatorias i.i.d. ξt como en(2.29), e independientes de x0. Para cualquier estrategia dada π = {at}, defini-mos el proceso xπ

• = {xt} como

xt+1 = G(xt, at, ξt) ∀ t = 0, 1, . . . ; x0 dado, (2.33)

donde G : X×A×S → X es una funcion dada (compare con (2.29)). Entonces x•es un PCM y su ley de transicion Q se puede calcular mediante la distribucioncomun de las vv.aa. ξt. Notese tambien que si π es una estrategia markoviana (porejemplo como en (2.6) o (2.7)), entonces x• es una cadena de Markov. En efecto, siat = g(xt) para todo t = 0, 1, . . ., entonces (2.33) resulta

xt+1 = G(xt, g(xt), ξt) ∀ t = 0, 1, . . . , (2.34)

de modo que x• es precisamente de la forma (2.29).

Observe que el sistema lineal (1.7) y el modelo de inversion y consumo (2.20)son ambos PCMs, porque son de la forma (2.33).

Un hecho muy importante es que un PCM se puede describir de maneraconcisa mediante un modelo de control (MC) markoviano

MC := (X, A,Q, c), (2.35)

donde X es el espacio de estados del PCM, A es el conjunto de acciones, Q es la ley detransicion (en (2.32)), y c : X × A → IR es la funcion de costo por etapa que se usapara definir la funcion objetivo de interes, como en (2.11)–(2.13). Algunas veces

Page 21: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

2. DEFINICION DEL PROBLEMA DE CONTROL OPTIMO 21

es necesario anadir componentes al modelo de control. Por ejemplo, si conside-ramos un costo terminal CT (x) como es (2.13), quizas convendrıa reescribir (2.35)como

MC = (X, A,Q, c, CT ).

Si ademas hay restricciones en los controles como en (2.4), entonces escribirıa-mos

MC = (X, A, {A(x)|x ∈ X}, Q, c, CT ).

En fin, el modelo de control markoviano se puede adaptar a cada problema par-ticular que se este analizando.

Procesos de control markovianos: tiempo continuo

Sea x• = {xt, 0 ≤ t ≤ T} un proceso controlado, el cual depende por supuestode la estrategia particular π = {at, 0 ≤ t ≤ T} que se este usando. Decimos quex• es un proceso de control markoviano (PCM) a tiempo continuo si cuando πes una estrategia markoviana, el proceso x• resulta ser proceso de Markov. (Estadefinicion es una extension de la idea que usamos en (2.3.4).)

Un PCM a tiempo continuo tambien se puede representar mediante un mo-delo de control (MC) markoviano, pero el asunto es un poco mas complicadoque a tiempo discreto porque, en lugar de la ley de transicion Q en (2.35), debe-mos especificar el generador infinitesimal La (a ∈ A) del PCM, es decir, enlugar de (2.35) ahora tenemos

MC = (X, A,La, c), (2.36)

donde La es un operador definido sobre algun conjunto adecuado de funciones.

Por ejemplo, el sistema determinıstico (2.2) es un PCM porque si π = {at} esuna estrategia markoviana, digamos at = g(t, xt), entonces (2.2) se reduce a unaecuacion diferencial ordinaria

xt = F (t, xt, g(t, xt)) ≡ G(t, xt).

En este caso el generador infinitesimal asociado a (2.2) es el operador

Lav(x) := F (t, x, a) · vx (2.37)

Page 22: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

22

definido para cierta subfamilia de funciones v(x) de clase C1.

Analogamente, la ecuacion diferencial estocastica (2.3) tambien define unPCM — bajo hipotesis adecuadas sobre F (t, x, a), σ(t, x, a) y at — y el gene-rador La resulta ser

Lav(x) := F (t, x, a) · vx +1

2Tr[D(t, x, a)vxx], (2.38)

donde D := σσ′, vxx es la matriz hessiana de v, y Tr(B) :=∑

i bii es la traza deuna matriz B = (bij). Explıcitamente,

Tr(Dvxx) =∑i,j

(∑k

σikσkj

)vxixj

(2.39)

cuando el coeficiente σ en (2.3) es una matriz, digamos σ = (σij). Por supuesto,en el caso escalar (2.39) se reduce a σ2 · ∂2v/∂x2.

Nota bibliografica. Para problemas de control a tiempo discreto el lector puedeconsultar (por ejemplo): Arkin y Evstigneev (1987), Bertsekas (1987, 2000),Hernandez–Lerma y Lasserre (1996, 1999), Stokey y Lucas (1989). Para proble-mas a tiempo continuo: Fleming y Rishel (1975), Fleming y Soner (1992),Hernandez–Lerma (1994), Sethi y Thompson (2000), Yong y Zhou (1999).

Page 23: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

3. EL PRINCIPIO DEL MAXIMO 23

3 El principio del maximo

Hay varias tecnicas generales para estudiar PCOs como son el analisis convexoy la programacion lineal (usualmente en espacios vectoriales de dimension in-finita). Sin embargo, por razones computacionales, en la mayorıa de las aplica-ciones las tecnicas mas usadas son el principio del maximo (que algunos autoresllaman el principio de Pontryagin) y la programacion dinamica. En esta seccionveremos brevemente la primera de estas tecnicas; la segunda se estudia en lasiguiente seccion.

Para simplificar la exposicion solo consideraremos problemas determinısti-cos con horizonte finito, a tiempo discreto y a tiempo continuo. Al final de laseccion se mencionan algunas referencias sobre problemas estocasticos.

Problemas a tiempo discreto.

Considerese el PCO determinıstico con espacio de estados X = IRn, espaciode acciones A = IRm, y modelo dinamico

xt+1 = F (t, xt, at) ∀ t = 0, 1, . . . , T − 1 (3.1)

con estado inicial x0 = x. La funcion objetivo que se desea minimizar es el costototal

V (π, x) :=T−1∑t=0

L(t, xt, at) + C(xT ), (3.2)

sobre el conjunto de estrategias π = {at}.

A grandes rasgos, la idea del principio del maximo consiste en usar el me-todo de multiplicadores de Lagrange para minimizar (3.2) sujeto a la “restriccion”(3.1). Para este fin, primero expresamos (3.1) en la forma

xt+1 − F (t, xt, at) = 0 ∀ t = 0, 1, . . . , T − 1.

Despues introducimos “multiplicadores de Lagrange” p0, p1, . . . , pT en IRn, a losque llamaremos vectores adjuntos (tambien llamados vectores de co–estado), ydefinimos el “lagrangiano”

V (π, x, p•) := V (π, x) +T−1∑t=0

pt+1 · [xt+1 − F (t, xt, at)], (3.3)

Page 24: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

24

donde p• = {p0, . . . , pT}. Por lo tanto, sustituyendo (3.2) en (3.3) y usando elhamiltoniano, definido para cada t = 0, 1, . . . , T − 1 como

H(t, xt, at, pt+1) := pt+1 · F (t, xt, at)− L(t, xt, at), (3.4)

un poco de algebra elemental nos permite reescribir (3.3) como

V (π, x, p•) =T−1∑t=0

[pt · xt −H(t, xt, at, pt+1)] + C(xT ) + pT · xT − p0 · x0.

Finalmente, bajo la siguiente hipotesis y usando resultados de optimizacion no–lineal se obtiene el Teorema 3.2 (cuya demostracion se puede ver en Halkin(1966), Tabak y Kuo (1971) o Sethi y Thompson (2000)).

Hipotesis 3.1.

(a) Para cada t = 0, 1, . . . , T − 1, las funciones de costo L(t, x, a) y C(x) son declase C1 en x y a;

(b) Para cada t = 0, 1, . . . , T − 1 y a ∈ A, la funcion F (t, x, a) es de clase C1 en x;

(c) Para cada t = 0, 1, . . . , T − 1 y x ∈ IRn, el conjunto {F (t, x, a) : a ∈ A} esconvexo.

Teorema 3.2. (El principio del maximo — caso determinıstico, tiempo discreto).Suponga que se cumple la Hipotesis 3.1. Supongase tambien que existe unaestrategia optima a∗• = {a∗t , t = 0, . . . , T − 1} para el PCO (3.1)–(3.2), y seax∗• = {x∗t , t = 0, . . . , T} la trayectoria correspondiente que se obtiene de (3.1)con estado inicial x∗0 = x0. Entonces existe un conjunto p• = {p0, . . . , pT} devectores adjuntos que satisfacen la ecuacion adjunta

pt = Hx(t, x∗t , a

∗t , pt+1) ∀ t = 0, . . . , T − 1, (3.5)

i.e.pt = Fx(t, x

∗t , a

∗t )′pt+1 − Lx(t, x

∗t , a

∗t ),

con la condicion terminalpT = Cx(x

∗T ), (3.6)

Page 25: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

3. EL PRINCIPIO DEL MAXIMO 25

y la maximizacion del hamiltoniano:

H(t, x∗t , a∗t , pt+1) = max

a∈AH(t, x∗t , a, pt+1) (3.7)

para t = 0, . . . , T − 1.

El nombre “principio del maximo” para el Teorema 3.2 viene precisamentede la condicion (3.7).

Nota 3.3. El Teorema 3.2 da condiciones necesarias de optimalidad, a saber, la exis-tencia de la sucesion p• de vectores adjuntos que satisfacen (3.5), (3.6) y (3.7).Bajo hipotesis adecuadas estas condiciones tambien son suficientes. De hecho, sitales condiciones se satisfacen, entonces la busqueda de un “par optimo” (a∗•, x

∗•)

se reduce a resolver un problema con valores de frontera que consiste de

(a) las ecuaciones (3.1) y (3.5), que tambien se conocen como las ecuaciones cano-nicas del PCO;

(b) las condiciones de frontera (3.6) y x∗0 = x0; y

(c) la maximizacion del hamiltoniano, es decir, encontrar a∗• tal que

H(t, x∗t , a∗t , pt+1) = max

a∈AH(t, x∗t , a, pt+1).

Este procedimiento solo asegura, en general, la existencia de estrategias optimasde lazo abierto (ver (2.5)). En contraste, el metodo de programacion dinamicaque veremos en la siguiente seccion necesariamente da estrategias markovianas(como en (2.6)).

Ejemplo 3.4: Sistema LQ determinıstico a tiempo discreto. Considerese elproblema de encontrar una estrategia de control que minimize la funcion decosto

V (π, x) =1

2

T−1∑t=0

(Qx2t + Ra2

t ) +1

2Sx2

T , (3.8)

con π = {at}, sujeta a

xt+1 = αxt + βat ∀ t = 0, 1, . . . , T − 1; x0 = x. (3.9)

Las constantes Q y S en (3.8) son no–negativas y R es positiva, mientras que loscoeficientes α y β en (3.9) son distintos de cero. El espacio de estados y el de

Page 26: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

26

acciones son X = A = IR. (Exactamente el mismo analisis que presentamos acontinuacion se puede extender a un problema vectorial con X = IRn y A = IRm,en cuyo caso los coeficientes en (3.8) y (3.9) son matrices de dimensiones ade-cuadas. Ademas, dichos coeficientes pueden variar con el parametro de tiempo:Qt, Rt, ST , αt, βt.)

Comparando (3.8)–(3.9) con (3.1)–(3.2) vemos que el hamiltoniano en (3.4)resulta

H(t, xt, at, pt+1) = (αxt + βat) · pt+1 −1

2(Qx2

t + Ra2t ).

Luego, comoHx = αpt+1 −Qxt y Ha = βpt+1 −Rat,

el problema con valores de frontera mencionado en la Nota 3.3 resulta:

(a) Ecuaciones canonicas: para t = 0, . . . , T − 1,

xt+1 = αxt + βat, pt = αpt+1 −Qxt. (3.10)

(b) Condiciones de frontera: x0 = x, pT = SxT .

(c) Maximizacion del hamiltoniano: de la igualdad Ha = 0 obtenemos.

at = R−1βpt+1 ∀ t = 0, . . . , T − 1. (3.11)

Como la segunda derivada parcial Haa = −R es negativa, se puede de-mostrar que los controles en (3.11) dan una estrategia optima, aunque por su-puesto aun falta calcular los vectores adjuntos pt. Con este fin, sustituimos (3.11)en (3.10):

xt+1 = αxt + R−1β2pt+1, pt = αpt+1 −Qxt (3.12)

y combinando estas ecuaciones vemos que necesariamente pt es de la forma

pt = Ktxt ∀ t = 0, . . . , T, (3.13)

donde K0, . . . , kT son constantes. En efecto, la condicion de frontera pT = SxT

implica que KT = S. Asimismo, de la segunda ecuacion en (3.12) tenemos

pT−1 = αpT −QxT−1

Page 27: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

3. EL PRINCIPIO DEL MAXIMO 27

y usando la primera ecuacion en (3.12) podemos escribir pT en funcion de xT−1.En general, para obtener Kt procedemos como sigue.

Sustituyendo (3.13) en (3.12) obtenemos

xt+1 = αxt + R−1β2Kt+1xt+1,

pt = αKt+1xt+1 −Qxt.

De la primera de estas ecuaciones despejamos xt+1 y sustituimos su valor en lasegunda ecuacion. Ası se obtiene que

pt = [α2RKt+1/(R− β2Kt+1)−Q]xt

y comparando con (3.13) vemos que las constantes Kt satisfacen que

Kt = α2RKt+1/(R− β2Kt+1)−Q ∀ t = 0, 1, . . . , T − 1, (3.14)

con condicion terminal KT = S, bajo la hipotesis de que S 6= R/β2. La ecuacion(3.14) es un caso especial de la llamada ecuacion de Riccati y se resuelve “haciaatras”: empezando con KT = S, se calculan KT−1, KT−2, . . . , K0.

Conociendo el valor de los vectores adjuntos pt podemos determinar los con-troles optimos y la correspondiente trayectoria y la funcion de costo mınimo. Porejemplo, sustituyendo (3.13) en (3.11) obtenemos

at = R−1βKt+1xt+1

= R−1βKt+1(αxt + βat) [por (3.9)]

y despejando at obtenemos los controles optimos:

a∗t = Gtxt ∀ t = 0, . . . , T − 1,

con Gt := αβKt+1/(R− β2Kt+1). 2

Problemas a tiempo continuo.

Sea A[0, T ] el conjunto de todas las funciones medibles a(·) : [0, T ] → A.El conjunto A[0, T ] es esencialmente la familia de las estrategias de lazo abiertodefinidas sobre el intervalo [0, T ].

Ahora consideraremos el PCO que consiste en minimizar el costo

J(a(·)) :=

∫ T

0

L(t, x(t), a(t))dt + C(x(T )) (3.15)

Page 28: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

28

sobre todas las estrategias a(·) ∈ A[0, T ], sujetas a que

x(t) = F (t, x(t), a(t)) ∀ 0 ≤ t ≤ T, x(0) = x0. (3.16)

Supondremos que el espacio de estados y el conjunto de acciones son X = IRn yA = IRm.

Por supuesto, para que (3.8) y (3.9) esten bien definidas se requieren hipotesisadecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo,los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamientoun tanto informal del principio del maximo, pero con un buen numero de apli-caciones, se puede ver en Sethi y Thompson (2000). Aquı solo enunciaremos elresultado principal, que requiere la siguiente notacion y terminologıa.

Si a(·) es una funcion en A[0, T ] y x(·) es la correspondiente solucion de (3.9)se dice que (x(·), a(·)) es un par admisible. Ademas, si a∗(·) es una estrategiaoptima y x∗(·) es la solucion de (3.9), decimos que (x∗(·), a∗(·)) es un par optimo.Dado un par admisible (x(·), a(·)) y una funcion p(·) : [0, T ] → IRn, que llamare-mos una (funcion o) variable adjunta, definimos el hamiltoniano

H(t, x(t), a(t), p(t)) := p(t) · F (t, x(t), a(t))− L(t, x(t), a(t)). (3.17)

(Compare esta definicion con (3.4).) Con esta notacion, el analogo de las condi-ciones necesarias (3.5)–(3.7) resulta como sigue.

Teorema 3.5. (El principio del maximo — caso determinıstico, tiempo con-tinuo). Supongase que existe un par optimo para el PCO (3.8)–(3.9). Entonces,bajo ciertas hipotesis sobre las funciones F (t, x, a), L(t, x, a) y C(x), existe unavariable adjunta p(·) : [0, T ] → IRn que satisface la ecuacion adjunta

p(t) = −Hx(t, x∗(t), a∗(t), p(t)) (3.18)

= −Fx(t, x∗(t), a∗(t))′p(t) + Lx(t, a

∗(t), x∗(t))

con condicion terminalp(T ) = −Cx(x

∗(T )), (3.19)

y la maximizacion del hamiltoniano:

H(t, x∗(t), a∗(t), p(t)) = maxa∈A

H(t, x∗(t), a, p(t)). (3.20)

Page 29: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

3. EL PRINCIPIO DEL MAXIMO 29

Las ecuaciones (3.11) y (3.12) se cumplen “para casi todo” t ∈ [0, T ].

La Nota 3.3 (para problemas a tiempo discreto) tambien es valida en el casocontinuo, con algunos cambios obvios de notacion.

Ejemplo 3.6: un problema de control de inventario–produccion. Considereseun problema de control cuyos componentes son, en cada tiempo 0 ≤ t ≤ T :

• la variable de estado x(t) := el nivel de inventario

• la variable de control a(t) := la tasa de produccion

• la variable exogena s(t) := la tasa de ventas.

Ademas, hay dos valores de referencia, un nivel de inventario de seguridad x y unnivel eficiente de produccion a.

El nivel de inventario varıa de acuerdo a la ecuacion diferencial

x(t) = a(t)− s(t) para t ≥ 0, x(0) = x0. (3.21)

Las estrategias de control son funciones medibles a(t), no–negativas. El PCOconsiste en encontrar una estrategia que minimiza la funcion objetivo.

J(a(·)) :=

∫ T

0

1

2[h · (x− x)2 + c · (a− a)2]dt, (3.22)

donde x = x(t) y a = a(t); h > 0 es el costo de mantenimiento y c > 0 el costode produccion. La interpretacion de (3.22) es que el controlador desea mantenerel nivel de inventario x(·) y la tasa de produccion a(·) lo mas cerca posible delos valores de referencia x y a, respectivamente. (A problemas de este tipo seles llama problemas de seguimiento o de rastreo, porque el estado y los controlesdeben seguir — o rastrear — lo mas cerca posible a los valores x, a.)

Comparando (3.21)–(3.22) con (3.15)–(3.16) vemos que el hamiltoniano (en(3.17)) resulta ser

H(t, x(t), a(t), p(t)) = p(t) · (a(t)− s(t))− 1

2[h · (x(t)− x)2 + c · (a(t)− a)2].

Luego, como

Hx = −h · (x(t)− x) y Ha = p(t)− c · (a(t)− a),

obtenemos el siguiente problema con valores de frontera:

Page 30: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

30

(a) Las ecuaciones canonicas

x(t) = a(t)− s(t), (3.23)p(t) = h · (x(t)− x); (3.24)

(b) las condiciones de frontera: x(0) = x0, p(T ) = 0;

(c) maximizacion del hamiltoniano; haciendo Ha = 0 vemos que

a(t) = p(t)/c + a. (3.25)

Como Haa = −c < 0, la funcion a(·) en (3.23) es en efecto la estrategia optimadel problema (3.21)–(3.22), pero aun falta calcular la variable adjunta p(·). Conesto en mente, sustituimos (3.25) en (3.23) para obtener

x(t) = p(t)/c + a− s(t), x(0) = x0. (3.26)

Para resolver las ecuaciones (3.24) y (3.26), primero derivamos (3.26) y ası obte-nemos una ecuacion con p, es decir,

x(t) = p(t)/c− s(t).

Ahora sustituimos (3.24) en esta ultima ecuacion para obtener

x(t) = α2(x(t)− x)− s(t), con α :=√

h/c;

equivalentemente,x− α2x(t) = −α2x− s(t). (3.27)

La solucion general de esta ecuacion es de la forma

x(t) = a1e−αt + a2e

αt + Q(t), x(0) = x0, (3.28)

donde Q(t) es cualquier solucion particular de (3.27). (La funcion Q se puededeterminar si se conoce la forma explıcita de s(t).) Como en (3.28) hay solouna condicion inicial, para determinar las constantes a1, a2, sustituimos (3.28) en(3.26) y esto da que la variable adjunta p(t) satisface:

p(t) = c(−αa1e−αt + αa2e

αt + Q(t)− s(t)− a), (3.29)

con condicion terminal p(T ) = 0. Las ecuaciones (3.28) y (3.29), con sus respec-tivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que

Page 31: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

3. EL PRINCIPIO DEL MAXIMO 31

permiten determinar los valores de a1 y a2. Habiendo determinado estos valoresse obtiene la forma explıcita del control optimo en (3.25). (Notese que no impusi-mos la condicion a(t) ≥ 0; si la tasa de produccion a(t) es negativa, significa quedebemos eliminar o desechar inventario.) 2

El caso estocastico.

Para sistemas estocasticos a tiempo continuo, y salvo contadas excepciones,el principio del maximo se ha desarrollado principalmente para ecuaciones dife-renciales estocasticas, como en (2.3). Una buena referencia para este caso, conuna extensa bibliografıa, es el libro de Yong y Zhou (1999). Una extension delprincipio del maximo ha permitido a Josa–Fombellida y Rincon–Zapatero (2005)proponer un nuevo enfoque para problemas de control estocastico. Un enfoquesimilar ha sido estudiado por Bourdache–Siguerdidjane y Fliess (1987) para pro-blemas determinısticos y por Rincon–Zapatero (2004) y Rincon–Zapatero et al.(1998) para juegos diferenciales.

Curiosamente, para sistemas estocasticos a tiempo discreto hay poquısimasreferencias, entre las que cabe mencionar el libro de Arkin y Evstigneev (1983).

Page 32: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

32

4 Programacion dinamica

Como se menciono en la Nota 3.3, para encontrar una estrategia optima el prin-cipio del maximo se reduce esencialmente a resolver un problema con valoresde frontera. Esto requiere determinar una estrategia optima simultaneamente conlas otras variables (la trayectoria y los vectores adjuntos) en el problema. Unenfoque alternativo consiste en descomponer el PCO en “etapas”, cada una cor-respondiente a un subproblema con una sola variable, de modo que el PCO seresuelve en forma secuencial, por etapas. Esta es la idea del metodo de progra-macion dinamica que veremos en esta seccion. Primero consideraremos PCOs atiempo discreto y despues a tiempo continuo.

La programacion dinamica fue introducida por Richard Bellman en la decadade los anos 1950 — vea el libro de Bellman (1956), por ejemplo.

Problemas a tiempo discreto.

Consideraremos de nuevo el PCO determinıstico en (3.1)—(3.2) pero por con-veniencia notacional escribiremos las variables xt y at como x(t) y a(t), respecti-vamente. Ası pues, tenemos el modelo dinamico

x(t + 1) = F (t, x(t), a(t)) ∀ t = 0, . . . , T − 1, con x(0) = x0, (4.1)

con funcion objetivo

V (π, x) :=T−1∑t=0

L(t, x(t), a(t)) + C(x(T )), (4.2)

donde π = {a(t)}. El espacio de estados es X = IRn y el de acciones de control esun conjunto cerrado A ⊂ IRm.

La programacion dinamica se basa en el siguiente “principio de optimali-dad” que introdujo Bellman, y cuya demostracion es evidente.

Lema 4.1. (El principio de optimalidad) Sea a∗(·) = {a∗(0), . . . , a∗(T − 1)} unaestrategia optima para el problema (4.1)–(4.2), y sea x∗(·) = {x∗(0), . . . , x∗(T )} latrayectoria correspondiente; en particular, x∗(0) = x0. Entonces para cualquier

Page 33: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

4. PROGRAMACION DINAMICA 33

tiempo s ∈ {0, . . . , T − 1}, la estrategia “truncada” a∗(t) para s ≤ t ≤ T − 1, es laestrategia optima que lleva el sistema (4.1) del punto x∗(s) al punto x∗(T ).

Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)–(4.2) pero solodel tiempo s en adelante (con 0 ≤ s ≤ T − 1), con estado “inicial” x(s) = x, esdecir, sea

V (π, s, x) :=T−1∑t=s

L(t, x(t), a(t)) + C(x(T )) (4.3)

y sea v(s, x) el correspondiente costo mınimo, i.e.

v(s, x) := infπ

V (π, s, x). (4.4)

Ademas, como en el tiempo terminal T no se aplican acciones de control, defin-imos

v(T, x) := C(x). (4.5)

Luego, si en el Lema 4.1 interpretamos s y x∗(s) = x como el tiempo y el estadoiniciales, se sigue de (4.3) y (4.4) que

v(s, x) = V (a∗(·), s, x)

=T−1∑t=s

L(t, x∗(t), a∗(t)) + C(x∗(T ))

= L(s, x, a∗(s)) + V (a∗(·), s + 1, x∗(s + 1))

= L(s, x, a∗(s)) + v(s + 1, x∗(s + 1)).

Por lo tanto, como x∗(s + 1) = F (s, x∗(s), a∗(s)) = F (s, x, a∗(s)), obtenemos

v(s, x) = L(s, x, a∗(s)) + v(s + 1, F (s, x, a∗(s))). (4.6)

Pero, por la definicion (4.4), v(s, x) es el costo mınimo de operar el sistema deltiempo s al tiempo T , de modo que

v(s, x) ≤ L(s, x, a) + v(s + 1, F (s, x, a)) ∀ a ∈ A. (4.7)

Finalmente, combinando (4.6) y (4.7) vemos que

v(s, x) = mina∈A

[L(s, x, a) + v(s + 1, F (s, x, a))] ∀ s = 0, . . . , T − 1. (4.8)

Page 34: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

34

y que el mınimo en el lado derecho de (4.8) se alcanza en a∗(s), como en (4.6).

La ecuacion (4.8) con la “condicion terminal” (4.5) se llama la ecuacion deprogramacion dinamica (EPD), o ecuacion de Bellman, y es la base del “algo-ritmo de programacion dinamica” (4.9)–(4.10) en el siguiente teorema

Teorema 4.2. (El teorema de programacion dinamica) Sean J0, J1, . . . , JT lasfunciones sobre X definidas “hacia atras” (de s = T a s = 0) como

JT (x) := C(x), (4.9)

y para s = T − 1, T − 2, . . . , 0,

Js(x) := mina

[L(s, x, a) + Js+1(F (s, x, a))]. (4.10)

Suponga que para cada s = 0, 1, . . . , T − 1, existe una funcion a∗s : X → Aque alcanza el mınimo en el lado derecho de (4.10) para todo x ∈ X. Entoncesla estrategia markoviana π∗ = {a∗0, . . . , a∗T−1} es optima y la funcion de valorcoincide con J0, i.e.

infπ

V (π, x) = V (π∗, x) = J0(x) ∀ x ∈ X. (4.11)

De hecho, para cada s = 0, . . . , T, Js coincide con la funcion en (4.4)–(4.5), i.e.

v(s, x) = Js(x) ∀ 0 ≤ s ≤ T, x ∈ X. (4.12)

Es importante observar que (4.12) significa que algoritmo (4.9)–(4.10) da elcosto optimo (o costo mınimo) del PCO (4.1)–(4.2) con tiempo y estado inicial0 ≤ s ≤ T − 1 y x(s) = x, respectivamente.

Consideremos ahora el sistema estocastico en el que (4.1) y (4.2) se susti-tuyen por

x(t + 1) = F (t, x(t), a(t), ξ(t)) ∀ t = 0, . . . , T − 1, con x(0) = x, (4.13)

V (π, x) := E

[T−1∑t=0

L(t, x(t), a(t)) + C(x(T ))

], (4.14)

con π = {a(t)}, y las “perturbaciones” ξ(0), . . . , ξ(T − 1) en (4.13) son variablesaleatorias independientes e identicamente distribuidas (i.i.d.) con valores en

Page 35: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

4. PROGRAMACION DINAMICA 35

algun espacio S. Resulta entonces que, con algunos cambios adecuados, prac-ticamente todo lo que aparece en los parrafos anteriores sigue siendo valido.Mas precisamente, en las expresiones en las que aparece la funcion F [a saber,(4.6)–(4.8) y (4.10)] debemos escribir F (s, x, a, ξ(s)) en lugar de F (s, x, a); ade-mas, se debe tomar la esperanza en las expresiones donde aparezcan terminosestocasticos, o sea, en el lado derecho de (4.3), (4.6)–(4.8), y (4.10). Para masdetalles, vea el Ejemplo 4.4.

Nota 4.3. Una demostracion detallada del teorema de programacion dinamicaen el caso estocastico a tiempo discreto aparece en Hernandez–Lerma y Lasserre(1996), Seccion 3.2. Otras demostraciones, ası como un buen numero de ejemplosy aplicaciones, aparecen en Arkin y Evstigneev (1987), Bertsekas (1987), Le Vany Dana (2003), Luque–Vasquez et al. (1996), Stokey y Lucas (1989), ... 2

Para ilustrar el algoritmo de programacion dinamica, a continuacion vere-mos una version estocastica del sistema LQ en el Ejemplo 3.4.

Ejemplo 4.4: Sistema LQ estocastico a tiempo discreto. Considere el sistemalineal

xt+1 = αxt + βat + ξt ∀ t = 0, 1, . . . ; x0 dado,

con coeficientes α, β distintos de cero. Las perturbaciones ξt son variablesaleatorias i.i.d., independientes de x0, y con media 0 y varianza σ2 finita, i.e.

E(ξt) = 0, σ2 := E(ξ2t ) < ∞ ∀ t = 0, . . . , T − 1. (4.15)

Los espacios de estados y de acciones son X = A = IR. Se desea minimizar lafuncion de costo

V (π, x) := Eπx

[T−1∑t=0

(qx2t + ra2

t ) + qT x2T

]∀ x0 = x,

donde r > 0 y q, qT ≥ 0.

En este caso, la ecuacion de programacion dinamica (4.9)–(4.10) resulta

JT (x) := qT x2 (4.16)

Page 36: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

36

y para s = T − 1, T − 2, . . . , 0:

Js(x) := mina

[qx2 + ra2 + EJs+1(αx + βa + ξs)]. (4.17)

Esta ecuacion se resuelve “hacia atras”: sustituyendo (4.16) en (4.17) obtenemos

JT−1(x) = mina

[qx2 + ra2 + qT E(αx + βa + ξT−1)2]

donde, usando (4.15),

E(αx + βa + ξT−1)2 = (αx + βa)2 + σ2.

Luego,

JT−1(x) = mina

[(q + qT α2)x2 + (r + qT β2)a2 + 2qT αβxa + qT σ2].

El lado derecho de esta ecuacion se minimiza en

a∗T−1(x) = GT−1x, con GT−1 := −(r + qT β2)−1qT αβ

y el mınimo es

JT−1(x) = KT−1x2 + qT σ2, con KT−1 := (r + qT β2)−1qT rσ2 + q.

En general, es facil ver que la estrategia optima π∗ = {a∗0, . . . , a∗T−1} esta dadapor

a∗s(x) = Gsx, con Gs := −(r + Ks+1β2)−1Ks+1αβ, (4.18)

con “ganancias” Ks dadas recursivamente por KT := qT y para s = T − 1, . . . , 0:

Ks = (r + Ks+1β2)−1Ks+1rσ

2 + q.

Asimismo, el costo optimo del tiempo s en adelante, en (4.12), resulta

Js(x) = Ksx2 + σ2

T∑n=s+1

Kn para s = 0, . . . , T − 1. (4.19)

En particular, con s = 0 se obtiene el costo mınimo en (4.11). 2

Nota. Es interesante comparar el problema LQ estocastico en el ejemplo anteriorcon el problema LQ determinıstico en el Ejemplo 3.4: se puede ver que en ambos

Page 37: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

4. PROGRAMACION DINAMICA 37

casos la estrategia optima esta dada por (4.18). Sin embargo, difieren en el costomınimo; la diferencia esta en que, en el caso determinıstico, la varianza σ2 queaparece en (4.19) es cero.

Para referencia futura, a continuacion veremos brevemente el caso de costodescontado con horizonte infinito. Considerese el PCO que consiste del sistemaestocastico.

xt+1 = F (xt, at, ξt) ∀ t = 0, 1, . . . ; con x0 = x, (4.20)

con funcion objetivo

V (π, x) := E

[∞∑

t=0

αtc(xt, at, ξt)

](4.21)

en donde c(x, a, ξ) es la funcion de costo por etapa, y α ∈ (0, 1) es el factorde descuento. Como siempre, X y A representan el espacio de estados y deacciones, respectivamente. Asimismo, denotaremos por A(x) el conjunto de ac-ciones factibles en el estado x; vease (2.4). El PCO (4.15)–(4.16) es estacionarioen el sentido de que las funciones F (x, a, ξ) y c(x, a, ξ) no dependen del tiempo ty, ademas, ξ0, ξ1, . . . son variables aleatorias i.i.d. cuya distribucion de probabil-idad la denotaremos por µ, es decir

µ(B) := Prob[ξ0 ∈ B] ∀ B ∈ S, (4.22)

donde S es el “espacio de perturbaciones”, o sea el conjunto en el que tomanvalores las variables ξt. Considerese la funcion de valor

v(x) := infπ

V (π, x)

y la sucesion de funciones vn definidas iterativamente como

vn(x) := infa∈A(x)

E[c(x, a, ξ0) + αvn−1(F (x, a, ξ0))]

= infa∈A(x)

∫S

[c(x, a, s) + αvn−1(F (x, a, s))]µ(ds), (4.23)

para n = 1, 2, . . . , con v0(x) ≡ 0. Con esta notacion, se tiene el siguiente resultadobajo una variedad de hipotesis (veanse las referencias en la Nota 4.3, o la seccion8.3 en Hernandez–Lerma y Lasserre (1999)).

Teorema 4.5. Bajo hipotesis adecuadas:

Page 38: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

38

(a) la funcion de valor v satisface la ecuacion de programacion dinamica

v(x) = infa∈A(x)

∫S

[c(x, a, s) + αv(F (x, a, s))]µ(ds) ∀ x ∈ X. (4.24)

(b) Supongase que existe una funcion g : X → A tal que g(x) ∈ A(x) y g(x)minimiza el lado derecho de (4.24) para todo x ∈ X, i.e.

v(x) =

∫S

[c(x, g(x), s) + αv(F (x, g(x), s))]µ(ds).

Entonces g define una estrategia markoviana estacionaria (recuerdese (2.7))que es optima para el PCO (4.20)–(4.22).

(c) Cuando n → ∞, vn(x) → v(x) para todo x ∈ X. (Las funciones vn, definidasen (4.23), se llaman funciones de iteracion de valores.)

La parte (c) del Teorema 4.5 se usa para aproximar la funcion v(x) o paradeducir propiedades de ella.

Problemas a tiempo continuo

Consideremos el PCO (4.1)–(4.2) pero en tiempo continuo, es decir

x(t) = F (t, x(t), a(t)) ∀ t ∈ [0, T ], x(0) = x, (4.25)

V (π, x) :=

∫ T

0

L(t, x(t), a(t))dt + C(x(T )),

con π = {a(·)}. Asimismo, como en (4.3)–(4.5), para cada estado s ∈ [0, T ] y“estado inicial” x(s) = x, definimos

V (π, s, x) :=

∫ T

s

L(t, x(t), a(t))dt + C(x(T ))

yv(s, x) := inf

πV (π, s, x) para 0 ≤ s < T, v(T, x) := C(x).

En este caso, el principio de optimalidad es completamente analogo al caso detiempo discreto (Lema 4.1), y el teorema de programacion dinamica es comosigue.

Teorema 4.6 Bajo ciertas hipotesis sobre las funciones F, L, C y el conjunto A, ysuponiendo que v(s, x) es de clase C1,1([0, T ]× IRn), v es solucion de la ecuacion

Page 39: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

4. PROGRAMACION DINAMICA 39

de programacion dinamica

vs + infa∈A

[F (s, x, a) · vx + L(s, x, a)] = 0 ∀ (s, x) ∈ [0, T )× IRn, (4.26)

con condicion de frontera v(T, x) = C(x). Si ademas g(s, x) es una funcion quealcanza el mınimo en (4.21), entonces

a∗(s) := g(s, x(s)) ∀ s ∈ [0, T ]

es una estrategia optima, i.e. v(s, x) = V (a∗(·), s, x).

Para PCOs a tiempo continuo (determinısticos o estocasticos) la ecuacionde programacion dinamica, como (4.26), tambien se conoce como ecuacion deHamilton–Jacobi–Bellman.

Usando el hamiltoniano H(s, x, a, p) en (3.10) podemos expresar (4.26) como

vs − supa∈A

H(s, x, a,−vx) = 0.

Esto establece un vınculo entre la programacion dinamica y el principio delmaximo.

La demostracion del Teorema 4.6 se puede ver en, por ejemplo, Fleming yRishel (1975), Fleming y Soner (1992), Yong y Zhou (1999). Estos libros estudianel control de ecuaciones diferenciales ordinarias (como en (4.25)) y estocasticas(como en (2.3)). Otros sistemas estocasticos a tiempo continuo incluyen lascadenas de Markov — ver, por ejemplo, Guo y Hernandez–Lerma (2003a) oPrieto–Rumeau y Hernandez–Lerma (2005a). Aunque es costumbre estudiarcada uno de estos sistemas por separado, es posible hacer estudios unificadosque incluyen practicamente cualquier tipo de proceso de control markoviano(PCM) a tiempo continuo, como en (2.36)–(2.38); ver Hernandez–Lerma (1994),Prieto–Rumeau y Hernandez–Lerma (2005b) y sus referencias, donde en parti-cular podemos ver lo siguiente.

Nota 4.7. Usando el generador infinitesimal (2.37) podemos expresar la ecuacionde programacion dinamica (4.26) como

vs + infa∈A

[Lav(s, x) + L(s, x, a)] = 0 ∀ (s, x) ∈ [0, T )× IRn. (4.27)

Page 40: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

40

De hecho, expresada de esta manera — usando el generador infinitesimal delPCM — la ecuacion (4.27) resulta ser la ecuacion de programacion dinamicapara cualquier PCM a tiempo continuo, con horizonte finito T . Por ejemplo, sien lugar del sistema determinıstico (4.25) consideramos la ecuacion diferencialestocastica (2.3), entonces el generador La en (4.27) serıa el operador en (2.38).Asimismo, si el PCM es un proceso markoviano de saltos con espacio de estadosnumerable y “tasas de transicion” qxy(a), entonces tomando s = 0 en (4.27) elgenerador La resulta

Lav(x) :=∑y∈X

qxy(a)v(y).

Para mas detalles, vea las referencias mencionadas en el parrafo anterior.

Page 41: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 41

5 Control minimax (juegos contra la naturaleza)

Considerese un problema de control en el que de hecho hay dos decisores (enlugar de solo uno), el controlador y un “oponente”. El sistema puede evolu-cionar en tiempo continuo o tiempo discreto. Para fijar ideas, consideremos elsistema estocastico

xt+1 = F (xt, at, bt, ξt) ∀ t = 0, 1, . . . , (5.1)

que depende de las estrategias π = {at} ∈ Π del controlador y γ = {bt} ∈ Γdel oponente. Por lo tanto, tambien la funcion objetivo del PCO depende de lasestrategias de ambos decisores, i.e. tenemos V (π, γ, x), donde x0 = x es el estadoinicial. Considerese la funcion

V #(π, x) := supγ∈Γ

V (π, γ, x).

Si π∗ ∈ Π es una estrategia del controlador que minimiza V #(π, x), i.e., para todox ∈ X:

V #(π∗, x) = infπ

V #(π, x),

o equivalentementeV #(π∗, x) = inf

πsup

γV (π, γ, x), (5.2)

se dice entonces que π∗ es una estrategia minimax.

La interpretacion de (5.2) es que π∗ es la mejor estrategia del controlador en lapeor de las circunstancias, porque π∗ minimiza lo maximo (= lo peor) que puedehacer el oponente, cuando dicho maximo se calcula sobre todas las estrategias γdel oponente. Por esta caracterıstica, a un problema de control minimax tambiense le llama problema de control del peor caso (worst–case control). Las tecnicasque se usan para estudiar estos problemas son, principalmente, extension delmetodo de programacion dinamica o del principio del maximo; ver Gonzalez–Trejo et al. (2003) o Poznyak (2002a, 2002b).

Juegos contra la naturaleza

Una aplicacion tıpica del control minimax es a problemas de control que de-penden de “parametros” desconocidos. En este caso, el oponente es la “natu-

Page 42: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

42

raleza” que de alguna manera, en cada tiempo t, selecciona el valor del parame-tro. Estos problemas se conocen como juegos contra la naturaleza.

Por ejemplo, en lugar de (5.1) considerese un problema de control (un unicojugador) con modelo dinamico

xt+1 = F (xt, at, ξt), ∀ t = 0, 1, . . . , con x0 = x, (5.3)

donde las ξt son “perturbaciones”. Consideraremos dos casos:

Caso 1: El sistema es incierto, es decir, se sabe que las ξt son constantes convalores en algun conjunto dado S, pero no se conoce el valor particular de ξt.

Caso 2: El sistema es estocastico, es decir, las ξt son variables aleatorias i.i.d.con valores en un conjunto S y distribucion comun µ (ver (4.22)), pero no seconoce µ. Sin embargo, sı sabemos que µ debe pertenecer a un conjunto M(S)de distribuciones “admisibles”.

En el caso estocastico el PCO consiste en minimizar el costo esperado (4.21),mientras que en el caso incierto el costo es determinıstico, ası que eliminamos laesperanza en (4.21) y la funcion objetivo resulta

V (π, x) :=∞∑

t=0

αtc(xt, at, ξt). (5.4)

Consideremos primero el caso 2. Entonces, por el Teorema 4.5 (a), (b), sabe-mos que si se conoce µ, entonces la funcion de valor v(x) satisface la ecuacion deprogramacion dinamica (4.24), y una funcion g : X → A que alcanza el mınimoen el lado derecho de (4.24) define una estrategia optima. Resulta que el Teo-rema 4.5 sigue siendo valido con algunos cambios adecuados, que dan comoresultado lo siguiente.

Teorema 5.1. (Teorema de control minimax) Considerese el PCO estocastico queconsiste en minimizar el costo esperado (4.21), sujeto a (5.3). Se desconoce ladistribucion µ de las perturbaciones ξt pero se sabe que pertenece a un conjuntoM(S) de distribuciones sobre el espacio S. Entonces, bajo ciertas hipotesis:

(a) la funcion de valor v∗(x) := infπ supµ∈M(S) Vµ(π, x) satisface la ecuacion

v∗(x) = infa∈A(x)

supµ∈M(S)

∫S

[c(x, a, ξ) + αv∗(F (x, a, s))]µ(ds). (5.5)

Page 43: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 43

(b) Si existe una funcion f : X → A tal que f(x) ∈ A(x) alcanza el mınimo en(5.5), i.e.

v∗(x) = supµ

∫S

[c(x, f(x), s) + αv∗(F (x, f(x), s))]µ(ds), (5.6)

entonces f define una estrategia minimax, o sea at := f(xt) para todo t =0, 1, . . ..

Es importante observar que la funcion v∗ en (5.5) se puede aproximar por unasucesion de funciones de “iteracion de valores”, como en el Teorema 4.5(c). Paramayores detalles, vea Gonzalez–Trejo et al. (2003). En esta misma referencia sepueden ver ejemplos concretos de control minimax para problemas con hori-zonte finito, horizonte infinito, y tambien con “costo promedio” (tambien lla-mado “costo ergodico”).

En el caso 1, cuando las variables ξt son “inciertas”, el teorema anterior esvalido (bajo hipotesis adecuadas) sustituyendo la ecuacion (5.5) por la siguiente:

v∗(x) = infa∈A(x)

sups∈S

[c(x, a, s) + αv∗(F (x, a, s))]. (5.7)

El cambio en (5.6) es similar.

Los problemas de control minimax de sistemas inciertos tambien se conocencomo problemas de control robusto. El nombre se debe a que resultados como(5.7) son “robustos” en el sentido de que valen para todo valor s ∈ S. Comoejemplo, Poznyak (2002a, 2002b) estudia PCOs con una ecuacion diferencial es-tocastica de la forma (2.3), pero cuyos coeficientes dependen de un parametroincierto s en algun conjunto S. Entonces en lugar de (2.3) se tiene

dxt = F s(t, xt, at)dt + σs(t, xt, at)dWt ∀ 0 ≤ t ≤ T, s ∈ S.

Bernhard (2005) propone tecnicas de control robusto para estudiar algunos pro-blemas en finanzas.

En la seccion 9 veremos que un problema de control minimax es un casoparticular de ciertos juegos dinamicos conocidos como juegos de suma cero.

Page 44: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

44

Parte 2. Juegos cooperativos

En lo que resta de estas notas consideraremos juegos dinamicos con N ju-gadores, N ≥ 2, de modo que todos los conceptos introducidos en la Seccion 2(para N = 1) se deben reinterpretar de manera adecuada. Por ejemplo, en unmodelo dinamico, como en (2.1)–(2.3), en lugar de la accion at del controladorahora tenemos un vector de acciones

at = (a1t , . . . , a

Nt ),

en donde ait es la accion del jugador i al tiempo t. Asimismo, en lugar del con-

junto A(x) de acciones factibles en (2.4), para un juego A(x) es el producto carte-siano

A(x) = A1(x)× · · · × AN(x),

donde Ai(x) representa el conjunto de acciones factibles para el jugador i cuandoel estado del juego es x. Por ultimo, en lugar de una funcion objetivo (la funcionobjetivo del controlador), como en (2.11)–(2.15), ahora tenemos un vector

V (π, x) = (V 1(π, x), . . . , V N(π, x))

en donde V i(π, x) es la funcion objetivo del jugador i, dado que el estado inicialdel juego es x, y que los jugadores siguen la multiestrategia

π = (π1, . . . , πN)

donde πi es la estrategia del jugador i. De aquı se sigue que expresiones como(2.16) o (2.17) en las que se desea “minimizar” o “maximizar” V (π, x), para jue-gos dejan de tener un significado obvio. En esta segunda parte del curso vere-mos el caso en el que “optimizar” una funcion vectorial se entiende en el sentidode Pareto.

Para fijar ideas, supondremos que las funciones objetivo V i(π, x) son costosque se desea minimizar.

Page 45: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

6. EQUILIBRIOS DE PARETO 45

6 Equilibrios de Pareto

En un juego cooperativo los jugadores desean cooperar para alcanzar un resul-tado que, en algun sentido, sea benefico para todos ellos. (Por el contrario, en unjuego no–cooperativo los jugadores no hacen acuerdos para cooperar; mas bien,actuan independientemente y solo les preocupa alcanzar sus objetivos individ-uales.)

Para juegos cooperativos estaticos existen varios conceptos de solucion, al-gunos de los cuales se remontan al trabajo pionero de von Neumann y Morgen-stern (1944). Sin embargo, cuando se intenta extrapolar estos conceptos a juegoscooperativos dinamicos muchos de ellos resultan ser inconsistentes en el tiempoo dinamicamente inestables. (Vea la Nota 6.3(a) o, por ejemplo, Filar y Petrosjan(2000), Haurie (2001), Petrosjan (2005) para una discusion de las “inconsisten-cias” que pueden ocurrir). Por tal motivo, para juegos dinamicos cooperativosnos restringiremos al caso mas comun y mas estudiado, a saber, los equilibrios dePareto.

Observacion. Recuerdese que para vectores x = (x1, . . . , xN) y y = (y1, . . . , yN)se dice que

x ≤ y ssi xi ≤ yi ∀ i = 1, . . . , N.

Asimismo, x < y ssi x ≤ y y x 6= y ; y x << y ssi xi < yi ∀ i.

Observacion. En las secciones 6, 7 y 8 supondremos que el estado inicial x0

esta fijo; en el caso de juegos estocasticos, lo anterior significa que la distribucionde probabilidad de x0, digamos ν0(B) := P(x0 ∈ B), esta fija. En todo caso,para simplicar la notacion escribimos simplemente V i(π) en lugar de V i(π, x0) oV i(π, ν0) :=

∫V i(π, x)ν0(dx).

Definicion 6.1. Considerese un juego con N jugadores. Sea V i(π) la funcionobjetivo del jugador i, dado que los jugadores siguen la multiestrategia π =(π1, . . . , πN). Sea Πi el conjunto de estrategias admisibles para el jugador i, y seaΠ := Π1 × · · · × ΠN . Ademas, sea

Γ := {V (π) | π ∈ Π} ⊂ IRN , (6.1)

donde V (π) := (V 1(π), . . . , V N(π)) ∈ IRN . (A Γ se le llama el conjunto objetivoo conjunto alcanzable del juego.) Se dice que una multiestrategia π∗ ∈ Π es un

Page 46: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

46

equilibrio de Pareto si no existe π ∈ Π tal que

V (π) < V (π∗). (6.2)

Sea Π∗ el conjunto de equilibrios de Pareto (suponiendo que el conjunto no esvacıo). Entonces el conjunto de vectores

{V (π) | π ∈ Π∗} ⊂ Γ

se llama el frente de Pareto del juego.

El metodo mas usual para estudiar la existencia de equilibrios de Pareto es elmetodo de escalarizacion definido como sigue. Sea

SN−1 := {λ ∈ IRN | λ >> 0 y λ1 + · · ·+ λN = 1}.

Para cada λ ∈ SN−1 considerese la funcion “escalar”

V λ(π) := λ · V (π) =N∑

i=1

λiVi(π). (6.3)

Teorema 6.2. Bajo ciertas hipotesis, se obtiene lo siguiente. Si para algun vectorλ ∈ SN−1 existe una multiestrategia π∗ ∈ Π que minimiza la funcion escalar (6.3),i.e.

V λ(π∗) ≤ V λ(π) ∀ π ∈ Π, (6.4)

entonces π∗ es un equilibrio de Pareto.

La demostracion de este teorema es trivial. En efecto, si π∗ satisface (6.4)pero no es un equilibrio de Pareto, entonces (por la Definicion 6.1) existe unamultiestrategia π′ ∈ Π tal que

V (π′) < V (π∗).

Multiplicando ambos lados de esta desigualdad por el vector λ se obtiene queV λ(π′) < V λ(π∗), lo cual contradice (6.4); es decir, necesariamente π∗ es un equi-librio de Pareto.

Por el contrario, la demostracion del recıproco del Teorema 6.2 requiere unpoco mas de trabajo; vease, por ejemplo, Hernandez–Lerma y Romera (2004).

Page 47: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

6. EQUILIBRIOS DE PARETO 47

De hecho, esta referencia estudia problemas de control multiobjetivos (es decir, uncontrolador con N objetivos V 1(·), . . . , V N(·)), pero la demostracion para juegoses basicamente la misma.

Nota 6.3. (a) Si se admite que algunas de las componentes del vector λ en (6.4)sean cero (pero con suma total = 1), entonces solo se podrıa garantizar que π∗ esun equilibrio de Pareto debil. (Se dice que π∗ es un equilibrio de Pareto debil sino existe π ∈ Π tal que V (π) << V (π∗).)

(b) En Hernandez–Lerma y Romera (2004a) se demuestra que el metodo deescalarizacion es equivalente a resolver el problema dual de un programa lineal(de dimension infinita) con objetivos multiples.

(c) Los artıculos de Tolwinski et al. (1986) y de Gaidov (1986) dan condicionespara la existencia de estrategias de Pareto en juegos diferenciales determinısticosy estocasticos, respectivamente. La primera de estas referencias incluye estrate-gias con amenazas (threats) cuyo papel es inducir a los jugadores a que respetenlo convenido entre ellos, una vez que se ha llegado a un equilibrio. Alternativa-mente, para que los jugadores respeten los acuerdos entre ellos, se puede suponerque tales acuerdos son vinculantes (binding agreements). En estas notas haremostal suposicion.

Los juegos cooperativos estan muy desarrollados pero principalmente parajuegos diferenciales (determinısticos); vea, por ejemplo, Haurie (2001), Petrosjany Zenkevich (1996), Vaisbord y Zhukovskii (1988), Zhukovskiy y Salukvadze(1994).

Ejemplo 6.4. Considerese el juego diferencial LQ que consiste de la ecuacion deestado

x = αx + B1a1 + B2a2 ∀ t ≥ 0, x(0) = x0, (6.5)

en donde, para simplicar la notacion, hemos omitido la variable de tiempo “t”.El espacio de estados X y los espacios de acciones Ai (i = 1, 2) son X = Ai = IR,y los coeficientes α, B1, B2 son constantes. Para cada jugador i = 1, 2 la funcionde costo es

Vi(a1, a2) :=

∫ ∞

0

hi(t, x, a1, a2)dt (6.6)

Page 48: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

48

conhi(t, x, a1, a2) :=

1

2e−βt(q1x

2 + ria2i + rija

2j), j 6= i,

donde β > 0 es un factor de descuento. Dado un vector λ = (λ1, λ2) en S1 elcosto “escalarizado” (6.3) resulta

V λ(a1, a2) = λ1V1(a1, a2) + λ2V2(a1, a2) (6.7)

=

∫ ∞

0

hλ(t, x, a1, a2)dt,

donde (por (6.6))

hλ(t, x, a1, a2) =1

2e−βt(Qx2 + R1a

21 + R2a

22)

conQ := λ1q1 + λ2q2 y Ri = λiri + λjrji para i = 1, 2; j 6= i. (6.8)

Para minimizar el costo (6.7) sujeto a (6.5) usaremos programacion dinamica.

Sea a = (a1, a2) y s ≥ 0. Dado el “estado inicial” x(s) = x, sea

v(s, x) := infa

V λ(a, s, x),

dondeV λ(a, s, x) :=

∫ ∞

s

hλ(t, x, a)dt, x(s) = x.

Luego, de (4.26) (o (4.27)) la ecuacion de programacion dinamica es

vs + infa

[(αx + B1a1 + B2a2) · vx + hλ(t, x, a1, a2)] = 0.

Se puede verificar que las estrategias optimas son, para i = 1, 2,

a∗i = −Kix ∀ x ∈ X, con Ki := R−1i BiM0, (6.9)

donde M0 es la solucion positiva de la ecuacion

(B21/R1 + B2

2/R2)M20 − (2α− ρ)M0 −Q = 0,

con Q y Ri en (6.8) Es decir, a∗ = (a∗1, a∗2) es el equilibrio de Pareto para el vector

dado λ = (λ1, λ2) y, ademas, sustituyendo (6.9) en (6.6) se obtiene que el costooptimo para cada jugador i = 1, 2 es

V ∗i (x0) =

1

2Pix

20, (6.10)

Page 49: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

6. EQUILIBRIOS DE PARETO 49

donde Pi es la solucion (positiva) de la ecuacion

2(αc −1

2ρ)Pi + Qi = 0 (6.11)

conαc := α−B1K1 −B2K2, Qi := qi + riK

2i + rijK

2j , j 6= i. (6.12)

El caso estocastico. Supongase que, en lugar de (6.5), la ecuacion de estadoes

dx = (αx + B1a1 + B2a2)dt + G dW, x(0) = x0, t ≥ 0,

donde G es una constante y W es un proceso de Wiener estandar, en cuyo casolas funciones de costo en (6.6) y (6.7) se deben sustituir por sus valores esperadosdada la condicion inicial x(0) = x0. Por ejemplo, en lugar de (6.6) ahora tenemos

Vi(a1, a2) :=

∫ ∞

0

E[hi(t, x, a1, a2)|x(0) = x0]dt.

y similarmente en (6.7). Usando de nuevo programacion dinamica se puede verque las estrategias optimas son como en (6.9), es decir, las mismas que en el casodeterminıstico. Sin embargo, los costos optimos (6.10) sı deben modificarse yresultan

V ei (x0) =

1

2Pix

20 +

1

2ρQiSi, (6.13)

con Pi y Qi como en (6.11) y (6.12), mientras que Si es la solucion de la ecuacion

2(αc −1

2ρ)Si + G2 = 0.

Los resultados (6.9), (6.10) y (6.13) para sistemas LQ son bien conocidos. Paramayores detalles se puede consultar practicamente cualquier texto sobre con-trol optimo (o juegos dinamicos) que incluya modelos a tiempo continuo, porejemplo, Basar y Olsder (1999), Fleming y Rishel (1975), Fleming y Soner (1992),Hernandez–Lerma (1994), Klompstra (1992), Sethi y Thompson (2000), Yong yZhou (1999). 2

Nota 6.5. Para concluir esta seccion, observese que un equilibrio de Pareto es, enefecto, un equilibrio “cooperativo” en el sentido de que ninguna otra decisionconjunta de los jugadores puede disminuir el costo de al menos uno de ellos sin

Page 50: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

50

incrementar el costo de los otros. Mas explıcitamente, si usamos el metodo deescalarizacion para encontrar equilibrios de Pareto, vemos de (6.3)–(6.4) que alvariar el vector λ, varıa el correspondiente equilibrio de Pareto y, por lo tanto,tambien varıa el vector de costos V (π, x) a lo largo del frente de Pareto. Esto haceque algunos jugadores resulten beneficiados (al disminuir su costo o funcionobjetivo), mientras que otros salen perjudicados (al incrementar su costo). Estasituacion lleva a una pregunta natural: de entre todos los equilibrios de Pareto,¿cual es el mas “justo” para todos los jugadores? Esta pregunta se puede respon-der de varias maneras. En las siguientes dos secciones veremos algunas de lasposibles respuestas.

Page 51: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

7. EQUILIBRIOS DE COMPROMISO 51

7 Equilibrios de compromiso

Con respecto a la Nota 6.5, para encontrar un equilibrio “justo” algunos autoreshan propuesto el siguiente procedimiento. Para cada i = 1, . . . , N , sea

V i∗ := inf

πV i(π).

El vectorV∗ := (V 1

∗ , . . . , V N∗ ) (7.1)

se llama el mınimo virtual del juego. (Tambien se le conoce como mınimoutopico, mınimo ideal o mınimo sombra.)

Definicion 7.1. Dada una norma ‖ · ‖ sobre IRN , se dice que una multiestrategiaπ∗ ∈ Π es un equilibrio de compromiso con respecto a dicha norma si

‖ V (π∗)− V∗ ‖= infπ‖ V (π)− V∗ ‖ . (7.2)

Observe que la funcion

ρ(π) :=‖ V (π)− V∗ ‖ para π ∈ Π

es una funcion de utilidad para el juego, en el sentido de que si π y π′ son talesque V (π) < V (π′), entonces ρ(π) < ρ(π′). De aquı se sigue que un equilibrio decompromiso necesariamente es un equilibrio de Pareto.

Generalmente, en (7.2) se usa una “norma Lp”, definida como

‖ u ‖p :=

(N∑

i=1

|ui|p)1/p

1 ≤ p < ∞.

Para p = 2, un equilibrio de compromiso π∗ se dice que es una solucion deSalukvadze al juego cooperativo. Si p = +∞, entonces π∗ se llama un equilibriominimax porque satisface que

‖ V (π∗)− V∗ ‖∞= minπ

max1≤i≤N

|V i(π)− V i∗ |.

Nota 7.2. Las condiciones para que existan equilibrios de compromiso son lasmismas que para problemas de control o de optimizacion multiobjetivos; vea,

Page 52: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

52

por ejemplo, Hernandez–Lerma y Romera (2004a), Yu y Leitmann (1974). Estaultima referencia interpreta el termino V i(π) − V i

∗ como la pena o pesar (regret)del jugador i cuando se usa la multiestrategia π. Por lo tanto, se sigue de (7.2)que un equilibrio de compromiso π∗ minimiza “la pena” del grupo de jugadoresporque V (π∗) es el punto mas cercano al mınimo virtual, con respecto a la norma‖ · ‖.

El proposito del siguiente ejemplo es ilustrar el calculo de un equilibrio decompromiso. Sin embargo, para simplificar la presentacion, no consideramosun problema de “juegos” sino mas bien un problema de control multiobjetivos, esdecir, un controlador que desea “minimizar” en el sentido de Pareto un vectorde costos, digamos

V (π) = (V1(π), . . . , VN(π)). (7.3)

Ejemplo 7.3: Control multiobjetivos—sistema LQ estocastico a tiempo dis-creto. Sean α y β numeros reales distintos de cero y considerese el sistema lineal,escalar,

xt+1 = αxt + βat + ξt para t = 0, 1, . . . , (7.4)

con espacio de estados y de acciones X = A = IR. Las perturbaciones ξt sonvariables aleatorias i.i.d., que son independientes del estado inicial x0, y talesque

E(ξ0) = 0 y E(ξ20) =: σ2 < ∞. (7.5)

Sea ν0 la distribucion inicial. Los costos Vi(π, ν0) ≡ Vi(π) en (7.3) son de la forma

Vi(π) := (1− δ)Eπν0

[∞∑

t=0

δtci(xt, at)

]∀ i = 1, . . . , N, (7.6)

donde ci es un costo cuadratico,

ci(x, a) := six2 + ria

2 (7.7)

con coeficientes positivos si, ri. Siguiendo el “metodo de escalarizacion”, toma-mos un N–vector λ > 0 arbitrario y formamos el producto

V λ(π) := λ · V (π) =N∑

i=1

λiVi(π).

Page 53: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

7. EQUILIBRIOS DE COMPROMISO 53

Por (7.6) y (7.7), podemos expresar V λ(π) como

V λ(π) = (1− δ)Eπν0

[∞∑

t=0

δtcλ(xt, at)

](7.8)

con

cλ(x, a) :=N∑

i=1

λici(x, a) = (λ · s)x2 + (λ · r)a2,

donde s := (s1, . . . , sN) y r := (r1, . . . , rN). El problema “LQ” de encontrar unaestrategia que minimiza (7.8) sujeta a (7.4) es muy bien conocido. Por ejemplo,en la pag. 72 de Hernandez–Lerma y Lasserre (1996) se puede ver que la estrate-gia optima es la estrategia (markoviana estacionaria)

fλ(x) = −[(λ · r) + δβ2z(λ)]−1αβδz(λ)x ∀ x ∈ X, (7.9)

donde z(λ) es la unica solucion positiva de la ecuacion de Riccati

δβ2z2 + (r − rα2δ − sβ2δ)z − sr = 0, (7.10)

con r = λ·r y s = λ·s. Asimismo, para cualquier estado inicial x0 = x, la funcionde costo optimo es

V λ(fλ, x) = z(λ)[(1− δ)x2 + δσ2] ∀ x ∈ X,

con σ2 como en (7.5). Por lo tanto, suponiendo que la distribucion inicial ν0 tienesegundo momento finito, i.e.

ν0 :=

∫x2ν0(dx) < ∞, (7.11)

entonces el correspondiente costo optimo resulta ser

V λ(fλ) =

∫IR

V λ(fλ, x)ν0(dx) = z(λ)k(ν0) (7.12)

con k(ν0) := (1− δ)ν0 + δσ2.

Observese que el resultado (7.9)–(7.12) es valido para cualquier vector λ = (λ1,. . . , λN) > 0. En particular, si tomamos λ = e(i), donde e(i) es el vector concoordenadas

e(i)j =

{1 si j = 1,0 si j 6= i,

Page 54: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

54

y despues variamos i = 1, . . . , N, entonces obtenemos el mınimo virtual V∗ =(V 1

∗ , . . . , V N∗ ) en (7.1). Mas explicitamente, si en (7.12) sustituimos λ por e(i)

obtenemos el costo mınimo

V i∗ = inf

πV i(π) = V i(fe(i)) = zik(ν0)

donde zi es la unica solucion positiva de la ecuacion de Riccati (7.10) con r = ri

y s = si.

Finalmente, para encontrar una “estrategia de compromiso” π∗ se debe se-leccionar una norma en IRN y calcular π∗ que minimiza ‖ V (π) − V∗ ‖, como en(7.2). Estas operaciones se pueden realizar — al menos en principio — usandouna cierta “funcion de soporte”, como en el Ejemplo 5.7 de Hernandez–Lerma yRomera (2004b).

Page 55: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

8. EL PROBLEMA DE NEGOCIACION DE NASH 55

8 El problema de negociacion de Nash

Otra forma de ver cual es el equilibrio mas “justo” entre todos los equilibriosde Pareto consiste en encontrar la solucion de Nash del problema de negociacion(bargaining problem). Nash (1950b, 1953) introdujo este problema para juegosestaticos con un numero finito de acciones y de jugadores y posteriormente seha estudiado para varios tipos de juegos dinamicos, por ejemplo, juegos dife-renciales, como en Haurie (1976, 1982), Petrosyan (2003),..., y juegos diferen-ciales estocasticos, como en Gaidov (1990). En cualquier caso, la formulacion esesencialmente la misma. Para facilitar la exposicion aquı solo consideraremosjuegos con N = 2 jugadores.

Para i = 1, 2, sea V i(π) la funcion objetivo del jugador i, con π = (π1, π2), ysea V0 := (V 1

0 , V 20 ) el vector cuyas coordinadas son los valores minimax

V 10 := min

π1max

π2V 1(π1, π2),

V 20 := min

π2max

π1V 2(π1, π2).

A la pareja V 0 se le llama el “status quo”. (En general, el status quo no nece-sariamente son los valores minimax; es decir, las componentes de V 0 se puedenseleccionar de otras maneras.) A las multiestrategias π en el conjunto

Πir := {π ∈ Π | V 1(π) ≤ V 10 , V 2(π) ≤ V 2

0 }

se les llama multiestrategias individualmente racionales. Si π = (π1, π2) es unamultiestrategia individualmente racional, entonces la diferencia

V i0 − V i(π) ≥ 0 para i = 1, 2 (8.1)

se interpreta como el beneficio por cooperar del jugador i cuando se usa la multi-estrategia π. (Compare (8.1) con la “pena” o “pesar” V i(π)− V i

∗ del jugador i enla Nota 7.2.)

Definicion 8.1. Si π∗ ∈ Πir es una multiestrategia que maximiza la funcion

b(π) := [V 10 − V 1(π)] · [V 2

0 − V 2(π)], π ∈ Πir,

Page 56: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

56

se dice que π∗ es la solucion de Nash al problema de negociacion.

Un calculo directo muestra que si π∗ satisface la definicion anterior, entoncesπ∗ es un equilibrio de Pareto.

Para cualquier numero N ≥ 2 de jugadores los conceptos anteriores siguensiendo validos, con los cambios obvios. Por ejemplo, la funcion b(π) en la Defi-nicion 8.1 ahora resulta ser

b(π) := [V 10 − V 1(π)] · · · [V N

0 − V N(π)]

y el conjunto de multiestrategias individualmente racionales es

Πir := {π | V i(π) ≤ V i0 ∀ i = 1, . . . , N}.

En el siguiente teorema se da una caracterizacion de una solucion de Nash(al problema de negociacion) basada en la desigualdad

(y1 · · · yN)1/N ≤ N−1

N∑i=1

yi ∀ yi > 0, i = 1, . . . , N. (8.2)

entre la “media geometrica” (y1 · · · yN)1/N de N numeros yi ≥ 0 y la “mediaaritmetica” N−1

∑i yi.

Teorema 8.2. (Ehtamo et al., 1988) Supongase que π∗ ∈ Πir es tal que, para todoi = 1, . . . , N ,

V i(π∗) < V i0 ,

y sea

λ∗i :=b(π∗)

V i0 − V i(π∗)

, (8.3)

es decir

λ∗i =N∏

j = 1

j 6= i

[V j0 − V j(π∗)]

Si ademas π∗ es tal que

λ∗ · V (π∗) ≤ λ∗ · V (π) ∀ π ∈ Π, (8.4)

Page 57: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

8. EL PROBLEMA DE NEGOCIACION DE NASH 57

entonces π∗ es una solucion de Nash al problema de negociacion, i.e.

b(π∗) ≥ b(π) ∀ π ∈ Πir. (8.5)

Demostracion. Fıjese una estrategia arbitraria π ∈ Πir. Observe que (8.4) esequivalente a

λ∗ · (V0 − V (π)) ≤ λ∗ · (V0 − V (π∗))

=∑

i

λ∗i [Vi0 − V i(π∗)],

i.e., por (8.3),λ∗ · (V0 − V (π)) ≤ N b(π∗). (8.6)

Equivalentemente, usando de nuevo (8.3) y definiendo

yi :=V i

0 − V i(π)

V i0 − V i(π∗)

= λ∗i ·V i

0 − V i(π)

b(π∗),

podemos expresar (8.6) como

N ≥N∑

i=1

λ∗i [Vi0 − V i(π)]/b(π∗)

=n∑

i=1

yi

≥ N · (y1 · · · yN)1/N [por (8.2)]

= N [b(π)/b(π∗)]1/N .

Finalmente, multiplicando la expresion anterior por 1/N se obtiene b(π∗) ≥ b(π).Luego, como π ∈ Πir es arbitraria, se sigue (8.5). 2

El Teorema 8.2 sugiere el siguiente “algoritmo”, introducido por Ehtamo etal. (1988), para encontrar una solucion de Nash. Supongase que para cada vectorλ en

SN−1 := {λ ∈ IRN | λ >> 0, λ1 + · · ·+ λN = 1}existe una multiestrategia πλ = (π1

λ, . . . , πNλ ) ∈ Π tal que

λ · V (πλ) ≤ λ · V (π) ∀ π ∈ Π, (8.7)

Page 58: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

58

de modo que πλ es un equilibrio de Pareto (por el Teorema 6.2). Con esta no-tacion el “algoritmo” es como sigue.

Paso 1. Para cada λ ∈ SN−1 encuentre πλ que satisface (8.7).

Paso 2. Encuentre λ∗ ∈ SN−1 tal que, para todo i = 1, . . . , N, V i(πλ∗) < V i0 y,

ademas (como en (8.3)),

λ∗i =b(πλ∗)

V i0 − V i(πλ∗)

.

Del Teorema 8.2 se sigue de manera evidente que πλ∗ es una solucion de Nashal problema de negociacion. Sin embargo, aunque el algoritmo es conceptual-mente simple, es poco util por la dificultad de realizar los pasos 1 y 2.

Para juegos estaticos hay soluciones distintas de la de Nash al problema denegociacion — ver, por ejemplo, Kalai y Smorodinsky (1975), Petrosjan y Zenke-vich (1996), Roth (1979, 1985).

Kaitala et al. (1985) estudian el problema de negociacion asociado a un juegodiferencial que representa dos cooperativas pesqueras que explotan una mismapesquerıa. Una situacion mas general se analiza en el artıculo de Ehtamo et al.(1988).

Page 59: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

9. EQUILIBRIOS DE NASH 59

Parte 3. Juegos no–cooperativos

En un juego no–cooperativo los jugadores actuan independientemente y ca-da uno desea alcanzar su propio objetivo individual.

9 Equilibrios de Nash

Primero consideraremos el caso de N = 2 jugadores.

Definicion 9.1. Sea π2 ∈ Π2 una estrategia (fija) del jugador 2. Definimos elconjunto de las respuestas optimas del jugador 1 a la estrategia π2 como

RO1(π2) := {π1

∗ ∈ Π1 | V 1(π1∗, π

2) = infπ1

V 1(π1, π2)}. (9.1)

Analogamente, el conjunto de las respuestas optimas del jugador 2 a una es-trategia π1 ∈ Π1 del jugador 1 se define como

RO2(π1) := {π2

∗ ∈ Π2 | V 2(π1, π2∗) = inf

π2V 2(π1, π2)}. (9.2)

Se dice que la multiestrategia (π1∗, π

2∗) ∈ Π1 × Π2 es un equilibrio de Nash si

π1∗ ∈ RO1(π

2∗) y π2

∗ ∈ RO2(π1∗).

Equivalentemente, (π1∗, π

2∗) es un equilibrio de Nash si

V 1(π1∗, π

2∗) = inf

π1V 1(π1, π2

∗)

yV 2(π1

∗, π2∗) = inf

π2V 2(π1

∗, π2).

En palabras, en un equilibrio de Nash, un jugador no puede mejorar susituacion si altera su estrategia unilateralmente.

Nota 9.2. Para algunos tipos de juegos (por ejemplo, juegos markovianos atiempo discreto con espacio de estados no–numerable) hasta la fecha ha sido

Page 60: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

60

imposible dar condiciones generales para la existencia de equilibrios de Nash.Trataremos de explicar porque.

Considerese la multifuncion Γ que a cada multiestrategia (π1, π2) ∈ Π1 × Π2

le asocia el conjunto RO1(π2)×RO2(π

1), i.e.

Γ(π1, π2) := RO1(π2)×RO2(π

1).

Se puede ver facilmente que (π1∗, π

2∗) es un equilibrio de Nash si y solo si (π1

∗, π2∗)

es un punto fijo de Γ, es decir,

(π1∗, π

2∗) ∈ Γ(π1

∗, π2∗). (9.3)

El problema con (9.3) es que los teoremas de punto fijo de multifunciones requierenhipotesis muy restrictivas, por ejemplo, alguna condicion de continuidad de Γ,y que los conjuntos Γ(π1, π2) sean compactos, convexos, etc. Esto requiere, deentrada, introducir una topologıa adecuada sobre Π1 × Π2 con respecto a la cualse satisfacen las hipotesis de los teoremas de punto fijo. Salvar estos obstaculostopologicos no es facil en muchos casos. 2

Caso general (N ≥ 2). Sea Π := Π1 × · · · × ΠN . Para cada multiestrategiaπ = (π1, . . . , πN) en Π y γ ∈ Πi, sea

[π−i|γ] := (π1, . . . , πi−1, γ, πi+1, . . . , πN)

la multiestrategia con respecto a la cual cada jugador k usa la estrategia πk sik 6= i, mientras que el jugador i usa γ.

Se dice que una multiestrategia π∗ = (π1∗, . . . , π

N∗ ) es un equilibrio de Nash

si para cada i la estrategia πi∗ ∈ Πi es una respuesta optima del jugador i contra

π∗, es decir,Vi(π∗) = inf

γ∈Πi

Vi([π−i∗ |γ]). (9.4)

Esto tambien se puede expresar equivalentemente como

πi∗ ∈ arg min

γ∈Πi

Vi([π−i∗ |γ]) ∀ i = 1, . . . , N. (9.5)

En realidad, la definicion anterior de equilibrio de Nash es adecuada parajuegos estaticos pero no para juegos dinamicos. El problema es que en un juego

Page 61: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

9. EQUILIBRIOS DE NASH 61

dinamico puede darse el caso de que, en algun instante del juego, algunos de losjugadores decidan unilateralmente desviarse de la posicion de equilibrio y, porlo tanto, la multiestrategia correspondiente deja de ser un ”equilibrio”. Para evi-tar este tipo de situacion se puede suponer que los acuerdos entre los jugadoresson vinculantes; recuerde la Nota 6.3(c). Otra manera de evitar desviaciones uni-laterales de la posicion de equilibrio consiste en demostrar que un equilibrio deNash es perfecto en el sentido de la siguiente definicion.

Definicion 9.3. Considerese un juego dinamico con N jugadores y sea Vi(t, x, π)la funcion objectivo del jugador i(i = 1, . . . , N) dado que la condicion inicial deljuego es x(t) = x en el tiempo t ≥ 0. Sea π∗ = (π1

∗, . . . , πN∗ ) una multiestrategia

markoviana, es decir, cada πi∗ es markoviana (o de retroalimentacion), como en

(2.6). Se dice que π∗ es un equilibrio de Nash perfecto si, para cada i = 1, . . . , Ny cualquier condicion inicial (t, x), se cumple que

Vi(t, x, π∗) = infγ

Vi(t, x, [π−i∗ |γ]),

donde el infimo se calcula sobre todas las estrategias markovianas γ del jugadori.

En otras palabras, un equilibrio de Nash perfecto es una multiestrategia mar-koviana que es un equilibrio de Nash para cualquiera que sea la condicion ini-cial del juego. En este caso, algunos autores dicen que el equilibrio de Nash esperfecto en los subjuegos (subgame perfect).

Notese que resolver (9.4) o (9.5) esencialmente equivale a resolver un PCOpara cada i. Esto sugiere que, en principio, podemos usar tecnicas como el prin-cipio del maximo o programacion dinamica para encontrar equilibrios de Nash.

El principio del maximo.

Considerese un juego diferencial con N ≥ 2 jugadores, espacio de estadosX = IRn y conjuntos de acciones Ai ⊂ IRmi para i = 1, . . . , N . El modelo dinamicoes (comparese con (3.16))

x(t) = F (t, x(t), a(t)) ∀ 0 ≤ t ≤ T, x(0) = x0. (9.6)

Los controles admisibles son de lazo abierto, a(·) = (a1(·), . . . , aN(·)), donde ai(·)es una funcion medible de [0, T ] a Ai. Los jugadores desean “maximizar” las

Page 62: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

62

funciones objetivo

J i(a(·)) :=

∫ T

0

Li(t, x(t), a(t))dt + Ci(T, x(T )).

Sea p(t) = [pij(t)] la matriz N × n de variables adjuntas cuya i–esima fila es

pi(t) = (pi1(t), . . . , p

in(t)) para i = 1, . . . , N.

Definimos el hamiltoniano

H i(t, x, a, p) := Li(t, x, a) + pi(t) · F (t, x, a). (9.7)

Supongase que a∗(·) es un equilibrio de Nash y sea x∗(·) la trayectoria corre-spondiente (solucion de (9.6)). En este caso (bajo ciertas hipotesis sobre F, Li, Ci,etc.) se cumplen las siguientes condiciones necesarias para cada i = 1, . . . , N :las ecuaciones adjuntas

pi(t) = −H ix(t, x∗(t), a∗(t), p(t)) (9.8)

la condicion terminalpi(T ) = Ci

x(T, x∗(T )), (9.9)

y la maximizacion del hamiltoniano

H i(t, x∗(t), a∗(t), pi(t)) ≥ H i(t, x∗(t), a

i, pi(t)) ∀ ai ∈ Ai. (9.10)

(Compare (9.8)–(9.10) con (3.18)–(3.20).)

Las ecuaciones (9.6) y (9.8)–(9.10) definen un problema con dos condicionesde frontera que en algunos casos se puede resolver explıcitamente. Por ejem-plo, Clemhout y Wan (1974) consideran juegos trilineales, llamados ası porque elhamiltoniano es lineal en el estado, en los controles, y en la variable adjunta.Asimismo, Dockner et al. (1985) identifican varios tipos de juegos diferencialesque son solubles, en el sentido de que se pueden determinar equilibrios de Nashde lazo abierto, ya sea explıcitamente o “cualitativamente”. Esto ultimo sig-nifica que se puede obtener un equilibrio de Nash resolviendo un sistema deecuaciones diferenciales de la forma

ai = φi(t, a) para i = 1, . . . , N.

Page 63: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

9. EQUILIBRIOS DE NASH 63

Programacion dinamica.

Para cada a = (a1, . . . , aN), sea [a−i|a′] el vector con componentes ak si k 6= i,y ai = a′, es decir,

[a−i|a′] = (a1, . . . , ai−1, a′, ai+1, . . . , aN).

Supongase que para cada i = 1, . . . , N existen funciones vi(s, x) de clase C1,1

que satisfacen la ecuacion de programacion dinamica (cf. (4.26)):

vit + max

a′∈Ai{F (t, x, [a−i|a′]) · vi

x + Li(t, x, [a−i|a′])} = 0 (9.11)

para todo (t, x) en [0, T ]× IRn, con condicion de frontera

vi(T, x) = Ci(T, x) ∀ x ∈ IRn. (9.12)

Ademas, sea a∗(t, x) ∈ A1×· · ·×AN la multiestrategia cuyas componentes ai∗(t, x)

alcanzan el maximo en (9.11). Entonces a∗(t, x) es un equilibrio de Nash perfectoy

vi(t, x) = J i(t, x, a∗(t, x)), (9.13)

donde

J i(t, x, a∗(t, x)) =

∫ T

t

Li(s, x∗, a∗)ds + Ci(T, x∗(T ))

y x∗(s) es la solucion de (9.6) para t ≤ s ≤ T con condicion inicial x∗(t) = x.

El resultado (9.11)–(9.13) para juegos diferenciales se debe a Stalford y Leit-mann (1973) y se puede extender a otros juegos markovianos a tiempo continuo;ver Jasso–Fuentes (2004).

En muchos casos interesantes se puede obtener una solucion explıcita de(9.11)–(9.13). Por ejemplo, Jorgensen y Sorger (1990) hacen un analisis muydetallado, explıcito, de un juego diferencial que representa dos jugadores ex-plotando una misma pesquerıa. El modelo dinamico es

x = rx(1− x/k)− bx(ea1+a2 − 1), 0 ≤ t ≤ T, x(0) = x0,

Page 64: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

64

donde k es la capacidad portadora del ecosistema, r y b son constantes, y a1, a2 sonlas acciones de los jugadores. Jorgensen y Yeung (1996) analizan una versionestocastica del juego anterior, con N ≥ 2 jugadores. En estos dos artıculos seconsideran funciones objetivo con horizonte finito y tambien horizonte infinito.

Para juegos a tiempo discreto tambien hay muchas publicaciones en las quese calculan (o se demuestra la existencia de) equilibrios de Nash, en particu-lar, en juegos relacionados a economıa. Amir (2003) trae un buen numero dereferencias. Los juegos de acumulacion de capital (o de extraccion de recur-sos) han recibido mucha atencion en anos recientes; ver, por ejemplo, Balbus yNowak (2004), Nowak (2003b), Nowak y Szajowski (2003), Wiecek (2003, 2005).Otra lınea interesante son los juegos sobre ”capitalismo”, iniciados por Lancaster(1973) y que se han desarrollado a tiempo contınuo, como en Basar et al. (1985),Pohjola (1983) y Shimomura (1991), y a tiempo discreto, como en Krawczyk yShimomura (2003). En esta ultima referencia se hace un analsis muy completode varios tipos de equilibrios para un cierto modelo de crecimiento economico.

Observaciones 9.4. (a) De (9.11)–(9.13) se puede ver que la programacion dina-mica da en forma natural equilibrios de Nash perfectos, a diferencia del prin-cipio del maximo (9.8)–(9.10) que, en general, da equilibrios de Nash de lazoabierto y que, por lo tanto, no son perfectos. Por otra parte, Rincon–Zapatero(2004) y Rincon–Zapatero et al. (1998) proponen un enfoque distinto de la progra-macion dinamica para caracterizar equilibrios de Nash perfectos en ciertos juegosdiferenciales.

(b) En general, un equilibrio (no–cooperativo) de Nash no es equilibrio (co-operativo) de Pareto—algunos casos especıficos se pueden ver en Krawczyk yShimomura (2003), Neck (1985) y Rincon–Zapatero (2004). Sin embargo, Rincon–Zapatero et al. (2000) han identificado una clase de juegos diferenciales cuyosequilibrios de Nash sı son equilibrios de Pareto. (De hecho, ya existıan traba-jos similares, como el de Case (1974), pero para juegos mas bien ”academicos”,es decir, juegos un poco artificiales que no tienen nada que ver con juegos quesurgen de aplicaciones.)

Page 65: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

10. JUEGOS SIMETRICOS Y DE SUMA CERO 65

10 Juegos simetricos y de suma cero

Hay varios casos particulares, pero muy importantes, de juegos no–cooperativosentre los que destacan los juegos simetricos y los juegos de suma cero.

Juegos simetricos

Un juego simetrico es un juego no–cooperativo en el que los jugadores tienenla misma funcion objetivo, digamos

V i(π) ≡ V (π) ∀ i = 1, . . . , N, π ∈ Π, (10.1)

y los mismos conjuntos de acciones admisibles y, ademas, la ley de movimientodel estado del juego es simetrica con respecto a las acciones de los jugadores. Unjuego simetrico tambien es conocido como un problema de equipo porque es comosi todos y cada uno de los jugadores trataran de optimizar la misma funcion,V (π) en nuestro caso.

Ejemplos de juegos simetricos aparecen en Balbus y Nowak (2004), Dockneret al. (2000), Rincon–Zapatero (2004) y Sundaram (1989). En particular, en lapenultima de estas referencias se estudia el problema de la explotacion, por N >1 agentes, de un recurso no renovable de propiedad comun. La evolucion delnivel del recurso sigue la ecuacion dferencial

x = −(a1 + · · ·+ aN), con x(0) = x0 > 0,

donde ai ≥ 0 es la tasa de explotacion del i–esimo jugador. Asimismo, para cadajugador se define una cierta funcion de pago como en (10.1) que permite de-mostrar la existencia de un equilibrio de Nash simetrico, es decir, un equilibriode Nash (π1, . . . , πN) con πi = πj para todo i, j = 1, . . . , N . (Nota: En general, unjuego simetrico no necesariamente tiene equilibrios de Nash simetricos.)

De (9.4) y (10.1) se puede ver que una multiestrategia π∗ = (π1∗, . . . , π

N∗ ) es un

equilibrio de Nash para un juego simetrico si y solo si

V (π∗) = infγ∈Πi

V ([π−i∗ |γ]) ∀ i = 1, . . . , N. (10.2)

Por este motivo se dice que π∗ es una multiestrategia optima persona–por–persona. Observese que si π es el mınimo global de V , i.e.

V (π) ≤ V (π) ∀ π ∈ Π,

Page 66: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

66

entonces π es “mejor” que π∗ en el sentido de que V (π) ≤ V (π∗). Sin embargo, πno satisface en general la condicion ser un optimo persona–por-persona, comoen (10.2).

Nota 10.1. En un juego simetrico o problema de equipo se supone que todoslos jugadores tienen la misma informacion en todo el tiempo que dura el juego. Estosignifica que el juego se puede interpretar como un problema de control central-izado en el que varios controladores estan coordinados por una misma “central”.Por el contrario, en problemas de control decentralizado los controladores no com-parten la misma informacion y se presentan dificultades para coordinarlos. Paramas detalles y referencias, ver Neck (1982), por ejemplo.

Juegos de suma cero

Un juego no–cooperativo con N = 2 jugadores es un juego de suma cero si

V 1(π) + V 2(π) = 0 ∀ π ∈ Π,

es decir V 1(π) = −V 2(π). Definiendo V := V 1 = −V 2, es evidente que π∗ =(π1

∗, π2∗) es un equilibrio de Nash para un juego de suma cero si y solo si es un

punto silla, i.e.

V (π1∗, π

2) ≤ V (π1∗, π

2∗) ≤ V (π1, π2

∗) ∀ (π1, π2) ∈ Π1 × Π2. (10.3)

Considerese un juego de suma cero con estado inicial x(s) = x ∈ X en eltiempo s ≥ 0. Las funciones

L(s, x) := supπ2

infπ1

V (s, x, π1, π2),

U(s, x) := infπ1

supπ2

V (s, x, π1, π2) (10.4)

se llaman el valor inferior y el valor superior del juego, respectivamente. Siem-pre se cumple la desigualdad

L(s, x) ≤ U(s, x) ∀ (s, x). (10.5)

Page 67: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

10. JUEGOS SIMETRICOS Y DE SUMA CERO 67

Definicion 10.2. Si se cumple la igualdad en (10.5) para todo (s, x), se dice queel juego de suma cero tiene el valor V(s, x) := L(s, x) = U(s, x).

Un resultado que da condiciones para la existencia del valor V se conocecomo un teorema minimax. El siguiente teorema minimax nos dice, en pocaspalabras, que la existencia del valor V es en cierto modo equivalente a la exis-tencia de un punto silla.

Teorema 10.3. (a) Si un juego de suma cero tiene un punto silla (π1∗, π

2∗), entonces

tiene el valorV(s, x) = V (s, x, π1

∗, π2∗) ∀ (s, x). (10.6)

(b) Si existe una multiestrategia π∗ = (π1∗, π

2∗) tal que para todo (s, x):

V (s, x, π1∗, π

2∗) = infπ1V (s, x, π1, π2

∗) (10.7)= supπ2V (s, x, π1

∗, π2),

entonces π∗ es un punto silla.

Aunque la demostracion del Teorema 10.3 es trivial, es importante obser-var que es valido para cualquier juego de suma cero, ya sea determinıstico oestocastico, a tiempo discreto o tiempo continuo. A continuacion daremos unejemplo de como se aplica dicho teorema.

Considere un juego determinıstico a tiempo continuo con ecuacion de movi-miento

x = F (t, x, a1, a2) para 0 ≤ t ≤ T.

Dada la condicion inicial x(s) = x en el tiempo s ∈ [0, T ], la funcion objetivo estadada como

V (s, x, π1, π2) :=

∫ T

s

L(t, x, a1, a2)dt + C(T, x(T )).

Entonces combinando la ecuacion de programacion dinamica (9.11)–(9.12) conel Teorema 4.6 obtenemos el siguiente teorema minimax.

Teorema 10.4. Supongase que existe una funcion suave v(s, x) y estrategias π1∗, π

2∗

Page 68: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

68

tales que, para todo (s, x) en [0, T ]× X, se tiene

0 = F (s, x, a1∗, a

2∗) · vx + L(s, x, a1

∗, a2∗)

= infa1

[F (s, x, a1, a2∗) · vx + L(s, x, a1, a2

∗)] (10.8)

= supa2

[F (s, x, a1∗, a

2) · vx + L(s, x, a1∗, a

2)]

con la condicion de frontera

v(T, x) = C(T, x) ∀ x ∈ X. (10.9)

Entoncesv(s, x) = V (s, x, π1

∗, π2∗) (10.10)

es el valor del juego y (π1∗, π

2∗) es un punto silla.

En efecto, de la primera igualdad en (10.8), junto con la condicion de frontera(10.9), se obtiene (10.10). Por otra parte, comparando (10.7) con las ultimas dosigualdades en (10.8) se obtiene la condicion de punto silla:

V (s, x, π1∗, π

2) ≤ V (s, x, π1∗, π

2∗) ≤ V (s, x, π1, π2

∗).

Usando el generador infinitesimal La mencionado en (2.36)–(2.38) se puedever que el Teorema 10.4 es un caso particular de un resultado valido para cual-quier tipo de juego markoviano a tiempo continuo; vea Jasso–Fuentes (2004).Otros casos particulares de juegos markovianos a tiempo continuo, de sumacero, son los juegos diferenciales estocasticos (como en Basar y Olsder (1999),Browne (2000), Kushner (2002, 2004), etc.) y cadenas de Markov (como en Guo yHernandez–Lerma (2003b, 2005), Prieto–Rumeau y Hernandez–Lerma (2005c)).Para este tipo de juegos, a la ecuacion de programacion dinamica (10.8)–(10.9)algunos autores le llaman la ecuacion de Hamilton–Jacobi–Bellman–Isaacs.

Nota 10.5. El Teorema 10.4 da condiciones suficientes para la existencia de unpunto silla (π1

∗.π2∗), donde πi

∗ es una estrategia markoviana. Pero, por supuesto,no todos los juegos satisfacen dichas condiciones y, de hecho, hay juegos desuma cero que no tienen un punto silla. Tambien existen juegos de suma ceroque no admiten puntos silla en una cierta familia de estrategias (e.g., estrategiasmarkovianas), pero sı en una familia mas grande (e.g., estrategias aleatorizadas);vea, por ejemplo, Schmitendorf (1976).

Page 69: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

10. JUEGOS SIMETRICOS Y DE SUMA CERO 69

Para juegos semi–markovianos o markovianos a tiempo discreto se tienen re-sultados semejantes al Teorema 10.4 (ver, por ejemplo, Filar y Vrieze (1997),Hernandez–Lerma y Lasserre (2001), Luque–Vasquez (2002), Nowak (2003),Vega–Amaya (2003), ...). En el caso a tiempo discreto, a la correspondienteecuacion de programacion dinamica se le llama ecuacion de Shapley.

Nota 10.6 Los problemas de control minimax que estudiamos en la Seccion 5 sepueden ver como cierto tipo de juegos de suma cero. En efecto, si comparamoslas ecuaciones (10.4) y (5.2) vemos que una estrategia minimax π1

∗ alcanzarıa elvalor superior del juego, i.e.

U(s, x) = supπ2

V (s, x, π1∗, π

2) = infπ1

supπ2

V (s, x, π1, π2)

para cualquier condicion inicial (s, x). Los problemas de control minimax vistoscomo “juegos contra la naturaleza” son muy populares en algunas aplicaciones,por ejemplo, en control de colas—ver Altman (2005), Altman y Hordijk (1995).

Page 70: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

70

11 Juegos de Stackelberg

Los juegos de Stackelberg fueron introducidos por el economista austriaco H.von Stackelberg en 1934. Estos juegos se caracterizan porque uno de los ju-gadores, al que se le llama el lıder, fija las reglas del juego, “tira primero” por asıdecirlo, y el resto de los jugadores, a quienes se les llama los seguidores, debenbuscar su respuesta optima a las reglas del lıder.

Aquı solo consideraremos el caso de dos jugadores, en los que el jugador 1es el lıder y el jugador 2 es el seguidor. Las respectivas funciones objetivo son

V1(π1, π2), V2(π

1, π2).

(Se pueden considerar juegos de Stackelberg con mas de dos jugadores y convarios niveles de jerarquıa; ver Basar y Olsder (1999), por ejemplo.)

Dada una estrategia π1 ∈ Π1 del lıder, recuerdese que RO2(π1) denota el

conjunto de las respuestas optimas del jugador 2 a la estrategia π1; vea (9.2).

Definicion 11.1. Sea

V1(π1) := sup{V1(π

1, π2) | π2 ∈ RO2(π1)}.

Una multiestrategia (π1∗, π

2∗) es un equilibrio de Stackelberg si

V1(π1∗) = infπ1V1(π

1) = infπ1supπ2∈RO2(π1)V1(π1, π2) (11.1)

yπ2∗ ∈ RO2(π

1∗).

Observese que (11.1) tenemos una situacion similar al control minimax o con-trol del peor caso que vimos en la seccion 5. En efecto, el lıder toma una actitudde minimizar el peor caso, porque trata de cubrir sus perdidas contra la peorseleccion del jugador 2 en el conjunto RO2(π

1).

Ejemplo 11.2. En este ejemplo, introducido por Basar (1991), el lıder (= jugador1) es el gobierno o la “autoridad monetaria” — en Mexico, el Banco de Mexico— y el seguidor (= jugador 2) es el sector privado. El objetivo principal dellıder es controlar la inflacion, ası que el estado xt ∈ IR del juego es el parametro

Page 71: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

11. JUEGOS DE STACKELBERG 71

de preferencia (en Mexico, el IPC = ındice de precios al consumidor) del lıder ysatisface la ecuacion diferencial estocastica

dxt = −(1− ρ)xtdt + θ(1− ρ)dt + dvt, t ≥ 0, x(0) = x0,

donde ρ ∈ (0, 1) y θ > 0 son constantes, y vt es un proceso de Wiener. (Enel artıculo de Basar y Salmon (1990) se estudia un juego similar pero a tiempodiscreto.)

La variable de control a1t del lıder es la tasa planeada de crecimiento monetario,

de modo que el crecimiento monetario acumulado real, que se denota por mt, es

mt :=

∫ t

0

a1sds + wt

donde wt es un proceso de Wiener independiente de vt. La variable de control a2t

del seguidor es el pronostico que hace de a1t basandose en la informacion {ms, s <

t}.

Basar (1991) considera funciones objetivo con horizonte finito y tambien hor-izonte infinito. Aquı solo consideraremos el segundo caso, en el que el seguidordesea minimizar

V2(π1, π2) := E

{∫ ∞

0

(a1t − a2

t )2e−αtdt

},

donde α > 0 es un factor de descuento, mientras que el lıder desea maximizar

V1(π1, π2) := E

{∫ ∞

0

[xt(a1t − a2

t )−1

2(a1

t )2]e−βtdt

},

donde β > 0 es otro factor de descuento. Esta funcion V1 representa un bal-ance entre maximizar el primer termino (llamado la “sorpresa monetaria”) yminimizar (a1

t )2 (que equivale a un bajo nivel de inflacion), con el parametro de

preferencia xt determinando el grado y nivel de este balance.

Se puede demostrar que el conjunto RO2(π1) tiene un unico punto T (π1), o

sea T (π1) ∈ A2 es el unico valor para el que

V2(π1, T (π1)) ≤ V2(π

1, π2) ∀ π1, π2.

Page 72: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

72

Combinando este hecho con la Definicion 11.1 se sigue que una multiestrategia(π1, π2) es un equilibrio de Stackelberg si

V1(π1, π2) ≥ V1(π

1, T (π1)) ∀ π1 ∈ Π1

y, ademas,π2 = T (π1).

De hecho, bajo ciertas hipotesis, este equilibrio resulta ser

a1t := M(xt − xt) y a2

t = E(a1t | ms, s < t) = 0, (11.2)

donde M > 0 es una constante y xt := E(xt | ms, s < t). (Como E(a1t ) = 0 se dice

que el “sesgo inflacionario” es cero.)

Por otra parte, (π1∗, π

2∗) es un equilibrio de Nash si

V1(π1∗, π

2∗) ≥ V1(π

1, π2∗) ∀ π1

yV2(π

1∗, π

2∗) ≤ V2(π

1∗, π

2) ∀ π2.

Bajo hipotesis adecuadas, se demuestra que el equilibrio de Nash es

a∗1t = b xt + c y a∗2t = xt, (11.3)

con xt como en (11.2), y b, c constantes. (El estimador xt se calcula usando filtrosde Kalman.) Basar hace una comparacion del equilibrio de Stackelberg (11.2)con el equilibrio de Nash (11.3). 2

Ademas de los artıculos de Basar (1991) y Basar y Salmon (1990) menciona-dos en el ejemplo anterior, Basar et al. (1985), Neck (1991) y Pohjola (1983) estu-dian equilibrios de Nash y de Stackelberg para un mismo juego.

Page 73: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

73

Referencias

Altman, E. (2005). Applications of dynamic games in queues. In Nowak ySzajowski (2005), pp. 309–342.

Altman, E., Hordijk, A. (1995). Zero–sum Markov games and worst–case op-timal control of queueing systems. Queueing Syst. Theory Appl. 21, pp.415–447.

Alvarez–Mena, J., Hernandez–Lerma, O. (2005). Existence of Nash equilibriafor constrained stochastic games. Math. Meth. Oper Res. 62, to appear.

Amir, R. (2003). Stochastic games in economics and related fields: an overview.In Neyman and Sorin (2003), Chapter 30.

Arkin, V.I., Evstigneev, I.V. (1987). Stochastic Models of Control and EconomicDynamics. Academic Press, London.

Balbus, L., Nowak, A.S. (2004). Construction of Nash equilibria in symmetricstochastic games of capital accumulation. Math. Meth. Oper. Res. 60, pp.267–277.

Basar, T., editor (1986). Dynamic Games and Applications in Economics. Lec-ture Notes in Economics and Mathematical Systems 265, Springer–Verlag,Berlin.

Basar, T. (1991). A continuous–time model of monetary policy and inflation: astochastic differential game. In Ricci (1991), pp. 3–17.

Basar, T., Haurie, A., Ricci, G. (1985). On the dominance of capitalists lead-ership in a feedback–Stackelberg solution of differential game model ofcapitalism”. J. Econ. Dyn. Control 9, pp. 101–125.

Basar, T., Olsder, G.J. (1999). Dynamic Noncooperative Game Theory, Second Edi-tion. SIAM, Philadelphia. (The first edition was published by AcademicPress, in 1982.)

Basar, T., Salmon, M. (1990). Credibility and the value of information transmis-sion in a model of monetary policy and inflation. J. Economic Dynamics andControl 14, pp. 97–116.

Page 74: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

74

Bellman, R. (1956). Dynamic Programming. Princeton University Press, Prince-ton, N.J.

Bernhard, P. (2005). Robust control approach to option pricing, including trans-action costs. In Nowak and Szajowski (2005), pp. 391–416.

Bertsekas, D.P. (1987). Dynamic Programming: Deterministic and Stochastic Mod-els. Prentice–Hall, Englewood Cliffs, N.J.

Bertsekas, D.P. (2000). Dynamic Programming and Optimal Control, Volume I, Sec-ond Edition. Athena Scientific, Belmont, MA.

Browne, S. (2000). Stochastic differential portfolio games. J. Appl. Prob. 37, pp.126–147.

Bourdache–Siguerdidjane, H., Fliess, M. (1987). Optimal feedback control ofnonlinear systems. Automatica 23, pp. 365–372.

Case, J. (1974). A class of games having Pareto optimal Nash equilibria. J.Optim. Theory Appl. 13, pp. 379–386.

Clemhout, S., Wan, H.Y. (1974). A class of trilinear differential games. J. Optim.Theory Appl. 14, pp. 419–424.

Dockner, E., Feichtinger, G., Jorgensen, S. (1985). Tractable classes of nonzero–sum open–loop Nash differential games: theory and examples. J. Optim.Theory Appl. 45, pp. 179–197.

Dockner, E.J., Jorgensen, S., Long, N.V., Sorger, G. (2000). Differential Gamesin Economics and Management Science. Cambridge University Press, Cam-bridge, U.K.

Ehtamo, H., Ruusunen, J., Kaitala, V., Hamalainen, R.P. (1988). Solution for adynamic bargaining problem with an application to resource management.J. Optim. Theory Appl. 59, pp. 391–405.

Feichtinger, G., editor (1985). Optimal Control Theory and Economic Analysis 2.North–Holland, Amsterdam.

Feichtinger, G., Jorgensen, S. (1983). Differential game models in management.Euro. J. Oper. Res. 14, pp. 137–155.

Page 75: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

75

Fershtman, C., Mullar, E. (1986). Turnpike properties of capital accumulationgames. J. Econ. Th. 38, pp. 167–177.

Filar, J.A., Petrosjan, L.A. (2000). Dynamic cooperative games. Internatl. GameTheory Rev. 2, pp. 47–65.

Filar, J., Vrieze, K. (1997). Competitive Markov Decision Processes. Springer–Verlag, New York.

Fleming, W.H., Rishel, R.W. (1975). Deterministic and Stochastic Optimal Control.Springer–Verlag, New York.

Fleming, W.H., Soner, H.M. (1992). Controlled Markov Processes and ViscositySolutions. Springer–Verlag, New York.

Fudenberg, D., Tirole, J. (1991). Game Theory. MIT Press, Cambridge, MA.

Gaidov, S.D. (1986). Pareto–optimality in stochastic differential games. Prob-lems of Control and Information Theory 15, 439–450.

Gaidov, S.D. (1990). On the Nash–bargaining solution in stochastic differentialgames. Serdica 16, pp. 120–125.

Gibbons, R. (1992). Game Theory for Applied Economists. Princeton UniversityPress, Princeton, NJ.

Gonzalez–Trejo, J.I., Hernandez–Lerma, O., Hoyos–Reyes, L.F. (2003). Mini-max control of discrete–time stochastic systems. SIAM J. Control Optim. 41,pp. 1626–1659.

Guo, X.P., Hernandez–Lerma, O. (2003a). Continuous–time controlled Markovchains with discounted rewards. Acta Appl. Math. 79, pp. 195–216.

Guo, X.P., Hernandez–Lerma, O. (2003b). Zero–sum games for continuous–time Markov chains with unbounded transition and average payoff rates.J. Appl. Prob. 40, pp. 327–345.

Guo, X.P., Hernandez–Lerma, O. (2005). Nonzero–sum games for continuous–time Markov chains with unbounded discounted payoff. J. Appl. Probab.42, to appear.

Page 76: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

76

Halkin, H. (1966). A maximum principle of the Pontryagin type for systemsdescribed by nonlinear difference equations. SIAM J. Control 4, pp. 90–111.

Haurie, A. (1976). A note on nonzero–sum differential games with bargainingsolution. J. Optim. Theory Appl. 18, pp. 31–39.

Haurie, A. (1982). Acceptable equilibria in dynamic bargaining games. LectureNotes in Control and Information Sciences 38, pp. 715–725.

Haurie, A. (2001). A historical perspective on cooperative differential games.In Advances in Dynamic Games and Applications, ed by E. Altman and O.Pourtallier, Birkhauser, Boston, pp. 19–29.

Hernandez–Lerma, O. (1994). Lectures on Continuous–Time Markov Control Pro-cesses. Sociedad Matematica Mexicana, Mexico.

Hernandez–Lerma, O., Lasserre, J.B. (1996). Discrete–Time Markov Control Pro-cesses: Basic Optimality Criteria. Springer–Verlag, New York.

Hernandez–Lerma, O., Lasserre, J.B. (1999). Further Topics on Discrete–TimeMarkov Control Processes. Springer–Verlag, New York.

Hernandez–Lerma, O., Lasserre, J.B. (2001). Zero–sum stochastic games inBorel spaces: average payoff criteria. SIAM J. Control Optim. 39, pp. 1520–1539.

Hernandez–Lerma, O., Romera, R. (2004a). The scalarization approach to mul-tiobjective Markov control problems: why does it work? Appl. Math. Op-tim. 50, pp. 279–293.

Hernandez–Lerma, O., Romera, R. (2004b). Multiobjective Markov control pro-cesses: a linear programming approach. Morfismos 8, to appear. (This pa-per is an extended, more detailed, version of the paper by the same authors(20004a).)

Isaacs, R. (1965). Differential Games. Wiley, New York.

Jasso–Fuentes, H. (2004). Noncooperative Continuous–Time Markov Games. M.Sc.thesis, Departamento de Matematicas, CINVESTAV–IPN.

Jorgensen, S., Sorger, G. (1990). Feedback Nash equilibria in a problem of opti-mal fishery management. J. Optim. Theory Appl. 64, pp. 293–310.

Page 77: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

77

Jorgensen, S., Yeung, D.W.K. (1996). Stochastic differential game model of acommon property fishery. J. Optim. Theory Appl. 90 pp. 381–403.

Josa–Fombellida, R., Rincon–Zapatero, J.P. (2005). A new approach to stochas-tic control problems and applications to economics. Submitted to J. Optim.Theory Appl.

Kaitala, V., Hamalainen, R.P., Ruusunen, J. (1985). On the analysis of equilibriaand bargaining in a fishery game. In Feichtinger (1985), pp. 593–606.

Kalai, E., Smorodinsky, M. (1975). Other solutions to Nash’s bargaining prob-lem. Econometrica 43, pp. 513–518.

Kannan, D., Lakshmikantham, V., editors (2002). Handbook of Stochastic Analysisand Applications. Dekker, New York.

Karatzas, I., Shreve, S.E. (1998). Methods of Mathematical Finance. Springer–Verlag, New York.

Kirman, A.P., Sobel, M.J. (1974). Dynamic oligopoly with inventories. Eco-nometrica 42, pp. 279–287.

Klompstra, M. (1992). Time Aspects in Games and in Optimal Control. Ph.D. The-sis, Delft University of Technology.

Krawczyk, J.B., Shimomura, K. (2003). Why countries with the same funda-mentals can have different growth rates. J. Econ. Dyn. Control 27, pp.1899–19916.

Kuhn, H.W. Szego, G.P., editors (1971). Differential Games and Related Topics.North–Holland, Amsterdam.

Kushner, H.J. (2002). Numerical approximations for stochastic differentialgames. SIAM J. Control Optim. 41, pp. 457–486.

Kushner, H.J. (2004). Numerical approximations for stochastic differentialgames: the ergodic case. SIAM J. Control Optim. 42, pp. 1911–1933.

Lancaster, K. (1973). The dynamic inefficiency of capitalism. J. Political Economy87, pp. 1092–1109.

Page 78: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

78

Leitmann, G. (1974). Cooperative and Non–cooperative Many Players DifferentialGames. Springer–Verlag, New York.

Le Van, C., Dana, R.–A. (2003). Dynamic Programming in Economics. Kluwer,Boston.

Luque–Vasquez, F. (2002). Zero–sum semi–Markov games in Borel spaces: dis-counted and average payoff. Bol Soc. Mat. Mexicana 8, pp. 227–241.

Luque–Vasquez, F., Minjarez–Sosa, J.A., Vega–Amaya, O. (1996). Introduccion ala Teorıa de Control Estocastico. Departamento de Matematicas, Division deCiencias Exactas y Naturales, Universidad de Sonora.

Merton, R.C. (1969). Lifetime portfolio selection under uncertainty: the contin-uous–time case. Rev. Economics and Statistics 51, pp. 247–257.

Nash, J. (1950a). Equilibrium points in N–person games. Proc. Natl. Acad. Sci.36, pp. 48–49.

Nash, J. (1950b). The bargaining problem. Econometrica 18, pp. 155–162.

Nash, J. (1951). Noncooperative games. Ann. Math. 54, pp. 286–295.

Nash, J. (1953). Two–person cooperative games. Econometrica 21, pp. 128–140.

Neck, R. (1982). Dynamic systems with several decision makers. In OperationsResearch in Progress, ed. by G. Feichtinger and P. Kall, Reidel, New York,pp. 261–284.

Neck, R. (1985). A differential game model of fiscal and monetary policies:conflict and cooperation. In Feichtinger (1985), pp. 607–632.

Neck, R. (1991). Non–cooperative equilibrium solution for a stochastic dy-namic game of economic stabilization policies. Lecture Notes in Control andInformation Sciences 157, Springer–Verlag, Berlin, pp. 221–230.

Neyman, A., Sorin, S., editors (2003). Stochastic Games and Applications. Kluwer,Dordrecht.

Nowak, A.S. (2003a). Zero–sum stochastic games with Borel state spaces. InNeyman and Sorin (2003), pp. 77–91.

Page 79: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

79

Nowak, A.S. (2003b). On a new class of nonzero–sum discounted stochasticgames having stationary Nash equilibrium points. Int. J. Game Theory 32,pp. 121–132.

Nowak, A.S., Szajowski, P. (2003). On Nash equilibria in stochastic games ofcapital accumulation. In Stochastic Games and Applications, Volume 9, editedby L.A. Petrosjan and V.V. Mazalov, Nova Science, pp. 118–129.

Nowak, A.S., Szajowski, K., editors (2005). Advances in Dynamic Games. (Annalsof the International Society of Dynamic Games, vol. 7) Birkhauser, Boston.

Petrosyan, L.A. (2003). Bargaining in dynamic games. In Petrosyan and Yeung(2003), pp. 139–143.

Petrosjan, L.A. (2005). Cooperative differential games. In Nowak and Sza-jowski (2005), pp. 183–200.

Petrosjan, L.A. Zenkevich, N.A. (1996). Game Theory. World Scientific, Singa-pore.

Petrosyan, L.A. Yeung, D.W.K., editors (2003). ICM Millennium Lectures onGames. Springer–Verlag, Berlin.

Pohjola, M. (1983). Nash and Stackelberg solutions in a differential game modelof capitalism. J. Economic Dynamics and Control 6, pp. 173–186.

Poznyak, A.S. (2002a). Robust stochastic maximum principle: complete proofand discussions. Math. Problems in Engineering 8, pp. 389–411.

Poznyak, A.S. (2002b). Robust stochastic maximum principle: a measure spaceas uncertainty set. In Lecture Notes in Control and Information Sciences 280,pp. 385–394.

Prieto–Rumeau, T., Hernandez–Lerma, O. (2005a). The Laurent series, sen-sitive discount and Blackwell optimality for continuous–time controlledMarkov chains. Math. Methods Oper. Res. 61, pp. 123–145.

Prieto–Rumeau, T., Hernandez–Lerma, O. (2005b). A unified approach to con-tinuous–time discounted Markov control processes. (Reporte Interno No.356, CINVESTAV.) Submitted.

Page 80: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

80

Prieto–Rumeau, T., Hernandez–Lerma, O. (2005c). Bias and overtaking equi-libria for zero–sum continuous–time Markov games. Math. Meth. Oper.Res., to appear.

Ramachandran, K.M. (2002). Stochastic differential games and applications. InKannan and Lakshmikantam (2002), Chapter 8.

Ricci, G., editor (1991). Decision Processes in Economics. Lecture Notes in Eco-nomics and Mathematical Systems 353, Springer–Verlag, Berlin.

Rincon–Zapatero, J.P. (2004). Characterization of Markovian equilibria in aclass of differential games. J. Econ. Dyn. Control 28, pp. 1243–1266.

Rincon–Zapatero, J.P., Martınez, J., Martın–Herran, G. (1998). New methodto characterize subgame perfect Nash equilibria in differential games. J.Optim. Theory Appl. 96, pp. 377–395.

Rincon–Zapatero, J.P., Martın–Herran, G., Martınez, J. (2000). Identification ofefficient subgame-perfect Nash equilibria in a class of differential games.J. Optim. Theory Appl. 104, pp. 235–242.

Roth, A.E. (1979). Axiomatic Models of Bargaining. Springer–Verlag, Berlin.

Roth, A.E. (1985). Game–Theoretic Models of Bargaining. Cambridge UniversityPress, Cambridge, U.K.

Samuelson, P.A. (1969). Lifetime portfolio selection by dynamic stochastic pro-gramming. Rev. Economics and Statistics 51, pp. 239–246.

Schmitendorf, W.E. (1976). Differential games without pure strategy saddle–point solutions. J. Optim. Theory Appl. 18, pp. 81–92.

Sethi, S.P., Thompson, G.L. (2000). Optimal Control Theory: Applications to Man-agement Science and Economics, 2nd Edition. Kluwer, Boston.

Shapley, L. (1953). Stochastic games. Proc. Natl. Acad. Sci. 39, pp. 1095–1100.(This paper is reproduced in Neyman and Sorin (2003), pp. 1–7.)

Shimomura, K. (1991). The feedback equilibria of a differential game of capi-talism. J. Econ. Dyn. Control 15, pp. 317–338.

Page 81: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

81

Stalford, H., Leitmann, G. (1973). Sufficiency conditions for Nash equilibriumin N–person differential games. In Topics in Differential Games, edited by A.Blaquiere, North–Holland, New York.

Stokey, N.L., Lucas, R.E. (1989). Recursive Methods in Economic Dynamics. Har-vard University Press, Cambridge, MA.

Sundaram, R.K. (1989). Perfect equilibria in a class of symmetric dynamicgames. J. Econ. Theory 47, pp. 153–177.

Tabak, D., Kuo, B.C. (1971). Optimal Control by Mathematical Programming. Pren-tice Hall, Englewood Cliffs, N.J.

Tolwinski, B., Haurie, A., Leitmann, G. (1986). Cooperative equilibria in differ-ential games. J. Math. Anal. Appl. 119, pp. 182–202.

Toussaint, S. (1985). The transversality condition at infinity applied to a prob-lem of optimal resource depletion. In Feichtinger (1985), pp. 429–440.

Vaisbord, E.M., Zhukovskii, V.I. (1988). Introduction to Multi–Player DifferentialGames and Their Applications. Gordon and Breach, New York.

Vega–Amaya, O. (2003). Zero–sum average semi–Markov games: fixed–pointsolutions of the Shapley equation. SIAM J. Control Optim. 42, pp. 1876–1894.

von Neumann, J., Morgenstern, O. (1944). The Theory of Games and EconomicBehavior. Princeton University Press, Princeton, N.J.

Wiecek, P. (2003). Convex stochastic games of capital accumulation with non-divisible money unit. Scientia Mathematicae Japonica 57 (2003), pp. 397–411.

Wiecek, P. (2005). Continuous convex stochastic games of capital accumulation.In Nowak and Szajowski (2005), pp. 111–125.

Yong, J., Zhou, X.Y. (1999). Stochastic Controls: Hamiltonian Systems and HJBEquations. Springer–Verlag, New York.

Yu, P.L., Leitmann, G. (1974). Compromise solutions, domination structuresand Salukvadze’s solution. J. Optim. Theory Appl. 3, pp. 362–378.

Page 82: CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

82

Zariphopoulou, T. (2002). Stochastic control methods in asset pricing. In Kan-nan and Lakshmikantam (2002), Chapter 12.

Zhukovskiy. V.I., Salukvadze, M.E. (1994). The Vector–Valued Maximin. Aca-demic Press, Boston.