101
PROCESOS ESTOC ´ ASTICOS 5 o ¯ deMatem´aticas

PROCESOS ESTOCASTICOS¶ - unex.esmatematicas.unex.es/~paloma/HTM/apunpro.pdf · 2008. 9. 24. · 2 Leccion 1: Martingalas a Tiempo Discreto.¶ El C¶alculo de Probabilidades tiene

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

  • PROCESOS

    ESTOCÁSTICOS

    5o¯ de Matemáticas

  • i

    Índice General

    Caṕıtulo I: MARTINGALAS 1Lección 1: Martingalas a Tiempo Discreto. . . . . . . . . . . . . . . . . . . 2Lección 2: Integrabilidad Uniforme y Teoŕıa de Martingalas. . . . . . . . . 10Lección 3: Aplicaciones de la Teoŕıa de Martingalas. . . . . . . . . . . . . . 18

    Caṕıtulo II: CADENAS DE MARKOV 23Lección 4: Introducción a la Teoŕıa de Procesos Estocásticos. . . . . . . . . 24Lección 5: Cadenas de Markov con Probabilidades de Transición Estacio-

    narias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31Lección 6: Clasificación de los Estados. . . . . . . . . . . . . . . . . . . . . 43Lección 7: Recurrencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54Lección 8: El Teorema Ĺımite Fundamental. . . . . . . . . . . . . . . . . . 64Lección 9: Distribuciones Estacionarias. . . . . . . . . . . . . . . . . . . . 75Lección 10: Procesos de Ramificación. . . . . . . . . . . . . . . . . . . . . 84Lección 11: Criterios y Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . 89

  • Caṕıtulo I

    MARTINGALAS

    I.1. Martingalas a Tiempo Discreto: Definiciones y primeros resultados. Teo-rema de Halmos. Teorema de Doob. Teorema de convergencia de submartin-galas.

    I.2. Integrabilidad Uniforme y Teoŕıa de Martingalas: Integrabilidad uni-forme. Extensión del lema de Fatou y del teorema de la convergencia dominadabajo la hipótesis de integrabilidad uniforme. Caracterización de integrabilidaduniforme. Convergencia c.s., convergencia en medida y convergencia en Lp enel caso uniformemente integrable. Teoremas de Lévy de convergencia de mar-tingalas y martingalas inversas. Convergencia c.s. y en L1 de submartingalasuniformemente integrables. Caracterización de martingalas uniformemente in-tegrables.

    I.3. Aplicaciones de la Teoŕıa de Martingalas: Ley cero-uno de Kolmogorov.Aplicación del teorema de convergencia de martingalas en la mejora de la leyfuerte de los grandes números.

    Referencias caṕıtulo 0: Ash (1972), Billingsley (1986), Loève (1960).

    1

  • 2

    Lección 1: Martingalas a Tiempo Discreto.

    El Cálculo de Probabilidades tiene sus oŕıgenes en los juegos de azar y pue-de ser interesante interpretar los resultados en esos términos. Por ejemplo, siX1, X2, . . . es una sucesión de v.a.r., podemos interpretar Xn como el total deganancias tras n partidas en un determinado juego. Antes de la partida (n + 1)-ésima, se suponen conocidas las ganancias totales en las partidas precedentes yel capital esperado tras esa partida es E(Xn+1|X1, . . . , Xn). Si este capital espe-rado coincide con Xn, diremos que el juego es justo o equitativo, pues la ganan-cia seŕıa E(Xn+1 − Xn|X1, . . . , Xn) = Xn − Xn = 0. Si E(Xn+1|X1, . . . , Xn) ≥Xn, el juego se dice favorable y si E(Xn+1|X1, . . . , Xn) ≤ Xn, se dice desfavora-ble. Nótese que la esperanza condicional E(Xn+1|X1, . . . , Xn) se ha identificadocon la esperanza E(Xn+1|σ(X1, . . . , Xn)), donde σ(X1, . . . , Xn) denota la σ-álgebra(X1, . . . , Xn)

    −1(Rn) inducida por X1, . . . , Xn. Esa misma identificación se hará entoda esta lección.

    Definición. Sean (Ω,A, P ) un espacio de probabilidad, (Xn)n una sucesiónde v.a.r. integrables sobre él y (An)n una sucesión creciente de sub-σ-álgebras deA. Diremos que (Xn) es una martingala respecto a (An), o que (Xn,An) es unamartingala si Xn es An-medible y E(Xn+1|An) = Xn, para cada n ∈ N. Diremos que(Xn) es una submartingala (resp., supermartingala) respecto a (An), o que (Xn,An)es una submartingala (resp., supermartingala) si Xn es An-medible y E(Xn+1|An) ≥Xn (resp., E(Xn+1|An) ≤ Xn), para cada n ∈ N. Diremos simplemente que (Xn) esuna martingala (o submartingala, o supermartingala) si (Xn, σ(X1, . . . , Xn)) lo es.

    En lo que sigue, (Ω,A, P ) será un espacio de probabilidad en el que supondremosdefinidas todas las v.a. que consideremos, a menos que expĺıcitamente se diga otracosa.

    Observaciones. 1) De acuerdo con la definición anterior y con la de esperanzacondicional, que (Xn,An)n sea una martingala significa que Xn es An-medible y,además, ∫

    A

    Xn+1 dP =

    A

    Xn dP, ∀A ∈ An,∀n ∈ N.

    Análogamente, que (Xn,An)n sea una submartingala significa que Xn es An-medibley, además, ∫

    A

    Xn+1 dP ≥∫

    A

    Xn dP, ∀A ∈ An,∀n ∈ N.

    2) (Martingala inversa) Sean (Xn) una sucesión de v.a.r. y (An) una sucesióndecreciente de σ-álgebras. Diremos que (Xn,An) es una martingala inversa si Xn esAn-medible y E(Xn|An+1) = Xn+1, para cada n.

    Proposición 1. (a) Si (Xn,An) es una martingala entonces E(Xn+k|An) = Xn,para cada k, n ∈ N.

  • 3

    (b) Si (Xn,An) es una martingala entonces (Xn, σ(X1, . . . , Xn))n es también unamartingala.

    (c) Si (Xn,An) e (Yn,An) son submartingalas, también lo es (max(Xn, Yn),An)n.Si (Xn,An) e (Yn,An) son supermartingalas, también lo es (min(Xn, Yn),An)n.

    Demostración. (a) Nótese que

    E(Xn+2|An) = E[E(Xn+2|An+1)|An] = E[Xn+1|An] = Xn.

    La prueba termina por inducción finita.(b) Nótese que (σ(X1, . . . , Xn))n es una sucesión creciente de sub-σ-álgebras de

    A y que Xn es σ(X1, . . . , Xn)-medible. Nótese también que, siendo (XnAn)n unamartingala, σ(X1, . . . , Xn) ⊂ An, para cada n. Entonces, de que

    E(Xn+1|An) = Xn,

    se sigue que

    E(Xn+1|X1, . . . , Xn) = E(E(Xn+1|An)|σ(X1, . . . , Xn)) = E(Xn|σ(X1, . . . , Xn)) = Xn,

    como queŕıamos probar.(c) Probemos la afirmación relativa a submartingalas; la de supermartingalas

    es análoga. Los requisitos de medibilidad no plantean problemas. Por otra parte,la monotońıa de la esperanza condicional y la definición de submartingala pruebanque E(max(Xn+1, Yn+1)|An) ≥ E(Xn+1|An) ≥ Xn y E(max(Xn+1, Yn+1)|An) ≥E(Yn+1|An) ≥ Yn, y de ello se sigue la prueba.

    Observación. Es claro que pueden enunciarse proposiciones análogas a las (a) y(b) anteriores para sub- y supermartingalas.

    Ejemplos. 1) Si X es una v.a.r. P -integrable y hacemos Xn = X, para cadan, entonces (Xn) es una martingala.

    2) Si X1 ≤ X2 ≤ X3 ≤ . . . y todas la variables son P -integrables, entonces (Xn)es una submartingala.

    3) Sean Y1, Y2, . . . v.a.r. independientes con media nula y hagamos Xn =∑n

    i=1 Yi.Entonces (Xn) es una martingala pues

    E(Xn+1|X1, . . . , Xn) = E(Xn + Yn+1|X1, . . . , Xn) = Xn + E(Yn+1) = Xn.

    4) Sean Y una v.a.r. P -integrable y (An)n una sucesión creciente de sub-σ-álgebras. Si Xn = E(Y |An), entonces (Xn,An) es una martingala, pues

    E(Xn+1|An) = E(E(Y |An+1)|An) = E(Y |An) = Xn.

    Si (An)n una sucesión decreciente de sub-σ-álgebras y Xn = E(Y |An), entonces(Xn,An) es una martingala inversa.

  • 4

    Teorema 2. (a) Sean (Xn,An) una submartingala, g una función convexa cre-ciente de R en R. Si g(Xn) es integrable para cada n, entonces (g(Xn),An) es unasubmartingala. En particular, si (Xn) es una submartingala, también lo es (X

    +n ).

    (b) Si (Xn,An) es una martingala y g una función convexa de R en R tal queg(Xn) es integrable para cada n, entonces (g(Xn),An) es una submartingala. Enparticular, si r ≥ 1 y (Xn) es una martingala tal que |Xn|r es integrable para cadan, entonces (|Xn|r) es una submartingala.

    Demostración. Una función convexa g : R −→ R es también continua, y ladesigualdad de Jensen se aplica para probar que

    E(g ◦Xn+1|An) ≥ g(E(Xn+1|An)).

    En (a) se tiene que E(Xn+1|An) ≥ Xn, y, siendo g creciente, g(E(Xn+1|An)) ≥g(Xn). En (b) se verifica que E(Xn+1|An) = Xn, y, por tanto, g(E(Xn+1|An)) =g(Xn).

    Nos proponemos probar algunos resultados sobre convergencia de submartinga-las. Necesitamos para ello un resultado de Halmos y otro de Doob.

    Teorema 3. (Halmos) Sean (Xn,An)n una submartingala y ε1, ε2, . . . v.a.r.definidas por

    εk(ω) =

    {= 1 si (X1(ω), . . . , Xk(ω)) ∈ Bk= 0 si (X1(ω), . . . , Xk(ω)) /∈ Bk

    donde Bk ∈ Rk, k = 1, 2, . . . , son borelianos arbitrarios (pero fijos). Hagamos

    Y1 = X1

    Y2 = X1 + ε1(X2 −X1). . .

    Yn = X1 + ε1(X2 −X1) + · · ·+ εn−1(Xn −Xn−1). . .

    Entonces (Yn,An)n es también una submartingala y E(Yn) ≤ E(Xn), para cada n.Si (Xn,An)n es una martingala, también lo es (Yn,An)n y E(Yn) = E(Xn), paracada n.

    Demostración. Es claro que εk e Yk son Ak-medible, para cada k. Por tanto

    E(Yn+1|An) = E(Yn + εn(Xn+1 −Xn)|An) = Yn + εnE(Xn+1 −Xn|An).

    Entonces

    E(Yn+1|An){

    = Yn + εn(Xn −Xn) = Yn en el caso martingala≥ Yn + εn(Xn −Xn) = Yn en el caso submartingala

  • 5

    Puesto que Y1 = X1, se tiene que E(X1) = E(Y1). Supuesto probado que E(Xk −Yk) ≥ 0 (= 0 en el caso martingala), entonces

    Xk+1 − Yk+1 = Xk+1 − Yk − εk(Xk+1 −Xk) = (1− εk)(Xk+1 −Xk) + Xk − Yk.

    Entonces

    E(Xk+1 − Yk+1|Ak) = (1− εk)E(Xk+1 −Xk|Ak) + E(Xk − Yk|Ak)≥ E(Xk − Yk|Ak) = Xk − Yk,

    con igualdad en el caso martingala. Tomando esperanzas se obtiene que

    E(Xk+1 − Yk+1) ≥ E(Xk − Yk) ≥ 0,

    con igualdad en el caso martingala.

    Observación. Si Xn denota la fortuna de un jugador después de n partidas,Yn seŕıa la fortuna de ese jugador tras n partidas supuesto que sigue la siguienteestrategia: después de observar X1, . . . , Xk, el jugador puede elegir apostar en lapartida k + 1 (en cuyo caso εk = εk(X1, . . . , Xk) = 1) o pasar (en cuyo caso εk = 0);la ganancia tras la partida k + 1 es εk(Xk+1 − Xk). El teorema anterior estableceque, cualquiera que sea la estrategia de este tipo seguida por el jugador, si el juegoes inicialmente justo (martingala) o favorable (submartingala), seguirá siendo justoo favorable, y ninguna estrategia de este tipo puede aumentar la ganancia esperada.

    Teorema 4. (Doob) Sea (Xk,Ak)1≤k≤n una submartingala finita. Si a < b sonnúmeros reales, denotaremos por U(a,b) la v.a. discreta que asocia a cada ω ∈ Ω elnúmero de “saltos hacia arriba” desde debajo de a hasta encima de b en la sucesiónfinita X1(ω), . . . , Xn(ω); dicho de otro modo: sea T1 = T1(ω) el primer entero (siexiste alguno) en {1, . . . , n} tal que XT1(ω) ≤ a; sea T2 = T2(ω) el primer entero(si existe alguno) en {T1 + 1, . . . , n} tal que XT2(ω) ≥ b; sea T3 = T3(ω) el primerentero (si existe alguno) en {T2 + 1, . . . , n} tal que XT3(ω) ≤ a; sea T4 = T4(ω)el primer entero (si existe alguno) en {T3 + 1, . . . , n} tal que XT4(ω) ≥ b; y aśısucesivamente. Haremos Ti(ω) = +∞ si no existe ningún entero satisfaciendo lacondición correspondiente. Si N = N(ω) es el número de i’es tales que Ti(ω) esfinito, se define U(a,b)(ω) = N/2 si N es par y U(a,b)(ω) = (N − 1)/2 si N es impar.Entonces

    E(U(a,b)) ≤ 1b− aE[(Xn − a)

    +].

    Demostración. Supongamos en primer lugar que a = 0 y que Xj ≥ 0, para cadaj. Entonces, que Xj ≤ a equivale a que Xj = 0. Dado ω ∈ Ω, se define

    εj(ω) =

    {= 0 si 1 ≤ j < T1(ω) ó T2(ω) ≤ j < T3(ω) ó . . .= 1 si T1(ω) ≤ j < T2(ω) ó T3(ω) ≤ j < T4(ω) ó . . .

  • 6

    Tal y como han sido definidas, las v.a. ε1, . . . , εn dependen de X1, . . . , Xn, perose prueba fácilmente que, en realidad, εj sólo depende de X1, . . . , Xj, 1 ≤ j ≤ n(para comprobarlo, dado j ∈ {1, . . . , n}, def́ınanse v.a. ε′k, 1 ≤ k ≤ j, a partir deX1, . . . , Xj como hemos definido anteriormente las v.a. εk, 1 ≤ k ≤ n, a partir deX1, . . . , Xn, y notar que ε

    ′j = εj).

    Se definen también v.a.r. Y1, . . . , Yn mediante

    Y1 = X1

    Y2 = X1 + ε1(X2 −X1). . .

    Yn = X1 + ε1(X2 −X1) + · · ·+ εn−1(Xn −Xn−1)

    Se deduce del teorema de Halmos que (Yk,Ak)k es una submartingala y que E(Yj) ≤E(Xj), para cada 1 ≤ j ≤ n.

    1 T1(ω) T2(ω) T3(ω) T4(ω) T5(ω) 15

    -εj(ω) = 0

    -εj(ω) = 1

    -εj(ω) = 0

    -εj(ω) = 1

    -εj(ω) = 0

    -εj(ω) = 1

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    b

    tX1(ω)

    tX2(ω)

    tX3(ω)

    tX4(ω)

    tX5(ω)

    tX6(ω)tX7(ω)

    tX8(ω)tX9(ω)

    tX10(ω)

    tX11(ω)

    tX12(ω)

    tX13(ω)tX14(ω)

    tX15(ω)¡

    ¡¡

    ¡¡

    ¡¡

    ¡¡µ

    ¤¤¤¤¤¤¤¤º

    U(a,b)(ω) = 2

    Y15 = X1 + 0 · (X2 −X1) + 0 · (X3 −X2) + 0 · (X4 −X3) + 1 · (X5 −X4)+0 · (X6 −X5) + 1 · (X7 −X6) + 1 · (X8 −X7) + 0 · (X9 −X8) + 0 · (X10 −X9)+

    1 · (X11 −X10) + 0 · (X12 −X11) + 0 · (X13 −X12) + 0 · (X14 −X13) + 1 · (X15 −X14)= X1 + (X8 −X4) + (X11 −X10) + (X15 −X14)

  • 7

    Nótese, por otra parte, que, si N = N(ω) es par,

    Yn(ω) = X1(ω) +

    T2(ω)−1∑

    i=T1(ω)

    (Xi+1(ω)−Xi(ω)) +T4(ω)−1∑

    i=T3(ω)

    (Xi+1(ω)−Xi(ω))

    + · · ·+TN (ω)−1∑

    i=TN−1(ω)

    (Xi+1(ω)−Xi(ω))

    = X1(ω) +(XT2(ω)(ω)−XT1(ω)(ω)

    )+ · · ·+ (XTN (ω)(ω)−XTN−1(ω)(ω)

    );

    Puesto que, si k ∈ {1, . . . , N} es par, XTk(ω)(ω) ≥ b y XTk−1(ω)(ω) = 0, se verificaque

    XTk(ω)(ω)−XTk−1(ω)(ω) ≥ b.Por tanto,

    b · U(0,b)(ω) ≤ X1(ω) + b · U(0,b) ≤ Yn(ω),y

    U(0,b) ≤ 1bYn.

    Se sigue de ello que

    E(U(0,b)) ≤ 1bE(Yn) ≤ 1

    bE(Xn).

    En el caso de que N sea impar,

    Yn(ω) = X1(ω) +(XT2(ω)(ω)−XT1(ω)(ω)

    )+ · · ·+ (XTN−1(ω)(ω)−XTN−2(ω)(ω)

    )

    +(Xn(ω)−XTN (ω)(ω)

    ),

    y un razonamiento análogo al anterior probaŕıa también que

    E(U(0,b)) ≤ 1bE(Yn) ≤ 1

    bE(Xn).

    Con esto acaba la prueba en el caso de que a sea nulo y las Xj positivas.En el caso general, ((Xk−a)+,Ak)k es también una submartingala y la v.a. U(a,b)

    calculada a partir de la sucesión finita (Xj)j coincide con la v.a. U(0,b−a) calculadaa partir de la sucesión finita (Xj − a)+ (notar que Xj ≤ a ⇐⇒ (Xj − a)+ = 0,y que Xj ≥ b ⇐⇒ (Xj − a)+ ≥ b − a). Eso reduce el caso general al probadoanteriormente.

    Estamos ya en condiciones de probar el principal resultado sobre convergenciade submartingalas.

    Teorema 5. Sea (Xn,An)n una submartingala. Si supn E(X+n ) < ∞, entoncesexiste una v.a.r. integrable X∞ tal que Xn −→ X∞ c.s.

  • 8

    Demostración. Es claro que

    {ω : Xn(ω) no converge en R̄} = ∪a 0,

    entonces, para cada ω en un conjunto de probabilidad > 0 existe una sucesión deenteros p1 < q1 < p2 < q2 < . . . (dependientes de ω) tales que

    Xpn(ω) ≤ a < Xi(ω) < b ≤ Xqn(ω), ∀i ∈]pn, qn[∩N.

    Si U(n)(a,b)(ω) denota el número de saltos arriba en el intervalo ]a, b[ determinados por

    X1(ω), . . . , Xn(ω), entonces U(n)(a,b) es una sucesión monótona creciente de funciones

    medibles no negativas que converge a ∞ en los puntos ω de un conjunto de probabi-lidad > 0, y, por tanto, E(U

    (n)(a,b)) −→n→∞ +∞. Pero del teorema anterior y de que

    max(Xn − a, 0) ≤ max(Xn, 0) + |a| se sigue que

    E(U(n)(a,b)) ≤

    1

    b− aE[(Xn − a)+] ≤ 1

    b− a [supm E(X+m) + |a|] < +∞, ∀n,

    lo cual es una contradicción. Por tanto, lim infn Xn = lim supn Xn con probabilidad1, y, por tanto, Xn converge a un ĺımite X∞ P -c.s.

    Probemos ahora que X∞ es P -integrable. Notemos, en primer lugar, que de ladefinición de submartingala se deduce que Xn es integrable y E(Xn+1|A1) ≥ X1,y, por tanto, E(Xn+1) = E(E(Xn+1|A1)) ≥ E(X1), para cada n ≥ 0. Además,|Xn| = X+n + X−n = 2X+n −Xn. Entonces

    E(|Xn|) ≤ 2 supn

    E(X+n )− E(X1) < +∞, ∀n.

    Se deduce del lema de Fatou(1) que

    E(|X∞|) ≤ lim inf E(|Xn|) < +∞.

    Por tanto, X∞ es P -integrable, y, entonces, finita c.s.

    Un resultado análogo se obtiene para submartingalas inversas.

    Corolario 6. Sea (Xn,An)n una submartingala inversa (es decir, (An) es de-creciente, las Xn son integrables y E(Xn|An+1) ≥ Xn+1, ∀n). Si infn E(Xn) > −∞,existe una v.a.r. integrable X∞ tal que Xn −→ X∞ c.s. (Notar que cualquiermartingala inversa satisface la hipótesis pues E(Xn) es constante).

    1Lema de Fatou: Sean f, f1, f2, . . . funciones reales medibles. Si fn ≥ f , para cada n, y∫fdµ > −∞, entonces ∫ lim inf fn dµ ≤ lim inf

    ∫fn dµ.

  • 9

    Demostración. La demostración de este resultado es análoga a la del teoremaanterior, pero ahora U

    (n)(a,b) denota el número de saltos arriba en ]a, b[ para la sucesión

    finita Xn, Xn−1, . . . , X1 que, escrita en ese orden, es una submartingala pues

    E(Xk|Xk+1, . . . , Xn) = E[E(Xk|Ak+1)|Xk+1, . . . , Xn] ≥ Xk+1.

    Se obtiene del teorema de Doob que E(U(n)(a,b)) ≤ (b − a)−1E[(X1 − a)+] < ∞,

    y, por tanto, Xn converge puntualmente c.s. a X∞ como antes. Por otra parte,|Xn| = 2X+n − Xn y E(Xn) ≥ infn E(Xn) > −∞. También {X+n , . . . , X+1 } esuna submartingala. Luego E(X+n ) ≤ E(X+1 ). Se sigue de ello que E(|Xn|) ≤2E(X+1 ) − infn E(Xn) < ∞, y de aqúı y del lema de Fatou que X∞ es integrablecomo antes.

    Observaciones. 1) La demostración prueba que, de hecho, (Xn) es L1-acotada,

    es decir, supn E(|Xn|) < ∞. Entonces, para una submartingala, la condiciónsupn E(X

    +n ) es equivalente a la L

    1-acotación, e implica convergencia c.s. Sin embar-go, una submartingala puede converger sin que ello ocurra.

    2) Resultados análogos al teorema y corolario precedentes se obtienen para super-martingalas. Concretamente, si (XnAn)n es una supermartingala y supn E(X−n ) <∞, existe una v.a.r. integrable X∞ tal que Xn converge a X∞ c.s.; en particular,una supermartingala no negativa converge c.s. a una v.a.r. integrable. Por otraparte, si (XnAn)n es una supermartingala inversa y supn E(Xn) < ∞, existe unav.a.r. integrable a la que Xn converge c.s. La demostración de estos dos resultadosse reduce a la de los anteriores sin más que tener en cuenta que (−Xn,An)n es unasubmartingala en el primer caso y una submartingala inversa en el segundo.

  • Lección 2: Integrabilidad Uniforme y Teoŕıa de

    Martingalas.

    El concepto de integrabilidad uniforme que ahora introducimos tiene interesantesaplicaciones en la teoŕıa de martingalas (y en la teoŕıa de integración en general).

    Definición. (Integrabilidad uniforme) Sean (Ω,A, µ) un espacio de medida fi-nito y F una familia de v.a. reales o complejas en (Ω,A). Diremos que las funcionesde la familia F son uniformemente integrables si

    limc→∞

    {|f |≥c}|f | dµ = 0

    uniformemente en f ∈ F .

    Proposición 7. (i) Si F es una familia de v.a.r. uniformemente integrables,entonces cada v.a.r. f ∈ F es integrable. Incluso, supf∈F

    ∫ |f |dµ < ∞.(ii) Si |f | ≤ g, para cada f ∈ F y g es integrable, entonces las funciones de F

    son uniformemente integrables.

    Demostración. (i) Por hipótesis, dado ² > 0, existe M > 0 tal que∫{|f |≥c} |f | dµ <

    ² si c > M y f ∈ F . Entonces, dado f ∈ F ,∫|f | dµ ≤

    {|f |≥c}|f | dµ +

    {|f |

  • 11

    Demostración. (i) Fijemos ² > 0 arbitrario. Existe entonces M > 0 tal que

    0 ≤∫

    {|fn|≥c}|fn|dµ =

    {|fn|≥c,fn≥0}fn dµ +

    {|fn|≥c,fn

  • 12

    El siguiente resultado establece un criterio útil para comprobar la integrabilidaduniforme.

    Teorema 9. Las v.a.r. de una cierta familia F son uniformemente integrablessi y sólo si las integrales

    ∫ |f |dµ, f ∈ F , están uniformemente acotadas y sonuniformemente continuas en el sentido de que

    limµ(A)→0

    A

    |f |dµ = 0

    uniformemente en f ∈ F .

    Demostración. (=⇒) Supongamos que se verifica la integrabilidad uniforme. Laacotación uniforme ya ha sido probada anteriormente. Para la continuidad uniforme,nótese que

    A

    |f |dµ =∫

    A∩{|f |≥c}|f |dµ +

    A∩{|f | 0 tal que si c ≥ M entonces ∫{|f |≥c} |f |dµ < ²/2 para cada f ∈ F . Siµ(A) < ²/(2M), entonces

    ∫A|f |dµ < ² para cada f ∈ F .

    (⇐=) Supongamos ahora que las integrales ∫ |f |dµ, f ∈ F , están uniforme-mente acotadas y son uniformemente continuas. Entonces, por la desigualdad deChebyshev,

    µ{|f | ≥ c} ≤ 1c

    ∫|f |dµ,

    que tiende a cero cuando c →∞ uniformemente en f ∈ F por acotación uniforme.Por la continuidad uniforme se obtiene que, dado ² > 0, existe δ > 0 tal que si,µ(A) < δ, entonces ∫

    A

    |f |dµ < ², ∀f ∈ F .

    Para ese δ = δ(²), existe Mδ > 0 tal que si c > Mδ entonces µ{|f | ≥ c} < δ paracada f ∈ F . Por tanto, si c > Mδ y f ∈ F , entonces

    {|f |≥c}|f |dµ < ².

    Como consecuencia de la desigualdad de Chebyshev se obtiene que la Lp-con-vergencia implica convergencia en medida. El rećıproco también es cierto bajo lahipótesis de integrabilidad uniforme. Para probar ese hecho, necesitaremos el si-guiente lema.

    Lema 10. (i) Si a, b ≥ 0 y p ≥ 1, entonces (a + b)p ≤ 2p−1(ap + bp).(ii) Si a, b ≥ 0 y 0 < p < 1, entonces (a + b)p ≤ ap + bp.

  • 13

    Demostración. (i) Sea

    h(x) =d

    dx[(a + x)p − 2p−1(ap + xp)] = p(a + x)p−1 − 2p−1pxp−1.

    Puesto que p ≥ 1, se verifica que h(x) > 0 si a + x > 2x (es decir, si x < a), queh(x) = 0 si x = a y h(x) < 0 si x > a. Por tanto, la función (a + x)p− 2p−1(ap + xp)posee un máximo en el punto x = a, es decir,

    (a + x)p − 2p−1(ap + xp) ≤ (a + a)p − 2p−1(ap + ap) = 0,para cada x ≥ 0.

    (ii) Sea

    h(x) =d

    dx[(a + x)p − ap − xp] = p(a + x)p−1 − pxp−1.

    Puesto que a + x ≥ x, h(x) ≤ 0 y la función (a + x)p − ap − xp es decreciente; enparticular, (a + b)p − ap − bp ≤ (a + a)p − ap − ap < 0.

    Teorema 11. Sean µ una medida finita en (Ω,A) y 0 < p < ∞. Si fn convergea f en medida y las |fn|p son uniformemente integrables, entonces fn converge a fen Lp.

    Demostración. Supongamos en primer lugar que las |fn− f |p son uniformemen-te integrables. La convergencia en medida asegura la existencia de una subsucesión(fnk)k que converge a f c.s. y en medida. Por un teorema anterior,

    ∫ |fnk − f |pdµconverge a cero cuando k →∞. El mismo argumento prueba que cualquier subsuce-sión de (fn) admite una subsucesión convergente a f en L

    p. Por tanto, fn convergea f en Lp, pues, en otro caso, existiŕıa ² > 0 y una subsucesión (fnk)k tal que∫ |fnk − f |pdµ > ², para cada k.

    Supongamos ahora simplemente que las |fn|p son uniformemente integrables.Como antes, elijamos una subsucesión (fnk)k que converge a f c.s. Un teoremaprevio prueba que |f |p es integrable. Puesto que |fn − f |p ≤ |fn|p + |f |p si p ≤ 1 y|fn − f |p ≤ 2p−1(|fn|p + |f |p) si p ≥ 1, se sigue que las integrales

    ∫ |fnk − f |pdµ sonuniformemente acotadas y uniformemente continuas. Del teorema anterior se sigueque las |fn − f |p son uniformemente integrables, lo que nos sitúa en el primer caso.

    Corolario 12. Sean f1, f2, . . . uniformemente integrables. Si fn converge a fc.s. o en medida, entonces fn converge a f en L

    1.

    El resultado siguiente nos proporciona un primer ejemplo de v.a.r. uniforme-mente integrables.

    Lema 13. Sean Y una v.a.r. integrable en (Ω,A, P ) y (Bi)i∈I una familia ar-bitraria de sub-σ-álgebras de A. Entonces, las v.a.r. Xi := E(Y |Bi) son uniforme-mente integrables.

  • 14

    Demostración. Puesto que |Xi| = |E(Y |Bi)| ≤ E(|Y ||Bi), se tiene que∫

    |Xi|≥c|Xi|dP ≤

    |Xi|≥cE(|Y ||Bi)dP =

    |Xi|≥c|Y |dP.

    De la desigualdad de Chebyshev se sigue que

    P (|Xi| ≥ c) ≤ 1cE(|Xi|) ≤ 1

    cE(E(|Y ||Bi)) = 1

    cE(|Y |) −→c→∞ 0.

    Históricamente, el primer teorema de convergencia de martingalas es el siguiente.

    Teorema 14. (Lévy) Sea (An)n una sucesión creciente de sub-σ-álgebras deA, y sea A∞ la σ-álgebra engendrada por ∪nAn. Si Y es una v.a.r. integrable yXn = E(Y |An), n ∈ N, entonces Xn converge a E(Y |A∞) c.s. y en L1.

    Demostración. Ya sabemos que (Xn,An)n es una martingala; el lema anteriorprueba que es uniformemente integrable. Puesto que E(|Xn|) ≤ E(|Y |) < ∞, paracada n, se sigue del teorema de convergencia de submartingalas que Xn convergec.s. a una v.a.r. integrable X∞. La convergencia en media de orden 1 se sigue delúltimo corolario. Sólo falta probar que X∞ = E(Y |A∞) c.s.

    Si A ∈ An, entonces∫

    A

    Y dP =

    A

    E(Y |An)dP =∫

    A

    XndP.

    Pero, de la L1-convergencia se sigue que∫

    AXndP converge a

    ∫A

    X∞dP . Luego∫A

    Y dP =∫

    AX∞dP para cada A ∈ ∪nAn, y, por el teorema de la clase monótona,

    eso es también cierto para cada A ∈ A∞.Teorema 15. Sean (An)n una sucesión decreciente de sub-σ-álgebras de A y

    A∞ = ∩nAn. Si Y es integrable y Xn = E(Y |An), n = 1, 2, . . . , entonces Xn −→E(Y |A∞) c.s.

    Demostración. Como en el teorema anterior (usando ahora el teorema de conver-gensia de submartingalas inversas) se prueba ahora que Xn converge a X∞ c.s. y enmedia de orden 1. Debemos probar ahora que X∞ = E(Y |A∞). Si A ∈ A∞ ⊂ An,entonces ∫

    A

    Y dP =

    A

    E(Y |An)dP =∫

    A

    XndP −→∫

    A

    X∞dP.

    Puesto que Xn es An-medible (y, por tanto, Ak-medible, para cada k ≤ n), X∞ esAk-medible para cada k; por tanto, X∞ es A∞-medible.

    Observación. Para cada i ∈ N, sea Zi : (Ω,A) −→ (Ω′i,A′i) una v.a. Si en elteorema de Lévy hacemos An = σ(Z1, . . . , Zn) := (Z1, . . . , Zn)−1(

    ∏ni=1A′i), entonces

    la σ-álgebra A∞ = ∪nAn coincide con σ(Z1, Z2, . . . ) y, por tanto,E(Y |Z1, . . . , Zn) −→n→∞ E(Y |Z1, Z2, . . . )

  • 15

    c.s. y en L1. Si hacemos An = σ(Zn, Zn+1, . . . ), entonces A∞ := ∩nAn es la llamadaσ-álgebra final de la sucesión (Zn)n; de acuerdo con el teorema anterior, se verificaque, si Y es una v.a.r. integrable, entonces

    E(Y |Zn, Zn+1, . . . ) −→n→∞ E(Y |A∞)

    c.s. y en L1.

    El resultado siguiente prueba que la integrabilidad uniforme de una submartin-gala implica su convergencia c.s. y en L1, y que incluso puede ser alcanzado lo quellamaremos un último elemento.

    Teorema 16. Sea (Xn,An)n=1,2,... una submartingala uniformemente integra-ble. Entonces supn E(X

    +n ) < ∞ y Xn converge a un ĺımite X∞ c.s. y en L1. Además,

    si A∞ es la σ-álgebra generada por ∪nAn, entonces (Xn,An)n=1,2,...,∞ es una sub-martingala. Si (Xn,An)n=1,2,... es una martingala, también lo es (Xn,An)n=1,2,...,∞.(Def.: Si (Xn,An)n=1,2,...,∞ es una (sub- o super-) martingala, donde A∞ es unaσ-álgebra que contiene a todas las An, diremos que X∞ es un último elemento).

    Demostración. Por el criterio de integrabilidad uniforme, una submartingala uni-formemente integrable es uniformemente acotada, es decir, supn E(|Xn|) < ∞, y, porel teorema de convergencia de submartingalas, Xn converge c.s. a X∞. Como antesse obtiene también la L1-convergencia.

    De la observación 1) que sigue a la definición de martingala, si A ∈ An y k ≥ n,entonces

    ∫A

    XndP ≤∫

    AXkdP . Tomando ĺımites cuando k → ∞, se sigue de la

    L1-convergencia que∫

    AXndP ≤

    ∫A

    X∞dP . Por tanto, Xn ≤ E(X∞|An) c.s., y(Xn,An)n=1,2,...,∞ es una submartingala. La afirmación relativa a martingalas seprueba de forma análoga.

    El teorema siguiente prueba que las martingalas uniformemente integrables sonde una forma muy especial.

    Corolario 17. (Xn,An)n∈N es una martingala uniformemente integrable si ysólo si existe una v.a.r. integrable Y tal que Xn = E(Y |An), n = 1, 2, . . . . En estecaso, Xn converge a E(Y |A∞) c.s. y en L1, donde A∞ es la σ-álgebra engendradapor ∪nAn.

    Demostración. La implicación ⇐= es consecuencia inmediata de dos resultadosprecedentes en esta lección. La implicación =⇒ se sigue del teorema anterior conY = X∞.

    Observación. Si en el corolario anterior exigimos que Y sea A∞-medible, en-tonces Y es esencialmente única, pues, si Xn = E(Y |An), entonces E(Y |An) =E(X∞|An), n ∈ N, y, por tanto,

    ∫A

    Y dP =∫

    AX∞dP para cada A ∈ ∪nAn (y, por

    el teorema de la clase monótona, para cada A ∈ A∞). Entonces Y = X∞ c.s.

  • 16

    Una sub- o supermartingala con un último elemento no tiene por qué ser unifor-memente integrable, pero existen resultados parciales en ese sentido. Por ejemplo,si (Xn,An)n=1,2,...,∞ es una martingala con un último elemento, entonces Xn =E(X∞|An), y, por tanto, las Xn son uniformemente integrables. El resultado si-guiente muestra otro caso particular interesante.

    Teorema 18. Sea (Xn,An)n=1,2,...,∞ una submartingala no negativa con unúltimo elemento. Entonces las Xn son uniformemente integrables.

    Demostración. Baste notar que∫

    {Xn≥c}XndP ≤

    {Xn≥c}X∞dP

    y que

    P (Xn ≥ c) ≤ 1cE(Xn) ≤ 1

    cE(X∞) −→c→∞ 0

    uniformemente en n.

    Veamos a continuación un ejemplo de una supermartingala con un último ele-mento que no es uniformemente integrable.

    Ejemplo. Sean Y1, Y2, . . . v.a.r. independientes tales que P (Yj = 1) = p =1 − P (Yj = 0) para cada j, donde 0 < p < 1. Hagamos Xn = 1pn

    ∏nj=1 Yj, y

    An = σ(Y1, . . . , Yn). Entonces (Xn,An)n es una martingala, pues

    E(Xn+1|An) = E(XnYn+1/p|An) = XnE(Yn+1/p) = Xn.

    En particular, (Xn,An) es una supermartingala. Puesto que Xn ≥ 0, se tiene queE(0|An) = 0 ≤ Xn, y, por tanto, 0 es un último elemento cuando la sucesión seconsidera como supermartingala (pero no cuando se considera como martingala);nótese que cualquier constante no negativa es un último elemento para esa super-martingala, con lo que el último elemento no tiene por qué ser único y no tiene porqué haber convergencia hacia el último elemento.

    Probemos que las Xn no son uniformemente integrables. Nótese que P (Yj =1, ∀j) = limn P (Y1 = 1, . . . , Yn = 1) = limn pn = 0; fuera de ese suceso nulo severifica claramente que Xn tiende a cero. Por tanto, Xn tiende a cero c.s. Si lasXn fuesen uniformemente integrables, la convergencia c.s. implicaŕıa convergenciaen L1 y, en particular, E(Xn) convergeŕıa a E(0) = 0; pero E(Xn) = 1, para cadan. Esa contradicción prueba que las Xn no son uniformemente integrables. Si esasucesión es considerada como una martingala, entonces no puede tener un últimoelemento; en efecto, si X∞ es un último elemento, entonces Xn = E(X∞|An), paracada n, y, por un resultado anterior, las Xn seŕıan uniformemente integrables.

    Nótese también que ∩∞n=1 ∪k≥n {Xk > 0} ⊂ ∩∞n=1{Yn = 1}, y, por tanto,P (∪∞n=1 ∩k≥n {Xk = 0}) = 1, es decir, con probabilidad 1, Xn = 0 eventualmente(o, dicho de otro modo, con probabilidad 1, Xn = 0 para todos los n salvo quizás

  • 17

    para un número finito de ellos). Este es pues un ejemplo de un juego “justo” (portratarse de una martingala) en el que el jugador tiene probabilidad 1 de ser limpiado;el término “localmente justo” es, quizás, más apropiado que el término “justo” parareferirnos a martingalas.

  • Lección 3: Aplicaciones de la Teoŕıa de Martingalas.

    La teoŕıa de martingalas proporciona nuevas ideas para profundizar y simplificarmuchos problemas en probabilidad. Veamos a continuación como podemos usar elteorema de convergencia de martingalas para obtener una prueba más simple de laley fuerte de los grandes números para v.a.r. iid, añadiendo incluso L1-convergenciaal resultado. Necesitaremos una serie de resultados previos. El primero de ellosafirma intuitivamente que, dado Sn = X1 + · · ·+ Xn, la contribución media de cadaXk a la suma es la misma, e igual, por tanto, a Sn/n.

    Lema 19. Sean X1, . . . , Xn v.a.r. independientes e idénticamente distribuidascon media finita y Sn =

    ∑nk=1 Xk. Entonces

    E(Xk|Sn) = 1n

    Sn, c.s., 1 ≤ k ≤ n.Demostración. Si B ∈ R, entonces

    ∫{Sn∈B}XkdP = E(XkI{Sn∈B}) =∫

    RnxkIB(x1 + · · ·+ xn)dP (X1,...,Xn) =

    R. . .

    RxkIB(x1 + · · ·+ xk)dQ(xn) . . . dQ(x1).

    El teorema de Fubini prueba que esa integral múltiple no depende de k; por tanto,∫

    {Sn∈B}XkdP =

    1

    n

    {Sn∈B}

    n∑

    k=1

    XkdP =

    {Sn∈B}

    1

    nSndP.

    Lema 20. Si X1, X2, . . . son v.a.r. y Sn =∑n

    k=1 Xk, entonces

    σ(Sn, Sn+1, Sn+2, . . . ) = σ(Sn, Xn+1, Xn+2, . . . ).

    Demostración. (⊃) Se deduce inmediatamente de que Xn+k = Sn+k − Sn+k−1.(⊂) Análogamente, Sn, Sn+1, Sn+2, . . . son σ(Sn, Xn+1, Xn+2, . . . )-medibles, lo

    que acaba la prueba.

    Lema 21. Sean Y una v.a.r. integrable y X y Z v.a. tales que (X, Y ) y Z sonindependientes. Entonces E(Y |X, Z) = E(Y |X).

    Demostración.∫

    {X∈A,Z∈B}Y dP = E[Y (IA ◦X)(IB ◦ Z)]

    = E[Y (IA ◦X)]E(IB ◦ Z) (por independencia)= E[E(Y (IA ◦X)|X)]E(IB ◦ Z)= E[(IA ◦X)E(Y |X)]E(IB ◦ Z)= E[(IA ◦X)E(Y |X)(IB ◦ Z)] (por independencia)=

    {X∈A,Z∈B}E(Y |X)dP

    18

  • 19

    Aśı pues, queda probado que∫{(X,Y )∈C} Y dP =

    ∫{(X,Y )∈C} E(Y |X)dP si C es un

    rectángulo medible. El teorema de la clase monótona extiende ese resultado a cual-quier suceso de la σ-álgebra producto de forma estándar.

    Un último resultado antes de probar la ley fuerte de los grandes números: la leycero-uno de Kolmogorov.

    Definición. (σ-álgebra final) Sea (Xn)n una sucesión de v.a.r. y denotemospor An la más pequeña σ-álgebra que hace medible a Xn, Xn+1, Xn+2, . . . , paracada n ∈ N. La σ-álgebra A∞ := ∩nAn se llama σ-álgebra final de la sucesión(Xn), y sus elementos se llaman sucesos finales. Las funciones reales A∞-mediblesse llaman funciones finales relativas a la sucesión (Xn).

    Observación. Intuitivamente, un suceso final relativo a una sucesión (Xn) es unsuceso cuya ocurrencia no resulta afectada al cambiar lo valores de un número finitode variables Xn. P.ej., los sucesos {ω : Xn(ω) converge}, {ω :

    ∑n Xn(ω) converge},

    o {ω : Xn(ω) < 1 para infinitos valores de n} son sucesos finales relativos a (Xn).lim supn Xn y lim infn Xn son funciones finales relativas a (Xn).

    Teorema 22. (Ley cero-uno de Kolmogorov) Todos los sucesos finales relativosa una sucesión (Xn) de v.a.r. independientes tienen probabilidad 0 o 1, y todas lasfunciones finales son constantes c.s.

    Demostración. Sea A ∈ A∞. Probaremos que A es independiente consigo mismo,con lo cual P (A) = P (A ∩ A) = P (A)2. Puesto que A∞ ⊂ A1, existe A′1 ∈ RNtal que A = X−1(A′1), donde X = (X1, X2, . . . ). Denotemos por C la clase detodos los conjuntos C ′ ∈ RN tales que A y X−1(C ′) son independientes. Si C ′es un cilindro n-dimensional, entonces X−1(C ′) es de la forma {(X1, . . . , Xn)−1(B)para algún B ∈ Rn; puesto que A ∈ An+1, A se puede escribir en la forma A ={(Xn+1, Xn+2, . . . ) ∈ An+1} para algún An+1 ∈ RN, y, por tanto, A y X−1(C ′) sonindependientes. Es decir, C contiene a los cilindros medibles. Probemos ahora queC es una clase monótona. Si (C ′n) es una sucesión creciente (resp., decreciente) en C,entonces P (A ∩X−1(C ′n)) = P (A)P (X−1(C ′n)) para cada n, y, si C ′ = ∪nC ′n (resp.,C ′ = ∩nC ′n), entonces P (A∩X−1(C ′)) = P (A)P (X−1(C ′)) trivialmente. C es, pues,una clase monótona que contiene al álgebra de los cilindros medibles y, por tanto,C = RN. En particular, A′1 ∈ C y A es independiente consigo mismo.

    Sea ahora f una función final; entonces, para cada c ∈ R̄, {ω/f(ω) < c} esun suceso final y tiene probabilidad 0 o 1. Sea k = sup{c ∈ R̄/P (f < c) = 0},y probemos que f = k P -c.s. Si k = +∞, entonces P (f < n) = 0 para cadan ∈ N, y, por tanto, f = +∞ P -c.s.; si k ∈ R y c < k entonces c no es cotasuperior de A := {c ∈ R̄/P (f < c) = 0}, y existe x ∈ A tal que c < x; entoncesP (f < c) ≤ P (f < x) = 0. Por otra parte, si c > k, entonces entonces c /∈ A,es decir, P (f < c) > 0; puesto que {f < c} es un suceso final, P (f < c) = 1 yP (f ≥ c) = 1− P (f < c) = 0. En definitiva

    P (f 6= k) = P (∪n{f < k − 1/n}) + P (∪n{f ≥ k + 1/n}) = 0.

  • 20

    Teorema 23. (Ley Fuerte de los Grandes Números, caso iid) Sean X1, X2, . . .v.a.r. con media finita µ y hagamos Sn = X1 + · · ·+ Xn para cada n ∈ N. EntoncesSn/n converge a µ c.s. y en L

    1.

    Demostración. Puesto que (X1, . . . , Xn) y (Xn+1, Xn+2, . . . ) son independientes,(X1, Sn) y (Xn+1, Xn+2, . . . ) también lo son, y, por tanto,

    E(X1|Sn) = E(X1|Sn, Xn+1, Xn+2, . . . ) (por el tercer lema)= E(X1|Sn, Sn+1, Sn+2, . . . ) (por el segundo lema)

    Se deduce del primer lema que

    E(X1|Sn, Sn+1, Sn+2, . . . ) = 1n

    Sn c.s.

    Un resultado del tema anterior prueba que E(X1|Sn, Sn+1, . . . ) converge a E(X1|A∞)c.s. y en L1, donde A∞ denota la σ-álgebra final de la sucesión (Sn)n. Por tanto,Sn/n converge c.s. y en L

    1 a un ĺımite finito. Probemos a continuación que eseĺımite es, de hecho, µ.

    Supuesto probado que limn Sn/n es una función final para la sucesión (Xn), sededuce de la ley cero-uno de Kolmogorov (las Xn son independientes) que limn Sn/nes constante P -c.s., y puesto que Sn/n es L

    1-convergente y E(Sn/n) = µ, esa cons-tante debe ser µ.

    Sólo falta probar que la función limn Sn/n es una función final para (Xn). Bastaprobar que la función g(ω) = lim supn Sn(ω)/n es una función final. DenotemosB∞ = ∩mσ(Xm, Xm+1, . . . ) y probemos que, para cada c ∈ R,

    A := {ω : lim supn

    1

    nSn(ω) < c} ∈ B∞.

    Puesto que (supk≥n Sk(ω)/k)n es una sucesión decreciente, se verifica que A ={ω : ∀M ∈ N, infn≥M supk≥n Sk(ω)/k < c}, y, también,

    A = {ω : ∃p ∈ N tal que ∀M ∈ N, infn≥M

    supk≥n

    Sk(ω)/k < c− 1/p}.

    Sea m ∈ N; para probar que A ∈ σ(Xm, Xm+1, . . . ), basta probar que A = Am,donde

    Am :=

    {ω : ∃p ∈ N tal que ∀M ≥ m, inf

    n≥Msupk≥n

    1

    k

    k∑i=m

    Xi(ω) < c− 1/(2p)}

    .

    Dado ω ∈ A, hagamos Tω =∑m−1

    i=1 Xi(ω). Sea p ∈ N tal que, para cada M ∈ N,existe n ≥ M de modo que ∑ki=1 Xi(ω)/k < c− 1/p para cada k ≥ n (*). Para ese

  • 21

    p tomemos Mω ∈ N (lo podemos elegir incluso ≥ m) tal que |Tω/k| < 1/(2p) paracada k ≥ Mω. De (*) se sigue la existencia de nω ≥ Mω tal que

    1

    kTω +

    1

    k

    k∑i=m

    Xi(ω) < c− 1p,

    para cada k ≥ nω. De esto y de que −Tω/k < 1/(2p) para k ≥ Mω (y, en particular,para k ≥ nω), se sigue que

    1

    k

    k∑i=m

    Xi(ω) < c− 12p

    ,

    para cada k ≥ nω, y, por tanto, ω ∈ Am. Eso prueba que A ⊂ Am.Sea ahora ω ∈ Am y probemos que ω ∈ A. Por hipótesis, existe p ∈ N tal que,

    para cada M ≥ m, existe n ≥ M tal que

    1

    k

    k∑i=m

    Xi(ω) < c− 1p, ∀k ≥ n.

    Hagamos, como antes, Tω =∑m−1

    i=1 Xi(ω), y, para ese p ∈ N, tomemos Mω ≥ mtal que, si k ≥ Mω, entonces |Tω/k| < 1/(2p). Dado Mω, existe nω ≥ Mω tal que∑k

    i=m Xi(ω)/k < c− 1p para cada k ≥ nω. Entonces, para cada k en esas condiciones,

    1

    kSk(ω) =

    1

    kTω +

    1

    k

    k∑i=m

    Xi(ω) <1

    2p+ c− 1

    p< c,

    y, por tanto, ω ∈ A. Eso acaba la prueba.

  • Caṕıtulo II

    CADENAS DE MARKOV

    II.4. Introducción a la Teoŕıa de Procesos Estocásticos: Proceso estocástico:definición. Distribuciones finito-dimensionales de un proceso. Teorema deextensión de Kolmogorov. Procesos equivalentes y modificación de un proceso.

    II.5. Cadenas de Markov con Probabilidades de Transición Estacionarias:Procesos y cadenas de Markov: primeras definiciones y ejemplos. Existencia deuna cadena de Markov con una distribución inicial y una matriz de transicióndadas. Probabilidades de transición en n pasos. Ecuaciones de Chapman-Kolmogorov. Ejemplos.

    II.6. Clasificación de los Estados: Comunicación entre estados: división enclases del conjunto de estados. Estados esenciales. Periodo de un estado.Subclases de una clase. Conjunto cerrado y conjunto minimal cerrado: carac-terización de clase esencial.

    II.7. Recurrencia: Probabilidades f(n)ij de primera llegada a un estado j en un

    instante n. Probabilidades fij y gij. Recurrencia y transitoriedad. El carácterrecurrente y el carácter esencial. Caracterización de recurrencia.

    II.8. El Teorema Ĺımite Fundamental: Tiempo medio de recurrencia de unestado. Comportamiento ĺımite de las probabilidades de transición de orden n.El teorema ĺımite fundamental: consecuencias. Estados recurrentes positivosy estados recurrentes nulos.

    II.9. Distribuciones Estacionarias: Existencia y unicidad de solución para elsistema determinante de una clase esencial. Cadenas de Markov estacionarias:caracterización. Distribución estacionaria absoluta.

    II.10. Procesos de Ramificación: Un tipo especial de cadenas de Markov: losprocesos de ramificación. Dos martingalas construidas a partir de un procesode ramificación. Comportamiento ĺımite de un proceso de ramificación enfunción del número medio de descendientes por individuo.

    II.11. Criterios y Ejemplos: Recorrido aleatorio simple. Recorrido aleatorio sim-ple con una o dos barreras absorbentes: el problema de la ruina de un jugador.Recorrido aleatorio simple con una o dos barreras reflectantes.

    Referencias caṕıtulo II: Ash (1972), Billingsley (1986), Chung (1967).

    23

  • 24

    Lección 4: Introducción a la Teoŕıa de Procesos

    Estocásticos.

    Definición. (Proceso estocástico) Sean T un conjunto de ı́ndices, (Ω,A, P ) unespacio probabiĺıstico y (Ω′,A′) un espacio medible. Un proceso estocástico (sobreT ) es una familia (Xt)t∈T de v.a. definidas en (Ω,A, P ) y a valores en (Ω′,A′).Cuando deseemos más precisión, llamaremos proceso estocástico la cuaterna

    (Ω,A, P, (Xt)t∈T ).Ω suele llamarse espacio muestral del proceso. Ω′ es el espacio de los estados. Paracada ω ∈ Ω, la aplicación t ∈ T −→ Xt(ω) se llamará trayectoria de ω. T suelellamarse espacio temporal del proceso.

    Observaciones. 1) La noción de proceso estocástico constituye un modelo ma-temático para representar el estado de un sistema dependiente de un parámetro(generalmente, el tiempo t) y del azar. Un tal modelo se presenta de forma naturalcomo una aplicación (t, ω) −→ X(t, ω) definida en T × Ω y a valores en Ω′ quedescribe los estados del sistema. En un instante t fijo, el estado del sistema dependeúnicamente del azar, y queda descrito por el hecho de que X(t, ·) es una v.a. queen la definición anterior hemos denotado por Xt. Por ello, Xt suele llamarse estadodel sistema en el instante t.

    2) Puede darse una definición más general de proceso estocástico haciendo de-pender del tiempo el espacio de estados (es decir, suponiendo que Xt es una v.a.en Ω y a valores en un cierto espacio medible (Ωt,At)). Este no será, sin embargo,normalmente el caso. Incluso, el espacio de los estados (Ω′,A′) es frecuentementeun espacio discreto o un espacio eucĺıdeo. Si (Ω′,A′) = (R,R) diremos que (Xt) esun proceso estocástico real.

    3) Normalmente T será un subconjunto de R: bien un intervalo de R (casi siempreserá un intervalo de [0, +∞[) en el caso de parámetro continuo, bien un intervalo deZ (casi siempre de N) en el caso de parámetro discreto.

    Definición. (Distribuciones finito-dimensionales de un proceso) Si (Xt) es unproceso estocástico como en la definición anterior, llamaremos distribuciones finito-dimensionales a las distribuciones conjuntas de las subfamilias finitas de (Xt)t∈T .Aśı, si t1, . . . , tn ∈ T , la distribución de probabilidad P(t1,...,tn) definida para C ∈ A′npor

    P(t1,...,tn)(C) = P [(Xt1 , . . . , Xtn) ∈ C]es una distribución finito-dimensional del proceso.

    Observación. La familia de las distribuciones finito-dimensionales de un procesoconstituye uno de los aspectos más importantes del mismo pues esta familia deter-mina el proceso en algún sentido a precisar posteriormente y, porque en la práctica,realizando un número suficientemente grande de pruebas independientes, es posibleestimar con precisión arbitraria probabilidades del tipo P(t1,...,tn)(C) y, en general,nada más se puede obtener de las observaciones.

  • 25

    Nuestro objetivo inmediato consiste en obtener el teorema de extensión de Kol-mogorov que resuelve el problema de caracterizar el proceso en términos de susdistribuciones finito-dimensionales. Notemos en primer lugar que las distribucionesfinito-dimensionales del proceso (Xt) satisfacen lo siguiente:i) Si π es una permutación en {1, . . . , n} y H1, . . . , Hn ∈ A′, entonces los sucesos

    {(Xt1 , . . . , Xtn) ∈ H1 × · · · ×Hn} y {(Xtπ(1) , . . . , Xtπ(n)) ∈ Hπ(1) × · · · ×Hπ(n)}

    coinciden y, en particular

    P(t1,,...,tn)(H1 × · · · ×Hn) = P(tπ(1),...,tπ(n))(Hπ(1) × · · · ×Hπ(n)).

    ii) P(t1,...,tn−1)(H1 × · · · ×Hn−1) = P(t1,...,tn)(H1 × · · · ×Hn−1 × Ω′).La condición i) anterior nos permite considerar únicamente las distribuciones

    finito-dimensionales de la forma P(t1,,...,tn) tales que t1 < · · · < tn (si T no fuese unsubconjunto de R, considerar en T un orden total arbitrario), pues éstas determinantodas las demás. Fijemos algunas notaciones más cómodas. Si V = {t1, . . . , tn} esun subconjunto finito de T con t1 < · · · < tn denotaremos por PV la probabilidadP(t1,...,tn); si U = {ti1 , . . . , tir} ⊂ V y ti1 < · · · < tir , entonces denotaremos porpr(V,U) la aplicación (xt1 , . . . , xtn) ∈ Rn −→ (xti1 , . . . , xtir ) ∈ Rr. Si V es comoantes, prV denotará la aplicación x ∈ RT −→ (xt1 , . . . , xtn) ∈ Rn. De acuerdo conestas notaciones, la condición ii) anterior afirma que la distribución de probabilidadde la v.a. pr(V,{t1,...,tn−1}) respecto a PV es P(t1,...,tn−1). De i) e ii) se sigue también quesi V y U son como antes entonces PU es la distribución de probabilidad de pr(V,U)respecto a PV .

    La construcción estándar de procesos estocásticos utiliza espacios producto.

    Definición. Sea T un conjunto no vaćıo y supongamos que, para cada t ∈ T ,(Ωt,At) es un espacio medible. Denotaremos Ω =

    ∏t∈T Ωt. Llamaremos cilindro

    medible n-dimensional en Ω a un subconjunto de Ω de la forma

    c(B) = {ω ∈ Ω: (ωt1 , . . . , ωtn) ∈ B}

    donde B ∈ ∏ni=1Ati (se dice también que c(B) es un cilindro de base B). SiB = B1 × · · · × Bn donde Bi ∈ Ati , 1 ≤ i ≤ n, diremos que c(B) es un rectángulomedible. Denotaremos por

    ∏t∈T At la σ-álgebra en Ω engendrada por los cilindros

    medibles en Ω.

    Observaciones. 1) Con las notaciones de la definición anterior, tanto la familiade los cilindros medibles en Ω como la de las uniones finitas de rectángulos mediblesen Ω son álgebras en Ω que engendran la σ-álgebra producto.

    2) Si todos los espacios medibles (Ωt,At) coinciden con un cierto espacio medible(Ω,A), el espacio medible producto lo denotaremos por (ΩT ,AT ).

  • 26

    Pretendemos ahora construir en (RT ,RT ) una probabilidad a partir de probabili-dades P(t1,...,tn) en Rn definidas para cada colección creciente de ı́ndices t1 < · · · < tny cada n ∈ N, supuesto que estas probabilidades satisfacen una cierta condición deconsistencia.

    Antes de enunciar y probar el teorema de extensión de Kolmogorov recordaremosalgunos conceptos y resultados de teoŕıa de la medida que necesitaremos en la demos-tración de ese teorema: si A0 es un álgebra de partes de un conjunto Ω, una funciónde conjuntos µ : A0 −→ [0, +∞] se dice numerablemente aditiva si para cada suce-sión finita o infinita numerable y disjunta (An)n en A0 tal que ∪nAn ∈ A0 se verificaque µ(∪nAn) =

    ∑n µ(An). Se prueba que si µ es una medida finitamente aditiva en

    el álgebra A0 y es continua por arriba en el vaćıo (es decir, para cada sucesión (An)en A0 decreciente a ∅ se verifica que limn µ(An) = 0) entonces µ es numerablementeaditiva. El teorema de extensión de Carathéodory afirma que si µ es una medida (esdecir, una función de conjuntos numerablemente aditiva) en un álgebra A0 y si esσ–finita, entonces admite una única extensión a una medida en la σ–álgebra σ(A0)engendrada por A0. Necesitaremos también el siguiente resultado: Si µ es una me-dida finita en la σ–álgebra Rn de Borel en Rn, entonces µ es interiormente regular,es decir, para cada boreliano B en Rn, µ(B) = sup{µ(K) : K compacto ⊂ B}.

    Teorema 24. (De extensión de Kolmogorov: 1a versión) Sea T un conjunto novaćıo y supongamos que, para cada subconjunto finito no vaćıo V de T , PV es unaprobabilidad en Rn si V tiene n elementos. Supongamos que estas probabilidadessatisfacen la condición de consistencia:

    (CC) Para cada subconjunto U no vaćıo de V la distribución de probabilidad depr(V,U) respecto a PV es PU .

    Entonces existe una única probabilidad P en RT tal que, para cada subconjuntofinito V de T , la distribución de prV respecto a P coincide con PV , es decir, tal quepara cada n ∈ N, cada sucesión finita creciente t1 < · · · < tn en T y cada H ∈ Rnse verifica que

    P ({x ∈ RT : (xt1 , . . . , xtn) ∈ H} = P(t1,...,tn)(H).

    Demostración. Si A es un cilindro n-dimensional de la forma

    A = {x ∈ RT : (xt1 , . . . , xtn) ∈ H}

    con t1 < · · · < tn y H ∈ Rn definimos P (A) = P(t1,...,tn)(H). Debemos probaren primer lugar que esta definición no depende de la representación del cilindro A.Supuesto que también A = {x ∈ RT : (xs1 , . . . , xsm) ∈ H ′} con s1 < · · · < sm yH ′ ∈ Rm, hagamos

    {u1, . . . , ur} = {t1, . . . , tn} ∪ {s1, . . . , sm}

  • 27

    con r ≥ max(m,n) y u1 < · · · < ur; sean también 1 ≤ m1 < · · · < mn ≤ r tales queti = umi , 1 ≤ i ≤ n. Entonces

    A = {x ∈ RT : (xt1 , . . . , xtn) ∈ H}= {x ∈ RT : (xum1 , . . . , xumn ) ∈ H}= {x ∈ RT : (xu1 , . . . , xur) ∈ H1}

    donde H1 = {(xu1 , . . . , xur) ∈ Rr : (xum1 , . . . , xumn ) ∈ H}, es decir, H1 = pr−1(V,U)(H)donde V = {u1, . . . , ur} y U = {um1 , . . . , umn} = {t1, . . . , tn}. La condición deconsistencia prueba que P(t1,...,tn)(H) = PV (H1). Análogamente se prueba queP(s1,...,sm)(H

    ′) = PV (H ′1) donde H′1 = {(xu1 , . . . , xur) ∈ Rr : (xs1 , . . . , xsm) ∈ H ′} =

    H1. Luego la definición de P (A) es correcta. Sean ahora A y B cilindros mediblesdisjuntos. Puesto que todo cilindro k-dimensional puede considerarse obviamentecomo m-dimensional para cada m ≥ k, podemos suponer que los ı́ndices que definenA y B son los mismos:

    A = {x ∈ RT : (xt1 , . . . , xtn) ∈ HA}, B = {x ∈ RT : (xt1 , . . . , xtn) ∈ HB}.

    Siendo A ∩B = ∅ debe ser HA ∩HB = ∅ y, entonces

    P (A ∪B) = P(t1,...,tn)(HA ∪HB) = P (A) + P (B)

    que prueba que P es finitamente aditiva en el álgebra A0 de los cilindros medibles.Se sigue también que P (RT ) = 1. Si probamos que P es numerablemente aditivaen A0, el teorema de extensión de Carathéodory asegurará la existencia de unaextensión de P a una probabilidad en RT . Basta para ello probar que si (An)n esuna sucesión en A0 decreciente a ∅ entonces limn P (An) = 0. Supongamos que, porel contrario, existe ² > 0 tal que P (An) ≥ ² para cada n ∈ N. Podemos suponer sinpérdida de generalidad que existe una sucesión (tn)n en T tal que

    An = {x ∈ RT : (xt1 , . . . , xtn) ∈ Hn}

    con Hn ∈ Rn para cada n ∈ N. Entonces P (An) = P(t1,...,tn)(Hn), ∀n. La regularidadinterior de las P(t1,...,tn) prueba que existen compactos Kn ⊂ Hn tales que

    P(t1,...,tn)(Hn \Kn) < ²/2n+1, ∀n.

    Si Bn = {x : (xt1 , . . . , xtn) ∈ Kn} entonces P (An \Bn) < ²/2n+1. Sea Cn = ∩nk=1Bk.Entonces Cn ⊂ Bn ⊂ An y P (An \ Cn) < ²/2. Luego P (Cn) > ²/2 > 0 y, enparticular, Cn 6= ∅. Sea x(n) ∈ Cn, n ∈ N. Si n ≥ k entonces x(n) ∈ Cn ⊂ Ck ⊂ Bky, por tanto,

    (x(n)t1 , . . . , x

    (n)tk

    ) ∈ Kk.Puesto que Kk es acotado, la sucesión (x

    (n)tk

    )n∈N es acotada para cada k ∈ N. Porun procedimiento diagonal, elijamos n1 < n2 < . . . en N tales que limi x(ni)tk exista

  • 28

    para cada k ∈ N. Sea x ∈ RT tal que xtk = limi x(ni)tk para cada k. Entonces, paracada k ∈ N,

    (xt1 , . . . , xtk) = limi

    (x(ni)t1 , . . . , x

    (ni)tk

    ) ∈ Kk.

    Luego x ∈ Bk ⊂ Ak, ∀k, en contra de que ∩kAk = ∅. De esta contradicción sesigue que P admite una extensión a una probabilidad en RT que satisface la tesispor definición. Finalmente, si P y Q son dos probabilidades en RT satisfaciendo elteorema, entonces coinciden sobre los cilindros medibles y, por tanto, en RT por launicidad en el teorema de Carathéodory.

    Observación. Supongamos que Pt es una probabilidad en R para cada t ∈ T .Aplicando el teorema anterior a las probabilidades producto

    ∏ni=1 Pti se obtiene un

    teorema de la medida producto en el caso de una cantidad arbitraria de factores.

    Consideremos ahora las aplicaciones coordenadas Zt : x ∈ RT −→ xt ∈ R. Si(PV )V finito ⊂T es una familia de probabilidades que satisface las hipótesis del teoremaanterior y si P es la probabilidad en RT que proporciona dicho teorema, entoncespara cada n ∈ N, cada sucesión finita creciente t1 < · · · < tn en T y cada H ∈ Rnse verifica que

    P [(Zt1 , . . . , Ztn) ∈ H] = P(t1,...,tn)(H).Aśı pues, (RT ,RT , P, (Zt)t∈T ) es un proceso estocástico cuyas distribuciones finito-dimensionales son precisamente las PV . Podemos entonces enunciar el siguienteteorema, que asegura la existencia de un proceso estocástico con unas distribucionesfinito-dimensionales dadas de antemano (supuesto que éstas verifican una condiciónde consistencia).

    Teorema 25. (de extensión de Kolmogorov: 2a versión) Si (PV )V finito ⊂T esuna familia de probabilidades que satisfacen la condición de consistencia (1) delteorema anterior, entonces existe un proceso estocástico (Ω,A, P, (Xt)t∈T ) cuyasdistribuciones finito-dimensionales son precisamente las PV .

    Demostración. Consideremos las aplicaciones coordenadas Zt : x ∈ RT −→xt ∈ R. Dichas aplicaciones son medibles. Si (PV )V finito ⊂T es una familia dedistribuciones de probabilidad satisfaciendo la condición de consistencia del teoremaanterior y si P es la probabilidad en RT cuya existencia se asegura en ese teoremaentonces, si n ∈ N y si t1 < · · · < tn se tiene que

    P ({x ∈ RT : (Zt1(x), . . . , Ztn(x)) ∈ H}) = P(t1,...,tn)(H)

    para cada H ∈ Rn lo que prueba que (RT ,RT , P, (Zt)t∈T ) es un proceso estocásticocuyas distribuciones finito-dimensionales son precisamente las PV .

    Las definiciones siguientes precisan hasta qué punto un proceso estocástico quedadeterminado por sus distribuciones finito-dimensionales.

  • 29

    Definición. a) Consideremos dos procesos estocásticos reales sobre el mismoespacio temporal (Ω,A, P, (Xt)t∈T ) y (Ω′,A′, P ′, (X ′t)t∈T ). Diremos que dichos pro-cesos son equivalentes si

    P (Xt1 ∈ A1, . . . , Xtn ∈ An) = P ′(X ′t1 ∈ A1, . . . , X ′tn ∈ An)

    para cada subconjunto finito {t1, . . . , tn} de T y cada familia finita A1, . . . , An enR.

    b) Sean (Xt)t∈T e (Yt)t∈T dos procesos estocásticos reales en el mismo espacioprobabiĺıstico (Ω,A, P ) y sobre el mismo espacio temporal T . Diremos que (Yt) esuna modificación de (Xt) si Xt = Yt P -c.s. para cada t ∈ T . Diremos que dichosprocesos son P -indistinguibles si existe A ∈ A tal que P (A) = 0 y Xt(ω) = Yt(ω)para cada ω ∈ Ac y cada t ∈ T .

    Veamos algunas observaciones interesantes sobre lo que hemos visto hasta ahora.

    Observaciones. 1) Hemos definido un proceso estocástico como una familia (Xt)t∈Tde v.a. (supongámoslas reales) en (Ω,A, P ). Hemos observado también que pode-mos mirar este proceso como una aplicación X : (t, ω) ∈ T × Ω −→ X(t, ω) ∈ Rdonde, para cada t, X(t, ·) es una v.a.r. en Ω. Una tercera v́ıa puede ser la siguiente:consideremos la aplicación X que a cada ω ∈ Ω asocia la aplicación t ∈ T −→ Xt(ω);X, aśı definida es una aplicación de Ω en el conjunto RT de las aplicaciones de Ten R. Es fácil ver que una aplicación F : (Ω,A) −→ (RT ,RT ) es una v.a. sii Zt(F )lo es para cada t ∈ T , donde Zt denota (y denotará en lo que sigue) como antesla aplicación coordenada t-ésima en RT . Por tanto, podemos pensar en un procesoestocástico real también como una v.a. X de (Ω,A, P ) en (RT ,RT ). Visto de estemodo, el proceso recibe a veces el nombre de función aleatoria.

    2) (Proceso canónico asociado a un proceso dado) Sea (Ω,A, P, (Xt)t∈T ) un pro-ceso estocástico real sobre T . Denotemos por X la v.a. de (Ω,A) en RT definidapor X(ω)(t) = Xt(ω). Consideremos la distribución de probabilidad P

    X en RT deX respecto a P . Consideremos en fin las aplicaciones Zt de la observación anterior.El proceso estocástico (RT ,RT , PX , (Zt)t∈T ) se llama proceso canónico asociado alproceso (Xt). Es claro que todo proceso estocástico real es equivalente a su proce-so canónico y que dos procesos reales son equivalentes sii tienen el mismo procesocanónico asociado.

    3) Ya hemos observado anteriormente que las distribuciones finito-dimensionalesde un proceso estocástico real constituyen uno de los aspectos fundamentales del mis-mo en virtud del teorema de Kolmogorov (que asegura unicidad salvo equivalencia).No obstante, la noción de distribución finito-dimensional resulta ser insuficientemen-te precisa a la hora de abordar algunas cuestiones interesantes también en teoŕıa deprocesos estocásticos como posibles propiedades de regularidad de las trayectorias(p. ej., continuidad de las trayectorias si T es un intervalo de R). Hagamos, p. ej.,Ω = [0, 1] = T , A = R([0, 1]) y sea P la medida de Lebesgue en [0, 1]; consideremos

  • 30

    dos procesos reales (Xt)t∈T y (Yt)t∈T definidos en Ω para t ∈ T y ω ∈ Ω por

    Xt(ω) = 0 e Yt(ω) =

    {= 1 si t = ω

    = 0 si t 6= ω.

    Dichos procesos tienen entonces las mismas distribuciones finito-dimensionales (esdecir, son equivalentes); incluso, uno es modificación del otro. Sin embargo, Xt tienetodas sus trayectorias continuas (es decir, para cada ω, la aplicación t −→ Xt(ω)es continua) mientras que las del segundo son discontinuas. Este mismo ejemploprueba que la noción de modificación de un proceso tampoco es lo suficientementeprecisa en este tipo de problemas. La noción de procesos indistinguibles da la mayorprecisión posible desde el punto de vista probabiĺıstico: dos procesos indistinguiblesson realmente el mismo proceso. Notemos aqúı que, a veces, se llama equivalenciade procesos lo que aqúı hemos llamado modificación de un proceso.

  • Lección 5: Cadenas de Markov con Probabilidades de

    Transición Estacionarias.

    Un tipo especialmente importante de proceso estocástico lo constituyen los lla-mados procesos de Markov: un proceso estocástico real (Xt)t∈T sobre un espacio deprobabilidad (Ω,A, P ) se dice un proceso de Markov si T ⊂ R y para cada sucesiónfinita ordenada t1 < · · · < tn < tn+1 en T y cada c ∈ R se verifica que

    P (Xtn+1 ≤ c|Xt1 , . . . , Xtn) = P (Xtn+1 ≤ c|Xtn).Si T es un intervalo de R diremos que se trata de un proceso de Markov a tiempocontinuo; un proceso de Markov a tiempo discreto corresponde al caso T = N ={0, 1, 2, . . . }. Una cadena de Markov es un proceso de Markov a tiempo discreto(Xn)n∈N en el que las variables Xn son discretas. En ese caso, el espacio de estadosE = ∪nXn(Ω) es numerable. Aśı pues:

    Definición. (Cadena de Markov) Sea (Xn)n≥0 una sucesión de v.a. discretasdefinidas en un espacio de probabilidad (Ω,A, P ) y sea E el espacio de estados.Se dice que (Xn)n≥0 es una cadena de Markov si se verifica la siguiente propiedad(llamada de Markov): para cada n + 1 ≥ 2 naturales 0 ≤ t1 < · · · < tn < tn+1 ycada n + 1 estados i1, . . . , in+1,

    P (Xtn+1 = in+1|Xt1 = i1, . . . , Xtn = in) = P (Xtn+1 = in+1|Xtn = in),siempre que esté definida la probabilidad condicionada del primer miembro.

    La siguiente proposición facilita en ocasiones el trabajo de probar la propiedadde Markov.

    Proposición 26. Equivalente a la propiedad de Markov es que para cada n ∈N0 y cada elección de estados i0, . . . , in, in+1,

    P (Xn+1 = in+1|X0 = i0, . . . , Xn = in) = P (Xn+1 = in+1|Xn = in).Demostración. Evidentemente, la propiedad de Markov implica esa otra propie-

    dad. Para probar el rećıproco comenzaremos probando que, para cada n ≥ 1, cadaA0, . . . , An−1 ⊂ E y cada in+1 ∈ E, se verifica

    P (Xn+1 = in+1|X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in) =(1)P (Xn+1 = in+1|Xn = in).

    Reemplazando ciertos Ai por E quedará probado que en la probabilidad condicionaldel primer miembro podemos eliminar cuantos ı́ndices queramos entre 0 y n − 1.Pero usando que

    P (X0 = i0, X1 = i1, . . . , Xn = in) =(2)

    P (X0 = i0)P (X1 = i1|X0 = i0) · · ·P (Xn = in|X0 = i0, . . . , Xn−1 = in−1)

    31

  • 32

    y la propiedad de Markov se tiene que

    P (Xn+1 = in+1|X0 ∈ A0, X1 = i1, . . . , Xn = in) =P (X0 ∈ A0, X1 = i1, . . . , Xn = in, Xn+1 = in+1)

    P (X0 ∈ A0, X1 = i1, . . . , Xn = in) =∑i0∈A0 P (X0 = i0)P (X1 = i1|X0 = i0) · · ·P (Xn = in|Xn−1 = in−1)P (Xn+1 = in+1|Xn = in)∑

    i0∈A0 P (X0 = i0)P (X1 = i1|X0 = i0) · · ·P (Xn = in|Xn−1 = in−1)=

    P (Xn+1 = in+1|Xn = in);

    de ah́ı se sigue (1) por inducción. Para concluir la demostración bastará probar quepara cada k ≥ 2 se verifica que

    P (Xn+k = in+k|X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in) =(3)P (Xn+k = in+k|Xn = in).

    Procederemos por inducción en k. Para k = 2 se tiene que

    P (Xn+2 = in+2|X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in) =∑

    in+1∈EP (Xn+2 = in+2, Xn+1 = in+1|X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in) =

    in+1∈E

    P (X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in, Xn+1 = in+1, Xn+2 = in+2)P (X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in, Xn+1 = in+1) ·

    ·P (X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in, Xn+1 = in+1)P (X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in) =∑

    in+1∈EP (Xn+2 = in+2|X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in, Xn+1 = in+1)·

    ·P (Xn+1 = in+1|X0 ∈ A0, . . . , Xn−1 ∈ An−1, Xn = in) =∑

    in+1∈EP (Xn+2 = in+2|Xn = in, Xn+1 = in+1)P (Xn+1 = in+1|Xn = in) =

    in+1∈EP (Xn+2 = in+2, Xn+1 = in+1|Xn = in) =

    P (Xn+2 = in+2|Xn = in).

    Un argumento similar termina la inducción en k y la demostración.

    La propiedad de Markov puede generalizarse en el siguiente sentido:

    Proposición 27. Sean n ≥ 2, m ∈ N, t1 < · · · < tn < tn+1 < · · · < tn+mnúmeros naturales e i1, . . . , in, in+1, . . . , in+m estados. Si (Xn)n es una cadena deMarkov, entonces

    P (Xtk = ik, n + 1 ≤ k ≤ n + m|Xtk = ik, 1 ≤ k ≤ n) =P (Xtk = ik, n + 1 ≤ k ≤ n + m|Xtn = in).

  • 33

    Demostración. Procederemos por inducción sobre m. Para m = 1 se trata de lapropiedad de Markov. Supuesto cierto el resultado para m, probémoslo para m + 1:

    P (Xtk = ik, n + 1 ≤ k ≤ n + m + 1|Xtk = ik, 1 ≤ k ≤ n) =

    P (Xtk = ik, 1 ≤ k ≤ n + m + 1) · P (Xtk = ik, 1 ≤ k ≤ n + m)P (Xtk = ik, 1 ≤ k ≤ n + m) · P (Xtk = ik, 1 ≤ k ≤ n)

    =

    P (Xtn+m+1 = in+m+1|Xtk = ik, 1 ≤ k ≤ n + m) ·P (Xtk = ik, n + 1 ≤ k ≤ n + m|Xtk = ik, 1 ≤ k ≤ n) =

    P (Xtn+m+1 = in+m+1|Xtk = ik, n ≤ k ≤ n + m) ·P (Xtk = ik, n + 1 ≤ k ≤ n + m|Xtn = in) =

    P (Xtk = ik, n ≤ k ≤ n + m + 1)P (Xtk = ik, n ≤ k ≤ n + m)

    · P (Xtk = ik, n ≤ k ≤ n + m)P (Xtn = in)

    =

    P (Xtk = ik, n + 1 ≤ k ≤ n + m + 1|Xtn = in)lo que acaba la prueba.

    Observación. La propiedad de Markov puede expresarse diciendo que la evolu-ción de la cadena en el futuro (instantes n + 1, . . . , n + m) sólo depende del pasado(instantes 1, . . . , n) a través del presente (instante n).

    Sólo consideraremos en lo que sigue un caso particularmente interesante de ca-denas de Markov, en el que las probabilidades

    P (Xn+1 = j|Xn = i), i, j ∈ Eson independientes de n con tal de que P (Xn = i) > 0; se denotarán por pij. Lasprobabilidades pij se llaman probabilidades de transición (pues representa la proba-bilidad de que la cadena pase del estado i en el instante n al estado j en el instanten + 1); esas probabilidades de transición se dicen estacionarias si no dependen delinstante n considerado. La matriz (pij)i,j∈E se llama matriz de transición en un pasode la cadena.

    Ejemplo. (Recorrido aleatorio simple) Consideremos una part́ıcula que se mue-ve a lo largo de una recta mediante saltos de magnitud -1,0 ó 1 con probabilidadesrespectivas q, r, p > 0, siendo p + q + r = 1. Xn denotará la posición de la part́ıculaen el instante n y Zn el salto n-ésimo, de tal suerte que Xn = Xn−1 + Zn, siendo(Zn)n una sucesión de v.a. independientes e idénticamente distribuidas (toman losvalores -1,0,1 con probabilidades q, r, p). El proceso aśı definido es una cadena deMarkov en la que el conjunto de estados es Z: la probabilidad de que la part́ıcula

  • 34

    tras el n-ésimo salto se encuentre en el estado kn sólo depende de la posición queocupaba antes del instante n (si sabemos que Xn−1 = kn−1, ya sabemos que pode-mos ir a kn−1−1 con probabilidad q, a kn−1 +1 con probabilidad p o permanecer enkn−1 con probabilidad r). Las probabilidades de transición se calculan como sigue:dado un estado i tal que P (Xn−1 = i) > 0 se tiene

    pi,i+1 =P (Xn = i + 1|Xn−1 = i) = P (Xn−1 = i,Xn = i + 1)P (Xn−1 = i)

    =P (Xn−1 = i, Zn = 1)

    P (Xn−1 = i)= P (Zn = 1) = p

    pi,i =r

    pi,i−1 =q

    pi,k =0 si k /∈ {i− 1, i, i + 1}.

    La matriz (pik)i,k es entonces

    . . ....

    ......

    ...... . . .

    . . . p11 = r p12 = p 0 0 0 . . .

    . . . q r p 0 0 . . .

    . . . 0 q r p 0 . . .

    . . . 0 0 q r p . . .

    . . ....

    ......

    ......

    . . .

    Calculemos ahora la probabilidad de que la part́ıcula llegue en n saltos a un estadok ∈ Z supuesto conocido que estaba en 0 en el instante n = 0. Siendo Xn =X0 +

    ∑ni=1 Zi,

    P (Xn = k|X0 = 0) = P (X0 +n∑

    i=1

    Zi = k|X0 = 0) = P (n∑

    i=1

    Zi = k).

    Supongamos que a es el número de veces que Zi = 1 (i ∈ {1, . . . , n}), es decir, quea es el número de saltos hacia adelante, que b es el número de saltos hacia atrás y clas veces que la part́ıcula se queda en el mismo lugar. Si la part́ıcula ha de finalizaren el estado k en el instante n debe ocurrir que a + b + c = n y que a − b = k.Posibilidades de dar a saltos hacia adelante, b hacia atrás y de permanecer c vecesen el sitio hay

    n!

    a!b!c!

    (permutaciones con repetición); si S = {(a, b, c) ∈ N30 : a − b = k, a + b + c = n},entonces

    P (Xn = k|X0 = 0) =∑

    (a,b,c)∈S

    n!

    a!b!c!paqbrc.

  • 35

    Las distribuciones finito-dimensionales de la cadena nos permiten calcular lasprobabilidades

    P (X0 = i0, X1 = i1, . . . , Xn = in), i0, i1, . . . , in ∈ E,las cuales nos permiten a su vez calcular la probabilidad de cualquier suceso de lamás pequeña σ-álgebra F que hace medibles a las Xn. Pero esas probabilidadespueden ser expresadas como sigue:

    P (X0 = i0) · P (X1 = i1|X0 = i0) · P (X2 = i2|X0 = i0, X1 = i1) · . . .·P (Xn = in|X0 = i0, X1 = i1, . . . , Xn−1 = in−1),

    y, haciendo uso de la propiedad de Markov,

    P (X0 = i0) · P (X1 = i1|X0 = i0) · P (X2 = i2|X1 = i1) · . . .·P (Xn = in|Xn−1 = in−1);

    es decir,

    P (X0 = i0, X1 = i1, . . . , Xn = in) = P (X0 = i0) · pi0i1 · pi1i2 · · · · · pin−1in .Por tanto, la probabilidad de todo suceso de F queda determinada una vez

    conocida la distribución inicial (P (X0 = i))i∈E = (p(0)i )i∈E y la matriz de transición

    (pij)i,j∈E. Evidentemente, se verifica:

    1. p(0)i ≥ 0, ∀i ∈ E;

    ∑i∈E p

    (0)i = 1.

    2. pij ≥ 0, ∀i, j ∈ E;∑

    j∈E pij = 1, ∀i ∈ E.Aśı pues, la suma de los elementos de cada fila de la matriz de transición (pij)i,j∈Ees 1.

    Un caso especial del teorema de extensión de Kolmogorov es el siguiente:

    Teorema 28. Sean E un conjunto finito o numerable, (p(0)i )i∈E una sucesión en

    R y (pij)i,j∈E una matriz real de forma que se verifican 1) y 2). Entonces existenun espacio de probabilidad (Ω,A, P ) y una cadena de Markov E-valorada sobre él(Xn)n con distribución inicial (p

    (0)i )i∈E y matriz de transición (pij)i,j∈E.

    Demostración. Siendo E finito o numerable, podemos suponer que es un subcon-junto de R, pues es isomorfo (como espacio medible) a un subconjunto finito o nu-merable de R. Con las notaciones del teorema de Kolmogorov de la lección anterior,tendremos que definir las probabilidades PV , V finito ⊂ T = {0, 1, 2, . . . } y probarque verifican la condición de consistencia. Si V = {0, 1, . . . , n} e i0, i1, . . . , in ∈ E,se define

    PV (i0, i1, . . . , in) = p(0)i0

    n∏

    k=1

    pik−1ik .(1)

  • 36

    Si V = {0}, se define PV (i0) = p(0)i0 . PV se extiende de manera natural a unaprobabilidad en Rn+1 como sigue: si B ∈ Rn+1,

    PV (B) =∑

    i0,i1,...,in∈EPV (i0, i1, . . . , in)IB(i0, i1, . . . , in).

    De las condiciones 1) y 2) se sigue sin dificultad que PV es una probabilidad en En.

    Si U ⊂ V se define también

    PU := Ppr(V,U)V .(2)

    Si U es de la forma {0, 1, . . . , k} tendremos que probar que las definiciones (1) y(2) coinciden. Comenzaremos suponiendo que k es una unidad menor que n y elcaso general se termina por inducción: pero si V = {0, 1, . . . , n, n + 1} ⊃ U ={0, 1, . . . , n}, entonces

    Ppr(V,U)V (i0, i1, . . . , in) =∑

    in+1∈EPV (i0, i1, . . . , in, in+1) =

    ∑in+1∈E

    p(0)i0

    n+1∏

    k=1

    pik−1ik =

    p(0)i0

    n∏

    k=1

    pik−1ik∑

    in+1∈Epinin+1 =

    p(0)i0

    n∏

    k=1

    pik−1ik =

    PU(i0, i1, . . . , in).

    De ah́ı se sigue también la condición de consistencia. De acuerdo con el teoremade extensión de Kolmogorov, existe una única probabilidad P en RN0 tal que, paracada V finito ⊂ T ,

    P prV = PV .

    Denotemos, para n ≥ 0, por Xn la coordenada n–ésima en RN0 y veamos que(RN0 ,RN0 , P, (Xn)n≥0) es una cadena de Markov con distribución inicial (p(0)i )i∈E ymatriz de transición (pij)i,j∈E. Por una parte

    P (X0 = i0) = P{0}(i0) = p(0)i0

    ,

  • 37

    lo que prueba la afirmación relativa a la distribución inicial. Por otra se tiene que

    P (Xn+1 = in+1|X0 = i0, . . . , Xn = in) =P (X0 = i0, . . . , Xn = in, Xn+1 = in+1)

    P (X0 = i0, . . . , Xn = in)=

    p(0)i0

    ∏n+1k=1 pik−1ik

    p(0)i0

    ∏nk=1 pik−1ik

    =

    pinin+1 ,

    y

    P (Xn+1 = in+1|Xn = in) =P (Xn = in, Xn+1 = in+1)

    P (Xn = in)=

    (∑i0,...,in−1∈E p

    (0)i0

    ∏nk=1 pik−1ik

    )pinin+1

    ∑i0,...,in−1∈E p

    (0)i0

    ∏nk=1 pik−1ik

    =

    pinin+1

    lo que prueba la propiedad de Markov y la afirmación relativa a la matriz de tran-sición.

    Introducimos a continuación las probabilidades de transición en n pasos quedenotaremos por p

    (n)ij para i, j ∈ E: para n = 0 definimos

    p(0)ij = δij =

    {= 0 si i 6= j= 1 si i = j

    Para n = 1 se define p(1)ij = pij, y para n ≥ 1 se define

    p(n+1)ij =

    k∈Ep

    (n)ik p

    (1)kj .

    Probaremos por inducción en n que, para cada m ≥ 0 tal que P (Xm = i) > 0, severifica que

    p(n)ij = P (Xn+m = j|Xm = i),

    es decir, que p(n)ij es la probabilidad de ir del estado i en el instante m al estado j en

    el instante n + m y que esa probabilidad no depende del instante de partida m (loque viene a significar que las probabilidades de transición en n pasos son tambiénestacionarias). Esa relación es trivialmente cierta en el caso n = 0. Supuesto cierto

  • 38

    para n probémoslo para n + 1:

    P (Xm+n+1 = j|Xm = i) =∑

    k∈EP (Xm+n = k, Xm+n+1 = j|Xm = i) =

    k∈EP (Xm+n = k|Xm = i) · P (Xm+n+1 = j|Xm = i,Xm+n = k) =∑

    k∈EP (Xm+n = k|Xm = i) · P (Xm+n+1 = j|Xm+n = k) =

    k∈Ep

    (n)ik p

    (1)kj .

    La relación anterior puede generalizarse del siguiente modo:

    p(n+m)ij =

    k∈Ep

    (n)ik p

    (m)kj , ∀n,m ≥ 0.

    Dejando i, j ∈ E y n ≥ 0 fijos, la demostración puede hacerse por inducción en m:para m = 0 es trivialmente cierta. Supuesta cierta la relación para m probémoslapara m + 1:

    p(n+m+1)ij =

    k∈Ep

    (n+m)ik p

    (1)kj =

    k∈E

    (∑t∈E

    p(n)it p

    (m)tk

    )p

    (1)kj =

    ∑t∈E

    p(n)it

    (∑

    k∈Ep

    (m)tk p

    (1)kj

    )=

    ∑t∈E

    p(n)it p

    (m+1)tj .

    La distribución de las Xn está dada por:

    p(n)i = P (Xn = i) =

    k∈EP (X0 = k)P (Xn = i|X0 = k) =

    k∈Ep

    (0)k p

    (n)ki .

    Hemos probado entonces las siguientes relaciones, la tercera de las cuales suelellamarse ecuaciones de Chapman-Kolmogorov, y contiene a la primera como casoparticular:

    (I) p(n)ij =

    ∑k∈E p

    (n−1)ik pkj, ∀i, j ∈ E, ∀n ≥ 1.

    (II) p(n)i =

    ∑k∈E p

    (0)k p

    (n)ki , ∀i ∈ E, ∀n ≥ 1.

  • 39

    (III) p(n+m)ij =

    ∑k∈E p

    (n)ik p

    (m)kj , ∀n,m ≥ 0.

    Las ecuaciones de Chapman-Kolmogorov sugieren inmediatamente el uso de ma-trices. Para ello, llamaremos matriz estocástica a una matriz cuadrada finita ode orden infinito numerable con elementos no negativos y tal que la suma de loselementos de cada una de sus filas es la unidad. Si A = (aij)i,j∈E y B = (bij)i,j∈Eson matrices estocásticas se define C = AB = (cij)i,j∈E mediante cij =

    ∑k∈E aikbkj.

    Se comprueba sin dificultad que la serie que define cij es convergente y que la sumade los elementos de cada fila de C es 1: es, por tanto, una matriz estocástica.

    De las ecuaciones de Chapman-Kolmogorov se deduce fácilmente por inducciónque la matriz de transición en n pasos coincide con la potencia n-ésima de la matrizde transición en un paso, es decir,

    (p(n)ij )i,j∈E = (pij)

    ni,j∈E.

    Por tanto, para calcular la probabilidad de pasar de un estado i a un estado j enn pasos basta con calcular la potencia n-ésima de la matriz de transición en unpaso (en el caso E finito se calcula la forma canónica de Jordan J de esa matriz ysi P es la matriz de paso a la forma canónica entonces (pij)

    ni,j∈E = PJ

    nP−1). Elelemento (i, j) de esa potencia n-ésima es la probabilidad buscada. De acuerdo conla propiedad (II), si lo que pretendemos es calcular la probabilidad de que en el

    instante n estemos en el estado i, basta multiplicar la distribución inicial (p(0)k )k∈E

    por el vector columna (p(n)ki )k∈E.

    Veamos algunos ejemplos:

    Ejemplos. 1) (Un modelo de difusión) Consideremos una urna con bolas rojasy negras, de forma que el total de bolas es N . Sacamos una bola. Si es negra laconvertimos en roja y si es roja la convertimos en negra. Sea Xn el número debolas rojas que hay justamente tras la n-ésima extracción. Se trata de una cadenade Markov, pues el número de bolas rojas que hay tras la n-ésima extracción sólodepende del que hab́ıa tras la extracción (n − 1)-ésima. El conjunto de estados esE = {0, 1, . . . , N}. En cada paso podemos pasar de tener i bolas rojas a tener i + 1o i− 1. Las probabilidades de transición son:

    pi,i+1 = P (Xn+1 = i + 1|Xn = i) = N − iN

    ,

    que es la probabilidad de coger una bola negra entre las N − i que hab́ıa, y

    pi,i−1 = P (Xn+1 = i− 1|Xn = i) = iN

    .

  • 40

    Por lo demás, pik = 0 si k /∈ {i− 1, i + 1}. La matriz de transición es

    (pij)i,j=0,1,...,N =

    0 1 0 0 0 . . . 0 0 01N

    0 N−1N

    0 0 . . . 0 0 00 2

    N0 N−2

    N0 . . . 0 0 0

    ......

    ......

    .... . .

    ......

    ...0 0 0 0 0 . . . N−1

    N0 1

    N

    0 0 0 0 0 . . . 0 1 0

    Las probabilidades de transición en n pasos se calculan a partir de la potencian-ésima de esa matriz. Para calcular la probabilidad de que tras n extraccionestengamos i bolas rojas necesitaremos además la distribución inicial (p

    (0)i )i∈E.

    2) Dos jugadores A y B juegan partidas sucesivas de un juego en las que A ganacon probabilidad 2/5 y B gana con probabilidad 3/5. Inicialmente están empatadosy se gana la competición cuando uno de los dos jugadores gane dos veces seguidas.Sea Xn la ventaja o desventaja de A sobre B tras la n-ésima partida. EntoncesX0 = 0. Además Xn = 1 si A lleva una partida de ventaja a B o Xn = −1 si Alleva una partida de desventaja con respecto a B. Que Xn = 2 (resp., Xn = −2)significa que A gana la competición (resp., que A pierde la competición); en este casosupondremos que Xk = 2 (resp., Xk = −2) para cada k ≥ n. Es claro que el hechode que Xn tome un cierto valor sólo depende del valor que tomó Xn−1; se trata puesde una cadena de Markov. El conjunto de estados es entonces E = {−2,−1, 0, 1, 2},la distribución inicial es (p

    (0)i )i∈E = (0, 0, 1, 0, 0). La matriz de transición es

    (pi,j)i,j∈E =

    p−2,−2 = 1 0 0 0 0p−1,−2 = 3/5 0 2/5 0 0

    p0,−2 = 0 3/5 0 2/5 0p1,−2 = 0 0 3/5 0 2/5p2,−2 = 0 0 0 0 1

    .

    3) Cuatro niños juegan con una pelota. Cada uno de ellos tiene la misma pre-disposición a tirar la pelota a cada uno de los otros tres. Denotamos por X0 elniño que tiene la pelota al empezar el juego y por Xn el que la tiene después dehaber sido lanzada exactamente n veces. Se trata evidentemente de una cadena deMarkov con probabilidades de transición estacionarias. El conjunto de estados esE = {1, 2, 3, 4}. Para el caso en que no sepamos quién tiene la pelota al principio,podemos utilizar la distribución inicial (p

    (0)i )i = {1/4, 1/4, 1/4, 1/4}. La matriz de

    transición en un paso es

    (pi,j)i,j∈E =

    0 1/3 1/3 1/31/3 0 1/3 1/31/3 1/3 0 1/31/3 1/3 1/3 0

    .

    4) Se lanza una moneda perfecta al aire hasta que se presentan dos caras conse-cutivas o tres cruces consecutivas. Vamos a definir una cadena de Markov que nos

  • 41

    permita calcular la probabilidad de que el juego termine después de N lanzamientos.De una serie de lanzamientos de la moneda sólo nos interesa lo que ocurre en losúltimos lanzamientos de esa serie, y podemos considerar los estados siguientes:

    A: . . . XC (sólo hay una cara)

    B: . . . CX (sólo hay una cruz)

    C: . . . CXX (hay dos cruces)

    D: . . . XCC (hay dos caras y acaba el juego)

    D: . . . CXXX (hay tres cruces y acaba el juego)

    Notar que las dos últimas coinciden desde el punto de vista del planteamiento delproblema; denotaremos por D el estado correspondiente. Entonces, el conjuntode estados es E = {A,B, C, D}. Que Xn = A significa que tras las n primerastiradas se obtiene un resultado del tipo . . . XC. Que Xn sea igual a B, C o D seinterpreta análogamente. Si Xn = D convendremos que Xk = D para cada k ≥ n.Se trata evidentemente de una cadena de Markov con probabilidades de transiciónestacionarias. En este caso la cadena no comienza en el instante n = 0, si no en elinstante n = 1 (tras la primera tirada). La distribución inicial es (p

    (1)i )i∈E = (p

    (1)A =

    1/2, p(1)B = 1/2, p

    (0)C = 0, p

    (0)D = 0). Las probabilidades de transición son

    0 1/2 0 1/21/2 0 1/2 01/2 0 0 1/20 0 0 1

    .

    La probabilidad de que el juego acabe en a lo sumo N lanzamientos (contandoel estado inicial) se obtiene multiplicando la distribución inicial por la potencia(N − 1)-ésima de la matriz de transición: la última componente de dicho vector esla probabilidad buscada.

    5) Un combate naval entre tres barcos A,B y C se desarrolla de la siguientemanera: en cada unidad de tiempo y simultáneamente cada barco hace un disparo.A tiene probabilidad 1/2 de hacer blanco, B tiene probabilidad 1/3 y C probabilidad1/4. Cada barco dispara al mejor (más certero) de los otros dos. Un sólo impactobasta para hundir un barco y el combate continúa mientras haya más de un barcoen acción. Vamos a describir la cadena de Markov que describe la evolución de labatalla. Daremos también la distribución de la duración de la batalla. El conjuntode estados es E = {ABC, AB,AC,BC, A, B, C, X} donde, p.ej., AC significa quesólo quedan en la batalla los barcos A y C. X significa que no queda ningún barco.Llegar a A,B,C o X significa acabar el combate. Agruparemos estos estados enotro estado F (que es A o B o C o X). Notar que nunca se puede llegar al estadoAB pues si están en combate A y B también estará C pues a C no le disparanmientras queden A y B. Aśı pues, podemos considerar como conjunto de estados elconjunto E = {ABC, AC, BC, F}. La distribución inicial es (p(0)i )i∈E = (1, 0, 0, 0).Las probabilidades de transición son:

  • 42

    • pABC,ABC = (Prob. falle A)× (Prob. falle B)× (Prob. falle C) = 12 · 23 · 34 = 14 .• pABC,AC = (Prob. acierte A)× (Prob. falle B)× (Prob. falle C) = 12 · 23 · 34 = 14 .• pABC,BC = (Prob. falle A)×( Prob. acierte B o C) = (Prob. falle A)×(1-Prob.

    fallen B y C) = 12· (1− 2

    3· 3

    4) = 1

    4.

    • pABC,F = ( Prob. desaparezcan A y B) = ( Prob. acierte A )× ( Prob. acierteB o C ) = 1

    2· (1− 2

    3· 3

    4

    )= 1

    4.

    • pAC,ABC = 0.• pAC,BC = 0.• pAC,AC = (Prob. falle A)× (Prob. falle C) = 12 · 34 = 38 .• pAC,F = pAC,A + pAC,C + pAC,X = 12 · 34 + 12 · 14 + 12 · 14 = 5/8.• pBC,ABC = 0.• pBC,AC = 0.• pBC,BC = 23 · 34 = 1/2.• pBC,F = pBC,B + pBC,C + pBC,X = 13 · 34 + 23 · 14 + 13 · 14 = 1/2.• pF,ABC = 0.• pF,AC = 0.• pF,BC = 0.• pF,F = 1.

    Por tanto, la matriz de transición es:

    (pij)i,j∈E =

    1/4 1/4 1/4 1/40 3/8 0 5/80 0 1/2 1/20 0 0 1

    .

    Sea T la duración de la batalla (medido en números de disparos que realizan los tresbarcos simultáneamente). Queremos hallar la distribución de T , es decir, calcularlas probabilidades P (T ≤ n|X0 = ABC), n ∈ N. Supuesto que si Xk = F entoncesXk+i = F para cada i ∈ N, tenemos

    P (T ≤ n|X0 = ABC) = P (Xn = F |X0 = ABC) = p(n)ABC,F .

    Basta entonces calcular la potencia n-ésima de la matriz (pij)i,j∈E y fijarnos en suelemento (ABC,F).

  • Lección 6: Clasificación de los Estados.

    Consideremos una cadena de Markov (Xn)n definida en un espacio de probabi-lidad (Ω,A, P ) sobre un conjunto de estados E finito o numerable y con matriz detransición (pij)i,j∈E.

    Definición. Sean i, j ∈ E. Diremos que i va a j, y escribiremos i ∧∨→ j, siexiste m ∈ N tal que p(m)ij > 0. Diremos que los estados i y j comunican, y lodenotaremos i←∧∨→ j, si i ∧∨→ j y j ∧∨→ i.

    La relación ∧∨→ en el conjunto de estados no tiene por qué ser reflexiva nisimétrica, pero śı es transitiva pues si i ∧∨→ j y j ∧∨→ k entonces existen m,n ∈ Ntales que p

    (m)ij > 0 y p

    (n)jk > 0. Entonces p

    (m+n)ik =

    ∑t∈E p

    (m)it p

    (n)tk > 0.

    La relación ←∧∨→ es evidentemente simétrica y transitiva, pero no tiene por quéser reflexiva. Ahora bien, si un estado i comunica con algún estado j, entonces icomunica con i, por la transitividad. La relación ←∧∨→ divide a E en clases que obien son unitarias (en el caso de que algún estado no comunique con ningún otro)o están formadas por elementos de E que comunican todos entre śı. La clase de unelemento i ∈ E se denotará por C(i).

    Definición. Si una propiedad de elementos de E es tal que al verificarse paraun estado i es verificada también por cualquier estado de su clase, diremos que esuna propiedad de clase.

    Definición. (Estado esencial) Un estado i se dirá esencial si se verifica que

    (i ∧∨→ j) =⇒ (j ∧∨→ i).

    Teorema 29. Un estado esencial no va a un estado no esencial.

    Demostración. Sea i un estado esencial y supongamos que i ∧∨→ j. Será suficienteprobar que j es esencial, es decir, que (j ∧∨→ k) =⇒ (k ∧∨→ j). Si j ∧∨→ k, puestoque i ∧∨→ j se verifica que i ∧∨→ k y, siendo i esencial, se tiene que k ∧∨→ i. De quek ∧∨→ i y de que i ∧∨→ j se sigue que k ∧∨→ j.

    Corolario 30. El carácter esencial es una propiedad de clase.

    Demostración. Si i es esencial y j ∈ C(i), entonces i ∧∨→ j y, por el teoremaanterior, j es esencial.

    Definición. (Periodo de un estado) Si i es un estado tal que i ∧∨→ i, llamaremosperiodo de i, y lo denotaremos por di, al máximo común divisor del conjunto {n ∈N : p(n)ii > 0}.

    Teorema 31. En cada clase no unitaria C(i) todos los estados tienen el mismoperiodo di.

    43

  • 44

    Demostración. Se trata de probar que si i←∧∨→ j entonces dj = di. Probare-mos que dj divide a di (un razonamiento análogo probaŕıa que di divide a dj yacabaŕıamos).

    Por definición de comunicación, existen enteros m,n ∈ N tales que p(m)ij > 0 yp

    (n)ji > 0. Para cada s ∈ {r ∈ N : p(r)ii > 0} se tiene p(s)ii > 0 y, entonces, p(n+m+s)jj > 0

    pues, por las ecuaciones de Chapman-Kolmogorov,

    p(n+m+s)jj ≥ p(n)ji p(s)ii p(m)ij > 0.

    Además,

    (s ∈ {r ∈ N : p(r)ii > 0}) =⇒ (2s ∈ {r ∈ N : p(r)ii > 0}),pues p

    (2s)ii ≥ p(s)ii p(s)ii > 0. Entonces, también p(n+m+2s)jj > 0. Queda aśı probado que

    dj divide a n + m + s y a n + m + 2s y, por tanto, a s = (n + m + 2s)− (n + m + s).Siendo