344
Espacios de Probabilidad Elementos de An´alisis Combinatorio (Borradores, Curso 23) Sebastian Grynberg 11-13 de marzo 2013 Andrei Nikolaevich Kolmogorov (1903-1987) Estableci´ o los fundamentos de la Teor´ ıa de Probabilidad en 1933 “se aprende a pensar abstractamente mediante el pensamiento abstracto.” (G.W.F. Hegel) 1

espacios de probabilidad

Embed Size (px)

DESCRIPTION

espacios de probabilidad. Probabilidad y estadística. facultad de ingeniería

Citation preview

Page 1: espacios de probabilidad

Espacios de Probabilidad

Elementos de Analisis Combinatorio

(Borradores, Curso 23)

Sebastian Grynberg

11-13 de marzo 2013

Andrei Nikolaevich Kolmogorov (1903-1987)Establecio los fundamentos de la Teorıa de Probabilidad en 1933

“se aprende a pensar abstractamentemediante el pensamiento abstracto.”

(G.W.F. Hegel)

1

Page 2: espacios de probabilidad

Indice

1. Teorıa general 31.1. Los axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Relacion con los datos experimentales . . . . . . . . . . . . . . . . . . . . . . 51.3. Corolarios inmediatos de los axiomas . . . . . . . . . . . . . . . . . . . . . . . 71.4. Sobre el axioma de continuidad . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5. σ-algebras y teorema de extension . . . . . . . . . . . . . . . . . . . . . . . . 10

2. Simulacion de experimentos aleatorios con espacio muestral finito 112.1. Numeros aleatorios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2. Simulacion de experimentos aleatorios . . . . . . . . . . . . . . . . . . . . . . 122.3. Estimacion de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3. Elementos de Analisis Combinatorio 173.1. Regla del Producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.2. Muestras ordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3. Subpoblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.4. Particiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.5. Distribucion Hipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5.1. Control de calidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.5.2. Estimacion por captura y recaptura. . . . . . . . . . . . . . . . . . . . 27

4. Mecanica Estadıstica 294.1. Algunas distribuciones relacionadas con la estadıstica de Maxwell-Boltzmann 31

4.1.1. Cantidad de partıculas por celda: la distribucion binomial . . . . . . . 314.1.2. Forma lımite: la distribucion de Poisson . . . . . . . . . . . . . . . . . 32

4.2. Algunas distribuciones relacionadas con la estadıstica de Bose-Einstein . . . . 334.2.1. Cantidad de partıculas por celda . . . . . . . . . . . . . . . . . . . . . 334.2.2. Forma lımite: la distribucion de Geometrica . . . . . . . . . . . . . . . 34

4.3. Tiempos de espera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5. Bibliografıa consultada 36

2

Page 3: espacios de probabilidad

1. Teorıa general

1.1. Los axiomas de Kolmogorov

Sean Ω un conjunto no vacıo cuyos elementos ω seran llamados eventos elementales y Auna familia de subconjuntos de Ω que seran llamados eventos.

Definicion 1.1. A es un algebra de eventos si contiene a Ω y es cerrada por complementosy uniones finitas1

(i) Ω ∈ A,

(ii) A ∈ A implica Ac ∈ A,

(iii) A, B ∈ A implica A ∪ B ∈ A.

Definicion 1.2. Una medida de probabilidad P sobre (Ω,A) es una funcion P : A → R quesatisface los axiomas siguientes:

I. Para cada A ∈ A, P(A) ≥ 0,

II. P(Ω) = 1.

III. Aditividad. Si los eventos A y B no tienen elementos en comun, entonces

P(A ∪ B) = P(A) + P(B).

IV. Axioma de continuidad. Para cada sucesion decreciente de eventos

A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ · · · , (1)

tal que∞⋂

n=1

An = ∅

vale quelım

n→∞P(An) = 0.

Definicion 1.3. Un espacio de probabilidad es una terna (Ω,A, P) formada por un conjuntono vacıo Ω, llamado el espacio muestral ; un algebra A de subconjuntos de Ω; llamados loseventos aleatorios; y una medida de probabilidad P definida sobre los eventos aleatorios.

1Nomenclatura y definiciones previas. Sean A y B eventos.

1. Escribiremos Ac := ω ∈ Ω : ω /∈ A para designar al evento que no ocurre A. El evento Ac se llama el

complemento de A.

2. Escribiremos A ∪ B := ω ∈ Ω : ω ∈ A o ω ∈ B para designar al evento que ocurre al menos uno de

los eventos A o B. El evento A ∪ B se llama la union de A y B.

3. Escribiremos A ∩ B := ω ∈ Ω : ω ∈ A y ω ∈ B para designar al evento ocurren ambos A y B. El

evento A ∩ B se llama la interseccion de A y B.

A veces escribiremos A \ B en lugar de A ∩ Bc, esto es, el evento que A ocurre, pero B no lo hace. Cuando

dos eventos A y B no tienen elementos en comun, esto es A ∩ B = ∅, diremos que A y B son disjuntos. Una

coleccion de eventos A1, A2, . . . se dice disjunta dos a dos, si Ai ∩ Aj = ∅ para todo i 6= j.

3

Page 4: espacios de probabilidad

Nota Bene (Consistencia). El sistema de axiomas I-IV es consistente. Esto se pruebamediante un ejemplo. Sea Ω un conjunto que consiste de un solo elemento y sea A = ∅, Ωla familia de todos los subconjuntos de Ω. A es un algebra y la funcion P : A → R definidapor P(Ω) := 1 y P(∅) := 0 es una medida de probabilidad.

Construccion de espacios de probabilidad finitos. Los espacios de probabilidad massimples se construyen de la siguiente manera. Se considera un conjunto finito Ω y una funcionp : Ω → [0, 1] tal que

ω∈Ω

p(ω) = 1.

La funcion p se llama funcion de probabilidad y los numeros p(ω), ω ∈ Ω, se llaman lasprobabilidades de los eventos elementales ω ∈ Ω o simplemente las probabilidades elementales.

El algebra de eventos, A, se toma como el conjunto de todos los subconjuntos de Ω y paracada A ∈ A se define

P(A) :=∑

ω∈A

p(ω),

donde la suma vacıa se define como 0.Todos los espacios de probabilidad finitos en los que A es la familia de todos los subcon-

juntos de Ω se construyen de esta manera.

Ejemplo 1.4 (Lanzar una moneda equilibrada). Se lanza una moneda. Los resultados posiblesson cara o ceca y pueden representarse mediante las letras H (head) y T (tail). Adoptandoesa representacion el espacio muestral correspondiente es

Ω = H, T.

Decir que una moneda es equilibrada significa que la funcion de probabilidad asigna igualprobabilidad a los dos resultados posibles:

p(H) = p(T ) = 1/2.

Equiprobabilidad: formula de Laplace. Sea Ω un espacio muestral finito. Cuando todoslos eventos elementales tienen la misma probabilidad, esto es, cuando para todo ω ∈ Ω valeque p(ω) = |Ω|−1, se dice que el espacio es equiprobable. En ese caso las probabilidades de loseventos A ⊂ Ω se calculan usando la formula de Laplace:

P(A) =|A||Ω| .

En este contexto el problema principal del calculo de probabilidades consiste determinar lacantidad de eventos elementales favorables a cada evento posible (sin tener que enumerarlo).En otras palabras, la teorıa de probabilidades se reduce al analisis combinatorio, una impor-tante (y a veces muy dıficil) rama de la matematica dedicada a lo que podrıa llamarse “contarsin contar”. En la Seccion 3 se desarrollan sus elementos basicos.

4

Page 5: espacios de probabilidad

1.2. Relacion con los datos experimentales

En el mundo real de los experimentos la teorıa de probabilidad se aplica de la siguientemanera:

(1) Consideramos un sistema de condiciones, S, que se pueden repetir cualquier cantidadde veces.

(2) Estudiamos una familia determinada de eventos que pueden ocurrir como resultadode realizar las condiciones S. En los casos individuales donde se realizan las condiciones S,los eventos ocurren, generalmente, de distintas maneras. En el conjunto Ω incluimos, a priori,todos los resultados que podrıan obtenerse al realizar las condiciones S.

(3) Si al realizar las condiciones S el resultado pertenece al conjunto A (definido de algunamanera), diremos que ocurre el evento A.

Ejemplo 1.5 (Dos monedas). Las condiciones S consisten en lanzar una moneda dos veces.El conjunto de los eventos mencionados en (2) resultan del hecho de que en cada lanzamientopuede obtenerse una cara (H) o una ceca (T ). Hay cuatro resultados posibles (los eventoselementales), a saber: HH, HT , TH, TT . Si el evento A se define por la ocurrencia de unarepeticion, entonces A consistira en que suceda el primero o el cuarto de los cuatro eventoselementales. Esto es, A = HH, TT. De la misma manera todo evento puede considerarsecomo un conjunto de eventos elementales.

(4) Bajo ciertas condiciones se puede suponer que, dado el sistema de condiciones S, unevento A que a veces ocurre y a veces no, tiene asignado un numero real P(A) que tiene lassiguientes caracterısticas:

(a) Se puede estar practicamente seguro de que si el sistema de condiciones S se repiteuna gran cantidad de veces, n, entonces si n(A) es la cantidad de veces que ocurre el eventoA, la proporcion n(A)/n diferira muy poco de P(A).

(b) Si P(A) es muy pequena, se puede estar practicamente seguro de que cuando se realicenlas condiciones S solo una vez, el evento A no ocurrira.

Deduccion empırica de los axiomas I, II, III. En general, se puede suponer que la fa-milia A de los eventos observados A, B, C, . . . que tienen probabilidades asignadas, constituyeun algebra de eventos. Esta claro que 0 ≤ n(A)/n ≤ 1 de modo que el axioma I es bastantenatural. Para el evento Ω, n(Ω) siempre es igual a n de modo que es natural definir P(Ω) = 1(Axioma II). Si finalmente, A y B son incompatibles (i.e., no tienen elementos en comun),entonces n(A ∪ B) = n(A) + n(B) y de aquı resulta que

n(A ∪ B)

n=

n(A)

n+

n(B)

n.

Por lo tanto, es apropiado postular que P(A ∪ B) = P(A) + P(B) (Axioma III).

Nota Bene 1. La afirmacion de que un evento A ocurre en las condiciones S con unadeterminada probabilidad P(A) equivale a decir que en una serie suficientemente larga deexperimentos (es decir, de realizaciones del sistema de condiciones S), las frecuencias relativas

pk(A) :=nk(A)

nk

5

Page 6: espacios de probabilidad

de ocurrencia del evento A (donde nk es la cantidad de experimentos realizados en la k-esimaserie y nk(A) la cantidad de ellos en los que ocurre A) son aproximadamente identicas unasa otras y estan proximas a P(A).

Ejemplo 1.6. Las condiciones S consisten en lanzar una moneda (posiblemente cargada).Podemos poner Ω = H, T y A = ∅, H, T, Ω, y las posibles medidas de probabilidadP : A → [0, 1] estan dadas por

P(∅) = 0, P(H) = p, P(T ) = 1 − p, P(Ω) = 1,

donde p es un numero real fijo perteneciente al intervalo [0, 1].Si en 10 series, de 1000 lanzamientos cada una, se obtienen las siguientes frecuencias

relativas de ocurrencia del evento A = H

0.753; 0.757; 0.756; 0.750; 0.746; 0.758; 0.751; 0.748; 0.749; 0.746,

parece razonable asignarle a p el valor 0.75.

Nota Bene 2. Si cada una de dos afirmaciones diferentes es practicamente segura, entoncespodemos decir que simultaneamente son ambas seguras, aunque el grado de seguridad hayadisminuido un poco. Si, en cambio, el numero de tales afirmaciones es muy grande, de laseguridad practica de cada una, no podemos deducir nada sobre la validez simultanea detodos ellas. En consecuencia, del principio enunciado en (a) no se deduce que en una cantidadmuy grande de series de n experimentos cada una, en cada uno de ellos la proporcion n(A)/ndiferira solo un poco de P(A).

En los casos mas tıpicos de la teorıa de probabilidades, la situacion es tal que en una largaserie de pruebas es posible obtener uno de los dos valores extremos para la frecuencia

n(A)

n=

n

n= 1 y

n(A)

n=

0

n= 0.

Ası, cualquiera sea el numero de ensayos n, es imposible asegurar con absoluta certeza quetendremos, por ejemplo, la desigualdad

n(A)

n− P(A)

<1

10.

Por ejemplo, si el evento A es sacar un seis tirando un dado equilibrado, entonces en n tiradasdel dado la probabilidad de obtener un seis en todas ellas es (1/6)n > 0; en otras palabras,con probabilidad (1/6)n tendremos una frecuencia relativa igual a uno de sacar un seis entodas las tiradas ; y con probabilidad (5/6)n no saldra ningun seis, es decir, la frecuenciarelativa de sacar seis sera igual a cero.

Nota Bene 3. De acuerdo con nuestros axiomas a un evento imposible (un conjunto vacıo)le corresponde la probabilidad P(∅) = 0, pero la recıproca no es cierta: P(A) = 0 no implica laimposibilidad de A. Cuando P(A) = 0, del principio (b) todo lo que podemos asegurar es quecuando se realicen las condiciones S una sola vez, el evento A sera practicamente imposible.Sin embargo, esto no asegura de ningun modo que en una sucesion suficientemente grande deexperimentos el evento A no ocurrira. Por otra parte, del principio (a) solamente se puedededucir que cuando P(A) = 0 y n es muy grande, la proporcion n(A)/n debe ser muy pequena(por ejemplo, 1/n).

6

Page 7: espacios de probabilidad

1.3. Corolarios inmediatos de los axiomas

De A ∪ Ac = Ω y los axiomas II y III se deduce que

P(Ac) = 1 − P(A).

En particular, debido a que Ωc = ∅, tenemos que P(∅) = 0.

Teorema de aditividad. Si los eventos A1, A2, . . . , An son disjuntos dos a dos, entoncesdel axioma III se deduce la formula

P

(

n⋃

i=1

Ai

)

=n∑

i=1

P(Ai).

Ejercicios adicionales

1. Sean A y B dos eventos. Mostrar que

(a) Si A ⊆ B, entonces P(A) ≤ P(B). Mas precisamente: P(B) = P(A) + P(B \ A).Sugerencia. Expresar el evento B como la union disjunta de los eventos A y B \A y usar

el axioma III.

(b) La probabilidad de que ocurra al menos uno de los eventos A o B es

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Sugerencia. La union A ∪ B de dos eventos puede expresarse como la union de dos eventosdisjuntos: A ∪ (B \ (A ∩ B)).

2. Mostrar que para eventos A, B y C vale que

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C)

+P(A ∩ B ∩ C).

3. Mostrar que para eventos A1, A2, . . . , An vale que

P

(

n⋃

i=1

Ai

)

=∑

i

P(Ai) −∑

i<j

P(Ai ∩ Aj) +∑

i<j<k

P(Ai ∩ Aj ∩ Aj) − · · ·

+(−1)nP(A1 ∩ A2 ∩ · · · ∩ An).

1.4. Sobre el axioma de continuidad

Nota Bene 1. Si la familia de eventos A es finita el axioma de continuidad IV se deducede los axiomas I-III. En tal caso, en la sucesion (1) solo hay una cantidad finita de eventosdiferentes. Si Ak es el menor de ellos, entonces todos los conjuntos Ak+m, m ≥ 1 coinciden

con Ak. Tenemos que Ak = Ak+m =∞⋂

n=1An = ∅ y lım

n→∞P(An) = P(∅) = 0. Por lo tanto, todos

los ejemplos de espacios de probabilidad finitos satisfacen los axiomas I-IV.

7

Page 8: espacios de probabilidad

Nota Bene 2. Se puede probar que para espacios muestrales infinitos, el axioma de con-tinuidad IV es independiente de los axiomas I-III. Este axioma es esencial solamente paraespacios de probabilidad infinitos y es casi imposible elucidar su significado empırico en laforma en que lo hicimos con los axiomas I-III.

Ejemplo 1.7. Sean Ω = Q∩ [0, 1] = r1, r2, r3, . . . y A0 la familia de los subconjuntos de Ωde la forma [a, b], [a, b), (a, b] o (a, b). La familia, A de todas las uniones finitas de conjuntosdisjuntos de A0 es un algebra de eventos. La medida de probabilidad definida por

P(A) := b − a, si A ∈ A0,

P(A) :=∑k

i=1 P(Ai) si A =k⋃

i=1

Ai, para Ai ∈ A0 y Ai ∩ Aj = ∅,

satisface los axiomas I-III pero no satisface el axioma de continuidad.En efecto, para cada r ∈ Ω, r ∈ A y P(r) = 0. Los eventos An := Ω \ r1, . . . , rn,

n ∈ N, son decrecientes y∞⋂

n=1An = ∅, sin embargo lım

n→∞P(An) = 1, debido a que P(An) = 1

para todo n ≥ 1.

Teorema 1.8.

(a) Si A1 ⊃ A2 ⊃ · · · y A =∞⋂

n=1An, entonces P(A) = lım

n→∞P(An).

(b) Si A1 ⊂ A2 ⊂ · · · y A =∞⋃

n=1An, entonces P(A) = lım

n→∞P(An).

Demostracion.

(a) Considerar la sucesion Bn = An \ A. Observar que B1 ⊃ B2 ⊃ · · · y∞⋂

n=1Bn = ∅. Por

el axioma de continuidad se obtiene lımn→∞

P(Bn) = 0. Como P(Bn) = P(An)− P(A) se deduceque

lımn→∞

P(An) = P(A).

(b) Considerar la sucesion Bn = Acn. Observar que B1 ⊃ B2 ⊃ · · · y

∞⋂

n=1Bn = Ac. Por el

inciso (a) se obtiene lımn→∞

P(Bn) = P(Ac) = 1 − P(A). Como P(Bn) = 1 − P(An) se deduceque

lımn→∞

P(An) = P(A).

Ejemplo 1.9 (Numeros aleatorios). Teoricamente, los numeros aleatorios son realizacionesindependientes del experimento conceptual que consiste en “elegir al azar” un numero Udel intervalo (0, 1]. Aquı la expresion “elegir al azar” significa que el numero U tiene ladistribucion uniforme sobre el intervalo (0, 1], i.e., la probabilidad del evento U ∈ (a, b] esigual a b − a, para cualquier pareja de numeros reales a y b tales que 0 < a < b ≤ 1.

8

Page 9: espacios de probabilidad

Ejemplo 1.10 (Ternario de Cantor). Se elije al azar un numero U del intervalo (0, 1], ¿cuales la probabilidad de que el 1 no aparezca en el desarrollo en base 3 de U?

Consideramos la representacion en base 3 del numero U :

U =∑

k≥1

ak(U)

3k,

donde ak(U) ∈ 0, 1, 2, k ≥ 1.Lo que queremos calcular es la probabilidad del evento A = ak(U) 6= 1, ∀ k ≥ 1. Primero

observamos que

A =

∞⋂

n=1

An,

donde An = ak(U) 6= 1, ∀ 1 ≤ k ≤ n y notamos que A1 ⊃ A2 ⊃ · · · . Usando el inciso (a) delTeorema 1.8 tenemos que P(A) = lım

n→∞P(An). El problema se reduce a calcular la sucesion

de probabilidades P(An) y su lımite.Geometricamente el evento A1 se obtiene eliminando el segmento (1/3, 2/3) del intervalo

(0, 1]:A1 = (0, 1/3] ∪ [2/3, 1].

Para obtener A2 eliminamos los tercios centrales de los dos intervalos que componen A1:

A2 = (0, 1/9] ∪ [2/9, 3/9] ∪ [6/9, 7/9] ∪ [8/9, 1].

Continuando de este modo obtenemos una caracterizacion geometrica de los eventos An: An

es la union disjunta de 2n intervalos, cada uno de longitud 3−n. En consecuencia,

P(An) = 2n 1

3n=

(

2

3

)n

Por lo tanto, P(A) = lımn→∞

(2/3)n = 0.

Teorema 1.11 (σ-aditividad). Si A1, A2, . . . , es una sucesion de eventos disjuntos dos a dos

(i.e., Ai ∩ Aj = ∅ para todos los pares i, j tales que i 6= j) y∞⋃

n=1An ∈ A, entonces

P

(

∞⋃

n=1

An

)

=∞∑

n=1

P(An) (2)

Demostracion. La sucesion de eventos Rn :=⋃

m>n

Am, n ≥ 1, es decreciente y tal que

∞⋂

n=1Rn = ∅. Por el axioma IV tenemos que

lımn→∞

P(Rn) = 0 (3)

y por el teorema de aditividad tenemos que

P

(

∞⋃

n=1

An

)

=n∑

k=1

P(Ak) + P(Rn). (4)

De (4) y (3) se obtiene (2).

9

Page 10: espacios de probabilidad

Corolario 1.12 (Teorema de cubrimiento). Si B, A1, A2, . . . es una sucesion de eventos tal

que A =∞⋃

n=1An ∈ A y B ⊂ A, entonces

P(B) ≤∞∑

n=1

P(An).

Demostracion. Una cuenta. Descomponemos B en una union disjunta de eventos

B = B ∩(

∞⋃

n=1

An

)

=∞⋃

n=1

(

B ∩(

An \n−1⋃

k=1

(An ∩ Ak)

))

y aplicamos el teorema de σ-aditividad

P(B) =

∞∑

n=1

P

(

B ∩(

An \n−1⋃

k=1

(An ∩ Ak)

))

≤∞∑

n=1

P(An).

Ejercicios adicionales

4. Sean Ω un conjunto no vacıo y A un algebra de eventos. Sea P : A → R una funcion talque

I. Para cada A ∈ A, P(A) ≥ 0,II. P(Ω) = 1.III. Si los eventos A y B no tienen elementos en comun, entonces P(A∪B) = P(A)+P(B).

IV’. Si (An)n≥1 es una sucesion de eventos disjuntos dos a dos y∞⋃

n=1An ∈ A, entonces

P

(

∞⋃

n=1

An

)

=∞∑

n=1

P(An).

Mostrar que bajo esas condiciones la funcion P satisface el axioma de continuidad.

1.5. σ-algebras y teorema de extension

El algebra A se llama una σ-algebra, si toda union numerable∞⋃

n=1An de conjuntos A1, A2, · · · ∈

A, disjuntos dos a dos, tambien pertenece a A.De la identidad

∞⋃

n=1

An =∞⋃

n=1

(

An \n−1⋃

k=1

(An ∩ Ak)

)

10

Page 11: espacios de probabilidad

se deduce que la σ-algebra tambien contiene todas las uniones numerables de conjuntosA1, A2, · · · ∈ A. De la identidad

∞⋂

n=1

An = Ω \∞⋃

n=1

Acn

lo mismo puede decirse de las intersecciones.

Nota Bene. Solamente cuando disponemos de una medida de probabilidad, P, definidasobre una σ-algebra, A, obtenemos libertad de accion total, sin peligro de que ocurran eventosque no tienen probabilidad.

Lema 1.13 (σ-algebra generada). Dada un algebra A existe la menor σ-algebra, σ(A), quela contiene, llamada la σ-algebra generada por A.

Teorema 1.14 (Extension). Dada una funcion de conjuntos, P, no negativa y σ-aditivadefinida sobre un algebra A se la puede extender a todos los conjuntos de la σ-algebra generadapor A, σ(A), sin perder ninguna de sus propiedades (no negatividad y σ-aditividad) y estaextension puede hacerse de una sola manera.

Esbozo de la demostracion. Para cada A ⊂ Ω definimos

P∗(A) := ınfA⊂∪nAn

n

P(An),

donde el ınfimo se toma respecto a todos los cubrimientos del conjunto A por coleccionesfinitas o numerables de conjuntos An pertenecientes a A. De acuerdo con el Teorema decubrimiento P∗(A) coincide con P(A) para todo conjunto A ∈ A.

La funcion P∗ es no negativa y σ-aditiva sobre σ(A). La unicidad de la extension se deducede la propiedad minimal de σ(A).

2. Simulacion de experimentos aleatorios con espacio muestral

finito

2.1. Numeros aleatorios.

Toda computadora tiene instalado un algoritmo para simular numeros aleatorios que sepueden obtener mediante una instruccion del tipo “random”. En el software Octave, porejemplo, la sentencia rand simula un numero aleatorio y rand(1, n) simula un vector den numeros aleatorios. En algunas calculadoras (llamadas cientıficas) la instruccion Ran#permite simular numeros aleatorios de tres dıgitos. En algunos libros de texto se puedenencontrar tablas de numeros aleatorios (p. ej., Meyer, P. L.: Introductory Probability andStatistical Applications. Addison-Wesley, Massachusetts. (1972))

Como usar los numeros aleatorios. La idea principal se puede presentar mediante unejemplo muy simple. Queremos construir un mecanismo aleatorio para simular el lanzamientode una moneda cargada con probabilidad p de obtener de obtener “cara”. Llamemos X alresultado del lanzamiento: X ∈ 0, 1 con la convencion de que “cara”= 1 y “ceca”= 0.

11

Page 12: espacios de probabilidad

Para construir X usamos un numero aleatorio U , uniformemente distribuido sobre elintervalo [0, 1] y definimos

X := 11 − p < U ≤ 1. (5)

Es facil ver X satisface las condiciones requeridas. En efecto,

P(X = 1) = P(1 − p < U ≤ 1) = 1 − (1 − p) = p.

La ventaja de la construccion es que se puede implementar casi inmediatamente en unacomputadora. Por ejemplo, si p = 1/2, una rutina en Octave para simular X es la siguiente

Rutina para simular el lanzamiento de una moneda equilibrada

U = rand;

if U>1/2

X=1;

else

X=0;

end

X

Nota Bene. El ejemplo anterior es el prototipo para construir y simular experimentosaleatorios. Con la misma idea podemos construir experimentos aleatorios tan complejos comoqueramos.

2.2. Simulacion de experimentos aleatorios

Supongamos que Ω = ω1, ω2, . . . , ωm representa el espacio muestral correspondiente aun experimento aleatorio y que cada evento elemental ωk ∈ Ω tiene asignada la probabilidadp(ωk) = pk. Usando un numero aleatorio, U , uniformemente distribuido sobre el intervalo(0, 1], podemos construir un mecanismo aleatorio, X, para simular los resultados del experi-mento aleatorio considerado. Definimos

X =

m∑

k=1

k1 Lk−1 < U ≤ Lk , (6)

donde

L0 := 0 y Lk :=k∑

i=1

pi, (1 ≤ k ≤ m)

e identificamos cada evento elemental ωk ∈ Ω con su correspondiente subındice k.En efecto, de la definicion (6) se deduce que para cada k = 1, . . . , m vale que

P(X = k) = P(Lk−1 < U ≤ Lk) = Lk − Lk−1 = pk.

12

Page 13: espacios de probabilidad

Nota Bene. El mecanismo aleatorio definido en (6) se puede construir “graficamente” dela siguiente manera:

1. Partir el intervalo (0, 1] en m subintervalos sucesivos I1, . . . , Im de longitudes p1, . . . , pm,respectivamente.

2. Sortear un numero aleatorio, U , y observar en que intervalo de la particion cae.

3. Si U cae en el intervalo Ik, producir el resultado ωk.

Ejemplo 2.1 (Lanzar un dado equilibrado). Se quiere simular el lanzamiento de un dadoequilibrado. El espacio muestral es Ω = 1, 2, 3, 4, 5, 6 y la funcion de probabilidades esp(k) = 1/6, k = 1, . . . , 6. El mecanismo aleatorio X = X(U), definido en (6), se construye dela siguiente manera:

1. Partir el intervalo (0, 1] en 6 intervalos sucesivos de longitud 1/6: I1 = (0, 1/6], I2 =(1/6, 2/6], I3 = (2/6, 3/6], I4 = (3/6, 4/6], I5 = (4/6, 5/6] e I6 = (5/6, 6/6].

2. Sortear un numero aleatorio U .

3. Si U ∈ Ik, X = k.

En pocas palabras,

X =6∑

k=1

k1

k − 1

6< U ≤ k

6

. (7)

Por ejemplo, si sorteamos un numero aleatorio, U y se obtiene que U = 0.62346, entonces elvalor simulado del dado es X = 4. Una rutina en Octave para simular X es la siguiente

Rutina para simular el lanzamiento de un dado

U=rand;

k=0;

do

k++;

until((k-1)/6<U & U<=k/6)

X=k

2.3. Estimacion de probabilidades

Formalmente, un experimento aleatorio se describe mediante un espacio de probabilidad(Ω,A, P). Todas las preguntas asociadas con el experimento pueden reformularse en terminosde este espacio. En la practica, decir que un evento A ocurre con una determinada probabil-idad P(A) = p equivale a decir que en una serie suficientemente grande de experimentos lasfrecuencias relativas de ocurrencia del evento A

pk(A) =nk(A)

nk

13

Page 14: espacios de probabilidad

(donde nk es la cantidad de ensayos realizados en la k-esima serie y nk(A) es la cantidad enlos que ocurre A) son aproximadamente identicas unas a otras y estan proximas a p. Las seriesde experimentos se pueden simular en una computadora utilizando un generador de numerosaleatorios.

Ejemplo 2.2. El experimento consiste en lanzar 5 monedas equilibradas y registrar la canti-dad N de caras observadas. El conjunto de todos los resultados posibles es Ω = 0, 1, 2, 3, 4, 5.El problema consiste en asignarle probabilidades a los eventos elementales.

La solucion experimental del problema se obtiene realizando una serie suficientementegrande de experimentos y asignando a cada evento elemental su frecuencia relativa.

Sobre la base de una rutina similar a la que presentamos en la seccion 2.1 para simu-lar el resultado del lanzamiento de una moneda equilibrada se pueden simular n = 10000realizaciones del experimento que consiste en lanzar 5 monedas equilibradas. Veamos co-mo hacerlo. Usamos la construccion (5) para simular el lanzamiento de 5 monedas equili-bradas X1, X2, X3, X4, X5. La cantidad de caras observadas es la suma de las Xi: N =X1 + X2 + X3 + X4 + X5.

Repitiendo la simulacion 10000 veces (o genericamente n veces), obtenemos una tabla quecontiene la cantidad de veces que fue simulado cada valor de la variable N . Supongamos queobtuvimos la siguiente tabla:

valor simulado 0 1 2 3 4 5

cantidad de veces 308 1581 3121 3120 1564 306(8)

En tal caso diremos que se obtuvieron las siguientes estimaciones

P(N = 0) ≈ 0.0308, P(N = 1) ≈ 0.1581, P(N = 2) ≈ 0.3121,

P(N = 3) ≈ 0.3120, P(N = 4) ≈ 0.1564, P(N = 5) ≈ 0.0306.

Para finalizar este ejemplo, presentamos un programa en Octave que simula diez mil vecesel lanzamiento de cinco monedas equilibradas, contando en cada una la cantidad de carasobservadas y que al final provee una tabla como la representada en (8)

n = 10000;

N = zeros(1,n);

for i=1:n

U=rand(1,5);

X=[U<=(1/2)];

N(i)=sum(X);

end

for j=1:6

T(j)=sum([N==j-1]);

end

T

14

Page 15: espacios de probabilidad

Nota Bene. Usando las herramientas que proporciona el analisis combinatorio (ver seccion3) se puede demostrar que para cada k ∈ 0, 1, 2, 3, 4, 5 vale que

P(N = k) =

(

5

k

)

1

32.

En otros terminos,

P(N = 0) = 0.03125, P(N = 1) = 0.15625, P(N = 2) = 0.31250,

P(N = 3) = 0.31250, P(N = 4) = 0.15625, P(N = 5) = 0.03125.

Ejemplo 2.3 (Paradoja de De Mere). ¿Cual de las siguientes apuestas es mas conveniente?

Obtener al menos un as en 4 tiros de un dado.

Obtener al menos un doble as en 24 tiros de dos dados.

1. La construccion (7) permite simular 4 tiros de un dado usando 4 numeros aleatoriosindependientes U1, U2, U3, U4.

La cantidad de ases obtenidos en los 4 tiros es la suma S =4∑

i=110 < Ui ≤ 1/6. El evento

A1 = “obtener al menos un as en 4 tiros de un dado” equivale al evento S ≥ 1.Si repetimos la simulacion 10000 veces podemos obtener una estimacion (puntual) de la

probabilidad del evento A1 calculando su frecuencia relativa.La siguiente rutina (en Octave) provee una estimacion de la probabilidad del evento A1

basada en la repeticion de 10000 simulaciones del experimento que consiste en tirar 4 vecesun dado.

Rutina 1

n=10000;

A1=zeros(1,n);

for i=1:n

U=rand(1,4);

S=sum(U<=1/6);

if S>=1

A1(i)=1;

else

A1(i)=0;

end

end

hpA1=sum(A1)/n

Ejecutando 10 veces la Rutina 1 se obtuvieron los siguientes resultados para la frecuenciarelativa del evento A1

0.5179 0.5292 0.5227 0.5168 0.5204 0.5072 0.5141 0.5177 0.5127 0.5244

Notar que los resultados obtenidos se parecen entre sı e indican que la probabilidad de obteneral menos un as en 4 tiros de un dado es mayor que 0.5.

15

Page 16: espacios de probabilidad

2. La construccion (7) permite simular 24 tiros de dos dados usando 48 numeros aleatoriosindependientes U1, U2, . . . , U47, U48.

La cantidad de veces que se obtiene un doble as en los 24 tiros de dos dados es la suma

S =24∑

i=110 < U2i−1 ≤ 1/6, 0 < U2i ≤ 1/6. El evento A2 = “obtener al menos un doble as

en 24 tiros de dos dados” equivale al evento S ≥ 1.Si repetimos la simulacion 10000 veces podemos obtener una estimacion (puntual) de la

probabilidad del evento A2 calculando su frecuencia relativa.La siguiente rutina (en Octave) provee una estimacion de la probabilidad del evento A2

basada en la repeticion de 10000 simulaciones del experimento que consiste en tirar 24 vecesdos dados.

Rutina 2

n=10000;

A2=zeros(1,n);

for i=1:n

U=rand(2,24);

V=(U<=1/6);

S=sum(V(1,:).*V(2,:));

if S>=1

A2(i)=1;

else

A2(i)=0;

end

end

hpA2=sum(A2)/n

Ejecutando 10 veces la Rutina 2 se obtuvieron los siguientes resultados para la frecuenciarelativa del evento A2

0.4829 0.4938 0.4874 0.4949 0.4939 0.4873 0.4882 0.4909 0.4926 0.4880

Notar que los resultados obtenidos se parecen entre sı e indican que la probabilidad deobtener al menos un doble as en 24 tiros de dos dados es menor que 0.5.

Conclusion. Los resultados experimentales obtenidos indican que es mejor apostar a quese obtiene al menos un as en 4 tiros de un dado que apostar a que se obtiene al menos undoble as en 24 tiros de un dado.

16

Page 17: espacios de probabilidad

3. Elementos de Analisis Combinatorio

Cuando se estudian juegos de azar, procedimientos muestrales, problemas de orden yocupacion, se trata por lo general con espacios muestrales finitos Ω en los que a todos loseventos elementales se les atribuye igual probabilidad. Para calcular la probabilidad de unevento A tenemos que dividir la cantidad de eventos elementales contenidos en A (llamadoscasos favorables) entre la cantidad de total de eventos elementales contenidos en Ω ( llamadoscasos posibles). Estos calculos se facilitan por el uso sistematico de unas pocas reglas.

3.1. Regla del Producto

Sean A y B dos conjuntos cualesquiera. El producto cartesiano de A y B se define porA × B = (a, b) : a ∈ A y b ∈ B. Si A y B son finitos, entonces |A × B| = |A| · |B|.

Demostracion. Supongamos que A = a1, a2, . . . , am y B = b1, b2, . . . , bn. Basta obser-var el cuadro siguiente

b1 b2 . . . bn

a1 (a1, b1) (a1, b2) . . . (a1, bn)a2 (a2, b1) (a2, b2) . . . (a2, bn)...

......

...am (am, b1) (am, b2) . . . (am, bn)

Cuadro 1: Esquema rectangular del tipo tabla de multiplicar con m filas y n columnas: en lainterseccion de fila i y la columna j se encuentra el par (ai, bj). Cada par aparece una y solouna vez.

En palabras, con m elementos a1, . . . , am y n elementos b1, . . . , bn es posible formar m · npares (ai, bj) que contienen un elemento de cada grupo.

Teorema 3.1 (Regla del producto). Sean A1, A2, . . . , An, n conjuntos cualesquiera. El pro-ducto cartesiano de los n conjuntos A1, A2, . . . , An se define por

A1 × A2 × · · · × An = (x1, x2, . . . , xn) : xi ∈ Ai, 1 ≤ i ≤ n.

Si los conjuntos A1, A2, . . . , An son finitos, entonces

|A1 × A2 × · · · × An| =n∏

i=1

|Ai|.

Demostracion. Si n = 2 ya lo demostramos. Si n = 3, tomamos los pares (x1, x2) comoelementos de un nuevo tipo. Hay |A1| · |A2| elementos de ese tipo y |A3| elementos x3. Cadaterna (x1, x2, x3) es un par formado por un elemento (x1, x2) y un elemento x3; por lo tanto,la cantidad de ternas es |A1| · |A2| · |A3|. Etcetera.

Nota Bene. Muchas aplicaciones se basan en la siguiente reformulacion de la regla delproducto: r decisiones sucesivas con exactamente nk elecciones posibles en el k-esimo pasopueden producir un total de n1 · n2 · · ·nr resultados diferentes.

17

Page 18: espacios de probabilidad

Ejemplo 3.2 (Ubicar r bolas en n urnas). Los resultados posibles del experimento se puedenrepresentar mediante el conjunto

Ω = 1, 2, . . . , nr = (x1, x2, . . . , xr) : xi ∈ 1, 2, . . . , n, 1 ≤ i ≤ r,

donde xi = j representa el resultado “la bola i se ubico en la urna j”. Cada bola puedeubicarse en una de las n urnas posibles. Con r bolas tenemos r elecciones sucesivas conexactamente n elecciones posibles en cada paso. En consecuencia, r bolas pueden ubicarse enn urnas de nr formas distintas.

Usamos el lenguaje figurado de bolas y urnas, pero el mismo espacio muestral admitemuchas interpretaciones distintas. Para ilustrar el asunto listaremos una cantidad de situa-ciones en las cuales aunque el contenido intuitivo varıa son todas abstractamente equivalentesal esquema de ubicar r bolas en n urnas, en el sentido de que los resultados difieren solamenteen su descripcion verbal.

1. Nacimientos. Las configuraciones posibles de los nacimientos de r personas correspondea los diferentes arreglos de r bolas en n = 365 urnas (suponiendo que el ano tiene 365dıas).

2. Accidentes. Clasificar r accidentes de acuerdo con el dıa de la semana en que ocurrierones equivalente a poner r bolas en n = 7 urnas.

3. Muestreo. Un grupo de personas se clasifica de acuerdo con, digamos, edad o profesion.Las clases juegan el rol de las urnas y las personas el de las bolas.

4. Dados. Los posibles resultados de una tirada de r dados corresponde a poner r bolas enn = 6 urnas. Si en lugar de dados se lanzan monedas tenemos solamente n = 2 urnas.

5. Dıgitos aleatorios. Los posibles ordenamientos de una sucesion de r dıgitos correspondena las distribuciones de r bolas (= lugares) en diez urnas llamadas 0, 1, . . . , 9.

6. Coleccionando figuritas. Los diferentes tipos de figuritas representan las urnas, las fig-uritas coleccionadas representan las bolas.

3.2. Muestras ordenadas

Se considera una “poblacion” de n elementos a1, a2, . . . , an. Cualquier secuencia ordena-da aj1 , aj2 , . . . , ajk

de k sımbolos se llama una muestra ordenada de tamano k tomada de lapoblacion. (Intuitivamente los elementos se pueden elegir uno por uno). Hay dos procedimien-tos posibles.

(a) Muestreo con reposicion. Cada eleccion se hace entre toda la poblacion, por lo quecada elemento se puede elegir mas de una vez. Cada uno de los k elementos se puede elegiren n formas: la cantidad de muestras posibles es, por lo tanto, nk, lo que resulta de la regladel producto con n1 = n2 = · · · = nk = n.

18

Page 19: espacios de probabilidad

(b) Muestreo sin reposicion. Una vez elegido, el elemento se quita de la poblacion, demodo que las muestras son arreglos sin repeticiones. El volumen de la muestra k no puedeexceder el tamano de la poblacion total n.

Tenemos n elecciones posibles para el primer elemento, pero solo n − 1 para el segundo,n − 2 para el tercero, etcetera. Usando la regla del producto se obtiene un total de

(n)k := n(n − 1)(n − 2) · · · (n − k + 1) (9)

elecciones posibles.

Teorema 3.3. Para una poblacion de n elementos y un tamano de muestra prefijado k,existen nk diferentes muestras con reposicion y (n)k muestras sin reposicion.

Ejemplo 3.4. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8

(a) Extraccion con reposicion. Extraemos 3 bolas con reposicion: despues de extraeruna bola, anotamos su numero y la ponemos de nuevo en la urna. El espacio muestralΩ1 correspondiente a este experimento consiste de todas las secuencias de longitud 3que pueden formarse con los sımbolos 1, 2, . . . 8. De acuerdo con el Teorema 3.3, Ω1

tiene 83 = 512 elementos. Bajo la hipotesis de que todos los elementos tienen la mismaprobabilidad, la probabilidad de observar la secuencia (3, 7, 1) es 1/512.

(b) Extraccion de una coleccion ordenada sin reposicion. Extraemos 3 bolas sinreposicion: cada bola elegida no se vuelve a poner en la urna. Anotamos los numerosde las bolas en el orden en que fueron extraıdas de la urna. El espacio muestral Ω2

correspondiente a este experimento es el conjunto de todas las secuencias de longitud3 que pueden formarse con los sımbolos 1, 2 . . . , 8 donde cada sımbolo puede aparecera los sumo una vez. De acuerdo con el Teorema 3.3, Ω2 tiene (8)3 = 8 · 7 · 6 = 336elementos. Bajo la hipotesis que todos los elementos tienen la misma probabilidad, laprobabilidad de observar la secuencia (3, 7, 1) (en ese orden) es 1/336.

Ejemplo 3.5. Una urna contiene 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas conreposicion. Para fijar ideas supongamos que las bolas estan numeradas de la siguiente manera:las primeras 6 son las rojas y las ultimas 4 son las negras. El espacio muestral asociado esΩ = 1, . . . , 102 y su cantidad de elementos |Ω| = 102.

(a) ¿Cual es la probabilidad de que las dos sean rojas? Sea R el evento “las dos son rojas”,R = 1, . . . , 62 y |R| = 62. Por lo tanto, P(R) = 62/102 = 0.36.

(b) ¿Cual es la probabilidad de que las dos sean del mismo color? Sea N el evento “las dosson negras”, N = 7, . . . , 102 y |N | = 42, entonces P(N) = 42/102 = 0.16. Por lo tanto,P(R ∪ N) = P(R) + P(N) = 0.52.

(c) ¿Cual es la probabilidad de que al menos una de las dos sea roja? El evento “al menosuna de las dos es roja” es el complemento de “las dos son negras”. Por lo tanto, P(N c) =1 − P(N) = 0.84.

Si se consideran extracciones sin reposicion, deben reemplazarse las cantidades (10)2, 62 y 42

por las correspondientes (10)2, (6)2 y (4)2.

19

Page 20: espacios de probabilidad

Caso especial k = n. En muestreo sin reposicion una muestra de tamano n incluye a todala poblacion y representa una permutacion de sus elementos. En consecuencia, n elementosa1, a2, . . . , an se pueden ordenar de (n)n = n · (n − 1) · · · 2 · 1 formas distintas. Usualmente elnumero (n)n se denota n! y se llama el factorial de n.

Corolario 3.6. La cantidad de formas distintas en que se pueden ordenar n elementos es

n! = 1 · 2 · · ·n. (10)

Observacion 3.7. Las muestras ordenadas de tamano k, sin reposicion, de una poblacion den elementos, se llaman variaciones de n elementos tomados de a k. Su numero total (n)k sepuede calcular del siguiente modo

(n)k =n!

(n − k)!(11)

Nota Bene sobre muestreo aleatorio. Cuando hablemos de “muestras aleatorias detamano k”, el adjetivo aleatorio indica que todas las muestras posibles tienen la misma prob-abilidad, a saber: 1/nk en muestreo con reposicion y 1/(n)k en muestreo sin reposicion. Enambos casos, n es el tamano de la poblacion de la que se extraen las muestras.

Si n es grande y k es relativamente pequeno, el cociente (n)k/nk esta cerca de la unidad. Enotras palabras, para grandes poblaciones y muestras relativamente pequenas, las dos formasde muestrear son practicamente equivalentes.

Ejemplos

Consideramos muestras aleatorias de volumen k (con reposicion) tomadas de una poblacionde n elementos a1, . . . , an. Nos interesa el evento que en una muestra no se repita ningun el-emento. En total existen nk muestras diferentes, de las cuales (n)k satisfacen la condicionestipulada. Por lo tanto, la probabilidad de ninguna repeticion en nuestra muestra es

p =(n)k

nk=

n(n − 1) · · · (n − k + 1)

nk(12)

Las interpretaciones concretas de la formula (12) revelan aspectos sorprendentes.

Muestras aleatorias de numeros. La poblacion consiste de los diez dıgitos 0, 1, . . . , 9.Toda sucesion de cinco dıgitos representa una muestra de tamano k = 5, y supondremos quecada uno de esos arreglos tiene probabilidad 10−5. La probabilidad de que 5 dıgitos aleatoriossean todos distintos es p = (10)510−5 = 0.3024.

Bolas y urnas. Si n bolas se ubican aleatoriamente en n urnas, la probabilidad de que cadaurna este ocupada es

p =n!

nn.

Interpretaciones:

20

Page 21: espacios de probabilidad

(a) Para n = 7, p = 0.00612.... Esto significa que si en una ciudad ocurren 7 accidentes porsemana, entonces (suponiendo que todas las ubicaciones posibles son igualmente prob-ables) practicamente todas las semanas contienen dıas con dos o mas accidentes, y enpromedio solo una semana de 164 mostrara una distribucion uniforme de un accidentepor dıa.

(b) Para n = 6 la probabilidad p es igual a 0.01543... Esto muestra lo extremadamenteimprobable que en seis tiradas de un dado perfecto aparezcan todas las caras.

Cumpleanos. Los cumpleanos de k personas constituyen una muestra de tamano k de lapoblacion formada por todos los dıas del ano.

De acuerdo con la ecuacion (12) la probabilidad, pk, de que todos los k cumpleanos seandiferentes es

pk =(365)k

365k=

(

1 − 1

365

)(

1 − 2

365

)

· · ·(

1 − k − 1

365

)

.

Una formula aparentemente abominable. Si k = 23 tenemos pk < 1/2. En palabras, para 23personas la probabilidad que al menos dos personas tengan un cumpleanos comun excede 1/2.

Aproximaciones numericas de pk. Si k es chico, tomando logaritmos y usando que para xpequeno y positivo log(1 − x) ∼ −x, se obtiene

log pk ∼ −1 + 2 + · · · + (k − 1)

365= −k(k − 1)

730.

Ejercicios adicionales

5. Hallar la probabilidad pk de que en una muestra de k dıgitos aleatorios no haya dos iguales.Estimar el valor numerico de p10 usando la formula de Stirling (1730): n! ∼ e−nnn+ 1

2

√2π.

6. Considerar los primeros 10000 decimales del numero π. Hay 2000 grupos de cinco dıgitos.Contar la cantidad de grupos en los que los 5 dıgitos son diferentes e indicar la frecuenciarelativa del evento considerado. Comparar el resultado obtenido con la probabilidad de queen una muestra de 5 dıgitos aleatorios no haya dos iguales.

3.3. Subpoblaciones

En lo que sigue, utilizaremos el termino poblacion de tamano n para designar una coleccionde n elementos sin considerar su orden. Dos poblaciones se consideran diferentes si una deellas contiene algun elemento que no esta contenido en la otra.

Uno de los problemas mas importantes del calculo combinatorio es determinar la can-tidad Cn, k de subpoblaciones distintas de tamano k que tiene una poblacion de tamano n.Cuando n y k son pequenos, el problema se puede resolver por enumeracion directa. Porejemplo, hay seis formas distintas elegir dos letras entre cuatro letras A, B, C, D, a saber:AB, AC, AD, BC, BD, CD. Ası, C4, 2 = 6. Cuando la cantidad de elementos de la colecciones grande la enumeracion directa es impracticable. El problema general se resuelve razonando

21

Page 22: espacios de probabilidad

de la siguiente manera: consideramos una subpoblacion de tamano k de una poblacion de nelementos. Cada numeracion arbitraria de los elementos de la subpoblacion la convierte enuna muestra ordenada de tamano k. Todas las muestras ordenadas de tamano k se puedenobtener de esta forma. Debido a que k elementos se pueden ordenar de k! formas diferentes,resulta que k! veces la cantidad de subpoblaciones de tamano k coincide con la cantidad demuestras ordenadas de dicho tamano. En otros terminos, Cn, k · k! = (n)k. Por lo tanto,

Cn, k =(n)k

k!=

n!

k!(n − k)!. (13)

Los numeros definidos en (13) se llaman coeficientes binomiales o numeros combinatorios yla notacion clasica para ellos es

(

nk

)

.

Teorema 3.8. Una poblacion de n elementos tiene

(

n

k

)

=n!

k!(n − k)!(14)

diferentes subpoblaciones de tamano k ≤ n.

Ejemplo 3.9. Consideramos una urna con 8 bolas numeradas 1, 2, . . . , 8. Extraemos 3 bolassimultaneamente, de modo que el orden es irrelevante. El espacio muestral Ω3 correspondientea este experimento consiste de todos los subconjuntos de tamano 3 del conjunto 1, 2, . . . , 8.Por el Teorema 3.8 Ω3 tiene

(

83

)

= 56 elementos. Bajo la hipotesis de que todos los elementostienen la misma probabilidad, la probabilidad de seleccionar 3, 7, 1 es 1/56.

Dada una poblacion de tamano n podemos elegir una subpoblacion de tamano k de(

nk

)

maneras distintas. Ahora bien, elegir los k elementos que vamos a quitar de una poblacion eslo mismo que elegir los n − k elementos que vamos a dejar dentro. Por lo tanto, es claro quepara cada k ≤ n debe valer

(

n

k

)

=

(

n

n − k

)

. (15)

La ecuacion (15) se deduce inmediatamente de la identidad (14). El lado izquierdo de laecuacion (15) no esta definido para k = 0, pero el lado derecho si lo esta. Para que la ecuacion(15) sea valida para todo entero k tal que 0 ≤ k ≤ n, se definen

(

n

0

)

:= 1, 0! := 1, y (n)0 := 1.

Triangulo de Pascal. Las ecuaciones en diferencias

(

n

k

)

=

(

n − 1

k

)

+

(

n − 1

k − 1

)

, (16)

junto con el conocimiento de los datos de borde

(

n

0

)

=

(

n

n

)

= 1, (17)

22

Page 23: espacios de probabilidad

determinan completamente los numeros combinatorios(

nk

)

, 0 ≤ k ≤ n, n = 0, 1, . . . . Usandodichas relaciones se construye el famoso “triangulo de Pascal”, que muestra todos los numeroscombinatorios en la forma de un triangulo

11 1

1 2 11 3 3 1

1 4 6 4 11 5 10 10 5 1

1 6 15 20 15 6 1. . . . . . . . . . . . . . . . . .

La n-esima fila de este triangulo contiene los coeficientes(

n0

)

,(

n1

)

, . . . ,(

nn

)

. Las condiciones deborde (17) indican que el primero y el ultimo de esos numeros son 1. Los numeros restantesse determinan por la ecuacion en diferencias (16). Vale decir, para cada 0 < k < n, el k-esimocoeficiente de la n-esima fila del “triangulo de Pascal” se obtiene sumando los dos coeficientesinmediatamente superiores a izquierda y derecha. Por ejemplo,

(

52

)

= 4 + 6 = 10.

Control de calidad. Una planta de ensamblaje recibe una partida de 50 piezas de precisionque incluye 4 defectuosas. La division de control de calidad elige 10 piezas al azar paracontrolarlas y rechaza la partida si encuentra 1 o mas defectuosas. ¿Cual es la probabilidadde que la partida pase la inspeccion? Hay

(

5010

)

formas de elegir la muestra para controlar y(

4610

)

de elegir todas las piezas sin defectos. Por lo tanto, la probabilidad es

(

46

10

)(

50

10

)−1

=46!

10!36!

10!40!

50!=

40 · 39 · 38 · 37

50 · 49 · 48 · 47= 0, 3968....

Usando calculos casi identicos una companıa puede decidir sobre que cantidad de piezasdefectuosas admite en una partida y disenar un programa de control con una probabilidaddada de exito.

Ejercicios adicionales

7. Considerar el siguiente juego: el jugador I tira 4 veces una moneda honesta y el jugadorII lo hace 3 veces. Calcular la la probabilidad de que el jugador I obtenga mas caras que eljugador II.

3.4. Particiones

Teorema 3.10. Sean r1, . . . , rk enteros tales que

r1 + r2 + · · · + rk = n, ri ≥ 0. (18)

El numero de formas en que una poblacion de n elementos se puede dividir en k partesordenadas (particionarse en k subpoblaciones) tales que la primera contenga r1 elementos, la

23

Page 24: espacios de probabilidad

segunda r2, etc, es

n!

r1!r2! · · · rk!. (19)

Los numeros (19) se llaman coeficientes multinomiales.

Demostracion. Un uso repetido de (14) muestra que el numero (19) se puede reescribir enla forma

(

n

r1

)(

n − r1

r2

)(

n − r1 − r2

r3

)

· · ·(

n − r1 − · · · − rk−2

rk−1

)

(20)

Por otro lado, para efectuar la particion deseada, tenemos primero que seleccionar r1 elementosde los n; de los restantes n − r1 elementos seleccionamos un segundo grupo de tamano r2,etc. Despues de formar el grupo (k − 1) quedan n − r1 − r2 − · · · − rk−1 = rk elementos, yesos forman el ultimo grupo. Concluimos que (20) representa el numero de formas en que sepuede realizar la particion.

Ejemplo 3.11 (Accidentes). En una semana ocurrieron 7 accidentes. Cual es la probabilidadde que en dos dıas de esa semana hayan ocurrido dos accidentes cada dıa y de que en otrostres dıas hayan ocurrido un accidente cada dıa?

Primero particionamos los 7 dıas en 3 subpoblaciones: dos dıas con dos accidentes en cadauno, tres dıas con un accidente en cada uno y dos dıas sin accidentes.. Esa particion en tresgrupos de tamanos 2, 3, 2 se puede hacer de 7!/(2!3!2!) formas distintas y por cada una deellas hay 7!/(2!2!1!1!1!0!0!) = 7!/(2!2!) formas diferentes de ubicar los 7 accidentes en los 7dıas. Por lo tanto, el valor de la probabilidad requerido es igual a

7!

2!3!2!× 7!

2!2!

1

77= 0.3212...

Ejercicios adicionales

8. ¿Cuantas palabras distintas pueden formarse permutando las letras de la palabra “man-zana” y cuantas permutando las letras de la palabra “aiaiiaiiiaiiii”?

9. Se ubicaran 6 bolas distinguibles en 8 urnas numeradas 1, 2, . . . , 8. Suponiendo que todaslas configuraciones distintas son equiprobables calcular la probabilidad de que resulten tresurnas ocupadas con una bola cada una y que otra urna contenga las tres bolas restantes.

3.5. Distribucion Hipergeometrica

Muchos problemas combinatorios se pueden reducir a la siguiente forma. En una urnahay n1 bolas rojas y n2 bolas negras. Se elige al azar un grupo de r bolas. Se quiere calcularla probabilidad pk de que en el grupo elegido, haya exactamente k bolas rojas, 0 ≤ k ≤mın(n1, r).

24

Page 25: espacios de probabilidad

Para calcular pk, observamos que el grupo elegido debe contener k bolas rojas y r−k negras.Las rojas pueden elegirse de

(

n1

k

)

formas distintas y la negras de(

n2

r−k

)

formas distintas. Comocada eleccion de las k bolas rojas debe combinarse con cada eleccion de las r − k negras, seobtiene

pk =

(

n1

k

)(

n2

r − k

)(

n1 + n2

r

)−1

(21)

El sistema de probabilidades obtenido se llama la distribucion hipergeometrica.

3.5.1. Control de calidad.

En control de calidad industrial, se someten a inspeccion lotes de n unidades. Las unidadesdefectuosas juegan el rol de las bolas rojas y su cantidad n1 es desconocida. Se toma unamuestra de tamano r y se determina la cantidad k de unidades defectuosas. La formula (21)permite hacer inferencias sobre la cantidad desconocida n1; se trata de problema tıpico deestimacion estadıstica que sera analizado mas adelante.

Ejemplo 3.12. Una planta de ensamblaje recibe una partida de 100 piezas de precision queincluye exactamente 8 defectuosas. La division control de calidad elige 10 piezas al azar paracontrolarlas y rechaza la partida si encuentra al menos 2 defectuosas. ¿Cual es la probabilidadde que la partida pase la inspeccion?

El criterio de decision adoptado indica que la partida pasa la inspeccion si (y solo si)en la muestra no se encuentran piezas defectuosas o si se encuentra exactamente una piezadefectuosa. Hay

(

10010

)

formas de elegir la muestra para controlar,(

9210

)(

80

)

formas de elegir

muestras sin piezas defectuosas y(

929

)(

81

)

formas de elegir muestras con exactamente unapieza defectuosa. En consecuencia la probabilidad de que la partida pase la inspeccion es

(

92

10

)(

8

0

)(

100

10

)−1

+

(

92

9

)(

8

1

)(

100

10

)−1

≈ 0.818.

Ejemplo 3.13. Una planta de ensamblaje recibe una partida de 100 piezas de precision queincluye exactamente k defectuosas. La division control de calidad elige 10 piezas al azar paracontrolarlas y rechaza la partida si encuentra al menos 2 defectuosas. ¿Con ese criterio dedecision, como se comporta la probabilidad p(k) de que la partida pase la inspeccion?.

Una partida pasara la inspeccion si (y solo si) al extraer una muestra de control la cantidadde piezas defectuosas encontradas es 0 o 1. Hay

(

10010

)

formas de elegir la muestra para con-

trolar. Para cada k = 1, . . . , 90 hay(

100−k10−k

)(

k0

)

formas de elegir muestras sin piezas defectos y(

100−k9

)(

k1

)

formas de elegir muestras con exactamente una pieza defectuosa. En consecuenciala probabilidad p(k) de que la partida pase la inspeccion es

p(k) =

(

100 − k

10

)(

k

0

)(

100

10

)−1

+

(

100 − k

9

)(

k

1

)(

100

10

)−1

.

Una cuenta sencilla muestra que para todo k = 1, . . . , 90 el cociente p(k)p(k−1) es menor que 1.

Esto significa que a medida que aumenta la cantidad de piezas defectuosas en la partida, laprobabilidad de aceptarla disminuye.

25

Page 26: espacios de probabilidad

0 10 20 30 40 50 600

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 1: Grafico de funcion p(k).

¿Cual es la maxima probabilidad de aceptar una partida de 100 que contenga mas de20 piezas defectuosas? Debido a que la funcion p(k) es decreciente, dicha probabilidad esp(20) ≈ 0.3630.

Ejemplo 3.14. Una planta de ensamblaje recibe un lote de n = 100 piezas de precision, delas cuales una cantidad desconocida n1 son defectuosas. Para controlar el lote se elige unamuestra (sin reposicion) de r = 10 piezas. Examinadas estas, resultan k = 2 defectuosas.¿Que se puede decir sobre la cantidad de piezas defectuosas en el lote?

Sabemos que de 10 piezas examinadas 2 son defectuosas y 8 no lo son. Por lo tanto,2 ≤ n1 ≤ 92. Esto es todo lo que podemos decir con absoluta certeza. Podrıa suponerse queel lote contiene 92 piezas defectuosas. Partiendo de esa hipotesis, llegamos a la conclusion deque ha ocurrido un evento de probabilidad

(

8

8

)(

92

2

)(

100

10

)−1

= O(10−10).

En el otro extremo, podrıa suponerse que el lote contiene exactamente 2 piezas defectuosas,en ese caso llegamos a la conclusion de que ha ocurrido un evento de probabilidad

(

98

8

)(

2

2

)(

100

10

)−1

=1

110.

Las consideraciones anteriores conducen a buscar el valor de n1 que maximice la probabilidad

p(n1) :=

(

100 − n1

8

)(

n1

2

)(

100

10

)−1

,

26

Page 27: espacios de probabilidad

puesto que para ese valor de n1 nuestra observacion tendrıa la mayor probabilidad de ocur-rir. Para encontrar ese valor consideramos el cociente p(n1)

p(n1−1) . Simplificando los factoriales,obtenemos

p(n1)

p(n1 − 1)=

n1(93 − n1)

(n1 − 2)(101 − n1)> 1

⇐⇒ n1(93 − n1) > (n1 − 2)(101 − n1)

⇐⇒ n1 < 20.2 ⇐⇒ n1 ≤ 20.

Esto significa que cuando n1 crece la sucesion p(n1) primero crece y despues decrece; alcanzasu maximo cuando n1 = 20. Suponiendo que n1 = 20, la probabilidad de que en una muestrade 10 piezas extraıdas de un lote de 100 se observen 2 defectuosas es:

p(20) =

(

80

8

)(

20

2

)(

100

10

)−1

≈ 0.318.

Aunque el verdadero valor de n1 puede ser mayor o menor que 20, si se supone que n1 = 20 seobtiene un resultado consistente con el sentido comun que indicarıa que los eventos observablesdeben tener “alta probabilidad”.

0 20 40 60 80 1000

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Figura 2: Grafico de funcion p(n1). Observar que arg maxp(n1) : 2 ≤ n1 ≤ 92 = 20.

3.5.2. Estimacion por captura y recaptura.

Para estimar la cantidad n de peces en un lago se puede realizar el siguiente procedimiento.En el primer paso se capturan n1 peces, que luego de marcarlos se los deja en libertad. En elsegundo paso se capturan r peces y se determina la cantidad k de peces marcados. La formula(21) permite hacer inferencias sobre la cantidad desconocida n.

27

Page 28: espacios de probabilidad

Ejemplo 3.15 (Experimentos de captura y recaptura). Se capturan 1000 peces en un lago,se marcan con manchas rojas y se los deja en libertad. Despues de un tiempo se hace unanueva captura de 1000 peces, y se encuentra que 100 tienen manchas rojas. ¿Que conclusionespueden hacerse sobre la cantidad de peces en el lago?

Suponemos que las dos capturas pueden considerarse como muestras aleatorias de lapoblacion total de peces en el lago. Tambien vamos a suponer que la cantidad de pecesen el lago no cambio entre las dos capturas.

Generalizamos el problema admitiendo tamanos muestrales arbitrarios. Sean

n = el numero (desconocido) de peces en el lago.

n1 = el numero de peces en la primera captura. Estos peces juegan el rol de las bolasrojas.

r = el numero de peces en la segunda captura.

k = el numero de peces rojos en la segunda captura.

pk(n) = la probabilidad de que la segunda captura contenga exactamente k peces rojos.

Con este planteo la probabilidad pk(n) se obtiene poniendo n2 = n − n1 en la formula (21):

pk(n) =

(

n1

k

)(

n − n1

r − k

)(

n

r

)−1

. (22)

En la practica n1, r, y k pueden observarse, pero n es desconocido.Notar que n es un numero fijo que no depende del azar. Resultarıa insensato preguntar

por la probabilidad que n sea mayor que, digamos, 6000.Sabemos que fueron capturados n1 + r− k peces diferentes, y por lo tanto n ≥ n1 + r− k.

Esto es todo lo que podemos decir con absoluta certeza. En nuestro ejemplo tenemos n1 =r = 1000 y k = 100, y podrıa suponerse que el lago contiene solamente 1900 peces. Sinembargo, partiendo de esa hipotesis, llegamos a la conclusion de que ha ocurrido un eventode probabilidad fantasticamente pequena. En efecto, si se supone que hay un total de 1900peces, la formula (22) muestra que la probabilidad de que las dos muestras de tamano 1000agoten toda la poblacion es ,

(

1000

100

)(

900

900

)(

1900

1000

)−1

=(1000!)2

100!1900!

La formula de Stirling muestra que esta probabilidad es del orden de magnitud de 10−430, y enesta situacion el sentido comun indica rechazar la hipotesis como irrazonable. Un razonamientosimilar nos induce a rechazar la hipotesis de que n es muy grande, digamos, un millon.

Las consideraciones anteriores nos conducen a buscar el valor de n que maximice la prob-abilidad pk(n), puesto que para ese n nuestra observacion tendrıa la mayor probabilidad deocurrir. Para cualquier conjunto de observaciones n1, r, k, el valor de n que maximiza la prob-abilidad pk(n) se denota por nmv y se llama el estimador de maxima verosimilitud de n. Para

28

Page 29: espacios de probabilidad

encontrar nmv consideramos la proporcion

pk(n)

pk(n − 1)=

(n − n1)(n − r)

(n − n1 − r + k)n> 1

⇐⇒ (n − n1)(n − r) > (n − n1 − r + k)n

⇐⇒ n2 − nn1 − nr + n1r > n2 − nn1 − nr + nk

⇐⇒ n <n1r

k.

Esto significa que cuando n crece la sucesion pk(n) primero crece y despues decrece; alcanzasu maximo cuando n es el mayor entero menor que n1r

k, ası que nmv es aproximadamente

igual a n1rk

. En nuestro ejemplo particular el estimador de maxima verosimilitud del numerode peces en el lago es nmv = 10000.

El verdadero valor de n puede ser mayor o menor, y podemos preguntar por los lımitesentre los que resulta razonable esperar que se encuentre n. Para esto testeamos la hipotesisque n sea menos que 8500. Sustituimos en (22) n = 8500, n1 = r = 1000, y calculamos laprobabilidad que la segunda muestra contenga 100 o menos peces rojos. Esta probabilidad esp = p0 + p1 + · · · + p100. Usando una computadora encontramos que p ≈ 0.04. Similarmente,si n = 12.000, la probabilidad que la segunda muestra contenga 100 o mas peces rojos estacerca de 0.03. Esos resultados justificarıan la apuesta de que el verdadero numero n de pecesse encuentra en algun lugar entre 8500 y 12.000.

Ejercicios adicionales

10. Un estudiante de ecologıa va a una laguna y captura 60 escarabajos de agua, marca cadauno con un punto de pintura y los deja en libertad. A los pocos dıas vuelve y captura otramuestra de 50, encontrando 12 escarabajos marcados. ¿Cual serıa su mejor apuesta sobre eltamano de la poblacion de escarabajos de agua en la laguna?

4. Mecanica Estadıstica

El espacio se divide en una gran cantidad, n, de pequenas regiones llamadas celdas. Seconsidera un sistema mecanico compuesto por r partıculas que se distribuyen al azar entrelas n celdas. ¿Cual es la distribucion de las partıculas en las celdas? La respuesta depende delo que se considere un evento elemental.

1. Estadıstica de Maxwell-Boltzmann. Suponemos que todas las partıculas son distintas yque todas las ubicaciones de las partıculas son igualmente posibles. Un evento elementalesta determinado por la r-upla (x1, x2, . . . , xr), donde xi es el numero de la celda en laque cayo la partıcula i. Puesto que cada xi puede tomar n valores distintos, el numerode tales r-uplas es nr. La probabilidad de un evento elemental es 1/nr.

2. Estadıstica de Bose-Einstein. Las partıculas son indistinguibles. De nuevo, todas lasubicaciones son igualmente posibles. Un evento elemental esta determinado por la n-upla

29

Page 30: espacios de probabilidad

(r1, . . . , rn), donde r1 + · · ·+ rn = r y ri es la cantidad de partıculas en la i-esima celda,1 ≤ i ≤ n. La cantidad de tales n-uplas se puede calcular del siguiente modo: a cadan- upla (r1, r2, . . . , rn) la identificamos con una sucesion de unos y ceros s1, . . . , sr+n−1

con unos en las posiciones numeradas r1 + 1, r1 + r2 + 2, . . . , r1 + r2 + · · ·+ rn−1 + n− 1(hay n − 1 de ellas) y ceros en las restantes posiciones. La cantidad de tales sucesioneses igual al numero de combinaciones de r + n− 1 cosas tomadas de a n− 1 por vez. Laprobabilidad de un evento elemental es 1/

(

r+n−1n−1

)

.

3. Estadıstica de Fermi-Dirac. En este caso r < n y cada celda contiene a lo sumo unapartıcula. La cantidad de eventos elementales es

(

nr

)

. La probabilidad de un eventoelemental es 1/

(

nr

)

.

Ejemplo 4.1. Se distribuyen 5 partıculas en 10 celdas numeradas 1, 2, . . . , 10. Calcular, paracada una de las tres estadısticas, la probabilidad de que las celdas 8, 9 y 10 no tengan partıculasy que la celdas 6 y 7 tengan exactamente una partıcula cada una.

1. Maxwell-Boltzmann. Las bolas son distinguibles y todas las configuraciones diferentesson equiprobables. La probabilidad de cada configuracion (x1, . . . , x5) ∈ 1, . . . , 105,donde xi indica la celda en que se encuentra la partıcula i, es 1/105.

¿De que forma podemos obtener las configuraciones deseadas? Primero elegimos (enorden) las 2 bolas que van a ocupar la celdas 6 y 7 (hay 5 × 4 formas diferentes dehacerlo) y luego elegimos entre las celdas 1, 2, 3, 4, 5 las ubicaciones de las 3 bolasrestantes (hay 53 formas diferentes de hacerlo). Por lo tanto, su cantidad es 5 × 4 × 53

y la probabilidad de observarlas es

p =5 × 4 × 53

105=

1

5 × 23=

1

40= 0.025.

2. Bose-Einstein. Las partıculas son indistinguibles y todas las configuraciones distintasson equiprobables. La probabilidad de cada configuracion (r1, . . . , r10), donde r1 + · · ·+r10 = 5 y ri es la cantidad de partıculas en la i-esima celda, es 1/

(

149

)

.

Las configuraciones deseadas son de la forma (r1, . . . , r5, 1, 1, 0, 0, 0), donde r1+· · ·+r5 =3, su cantidad es igual a la cantidad de configuraciones distintas que pueden formarseusando 3 ceros y 4 unos. Por lo tanto, su cantidad es

(

73

)

y la probabilidad de observarlases

p =

(

7

3

)(

14

9

)−1

=35

2002≈ 0.0174....

3. Fermi-Dirac. Las partıculas son indistinguibles, ninguna celda puede contener mas deuna partıcula y todas las configuraciones distintas son equiprobables. La probabilidadde cada configuracion es 1/

(

105

)

.

Las configuraciones deseadas se obtienen eligiendo tres de las las cinco celdas 1, 2, 3,4, 5 para ubicar las tres partıculas que no estan en las celdas 6 y 7. Por lo tanto, sucantidad es

(

53

)

y la probabilidad de observarlas es

(

5

3

)(

10

5

)−1

=10

252≈ 0.0396....

30

Page 31: espacios de probabilidad

Ejemplo 4.2. Calcular para cada una de las tres estadısticas mencionadas, la probabilidadde que una celda determinada (p.ej., la numero 1) no contenga partıcula.

En cada uno de los tres casos la cantidad de eventos elementales favorables es igual ala cantidad de ubicaciones de las partıculas en n − 1 celdas. Por lo tanto, designando porpMB, pBE , pFD las probabilidades del evento especificado para cada una de las estadısticas(siguiendo el orden de exposicion), tenemos que

pMB =(n − 1)r

nr=

(

1 − 1

n

)r

,

pBE =

(

r + n − 2

n − 2

)(

r + n − 1

n − 1

)−1

=n − 1

N + n − 1,

pFD =

(

n − 1

r

)(

n

r

)−1

= 1 − r

n.

Si r/n = λ y n → ∞, entonces

pMB = e−λ, pBE =1

1 + λ, pFD = 1 − λ.

Si λ es pequeno, esas probabilidades coinciden hasta O(λ2). El numero λ caracteriza la “den-sidad promedio” de las partıculas.

Ejercicios adicionales

11. Utilizando la estadıstica de Maxwell-Boltzmann construir un mecanismo aleatorio paraestimar el numero e.

4.1. Algunas distribuciones relacionadas con la estadıstica de Maxwell-

Boltzmann

Se distribuyen r partıculas en n celdas y cada una de las nr configuraciones tiene proba-bilidad n−r.

4.1.1. Cantidad de partıculas por celda: la distribucion binomial

Cantidad de partıculas en una celda especıfica. Para calcular la probabilidad, pMB(k),de que una celda especıfica contenga exactamente k partıculas (k = 0, 1, . . . , r) notamos quelas k partıculas pueden elegirse de

(

rk

)

formas, y las restantes r−k partıculas pueden ubicarseen las restantes n − 1 celdas de (n − 1)r−k formas. Resulta que

pMB(k) =

(

r

k

)

(n − 1)r−k 1

nr

31

Page 32: espacios de probabilidad

Dicho en palabras, en la estadıstica de Maxwell-Boltzmann la probabilidad de que unacelda dada contenga exactamente k partıculas esta dada por la distribucion Binomial (r, 1

n)

definida por

p(k) :=

(

r

k

)(

1

n

)k (

1 − 1

n

)r−k

, 0 ≤ k ≤ r. (23)

Cantidad de partıculas mas probable en una celda especıfica. La cantidad masprobable de partıculas en una celda especıfica es el entero ν tal que

(r − n + 1)

n< ν ≤ (r + 1)

n. (24)

Para ser mas precisos:

pMB(0) < pMB(1) < · · · < pMB(ν − 1) ≤ pMB(ν) > pMB(ν + 1) > · · · > pMB(r).

Demostracion. (Ejercicio.)

4.1.2. Forma lımite: la distribucion de Poisson

Forma lımite. Si n → ∞ y r → ∞ de modo que la cantidad promedio λ = r/n de partıculaspor celda se mantiene constante, entonces

pMB(k) → e−λ λk

k!.

Dicho en palabras, la forma lımite de la estadıstica de Maxwell-Boltzmann es la distribucionde Poisson de media λ definida por

p(k) := e−λ λk

k!, k = 0, 1, 2, . . . (25)

Demostracion. Primero observamos que:(

r

k

)(

1

n

)k (

1 − 1

n

)r−k

=r!

k!(r − k)!

(

1

n

)k (

1 − 1

n

)r−k

=1

k!

(

1

n

)k (n − 1

n

)−k r!

(r − k)!

(

1 − 1

n

)r

=1

k!

1

(n − 1)k

r!

(r − k)!

(

1 − 1

n

)r

. (26)

Reemplazando en (26) r = λn obtenemos:

(

λn

k

)(

1

n

)k (

1 − 1

n

)λn−k

=1

k!

1

(n − 1)k

(λn)!

(λn − k)!

(

1 − 1

n

)λn

=

[(

1 − 1

n

)n]λ1

k!

1

(n − 1)k

(λn)!

(λn − k)!

∼ e−λ 1

k!

(

1

(n − 1)k

(λn)!

(λn − k)!

)

. (27)

32

Page 33: espacios de probabilidad

Para estimar el ultimo factor del lado derecho de (27) utilizamos la formula de Stirling n! ∼√2π nn+ 1

2 e−n:

1

(n − 1)k

(λn)!

(λn − k)!∼ 1

(n − 1)k

√2π (λn)λn+ 1

2 e−λn

√2π (λn − k)(λn−k)+ 1

2 e−(λn−k)

=1

(n − 1)k

(λn)λn+ 1

2 e−k

(λn − k)(λn−k)+ 1

2

=

(

λn − k

n − 1

)k ( λn

λn − k

)λn+ 1

2

e−k

∼ λke−k

[

(

1 − k

λn

)λn+ 1

2

]−1

∼ λk. (28)

De (26), (27) y (28) resulta que

(

r

k

)(

1

n

)k (

1 − 1

n

)r−k

∼ e−λ λk

k!. (29)

4.2. Algunas distribuciones relacionadas con la estadıstica de Bose-Einstein

Se distribuyen r partıculas indistinguibles en n celdas y cada una de las(

r+n−1n−1

)

configu-

raciones tiene probabilidad 1/(

r+n−1n−1

)

.

4.2.1. Cantidad de partıculas por celda

Cantidad de partıculas en una celda especıfica. Para calcular la probabilidad, pBE(k),de que una celda especıfica contenga exactamente k partıculas (k = 0, 1, . . . , r) fijamos k delos r ceros y 1 de los n − 1 unos para representar que hay k partıculas en la urna especıfica.La cantidad de configuraciones distintas que pueden formarse con los restantes r − k ceros yn − 2 unos es

(

r−k+n−2n−2

)

. Resulta que

pBE(k) =

(

r − k + n − 2

n − 2

)(

r + n − 1

n − 1

)−1

. (30)

Cantidad de partıculas mas probable en una celda especıfica. Cuando n > 2 lacantidad mas probable de partıculas en una celda especıfica es 0 o mas precisamente pBE(0) >pBE(1) > · · · .

Demostracion. (Ejercicio.)

33

Page 34: espacios de probabilidad

4.2.2. Forma lımite: la distribucion de Geometrica

Forma lımite. Si n → ∞ y r → ∞ de modo que la cantidad promedio λ = r/n de partıculaspor celda se mantiene constante, entonces

pBE(k) → λk

(1 + λ)k+1.

Dicho en palabras, la forma lımite de la estadıstica de Bose-Einstein es la distribucion ge-ometrica de parametro 1

1+λdefinida por

p(k) :=

(

1 − 1

1 + λ

)k 1

1 + λ, k = 0, 1, 2, . . .

Demostracion. Primero observamos que:(

r − k + n − 2

n − 2

)(

r + n − 1

n − 1

)−1

=(r − k + n − 2)!

(n − 2)!(r − k)!

(n − 1)!r!

(r + n − 1)!

=(n − 1)!

(n − 2)!

r!

(r − k)!

(r − k + n − 2)!

(r + n − 1)!. (31)

Reemplazando en el lado derecho de (31) r = λn obtenemos:

(n − 1)!

(n − 2)!

(λn)!

(λn − k)!

(λn − k + n − 2)!

(λn + n − 1)!(32)

Para estimar los factores que intervienen en (32) utilizamos la formula de Stirling n! ∼√2π nn+ 1

2 e−n:

(n − 1)n−1+ 1

2 e−n+1

(n − 2)n−2+ 1

2 e−n+2∼ (n − 2)e−1

[

(

1 − 1

n − 1

)n−1]−1

∼ n − 2 ∼ n, (33)

(λn)λn+ 1

2 e−λn

(λn − k)λn−k+ 1

2 e−λn+k∼ (λn − k)ke−k

[

(

1 − k

λn

)λn]−1

∼ (λn − k)k ∼ λknk, (34)

(λn − k + n − 2)λn−k+n−2+ 1

2 e−λn+k−n+2

(λn + n − 1)λn+n−1+ 1

2 e−λn−n+1∼ (λn − k + n − 2)−k−1ek+1

×(

1 − k + 1

λn + n − 1

)λn+n−1

∼ (λn − k + n − 2)−k−1

∼ 1

(1 + λ)k+1nk+1. (35)

De (31), (32), (33), (34) y (35) resulta que(

r − k + n − 2

n − 2

)(

r + n − 1

n − 1

)−1

∼ λk

(1 + λ)k. (36)

34

Page 35: espacios de probabilidad

Ejercicios adicionales

12. Considerando la estadıstica de Maxwell-Boltzmann para la distribucion aleatoria de rpartıculas en n celdas demostrar que la cantidad de de partıculas mas probable en una celdadeterminada es la parte entera de r+1

n.

13. Considerando la estadıstica de Bose-Einstein para la distribucion aleatoria de r partıculas(indistinguibles) en n > 2 celdas demostrar que la cantidad de de partıculas mas probable enuna celda determinada es 0.

4.3. Tiempos de espera

Consideramos una vez mas el experimento conceptual de ubicar aleatoriamente partıculas(distinguibles) en n celdas. Solo que ahora no fijamos la cantidad r de partıculas y ubicamoslas partıculas una por una hasta que ocurra alguna situacion prescrita. Analizaremos dossituaciones:

(i) Ubicar partıculas hasta que alguna se ubique en una celda ocupada previamente.

(ii) Fijada una celda, ubicar partıculas hasta que alguna ocupe la celda.

Situacion (i). Usamos sımbolos de la forma (j1, j2, . . . , jr) para indicar que la primera, lasegunda,... y la r-esima partıcula estan ubicadas en las celdas j1, j2, . . . , jr y que el procesoculmina en el paso r. Esto significa que las ji son enteros entre 1 y n; que las j1, j2, . . . , jr−1

son todas diferentes y que jr es igual a una de ellas. Toda configuracion de ese tipo representaun punto muestral. Los posibles valores de r son 2, 3, . . . , n + 1.

Para un r fijo el conjunto de todos los puntos muestrales (j1, j2, . . . , jr) representa elevento que el proceso termina en el r-esimo paso. Los numeros j1, j2, . . . , jr−1 pueden elegirsede (n)r−1 formas diferentes; jr podemos elegir uno de los r − 1 numeros j1, j2, . . . , jr−1. Porlo tanto la probabilidad de que el proceso termine en el r-esimo paso es

pr =(n)r−1(r − 1)

nr. (37)

Situacion (ii). Usamos sımbolos de la forma (j1, j2, . . . , jr) para indicar que la primera, lasegunda,... y la r-esima partıcula estan ubicadas en las celdas j1, j2, . . . , jr y que el procesoculmina en el paso r. Las r-uplas (j1, j2, . . . , jr) estan sujetas a la condicion de que los numerosj1, j2, . . . , jr−1 son diferentes de un numero prescrito a ≤ n, y jr = a.

Para un r fijo el conjunto de todos los puntos muestrales (j1, j2, . . . , jr) representa elevento que el proceso termina en el r-esimo paso. Los numeros j1, j2, . . . , jr−1 pueden elegirsede (n − 1)r−1 formas diferentes; jr debe ser a. Por lo tanto la probabilidad de que el procesotermine en el r-esimo paso es

pr =(n − 1)r−1

nr. (38)

35

Page 36: espacios de probabilidad

5. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.(2000)

2. Bremaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)

3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, NewYork. (2009)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1957)

5. Ferrari, P.: Passeios aleatorios e redes eletricas. Instituto de Matematica Pura e Apli-cada. Rio de Janeiro. (1987)

6. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American MathematicalSociety. (1997)

7. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,New York. (1956)

8. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.

9. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

10. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,Massachusetts. (1972)

11. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.Elsevier Academic Press, San Diego. (2004)

12. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. Springer-Verlag, Berlin. (2005)

13. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &Sons Ltd. (2004)

14. Stoyanov, J.: Counterexamples in Probability. John Wiley & Sons. (1997)

36

Page 37: espacios de probabilidad

Probabilidad Condicional, Independencia Estocastica

Algunos modelos probabilısticos

(Borradores, Curso 23)

Sebastian Grynberg

18-20 de marzo 2013

“No importa lo que yo piense.

Es lo que tu piensas lo que es relevante.”

(Dr. House)

1

Page 38: espacios de probabilidad

Indice

1. Probabilidad Condicional 31.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Formula de probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Independencia estocastica 10

3. Modelos discretos 11

4. Modelos continuos 144.1. Puntos al azar sobre un segmento. La distribucion uniforme . . . . . . . . . . 144.2. Geometrıa y probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.3. Paradoja de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.4. De las masas puntuales a la masa continua . . . . . . . . . . . . . . . . . . . 18

5. Bibliografıa consultada 20

2

Page 39: espacios de probabilidad

1. Probabilidad Condicional

1.1. Probabilidad Condicional

Sea (Ω,A, P) un espacio de probabilidad.

Definicion 1.1 (Probabilidad condicional). Sea A ⊂ Ω un evento de probabilidad positiva.Para cada evento B definimos

P(B|A) :=P(B ∩ A)

P(A). (1)

La cantidad definida en (1) se llama la probabilidad condicional de B dado que ocurrio A.

Nota Bene (La probabilidad condicional induce una medida de probabilidad sobrelos eventos aleatorios). Valen las siguientes propiedades:

1. Para cada B ∈ A, P(B|A) ≥ 0;

2. P(Ω|A) = 1;

3. Si los eventos B y C no tienen elementos en comun, entonces

P(B ∪ C|A) = P(B|A) + P(C|A).

4. Para cada sucesion decreciente de eventos B1 ⊃ B2 ⊃ · · · tal que⋂∞

n=1 Bn = ∅ vale quelımn→∞ P(Bn|A) = 0.

Comparando las propiedades 1-4 con los axiomas I-IV, se concluye que la funcion P(·|A) :A → R es una medida de probabilidad sobre los eventos aleatorios. Por lo tanto, todos losresultados generales referidos a la propiedades de P(·) tambien valen para la probabilidadcondicional P(·|A).

Ejemplo 1.2. Se lanza un dado equilibrado. Sabiendo que el resultado del dado no supero al4, cual es la probabilidad condicional de haber obtenido un 3? Denotando mediante A alevento “el resultado no supera al 4” y mediante B el evento “el resultado es 3”. Tenemos queP(A) = 4/6, P(B) = 1/6 y P(A ∩ B) = P(A) = 1/6. Ası

P(B|A) =P(B ∩ A)

P(A)=

1/6

4/6=

1

4,

lo que intuitivamente tiene sentido (¿por que?).

Probabilidad compuesta. De la definicion de la probabilidad condicional del evento Bdado que ocurrio el evento A resulta inmediatamente la siguiente formula

P(A ∩ B) = P(B|A)P(A). (2)

denominada regla del producto.El siguiente Teorema generaliza la regla del producto (2) y se obtiene por induccion.

3

Page 40: espacios de probabilidad

P(An| ∩n−1i=1 Ai)P(A1) P(A2|A1)

A1 An−1 AnA2

A1 ∩ A2 ∩ A3

A3

∩ni=1Ai

P(A3|A2 ∩ A1)

Figura 1: Ilustracion de la regla del producto. El evento ∩ni=1Ai tiene asociada una unica

trayectoria sobre un arbol que describe la historia de un experimento aleatorio realizado poretapas sucesivas. Las aristas de esta trayectoria corresponden a la ocurrencia sucesiva de loseventos A1, A2, . . . , An y sobre ellas registramos la correspondiente probabilidad condicional.El nodo final de la trayectoria corresponde al evento ∩n

i=1Ai y su probabilidad se obtiene multi-plicando las probabilidades condicionales registradas a lo largo de las aristas de la trayectoria:P(∩n

i=1Ai) = P(A1)P(A2|A1)P(A3|A2∩A1) · · ·P(An|∩n−1i=1 Ai). Notar que cada nodo intermedio

a lo largo de la trayectoria tambien corresponde a un evento interseccion y su probabilidad seobtiene multiplicando las probabilidades condicionales registradas desde el inicio de la trayec-toria hasta llegar al nodo. Por ejemplo, el evento A1 ∩A2 ∩A3 corresponde al nodo indicadoen la figura y su probabilidad es P(A1 ∩ A2 ∩ A3) = P(A1)P(A2|A1)P(A3|A1 ∩ A2).

Teorema 1.3 (Regla del producto). Suponiendo que todos los eventos condicionantes tienenprobabilidad positiva, tenemos que

P (∩ni=1Ai) = P

(

An

∣∩n−1i=1 Ai

)

· · ·P (A3|A1 ∩ A2) P(A2|A1)P(A1). (3)

Ejemplo 1.4. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas alazar sin reposicion. ¿Cual es la probabilidad que ambas bolas sean negras?

Sean N1 y N2 los eventos definidos por “la primer bola extraıda es negra” y “la segunda

bola extraıda es negra”, respectivamente. Claramente P(N1) = 10/15. Para calcular P(N2|N1)observamos que si ocurrio N1, entonces solo 9 de las 14 bolas restantes en la urna son negras.Ası P(N2|N1) = 9/14 y

P(N2 ∩ N1) = P(N2|N1)P(N1) =10

15· 9

14=

3

7.

1.2. Formula de probabilidad total

Teorema 1.5 (Formula de probabilidad total). Sea A1, A2, . . . una sucesion de eventos dis-juntos dos a dos tal que

n≥1An = Ω. Para cada B ∈ A vale la siguiente formula

P(B) =∑

n≥1

P(B|An)P(An), (4)

denominada formula de probabilidad total1.

1Rigurosamente, P(B|An) esta definida cuando P(An) > 0, por lo cual en la formula (4) interpretaremosque P(B|An)P(An) = 0 cuando P(An) = 0.

4

Page 41: espacios de probabilidad

A ∩ B

A ∩ Bc

Ac ∩ B

Ac ∩ Bc

P(A)

P(Bc|A)

P(B|Ac)

P(Bc|Ac)

P(B|A)

A

Bc

Bc

B

B

P(Ac)

Ac

Figura 2: Ilustracion de la formula de probabilidad total. Un experimento de dos

etapas binarias y su correspondiente diagrama de arbol. La primera ramificacion (de izquierdaa derecha) se basa en el resultado de la primer etapa del experimento (A o Ac) y la segundaen su resultado final (B o Bc). Multiplicando las probabilidades registradas a lo largo decada trayectoria se obtiene la probabilidad del evento interseccion representado por el nodofinal. Sumando las probabilidades de las trayectorias que corresponden al evento B se obtiene:P(B) = P(A ∩ B) + P(Ac ∩ B) = P(B|A)P(A) + P(B|Ac)P(Ac).

Demostracion de la formula de probabilidad total. De la identidad de conjuntos

B = B ∩ Ω = B ∩

n≥1

An

=⋃

n≥1

(B ∩ An)

y la σ-aditividad de la medida de probabilidad P se deduce que

P(B) =∞∑

n=1

P(B ∩ An).

Si P(An) = 0, P(B ∩ An) = 0 porque B ∩ An ⊂ An. Si P(An) > 0, entonces P(B ∩ An) =P(B|An)P(An).

Nota Bene: Calculo mediante condicionales. Si se dispone de una coleccion de eventosA1, A2, . . . de los cuales uno y solamente uno debe ocurrir, la formula de probabilidad total(4) permite calcular la probabilidad de cualquier evento B condicionando a saber cual de loseventos Ai ocurrio. Mas precisamente, la formula (4) establece que la probabilidad P(B) esigual al promedio ponderado de las probabilidades condicionales P(B|Ai) donde cada termino

5

Page 42: espacios de probabilidad

se pondera por la probabilidad del evento sobre el que se condiciono. Esta formula es utildebido a que a veces es mas facil evaluar las probabilidades condicionales P(B|Ai) que calculardirectamente la probabilidad P(B).

Ejemplo 1.6 (Experimentos de dos etapas). La primera etapa del experimento produceuna particion A1, A2, . . . del espacio muestral Ω. La segunda etapa produce el evento B. Laformula (4) se utiliza para calcular la probabilidad de B.

Ejemplo 1.7. Una urna contiene 5 bolas rojas y 10 bolas negras. Se extraen dos bolas sinreposicion. ¿Cual es la probabilidad de que la segunda bola sea negra?

El espacio muestral de este experimento aleatorio se puede representar como las trayecto-rias a lo largo de un arbol como se muestra en la Figura 3.

1/3

2/3

4/14

10/14

5/14

9/14

P(ω)

ω1, 4/42

ω2, 10/42

ω3, 10/42

ω4, 18/42

Figura 3: Observando el arbol se deduce que la probabilidad de que la segunda bola sea negraes: 1

3 · 1014 + 2

3 · 914 = 2

3 .

Formalmente, el problema se resuelve mediante la formula de probabilidad total. Sean Ni

y Ri los eventos definidos por “la i-esima bola extraıda es negra” y “la i-esima bola extraıda

es roja”, respectivamente (i = 1, 2). Vale que

P(N1) =10

15, P(R1) =

5

15, P(N2|R1) =

10

14, P(N2|N1) =

9

14.

Usando la formula de probabilidad total obtenemos

P(N2) = P(N2 ∩ R1) + P(N2 ∩ N1)

= P(N2|R1)P(R1) + P(N2|N1)P(N1)

=10

14· 1

3+

9

14· 2

3=

28

42=

2

3.

6

Page 43: espacios de probabilidad

1.3. Regla de Bayes

Primera version de la regla de Bayes. Sean A y B dos eventos de probabilidad positiva.De la regla del producto (2) y su analoga P(A ∩ B) = P(A|B)P(B) se obtiene la siguienteformula importante

P(A|B) =P(B|A)P(A)

P(B), (5)

que contiene lo esencial del Teorema de Bayes.

Ejemplo 1.8. Un test de sangre es 95 % efectivo para detectar una enfermedad cuando unapersona realmente la padece. Sin embargo, el test tambien produce un “falso positivo” en el1 % de las personas saludables testeadas. Si el 0, 5 % de la poblacion padece la enfermedad,cual es la probabilidad de que una persona tenga la enfermedad si su test resulto positivo?

Sea A el evento definido por “la persona testeada tiene la enfermedad” y sea B el eventodefinido por “el resultado de su test es positivo”. La probabilidad que nos interesa es P(A|B)y se puede calcular de la siguiente manera. Sabemos que

P(A) = 0.005, P(Ac) = 0.995,

P(B|A) = 0.95, P(B|Ac) = 0.01,

y usando esa informacion queremos calcular

P (A|B) =P(A ∩ B)

P(B).

El numerador, P(A ∩ B), se puede calcular mediante la regla del producto

P(A ∩ B) = P(B|A)P(A) = (0.95)(0.005)

y el denominador, P(B), se puede calcular usando la formula de probabilidad total

P(B) = P(B|A)P(A) + P(B|Ac)P(Ac) = (0.95)(0.005) + (0.01)(0.995).

Por lo tanto,

P(A|B) =P(A ∩ B)

P(B)=

P(B|A)P(A)

P(B|A)P(A) + P(B|Ac)P(Ac)=

95

294≈ 0.323.

En otras palabras, solo el 32 % de aquellas personas cuyo test resulto positivo realmente tienenla enfermedad.

Teorema 1.9 (Bayes). Sean A1, A2, . . . , eventos disjuntos dos a dos y tales que⋃

n≥1An = Ω.

Sea B un evento de probabilidad positiva. Entonces,

P(An|B) =P(B|An)P(An)

k≥1 P(B|Ak)P(Ak), n ≥ 1. (6)

Si los eventos A1, A2, . . . se llaman “hipotesis”, la formula (6) se considera como la proba-bilidad de ocurrencia de la hipotesis An sabiendo que ocurrio el evento B. En tal caso, P(An)es la probabilidad a priori de la hipotesis An y la formula (6) para P(An|B) se llama la regla

de Bayes para la probabilidad a posteriori de la hipotesis An.

7

Page 44: espacios de probabilidad

Nota Bene. Advertimos al lector que no trate de memorizar la formula (6). Matematica-mente, solo se trata de una forma especial de escribir la formula (5) y de nada mas.

Ejemplo 1.10 (Canal de comunicacion binario). Un canal de comunicacion binario simpletransporta mensajes usando solo dos senales: 0 y 1. Supongamos que en un canal de comu-nicacion binario dado el 40 % de las veces se transmite un 1; que si se transmitio un 0 laprobabilidad de recibirlo correctamente es 0.90; y que si se transmitio un 1 la probabilidadde recibirlo correctamente es 0.95. Queremos determinar

(a) la probabilidad de recibir un 1;(b) dado que se recibio un 1, la probabilidad de que haya sido transmitido un 1;

Solucion. Consideramos los eventos A=“se transmitio un 1” y B=”se recibio un 1”. Lainformacion dada en el enunciado del problema significa que P(A) = 0.4, P(Ac) = 0.6,P(B|A) = 0.95, P(B|Ac) = 0.1, P(Bc|A) = 0.05, P (Bc|Ac) = 0.90 y se puede representaren la forma de un diagrama de arbol tal como se indico en la seccion 1.2.

P(A ∩ B) = (0.4)(0.95)

P(A ∩ Bc) = (0.4)(0.05)

P(Ac ∩ B) = (0.6)(0.1)

P(Ac ∩ Bc) = (0.6)(0.9)

A

Bc

Bc

B

B

Ac

0.4

0.6

0.95

0.05

0.1

0.9

Figura 4: Observando el arbol se deduce que la probabilidad de recibir un 1 es P(B) =(0.4)(0.95) + (0.6)(0.1) = 0.44. Tambien se deduce que la probabilidad de que haya sido

transmitido un 1 dado que se recibio un 1 es P(A|B) = P(B|A)P(A)P(B) = (0.4)(0.95)

0.44 = 0.863...

Ejercicios adicionales

1. Los dados de Efron. Se trata de cuatro dados A, B, C, D como los que se muestran enla Figura 5.

8

Page 45: espacios de probabilidad

A B

C D

0

0

4 4 4 4 3

3

3 3 3

3

2 2 2 2

6

6

5 5 5

1

1

1

Figura 5: Dados de Efron

Las reglas del juego son las siguientes: juegan dos jugadores, cada jugador elige un dado,se tiran los dados y gana el que obtiene el numero mas grande.

(a) Calcular las siguientes probabilidades: que A le gane a B; que B le gane a C; que C legane a D; que D le gane a A.

(b) ¿Cual es la mejor estrategia para jugar con los dados de Efron?.

(c) Lucas y Monk jugaran con los dados de Efron eligiendo los dados al azar. Calcular lassiguientes probabilidades:

que Lucas pierda la partida si Monk obtiene un 3,

que Lucas gane la partida si le toca el dado A.

(d) ¿Que ocurre con el juego cuando los dados se eligen al azar?

(e) ¿Que ocurre con el juego si a un jugador se le permite elegir un dado y el otro debe elegiral azar uno entre los restantes tres?

(f) Lucas y Monk jugaron con los dados de Efron, eligiendo los dados al azar. Lucas gano,¿cual es la probabilidad de que le haya tocado el dado C?

9

Page 46: espacios de probabilidad

2. Independencia estocastica

Definicion 2.1 (Independencia estocastica). Los eventos A1, A2, . . . , An son mutuamente

independientes si satisfacen las siguientes 2n − n − 1 ecuaciones:

P(Ai1 ∩ Ai2 ∩ · · · ∩ Aim) = P(Ai1)P(Ai2) · · ·P(Aim), (7)

donde m = 1, 2, . . . , n, y 1 ≤ i1 < i2 < . . . < im ≤ n.

Nota Bene 1. Para n = 2 el sistema de ecuaciones (7) se reduce a una condicion: doseventos A1 y A2 son independientes si satisfacen la ecuacion

P(A1 ∩ A2) = P(A1)P(A2). (8)

Ejemplo 2.2.(a) Se extrae un naipe al azar de un mazo de naipes de poker. Por razones de simetrıa

esperamos que los eventos “corazon y “As” sean independientes. En todo caso, sus proba-bilidades son 1/4 y 1/13, respectivamente y la probabilidad de su realizacion simultanea es1/52.

(b) Se arrojan dos dados. Los eventos “as en el primer dado” y “par en el segundo” sonindependientes pues la probabilidad de su realizacion simultanea, 3/36 = 1/12, es el productode sus probabilidades respectivas: 1/6 y 1/2.

(c) En una permutacion aleatoria de las cuatro letras a, b, c, d los eventos “a precede a b”y “c precede a d” son independientes. Esto es intuitivamente claro y facil de verificar.

Nota Bene 2. Para n > 2, los eventos A1, A2, . . . , An pueden ser independientes de a pares:P(Ai ∩ Aj) = P(Ai)P(Aj), 1 ≤ i < j ≤ n, pero no ser mutuamente independientes.

Ejemplo 2.3. Sea Ω un conjunto formado por cuatro elementos: ω1, ω2, ω3, ω4; las correspon-dientes probabilidades elementales son todas iguales a 1/4. Consideramos tres eventos:

A1 = ω1, ω2, A2 = ω1, ω3, A3 = ω1, ω4.Es facil ver que los eventos A1, A2, A3 son independientes de a pares, pero no son mutuamenteindependientes:

P(A1) = P(A2) = P(A3) = 1/2,

P(A1 ∩ A2) = P(A1 ∩ A3) = P(A2 ∩ A3) = 1/4 = (1/2)2,

P(A1 ∩ A2 ∩ A3) = 1/4 6= (1/2)3.

Independencia y probabilidades condicionales. Para introducir el concepto de inde-pendencia no utilizamos probabilidades condicionales. Sin embargo, sus aplicaciones dependengeneralmente de las propiedades de ciertas probabilidades condicionales.

Para fijar ideas, supongamos que n = 2 y que las probabilidades de los eventos A1 y A2

son positivas. En tal caso, los eventos A1 y A2 son independientes si y solamente si

P(A2|A1) = P(A2) y P(A1|A2) = P(A1).

El siguiente Teorema expresa la relacion general entre el concepto de independencia y lasprobabilidades condicionales.

10

Page 47: espacios de probabilidad

Teorema 2.4. Sean A1, A2, . . . An eventos tales que todas las probabilidades P(Ai) sonpositivas. Una condicion necesaria y suficiente para la mutua independencia de los eventosA1, A2, . . . , An es la satisfaccion de las ecuaciones

P(Ai|Ai1 ∩ Ai2 ∩ · · · ∩ Aik) = P(Ai) (9)

cualesquiera sean i1, i2, . . . , ik, i distintos dos a dos.

Ejercicios adicionales

2. Se tira una moneda honesta n veces. Sea A el evento que se obtenga al menos una cara y seaB el evento que se obtengan al menos una cara y al menos una ceca. Analizar la independenciade los eventos A y B.

3. Andres, Francisco, Jemina e Ignacio fueron amigos en la escuela primaria. Se reencon-traron en el curso 23 (PyE 61.09) de la FIUBA y se reunieron de a parejas a charlar. Comoresultado de esas charlas, cada pareja renovo su amistad con probabilidad 1/2 y no lo hizocon probabilidad 1/2, independientemente de las demas. Posteriormente, Andres recibio unrumor y lo transmitio a todas sus amistades. Suponiendo que cada uno de los que recibaun rumor lo transmitira a todas sus amistades, cual es la probabilidad de que Ignacio hayarecibido el rumor transmitido por Andres?.

3. Modelos discretos

Los espacios muestrales mas simples son aquellos que contienen un numero finito, n,de puntos. Si n es pequeno (como en el caso de tirar algunas monedas), es facil visualizarel espacio. El espacio de distribuciones de cartas de poker es mas complicado. Sin embargo,podemos imaginar cada punto muestral como una ficha y considerar la coleccion de esas fichascomo representantes del espacio muestral. Un evento A se representa por un determinadoconjunto de fichas, su complemento Ac por las restantes. De aquı falta solo un paso paraimaginar una bol con infinitas fichas o un espacio muestral con una sucesion infinita depuntos Ω = ω1, ω2, ω3, . . . .Definicion 3.1. Un espacio muestral se llama discreto si contiene finitos o infinitos puntos

que pueden ordenarse en una sucesion ω1, ω2, . . . .

Sean Ω un conjunto infinito numerable y A la σ-algebra de todos los subconjuntos con-tenidos en Ω. Todos los espacios de probabilidad que se pueden construir sobre (Ω,A) seobtienen de la siguiente manera:

1. Tomamos una sucesion de numeros no negativos p(ω) : ω ∈ Ω tal que∑

ω∈Ω

p(ω) = 1.

2. Para cada evento A ∈ A definimos P(A) como la suma de las probabilidades de loseventos elementales contenidos en A:

P(A) :=∑

ω∈A

p(ω). (10)

11

Page 48: espacios de probabilidad

Nombres. La funcion p : Ω → [0, 1] que asigna probabilidades a los eventos elementalesω ∈ Ω se llama funcion de probabilidad. La funcion P : A → [0, 1] definida en (10) se llama la

medida de probabilidad inducida por p.

Nota Bene 1. De la definicion (10) resultan inmediatamente las siguientes propiedades

(i) Para cada A ∈ A vale que P(A) ≥ 0

(ii) P(Ω) = 1.

(iii) σ-aditividad. Si A1, A2, . . . es una sucesion de eventos disjuntos dos a dos, entonces

P

(

∞⋃

n=1

An

)

=∞∑

n=1

P(An).

Nota Bene 2. No se excluye la posibilidad de que un punto tenga probabilidad cero. Estaconvencion parece artificial pero es necesaria para evitar complicaciones. En espacios discretosprobabilidad cero se interpreta como imposibilidad y cualquier punto muestral del que se sabeque tiene probabilidad cero puede suprimirse impunemente del espacio muestral. Sin embargo,frecuentemente los valores numericos de las probabilidades no se conocen de antemano, y serequieren complicadas consideraciones para decidir si un determinado punto muestral tiene ono probabilidad positiva.

Distribucion geometrica

Ejemplo 3.2 (Probabilidad geometrica). Sea p un numero real tal que 0 < p < 1. Observandoque

∞∑

n=1

(1 − p)n−1 =1

p,

se deduce que la funcion p : N → R definida por

p(n) := (1 − p)n−1p, n = 1, 2, . . .

define una funcion de probabilidad en Ω = N = 1, 2, 3, . . . que se conoce por el nombre dedistribucion geometrica de parametro p. Esta funcion de probabilidades esta ıntimamente rela-cionada con la cantidad de veces que debe repetirse un experimento aleatorio para que ocurraun evento A (prefijado de antemano) cuya probabilidad de ocurrencia en cada experimentoindividual es p.

Ejemplo 3.3. El experimento consiste en lanzar una moneda tantas veces como sea necesariohasta que salga cara. El resultado del experimento sera la cantidad de lanzamientos necesarioshasta que se obtenga cara. Los resultados posibles son

Ω = 1, 2, 3, . . . ∪ ∞.

El sımbolo ∞ esta puesto para representar la posibilidad de que todas las veces que se lanzala moneda el resultado obtenido es ceca. El primer problema que debemos resolver es asignarprobabilidades a los puntos muestrales. Una forma de resolverlo es la siguiente. Cada vez que searroja una moneda los resultados posibles son cara (H) o ceca (T ). Sean p y q la probabilidad

12

Page 49: espacios de probabilidad

de observar cara y ceca, respectivamente, en cada uno de los lanzamientos. Claramente, p yq deben ser no negativos y

p + q = 1.

Suponiendo que cada lanzamiento es independiente de los demas, las probabilidades se mul-tiplican. En otras palabras, la probabilidad de cada secuencia determinada es el producto

obtenido de reemplazar las letras H y T por p y q, respectivamente. Ası,

P(H) = p; P(TH) = qp; P(TTH) = qqp; P(TTTH) = qqqp.

Puede verse que para cada n ∈ N la secuencia formada por n − 1 letras T seguida de la letraH debe tener probabilidad qn−1p = (1 − p)n−1p.

El argumento anterior sugiere la siguiente asignacion de probabilidades sobre Ω: para cadan ∈ N, p(n), la probabilidad de que la primera vez que se obtiene cara ocurra en el n-esimolanzamiento de la moneda esta dada por

p(n) = (1 − p)n−1p.

Como las probabilidades geometricas suman 1 (ver el ejemplo 3.2) al resultado “ceca en todoslos tiros” se le debe asignar probabilidad p(∞) = 0. Como el espacio muestral es discreto nohay problema en suprimir el punto ∞.

Consideremos el evento A = “se necesitan una cantidad par de tiros para obtener la primer

cara”. Entonces,A = 2, 4, 6, 8, . . . ,

y

P(A) =∑

ω∈A

p(ω) =

∞∑

k=1

p(2k) =

∞∑

k=1

q2k−1p = pq

∞∑

k=0

q2k = pq

(

1

1 − q2

)

=pq

(1 − q)(1 + q)=

q

1 + q=

1 − p

2 − p.

Ejemplo 3.4. Lucas y Monk juegan a la moneda. Lanzan una moneda equilibrada al aire,si sale cara, Lucas le gana un peso a Monk; si sale ceca, Monk le gana un peso a Lucas. Eljuego termina cuando alguno gana dos veces seguidas.

El espacio muestral asociado a este experimento aleatorio es

Ω = HH, TT, HTT, THH, HTHH, THTT, . . . .

Como podemos tener secuencias de cualquier longitud de caras y cecas alternadas, el espaciomuestral es necesariamente infinito.

El evento A1 =“la moneda fue lanzada como maximo tres veces” esta dado por todos loselementos de Ω que tienen longitud menor o igual que tres:

A1 = HH, TT, HTT, THH

y su probabilidad es

P(A1) = P(HH) + P(TT ) + P(HTT ) + P(THH) =1

4+

1

4+

1

8+

1

8=

3

4.

13

Page 50: espacios de probabilidad

El evento A2 =“ceca en el primer lanzamiento” esta dado por todos los elementos de Ω quecomienzan con T :

A2 = TT, THH, THTT, THTHH, . . . ,y su probabilidad es

P(A2) = P(TT ) + P(THH) + P(THTT ) + P(THTHH) + · · ·

=1

22+

1

23+

1

24+

1

25+ · · · =

1

2.

¿Cual es la probabilidad de que el juego termine alguna vez? Si definimos los eventos An :=“el

juego termina en la n-esima jugada”, n ≥ 2, tendremos que el evento “el juego termina algunavez” es la union disjunta de los eventos A1, A2, . . . , y por lo tanto su probabilidad es la sumade las probabilidades de los eventos An. Para cada n ≥ 2 la probabilidad de An es

P(An) =2

2n=

1

2n−1

En consecuencia la probabilidad de que el juego termine alguna vez es

n≥2

1

2n−1=∑

n≥1

1

2n= 1.

Distribucion de Poisson

Ejemplo 3.5 (Probabilidad de Poisson). Sea λ un numero real positivo. Observando que

eλ =∞∑

n=0

λn

n!,

se deduce que la funcion p : N0 → R definida por

p(n) := e−λ λn

n!, n = 0, 1, 2, . . .

define una funcion de probabilidad en Ω = N0 = 0, 1, 2, . . . , conocida como la distribucion

de Poisson de intensidad λ.

4. Modelos continuos

4.1. Puntos al azar sobre un segmento. La distribucion uniforme

Elegir un punto al azar dentro de un segmento de recta de longitud finita es un experi-mento conceptual intuitivamente claro. Desde el punto de vista teorico el experimento debedescribirse mediante un espacio de probabilidad (Ω,A, P).

No se pierde generalidad, si se supone que la longitud del segmento es la unidad y se loidentifica con el intervalo Ω = [0, 1]. La σ-algebra de eventos A y la medida de probabilidadP : A → R se construyen por etapas.

14

Page 51: espacios de probabilidad

1. Definimos A0 como la familia de los intervalos contenidos en Ω de la forma [a, b], [a, b),(a, b] o (a, b), a ≤ b (notar que A0 no es un algebra) y definimos P0 : A0 → R de lasiguiente manera:

P0(A) := longitud(A) = b − a, si los extremos del intervalo A son a y b.

2. La familia A1 de todas las uniones finitas de conjuntos disjuntos de A0 es un algebrade eventos y la funcion P1 : A1 → R definida por

P1(A) :=k∑

i=1

P0(Ai), si A =k⋃

i=1

Ai,

donde A1, . . . , Ak ∈ A0 y Ai ∩ Aj = ∅ para toda pareja de ındices i 6= j, es una medidade probabilidad (pues satisface los axiomas I-IV).

3. El teorema de extension se ocupa del resto: la medida de probabilidad P1 definida sobreel algebra A1 se extiende unıvocamente a una medida de probabilidad P definida sobrela σ-algebra generada por A1, A := σ(A1).

Nota Bene. Esta definicion de probabilidad que a cada intervalo A ⊂ [0, 1] le asigna surespectiva longitud se llama la distribucion uniforme sobre el intervalo [0, 1] y constituye unageneralizacion de la nocion de equiprobabilidad sobre la que se basa la definicion de Laplacede la probabilidad para espacios finitos: “casos favorables sobre casos posibles”.

4.2. Geometrıa y probabilidad

Una construccion completamente analoga a la de la seccion anterior permite describirteoricamente el experimento conceptual, intuitivamente claro, que consiste en elegir un punto

al azar dentro de una region plana, Λ ⊂ R2, de area finita y no nula. Para fijar ideas, se puede

imaginar que la region plana es un blanco sobre el que se arroja un dardo.

Ejemplo 4.1 (Dardos). El juego de dardos consiste en tirar un dardo contra un blancocircular. Supongamos que disparamos un dardo (que acertamos al blanco) y observamos dondese clavo. Naturalmente, los resultados posibles de este experimento son todos los puntos delblanco. No se pierde generalidad si se supone que el centro del blanco es el origen de R

2 yque su radio es 1. En tal caso el espacio muestral de este experimento es

Ω = (x, y) ∈ R2 : x2 + y2 ≤ 1.

Intuitivamente, la probabilidad de acertarle a un punto predeterminado (arbitrario) deberıaser cero. Sin embargo, la probabilidad de que el dardo se clave en cualquier subconjunto(“gordo”) A del blanco deberıa ser proporcional a su area y determinarse por la fraccion delarea del blanco contenida en A. En consecuencia, definimos

P(A) :=area de A

area del blanco=

area de A

π.

Por ejemplo, si A = (x, y) : x2 + y2 ≤ r2 es el evento que el dardo caiga a distancia r < 1del centro del blanco, entonces

P(A) =πr2

π= r2.

15

Page 52: espacios de probabilidad

“Puntos al azar en regiones planas”. Si hacemos abstraccion de la forma circular delblanco y de la semantica involucrada en el juego de dardos, obtenemos un modelo proba-bilıstico para el experimento conceptual que consiste en “sortear” o elegir un punto al azar

en una region plana Λ ⊂ R2 de area finita y positiva. El espacio muestral es la region plana,

Ω = Λ, la σ-algebra de los eventos, A, es la familia de todos los subconjuntos de Λ a los quese les puede medir el area y la probabilidad de cada evento A es la fraccion del area de Λcontenida en A. Esto es,

P(A) :=area(A)

area(Λ). (11)

Esta forma de asignar probabilidades es la equivalente para el caso continuo de la formulacasos favorables sobre casos posibles utilizada en espacios muestrales finitos para modelarexperimentos aleatorios con resultados equiprobables.

Nota Bene. Si en lugar de elegir un punto al azar dentro del segmento [a, b] elegimosdos puntos de manera independiente, el experimento tendra por resultado un par de numerosreales contenidos en [a, b]. El espacio muestral sera el cuadrado de lado [a, b], Ω = [a, b]× [a, b].En este espacio la asignacion de probabilidades definida en (11) resulta consistente con lanocion de independencia.

Ejemplo 4.2. Se eligen al azar (y en forma independiente) dos puntos x1 y x2 dentro de unsegmento de longitud L. Hallar la probabilidad de que la longitud del segmento limitado porlos puntos x1 y x2 resulte menor que L/2.

L

2

L

L

2L0

Figura 6: La region sombreada corresponde al evento A=“la longitud del segmento limitadopor los puntos x1 y x2 resulte menor que L/2”.

El espacio muestral de este experimento es un cuadrado de lado L que puede representarseen la forma Ω = (x1, x2) : 0 ≤ x1 ≤ L, 0 ≤ x1 ≤ L.

El evento A=“la longitud del segmento limitado por los puntos x1 y x2 resulte menor queL/2” puede ocurrir de dos maneras distintas:

(1) si x1 ≤ x2, se debe cumplir la desigualdad x2 − x1 < L/2;(2) si x2 < x1, debe cumplirse la desigualdad x1 − x2 < L/2.

16

Page 53: espacios de probabilidad

Observando la Figura 6 esta claro que el area del evento A se obtiene restando al area delcuadrado de lado L el area del cuadrado de lado L/2:

area de A = L2 − L2

4=

3

4L2.

Como el area total del espacio muestral es L2, resulta que P(A) = 3/4.

Ejemplo 4.3 (Las agujas de Buffon). Una aguja de longitud 2l se arroja sobre un planodividido por rectas paralelas. La distancia entre rectas es 2a. Suponiendo que l < a, cual esla probabilidad de que la aguja intersecte alguna de las rectas?

Localizamos la aguja mediante la distancia ρ de su centro a la recta mas cercana y elangulo agudo θ entre la recta y la aguja: 0 ≤ ρ ≤ a y 0 ≤ θ ≤ π/2. El rectangulo determinadopor esas desigualdades es el espacio muestral Ω. El evento A = “la aguja interesecta la recta”

ocurre si ρ ≤ l sen θ. La probabilidad de A es el cociente del area de la figura determinadapor las tres desigualdades 0 ≤ ρ ≤ a, 0 ≤ θ ≤ π/2 y ρ ≤ l sen θ y el area del rectangulo πa/2.

El area de la figura es∫ π/20 l sen(θ)dθ = l. Por lo tanto, la probabilidad de interseccion es

P(A) =2l

πa. (12)

La formula (12) indica un metodo aleatorio para estimar π: arrojar la aguja n veces sobre elplano y contar n(A) la cantidad de veces que la aguja interesecto alguna recta:

π = 2(l/a)(n/n(A)).

4.3. Paradoja de Bertrand

Se dibuja una cuerda aleatoria CD sobre el cırculo de radio 1. ¿Cual es la probabilidad quela longitud de la cuerda CD supere

√3, la longitud del lado del triangulo equilatero inscripto

en dicho cırculo?Este es un ejemplo de un problema planteado de manera incompleta. La pregunta que

debe formularse es la siguiente ¿que significa elegir “aleatoriamente”? Bertrand propuso tresrespuestas diferentes a esa pregunta. Las diferentes respuestas corresponden en realidad adiferentes modelos probabilısticos, i.e., diferentes espacios de probabilidad concretos (Ω,A, P).

Primer modelo. Sea Ω1 la bola de radio 1, Ω1 = (x, y) ∈ R2 : x2 + y2 ≤ 1, con la

σ-algebra A de los “subconjuntos cuya area esta definida”. Para cada A ∈ A,

P1(A) =area(A)

area(Ω)=

area(A)

π.

C y D se construyen del siguiente modo: usando la ley de distribucion P1 se sortea unpunto ω sobre la bola de radio 1 y CD es perpendicular al segmento 0ω cuyos extremosson (0, 0) y ω. La longitud de CD es una funcion de ω que llamaremos ℓ(ω). Queremoscalcular P1(ℓ(ω) ≥

√3). Notar que

ℓ(ω) ≥√

3 ⇐⇒ longitud(0ω) ≥ 1

2.

Por lo tanto,

P1(ℓ(ω) ≥√

3) =π − π/4

π=

3

4.

17

Page 54: espacios de probabilidad

Segundo modelo. Sea Ω2 el cırculo de radio 1, Ω2 = (x, y) ∈ R2 : x2 + y2 = 1, con la

σ-algebra A de los “subconjuntos cuya longitud esta definida”. Para cada A ∈ A,

P2(A) =longitud(A)

longitud(Ω))=

longitud(A)

2π.

C y D se construyen del siguiente modo: Se fija el punto C; con la ley P2 se sortea unpunto ω sobre el cırculo de radio 1 y se pone D = ω. La longitud de CD es una unafuncion de ω que llamaremos ℓ(ω). El conjunto ω : ℓ(ω)) ≥

√3 es el segmento del

cırculo determinado dos vertices del triangulo equilatero inscripto en el cırculo, a saber:los del lado opuesto al vertice C. Por lo tanto,

P2(ℓ(ω) ≥√

3) =2π/3

2π=

1

3.

Tercer modelo. Sea Ω3 el intervalo [0, 1] con la σ-algebra A de los “subconjuntos cuyalongitud esta definida”. Para cada A ∈ A,

P3(A) = longitud(A).

C y D se construyen del siguiente modo: se sortea un punto ω sobre el intervalo [0, 1]del eje x y CD es la cuerda perpendicular al eje x que pasa por ω. Es claro que,

ℓ(ω) ≥√

3 ⇐⇒ ω ∈ [1/2, 1].

Por lo tanto, la tercer respuesta es 1/2.

Nota Bene. Obtuvimos 3 respuestas diferentes: 1/4, 1/3 y 1/2. Sin embargo, no hay porquesorprenderse debido a que los modelos probabilısticos correspondientes a cada respuesta sondiferentes. Cual de los tres es el “bueno” es otro problema. El modelo correcto dependedel mecanismo usado para dibujar la cuerda al azar. Los tres mecanismos anteriores sonpuramente intelectuales, y muy probablemente, no corresponden a ningun mecanismo fısico.Para discriminar entre modelos probabilısticos en competencia se debe recurrir al analisisestadıstico que esencialmente se basa en dos resultados de la Teorıa de Probabilidad: la leyfuerte de los grandes numeros y el teorema central del lımite.

4.4. De las masas puntuales a la masa continua

Para concluir esta seccion mostraremos un par de metodos para construir medidas deprobabilidad sobre R

n.

Masas puntuales. Tomamos una sucesion de puntos x1,x2, . . . en Rn y una sucesion de

numeros no negativos p(x1), p(x2), . . . tales que

∞∑

i=1

p(xi) = 1

y para cada A ⊂ Rn definimos P(A) como la suma de las “masas puntuales”, p(xi), de los

puntos xi contenidos en A:

P(A) :=∑

xi∈A

p(xi).

18

Page 55: espacios de probabilidad

Nota Bene. El metodo de las masas puntuales puede generalizarse de la siguiente forma:la suma

xise reemplaza por la integral

dx y las masas puntuales p(xi) por una funcionρ(x) denominada densidad de probabilidades. Esta metodologıa es de uso comun en mecanica:primero se consideran sistemas con masas puntuales discretas donde cada punto tiene masafinita y despues se pasa a la nocion de distribucion de masa continua, donde cada punto tienemasa cero. En el primer caso, la masa total del sistema se obtiene simplemente sumandolas masas de los puntos individuales; en el segundo caso, las masas se calculan medianteintegracion sobre densidades de masa. Salvo por las herramientas tecnicas requeridas, no haydiferencias esenciales entre ambos casos.

Definicion 4.4. Una densidad de probabilidades sobre Rn es una funcion (“mas o menos

razonable”) no negativa ρ : Rn → R

+ tal que∫

Rn

ρ(x) dx = 1.

Masa continua. Tomamos una densidad de probabilidades ρ : Rn → R

+ y para cadasubconjunto A ⊂ R

n (“mas o menos razonable”) y definimos P(A) como la integral de ladensidad ρ(x) sobre el conjunto A:

P(A) :=

Aρ(x)dx

Ejemplo 4.5 (Gaussiana). La funcion ρ : R2 → R

+ definida por

ρ(x, y) =1

2πexp

(

−x2 + y2

2

)

es una densidad de probabilidades sobre R2 denominada gaussiana bidimensional. En efecto,

∫∫

R2

2πρ(x, y)dxdy =

∫∫

R2

exp

(

−x2 + y2

2

)

dxdy

= 2

∫∫

R2

exp(

−(x2 + y2))

dxdy

= 2

∫ 2π

0

(∫ ∞

0e−ρ2

ρ dρ

)

=

∫ 2π

0

(∫ ∞

0e−ρ2

2ρ dρ

)

= 2π. (13)

Nota Bene. Observando con cuidado las identidades (13) se puede ver que∫

R

e−x2/2dx =√

2π.

Por lo tanto, la funcion ϕ : R → R+ definida por

ϕ(x) =1√2π

e−x2/2

es una densidad de probabilidades sobre R.

19

Page 56: espacios de probabilidad

5. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.(2000)

2. Bremaud, P.: An Introduction to Probabilistic Modeling. Springer, New York. (1997)

3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, NewYork. (2009)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1957)

5. Grinstead, C. M. & Snell, J. L. Introduction to Probability. American MathematicalSociety. (1997)

6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,Massachusetts. (1972)

8. Ross, S. M: Introduction to Probability and Statistics foe Engineers and Scientists.Elsevier Academic Press, San Diego. (2004)

9. Skorokhod, A. V.: Basic Principles and Applications of Probability Theory. Springer-Verlag, Berlin. (2005)

10. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &Sons Ltd. (2004)

20

Page 57: espacios de probabilidad

Variables aleatorias: nociones basicas

(Borradores, Curso 23)

Sebastian Grynberg

20 de marzo 2013

... el unico heroe valido es el heroe “en grupo”,

nunca el heroe individual, el heroe solo.

(Hector G. Oesterheld)

1

Page 58: espacios de probabilidad

Indice

1. Variables aleatorias 31.1. Propiedades de la funcion de distribucion . . . . . . . . . . . . . . . . . . . . 61.2. Clasificacion de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 71.3. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4. Construccion de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . 131.5. Funcion de distribucion empırica e histogramas . . . . . . . . . . . . . . . . . 17

2. Variables truncadas 212.1. Perdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2. Caracterizacion cualitativa de la distribucion exponencial . . . . . . . . . . . 232.3. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3. Bibliografıa consultada 24

2

Page 59: espacios de probabilidad

1. Variables aleatorias

Sea (Ω,A, P) un espacio de probabilidad. Una variable aleatoria sobre Ω es una funcionX : Ω → R tal que para todo x ∈ R

X ≤ x := ω ∈ Ω : X(ω) ≤ x ∈ A,

i.e., para todo x ∈ R el evento X ≤ x tiene asignada probabilidad. La funcion de distribu-

cion FX : R → [0, 1] de la variable aleatoria X se define por

FX(x) := P(X ≤ x).

Calculo de probabilidades. La funcion de distribucion resume (y contiene) toda la in-formacion relevante sobre de la variable aleatoria. Para ser mas precisos, para cada pareja denumeros reales a < b vale que 1

P(a < X ≤ b) = FX(b) − FX(a). (1)

Ejemplos

Ejemplo 1.1 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.Los posibles valores de X son 1, 2, 3, 4, 5, 6. Para cada k ∈ 1, 2, 3, 4, 5, 6 la probabilidad deque X tome el valor k es 1/6.

Sea x ∈ R. Si x < 1 es evidente que P(X ≤ x) = 0. Si k ≤ x < k + 1 para algunk ∈ 1, 2, 3, 4, 5 la probabilidad del evento X ≤ x es la probabilidad de observar un valormenor o igual que k y en consecuencia, P(X ≤ x) = k/6. Finalmente, si x ≥ 6 es evidenteque P(X ≤ x) = 1.

x

1/6

2/6

3/6

4/6

5/6

1

1 2 30 4 5 6

Figura 1: Grafico de la funcion de distribucion del resultado de lanzar un dado equilibrado.

Por lo tanto, la funcion de distribucion de X se puede expresar del siguiente modo

FX(x) =6∑

k=1

1

61k ≤ x.

1Basta observar que X ≤ a ⊂ X ≤ b y usar las propiedades de la probabilidad. De la igualdada < X ≤ b = X ≤ b \ X ≤ a se deduce que P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX(b) − FX(a).

3

Page 60: espacios de probabilidad

Ejemplo 1.2 (Fiabilidad). Un problema fundamental de la ingenierıa es el problema de lafiabilidad. Informalmente, la fiabilidad de un sistema se define como su capacidad para cumplirciertas funciones prefijadas. Esta propiedad se conserva durante un perıodo de tiempo hastaque ocurre una falla que altera la capacidad de trabajo del sistema. Por ejemplo: rupturas ycortocircuitos; fracturas, deformaciones y atascamientos de piezas mecanicas; el fundido o lacombustion de las componentes de un circuito.

Debido a que las fallas pueden ocurrir como hechos casuales, podemos considerar que el

tiempo de funcionamiento, T , hasta la aparicion de la primer falla es una variable aleatoriaa valores no negativos.

La fiabilidad de un sistema se caracteriza por su funcion intensidad de fallas λ(t). Estafuncion temporal tiene la siguiente propiedad: cuando se la multiplica por dt se obtiene laprobabilidad condicional de que el sistema sufra una falla durante el intervalo de tiempo(t, t + dt] sabiendo que hasta el momento t funcionaba normalmente. Si se conoce la funcionλ(t) se puede hallar la ley de distribucion de probabilidades de T .

Para calcular la funcion de distribucion de T estudiaremos dos eventos: A := T > t (elsistema funciona hasta el momento t) y B := t < T ≤ t + dt (el sistema sufre una falla enel intervalo de tiempo (t, t + dt]). Como B ⊂ A, tenemos que P(B) = P(B ∩ A) y de la regladel producto se deduce que

P(B) = P(B|A)P(A). (2)

Si la funcion de distribucion de T admite derivada continua, salvo terminos de segundo ordenque se pueden despreciar, la probabilidad del evento B se puede expresar en la forma

P(B) = P (t < T ≤ t + dt) = FT (t + dt) − FT (t) = F ′T (t)dt. (3)

La probabilidad del evento A se puede expresar en la forma

P(A) = P(T > t) = 1 − P(T ≤ t) = 1 − FT (t). (4)

Finalmente, la probabilidad condicional P(B|A) se expresa mediante la funcion intensidad defallas λ(t):

P(B|A) = λ(t)dt (5)

Sustituyendo las expresiones (3)-(5) en la formula (2) obtenemos, despues de dividir ambosmiembros por dt, una ecuacion diferencial de primer orden para FT (t)

F ′T (t) = λ(t)(1 − FT (t)). (6)

Debido a que la duracion del servicio del sistema no puede ser negativa, el evento T ≤ 0 esimposible. En consecuencia, FT (0) = 0. Integrando la ecuacion diferencial (6) con la condicioninicial F (0) = 0, obtenemos 2

FT (t) = 1 − exp

(

∫ t

0λ(s)ds

)

. (7)

2

F′

T (t) = λ(t)(1 − FT (t)) ⇐⇒F

T (t)

1 − FT (t)= λ(t) ⇐⇒

d

dtlog(1 − FT (t)) = −λ(t)

⇐⇒ log(1 − FT (t)) = −

Z t

0

λ(s)ds + C ⇐⇒ FT (t) = 1 − exp

Z t

0

λ(s)ds + C

«

.

Usando que FT (0) = 0 se deduce que C = 0.

4

Page 61: espacios de probabilidad

Nota Bene. El desarrollo anterior presupone que la funcion intensidad de fallas λ(t) verificalas siguientes condiciones: (1) λ(t) ≥ 0 para todo t > 0 y (2)

∫∞0 λ(t)dt = +∞.

Ejemplo 1.3 (Fiabilidad). Se estipula que la duracion de servicio de un sistema automaticodebe ser t0. Si durante ese perıodo el sistema falla, se lo repara y se lo utiliza hasta que sirvael plazo estipulado. Sea S el tiempo de funcionamiento del sistema despues de la primerareparacion. Queremos hallar la funcion de distribucion de S.

En primer lugar observamos que la relacion entre la variable aleatoria S y el instante Ten que ocurre la primera falla del sistema es la siguiente

S = max(t0 − T, 0) =

t0 − T si T ≤ t0,0 si T > t0.

Sea FS(s) la funcion de distribucion de la variable S. Es claro que para s < 0, FS(s) = 0 yque para s ≥ t0, FS(s) = 1. Lo que falta hacer es analizar el comportamiento de FS sobre elintervalo 0 ≤ s < t0. Sea s ∈ [0, t0)

FS(s) = P(S ≤ s) = P(max(t0 − T, 0) ≤ s) = P(t0 − T ≤ s, 0 ≤ s)

= P(t0 − T ≤ s) = P(t0 − s ≤ T ) = exp

(

∫ t0−s

0λ(t)dt

)

,

donde λ(t) es la funcion intensidad de fallas del sistema.

1

exp“

R t0

0λ(t)dt

t0 s0

Figura 2: Grafico de la funcion de distribucion de la variable aleatoria S.

Por lo tanto,

FS(s) = exp

(

∫ t0−s

0λ(t)dt

)

10 ≤ s < t0 + 1s ≥ t0.

Ejercicios adicionales

1. Sea X una variable aleatoria con funcion de distribucion FX(x). Mostrar que para cadapareja de numeros reales a < b vale que:

P(a ≤ X ≤ b) = FX(b) − FX(a) + P(X = a) (8)

P(a ≤ X < b) = FX(b) − P(X = b) − FX(a) + P(X = a) (9)

P(a < X < b) = FX(b) − P(X = b) − FX(a) (10)

5

Page 62: espacios de probabilidad

Notar que las formulas (8)-(10), junto con (1), muestran como calcular la probabilidad deque la variable aleatoria X tome valores en un intervalo de extremos a y b y contienen unaadvertencia sobre la acumulacion de masa positiva en alguno de los dos extremos.

1.1. Propiedades de la funcion de distribucion

Lema 1.4. Sea X : Ω → R una variable aleatoria. La funcion de distribucion de X, FX(x) =P(X ≤ x), tiene las siguientes propiedades:

(F1) es no decreciente: si x1 ≤ x2, entonces FX(x1) ≤ FX(x2);

(F2) es continua a derecha: para todo x0 ∈ R vale que lımx↓x0

FX(x) = FX(x0);

(F3) lımx→−∞

FX(x) = 0 y lımx→∞

FX(x) = 1.

Demostracion.La propiedad (F1) se deduce de la formula (1).La propiedad (F2) es consecuencia del axioma de continuidad de la medida de probabilidad

P. Se considera una sucesion decreciente de numeros positivos que converge a 0, ǫ1 > ǫ2 >. . . > 0, arbitraria, pero fija y se definen eventos An = x0 < X ≤ x0 + ǫn. Se observa queA1 ⊃ A2 ⊃ · · · y

n∈N

An = ∅:

0 = lımn→∞

P(An) = lımn→∞

P(x0 < X ≤ x0 + ǫn) = lımn→∞

F (x0 + ǫn) − F (x0).

Por lo tanto,F (x0) = lım

n→∞F (x0 + ǫn).

Las propiedades (F3) se demuestran de manera similar.

Observacion 1.5. Si se define

FX(x−0 ) := lım

x↑x0

FX(x),

entonces FX(x−0 ) = P(X < x0). Por lo tanto, P(X = x0) = FX(x0) − FX(x−

0 ). En particular,si FX(x) es continua en x0, entonces P(X = x0) = 0. Si P(X = x0) > 0, entonces FX(x) esdiscontinua en x0 y su discontinuidad es un salto de altura P(X = x0) > 0.

Ejercicios adicionales

2. Sea (Ω,A, P) un espacio de probabilidad y X : Ω → R una variable aleatoria con funcionde distribucion FX(x).

(a) Mostrar quelım

x→−∞FX(x) = 0 y lım

x→∞FX(x) = 1.

6

Page 63: espacios de probabilidad

(Sugerencia. Considerar sucesiones de eventos Bn = X ≤ −n y Cn = X ≤ n, n ∈ N, yutilizar el axioma de continuidad de la medida de probabilidad P.)

(b) Mostrar quelımx↑x0

FX(x) = P(X < x0).

(Sugerencia. Observar que si x ↑ x0, entonces X ≤ x ↑ X < x0 y utilizar el axioma decontinuidad de la medida de probabilidad P.)

1.2. Clasificacion de variables aleatorias

En todo lo que sigue, X designa una variable aleatoria definida sobre un espacio deprobabilidad (Ω,A, P) y FX(x) := P(X ≤ x) su funcion de distribucion.

Nota Bene. Al observar el grafico de una funcion de distribucion lo primero que llama laatencion son sus saltos y sus escalones.

Atomos. Diremos que a ∈ R es un atomo de FX(x) si su peso es positivo: P(X = a) =FX(a) − FX(a−) > 0.

El conjunto de todos los atomos de FX(x): A = a ∈ R : FX(a) − FX(a−) > 0, coincidecon el conjunto de todos los puntos de discontinuidad de FX(x). El peso de cada atomocoincide con la longitud del salto dado por la funcion de distribucion en dicho atomo. Enconsecuencia, existen a lo sumo un atomo de probabilidad > 1

2 , a lo sumo dos atomos deprobabilidad > 1

3 , etcetera. Por lo tanto, es posible reordenar los atomos en una sucesiona1, a2, . . . tal que P(X = a1) ≥ P(X = a2) ≥ · · · . En otras palabras, existen a lo sumo

numerables atomos.La propiedad de σ-aditividad de la medida de probabilidad P implica que el peso total

del conjunto A no puede exceder la unidad:∑

a∈AP(X = a) ≤ 1.

Definicion 1.6 (Variables discretas). Diremos que X es una variable aleatoria discreta si

a∈A

P(X = a) = 1.

En tal caso, la funcion pX : A → R definida por pX(x) = P(X = x) se denomina la funcion

de probabilidad de X.

Escalones. Sea X una variable aleatoria discreta. Si a1 < a2 son dos atomos consecutivos,entonces FX(x) = FX(a1) para todo x ∈ (a1, a2). En otras palabras, la funcion de distribucion

de una variable aleatoria discreta debe ser constante entre saltos consecutivos.Si no lo fuera, deberıan existir dos numeros x1 < x2 contenidos en el intervalo (a1, a2)

tales que FX(x1) < FX(x2). En tal caso,

P (X ∈ A ∪ (x1, x2]) = P(X ∈ A) + P (x1 < X ≤ x2) =∑

a∈A

P(X = a) + FX(x2) − FX(x1)

= 1 + FX(x2) − FX(x1) > 1.

lo que constituye un absurdo.

7

Page 64: espacios de probabilidad

Definicion 1.7 (Variables continuas). Diremos que X es una variable aleatoria continua sisu funcion de distribucion es continua.

Definicion 1.8 (Variables mixtas). Diremos que X es una variable aleatoria mixta si no escontinua ni discreta.

Definicion 1.9 (Variables absolutamente continuas). Diremos que X es absolutamente con-

tinua si existe una funcion (medible) fX : R → R+, llamada densidad de X, tal que cua-

lesquiera sean −∞ ≤ a < b < ∞ vale que

P(a < X ≤ b) =

∫ b

afX(x) dx. (11)

En particular, para cada x ∈ R, vale que

FX(x) = P(X ≤ x) =

∫ x

−∞fX(t) dt. (12)

Nota Bene. Notar que de (12) se deduce que

∫ ∞

−∞fX(x)dx = 1.

Aplicando en (12) el teorema Fundamental del Calculo Integral, se obtiene que si X es abso-

lutamente continua, FX(x) es una funcion continua para todo x, y su derivada es fX(x) entodos los x donde fX es continua.

Como la expresion “absolutamente continua” es demasiado larga, se suele hablar simple-mente de “distribuciones continuas”. Sin embargo, hay que tener en cuenta que el hecho deque FX sea una funcion continua, no implica que la distribucion de X sea absolutamente con-tinua: hay funciones monotonas y continuas, que sin embargo no son la primitiva de ningunafuncion. (Para mas detalles consultar el ejemplo sobre distribuciones tipo Cantor que esta enFeller Vol II, p.35-36).

Interpretacion intuitiva de la densidad de probabilidad. Sea X una variable aleatoriaabsolutamente continua con funcion densidad fX(x) continua. Para cada ǫ > 0 pequeno ypara x ∈ R vale que

P (x − ǫ/2 < X ≤ x + ǫ/2) =

∫ x+ε/2

x−ǫ/2fX(t) dt ≈ fX(x)ǫ.

Dicho en palabras, la probabilidad de que el valor de X se encuentre en un intervalo delongitud ǫ centrado en x es aproximadamente fX(x)ǫ.

Ejemplos

Ejemplo 1.10. El resultado, X, del lanzamiento de un dado equilibrado (ver Ejemplo 1.1) esuna variable aleatoria discreta. Esto resulta evidente de observar que el grafico de la funcionde distribucion de X (ver Figura 1) que tiene la forma de una escalera con saltos de altura1/6 en los puntos 1, 2, 3, 4, 5, 6. Dicho en otras palabras, toda la masa de la variable aleatoriaX esta concentrada en el conjunto de los atomos de FX , A = 1, 2, 3, 4, 5, 6.

8

Page 65: espacios de probabilidad

Ejemplo 1.11 (Numeros al azar). El resultado de “sortear” un numero al azar sobre elintervalo (0, 1) es una variable aleatoria absolutamente continua. La probabilidad del eventoU ≤ u es igual a la longitud del intervalo (−∞, u] ∩ (0, 1).

Notar que cuando u ≤ 0 el intervalo (−∞, u] ∩ (0, 1) se reduce al conjunto vacıo que pordefinicion tiene longitud 0. Por otra parte, para cualquier u ∈ (0, 1) se tiene que (−∞, u] ∩(0, 1) = (0, u) y en consecuencia P(U ≤ u) = u; mientras que si u ≥ 1, (−∞, u]∩(0, 1) = (0, 1)de donde sigue que P(U ≤ u) = 1. Por lo tanto, la funcion de distribucion de U es

FU (u) = u10 ≤ u < 1 + 1u ≥ 1.

1

1

u0

Figura 3: Grafico de la funcion de distribucion del resultado de “sortear” un numero al azar.

Derivando, respecto de u, la funcion de distribucion FU (u) se obtiene una funcion densidadpara U :

fU (u) = 10 < u < 1.

Nota Bene. Sortear un numero al azar sobre el intervalo (0, 1) es un caso particular deuna familia de variables aleatorias denominadas uniformes. Una variable aleatoria X, definidasobre un espacio de probabilidad (Ω,A, P), se denomina uniformemente distribuida sobre el

intervalo (a, b), donde a < b, si X es absolutamente continua y admite una funcion densidadde la forma

fX(x) =1

b − a1x ∈ (a, b).

En tal caso escribiremos X ∼ U(a, b).

Comentario. En la Seccion 1.4 mostraremos que todas las variables aleatorias se puedenconstruir utilizando variables aleatorias uniformemente distribuidas sobre el intervalo (0, 1).

Ejemplo 1.12. El tiempo, T , de funcionamiento hasta la aparicion de la primera falla paraun sistema con funcion intensidad de fallas continua λ(t) (ver Ejemplo 1.2) es una variablealeatoria absolutamente continua que admite una densidad de la forma

fT (t) = λ(t) exp

(

∫ t

0λ(s)ds

)

1t > 0. (13)

.

9

Page 66: espacios de probabilidad

Nota Bene: algunos casos particulares del Ejemplo 1.12. El comportamiento de ladensidad (13) depende de la forma particular de la funcion intensidad de fallas λ(t). En loque sigue mostraremos algunos casos particulares.

Exponencial de intensidad λ. Se obtiene poniendo λ(t) = λ1t ≥ 0, donde λ es unaconstante positiva, arbitraria pero fija.

fT (t) = λ exp (−λt)1t > 0. (14)

.

Weibull de parametros c y α. Se obtiene poniendo λ(t) = cα

(

)c−11t ≥ 0, donde

c > 0 y α > 0. En este caso, la densidad (13) adopta la forma

fT (t) =c

α

(

t

α

)c−1

exp

(

(

t

α

)c)

. (15)

0 0.5 1 1.5 2 2.5 3 3.5 40

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

Figura 4: Graficos de las densidades Weibull de parametro de escala α = 1 y parametro deforma: c = 1, 2, 4: en lınea solida c = 1; en lınea quebrada c = 2 y en lınea punteada c = 4.

Notar que la exponencial de intensidad λ es un caso especial de la Weibull puesto que (14) seobtiene de (15) poniendo c = 1 y α = λ−1.

Ejemplo 1.13. La variable aleatoria, S, considerada en el Ejemplo 1.3 es una variable aleato-ria mixta (ver Figura 2) porque no es discreta ni continua. Tiene un unico atomo en s = 0 y

su peso es exp(

−∫ t00 λ(x)dx

)

.

10

Page 67: espacios de probabilidad

1.3. Cuantiles

Definicion 1.14. Sea α ∈ (0, 1). Un cuantil-α de X es cualquier numero xα ∈ R tal que

P(X < xα) ≤ α y α ≤ P(X ≤ xα). (16)

Observacion 1.15. Notar que las desigualdades que caracterizan a los cuantiles-α se puedenreescribir de la siguiente manera

FX(xα) − P(X = xα) ≤ α y α ≤ FX(xα). (17)

Por lo tanto, si FX(x) es continua, xα es un cuantil α si y solo si

FX(xα) = α. (18)

Interpretacion “geometrica” del cuantil-α. Si X es una variable aleatoria absoluta-mente continua con funcion de densidad fX(x) el cuantil-α de X es la unica solucion de laecuacion

∫ xα

−∞fX(x)dx = α.

Esto significa que el cuantil-α de X es el unico punto sobre el eje de las abscisas a cuyaizquierda el area bajo la funcion de densidad fX(x) es igual a α.

Nota Bene. Sea x ∈ R. Las desigualdades (17) significan que x es un cuantil-α si y solo si

α ∈ [F (x) − P(X = x), F (x)]

Nota Bene. El cuantil-α siempre existe. Sea α ∈ (0, 1), la existencia del cuantil α se deduceanalizando el conjunto Rα

X = x ∈ R : α ≤ FX(x).

1. RαX es no vacıo porque lım

x→∞FX(x) = 1.

2. RαX es acotado inferiormente porque lım

x→−∞FX(x) = 0.

3. Si x0 ∈ RαX , entonces [x0, +∞) ⊂ Rα

X porque FX(x) es no decreciente.

4. ınf RαX ∈ Rα

X porque existe una sucesion xn : n ∈ N ⊂ RαX tal que xn ↓ ınf R

αX y

FX(x) es una funcion continua a derecha:

α ≤ lımn→∞

FX(xn) = FX

(

lımn→∞

xn

)

= FX (ınf RαX) .

De las propiedades anteriores se deduce que

RαX = [ınf Rα

X , +∞) = [mınRαX , +∞) .

Hay dos casos posibles: (a) FX(mın RαX) = α o (b) FX(mın Rα

X) > α.

(a) Si FX(mın RαX) = α, entonces P(X < mınRα

X) = α − P(X = mın RαX) ≤ α.

11

Page 68: espacios de probabilidad

(b) Si FX(mın RαX) > α, entonces

P(X < x) < α ∀x < mınRαX (19)

porque sino existe un x < mın Rαx tal que α ≤ P(X < x) ≤ FX(x) y por lo tanto,

x ∈ RαX lo que constituye un absurdo.

De (19) se deduce que P(X < mınRαX) = lım

x↑mın RαX

FX(x) ≤ α.

En cualquiera de los dos casos

xα = mın x ∈ R : FX(x) ≥ α (20)

es un cuantil-α.

Nota Bene. Si FX es discontinua, (18) no tiene siempre solucion; y por eso es mejor tomar(16) como definicion. Si FX es estrictamente creciente, los cuantiles son unicos. Pero si no,los valores que satisfacen (18) forman un intervalo.

Cuartiles y mediana. Los cuantiles correspondientes a α = 0.25, 0.50 y 0.75 son respecti-vamente el primer, el segundo y tercer cuartil. El segundo cuartil es la mediana.

Ejemplos

Ejemplo 1.16. En el Ejemplo 1.1 hemos visto que la funcion de distribucion del resultadodel lanzamiento de un dado equilibrado es una escalera con saltos de altura 1/6 en los puntos1, 2, 3, 4, 5, 6:

FX(x) =

5∑

i=1

i

61 i ≤ x < i + 1 + 16 ≤ x.

Como la imagen de FX es el conjunto 0, 1/6, 2/6, 3/6, 4/6, 5/6, 1 la ecuacion (18) solo tienesolucion para α ∈ 1/6, 2/6, 3/6, 4/6, 5/6. Mas aun, para cada i = 1, . . . , 5

FX(x) =i

6⇐⇒ x ∈ [i, i + 1).

En otras palabras, para cada i = 1, . . . , 5 los cuantiles-i/6 de X son el intervalo [i, i + 1). Enparticular, “la” mediana de X es cualquier punto del intervalo [3, 4).

Para cada α ∈(

i−16 , i

6

)

, i = 1, . . . , 6, el cuantil α de X es xα = i.

Ejemplo 1.17. Sea T el tiempo de funcionamiento hasta la aparicion de la primera falla paraun sistema con funcion intensidad de fallas λ(t) = 2t1t ≥ 0 (ver Ejemplo 1.2). La funcionde distribucion de T es

FT (t) =

(

1 − exp

(

∫ t

02sds

))

1t > 0 =(

1 − exp(

−t2))

1t > 0. (21)

Como FT (t) es continua los cuantiles-α, α ∈ (0, 1), se obtienen resolviendo la ecuacion (18):

FT (t) = α ⇐⇒ 1 − exp(

−t2)

= α ⇐⇒ t =√

− log(1 − α).

Por lo tanto, para cada α ∈ (0, 1) el cuantil-α de T es

tα =√

− log(1 − α). (22)

En particular, la mediana de T es t0.5 =√

− log(1 − 0.5) ≈ 0.8325.

12

Page 69: espacios de probabilidad

Ejemplo 1.18. Se considera un sistema con funcion intensidad de fallas λ(t) = 2t1t ≥ 0.El sistema debe prestar servicios durante 1 hora. Si durante ese perıodo el sistema falla, se lorepara y se lo vuelve a utiliza hasta que cumpla con el el plazo estipulado. Sea S el tiempode funcionamiento (medido en horas) del sistema despues de la primera reparacion.

En el Ejemplo 1.3 vimos que la funcion de distribucion de S es

FS(s) = exp

(

∫ 1−s

02tdt

)

10 ≤ s < 1 + 1s ≥ 1

= exp(

−(1 − s)2)

10 ≤ s < 1 + 1s ≥ 1,

y que S es una variable aleatoria mixta (ver Figura 2) con un unico atomo en s = 0 cuyopeso es e−1. En consecuencia, s = 0 es un cuantil-α de S para todo α ∈

(

0, e−1]

. Restringidaal intervalo (0, 1) la funcion FS(s) es continua y su imagen es el intervalo (e−1, 1). Por ende,para cada α ∈ (e−1, 1) el cuantil-α de S se obtiene resolviendo la ecuacion FS(s) = α:

FS(s) = α ⇐⇒ exp(

−(1 − s)2)

= α ⇐⇒ −(1 − s)2 = log(α)

⇐⇒ (1 − s)2 = − log(α) ⇐⇒ |1 − s| =√

− log(α)

⇐⇒ 1 − s =√

− log(α) ⇐⇒ 1 −√

− log(α) = s.

Por lo tanto, para cada α ∈ (e−1, 1) el cuantil-α de S es

sα = 1 −√

− log(α).

En particular, la mediana de S es s0.5 = 1 −√

− log(0.5) ≈ 0.1674.

1.4. Construccion de variables aleatorias

Teorema 1.19 (Simulacion). Sea F : R → [0, 1] una funcion con las siguientes propiedades

(F1) es no decreciente: si x1 ≤ x2, entonces F (x1) ≤ F (x2);

(F2) es continua a derecha: para todo x0 ∈ R vale que lımx↓x0

F (x) = F (x0);

(F3) lımx→−∞

F (x) = 0 y lımx→∞

F (x) = 1.

Existe una variable aleatoria X tal que F (x) = P(X ≤ x).

Esquema de la demostracion.1o) Definir la inversa generalizada de F mediante

F−1(u) := mınx ∈ R : u ≤ F (x), u ∈ (0, 1).

2o) Definir X mediante

X := F−1(U), donde U ∼ U(0, 1).

3o) Observar que vale la equivalencia (inmediata) F−1(u) ≤ x ⇔ u ≤ F (x) y deducir queP(X ≤ x) = P(F−1(U) ≤ x) = P(U ≤ F (x)) = F (x).

Observacion 1.20. Si la funcion F del enunciado del Teorema 1.19 es continua, la inversageneralizada es simplemente la inversa.

13

Page 70: espacios de probabilidad

Nota Bene. El esquema de la demostracion del Teorema 1.19 muestra como se construye

una variable aleatoria X con funcion de distribucion FX(x). La construccion es clave para sim-ular variables aleatorias en una computadora: algoritmos estandar generan variables aleatoriasU con distribucion uniforme sobre el intervalo (0, 1), aplicando la inversa generalizada de lafuncion de distribucion se obtiene la variable aleatoria F−1

X (U) cuya funcion de distribuciones FX(x).

Metodo grafico para calcular inversas generalizadas. Sea u ∈ (0, 1), por definicion,F−1(u) := mınx ∈ R : u ≤ F (x), 0 < u < 1. Graficamente esto significa que para calcularF−1(u) hay que determinar el conjunto de todos los puntos del grafico de F (x) que estansobre o por encima de la recta horizontal de altura u y proyectarlo sobre el eje de las abscisas.El resultado de la proyeccion es una semi-recta sobre el eje de las abscisas y el valor de laabscisa que la cierra por izquierda es el valor de F−1(u).

Ejemplo 1.21 (Moneda cargada). Se quiere simular el lanzamiento de una moneda “cargada”

con probabilidad p ∈ (0, 1) de salir cara. El problema se resuelve construyendo una variablealeatoria X a valores 0, 1 tal que P(X = 1) = p y P(X = 0) = 1 − p, (X = 1 representa elevento “la moneda sale cara” y X = 0 “la moneda sale ceca”). La funcion de distribucion deX debe ser F (x) = (1 − p)10 ≤ x < 1 + 1x ≥ 1 y su grafico se muestra en la Figura 5.

u

1 x

1 − p

p

1

0

Figura 5: Grafico de la funcion F (x) = (1 − p)10 ≤ x < 1 + 1x ≥ 1.

La demostracion del Teorema 1.19 indica que para construir la variable aleatoria X loprimero que hay que hacer es determinar la expresion de la inversa generalizada de F (x).Para ello usaremos el metodo grafico.

En la Figura 5 se puede ver que para cada 0 < u ≤ 1 − p el conjunto x ∈ R : u ≤ F (x)es la semi-recta [0,∞) y el punto que la cierra por izquierda es x = 0. En consecuenciaF−1(u) = 0 para todo 0 < u ≤ 1 − p. Del mismo modo se puede ver que F−1(u) = 1 paratodo 1 − p < u < 1. Por lo tanto, F−1(u) = 11 − p < u < 1.

Definiendo X := 11 − p < U < 1, donde U ∼ U(0, 1) se obtiene la variable aleatoriadeseada.

Ejemplo 1.22 (Moneda cargada). Simular diez lanzamientos de una moneda “cargada” con

probabilidad 0.6 de salir cara en cada lanzamiento.

De acuerdo con el resultado obtenido en el Ejemplo 1.21, para simular el lanzamientode una moneda cargada con probabilidad 0.6 de salir cara se construye la variable aleatoriaX := 10.4 < U < 1, donde U ∼ U(0, 1).

14

Page 71: espacios de probabilidad

Para simular 10 valores de X se simulan 10 valores de U . Si en 10 simulaciones de Use obtuviesen los valores 0.578, 0.295, 0.885, 0.726, 0.548, 0.048, 0.474, 0.722, 0.786, 0.598,los valores de la variable X serıan 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, respectivamente, y en tal caso, losresultados de los 10 lanzamientos de la moneda serıan H, T, H, H, H, T, H, H, H, H.

Ejemplo 1.23 (Fiabilidad). Se considera un sistema electronico con funcion intensidad de

fallas de la forma λ(t) = 2t1t > 0. Se quiere estimar la funcion de probabilidad de la

cantidad de fallas ocurridas durante la primer unidad de tiempo de funcionamiento.

Para simplificar el problema vamos a suponer que cada vez que se produce una falla, elsistema se repara instantaneamente renovandose sus condiciones iniciales de funcionamien-to. Segun el Ejemplo 1.2, la funcion de distribucion del tiempo de funcionamiento hasta laaparicion de la primer falla es

F (t) =(

1 − exp(

−t2))

1t > 0. (23)

Debido a que la funcion de distribucion F (t) es continua, su inversa generalizada es simple-mente su inversa y se obtiene despejando t de la ecuacion 1−exp

(

−t2)

= u. En consecuencia,

F−1(u) =√

− log(1 − u), u ∈ (0, 1). Para construir la variable T usamos un numero aleatorioU , uniformemente distribuido sobre el intervalo (0, 1) y definimos

T := F−1(U) =√

− log(1 − U). (24)

La ventaja de la construccion es que puede implementarse casi de inmediato en una computa-dora. Por ejemplo, una rutina en Octave para simular T es la siguiente

U=rand;

T=sqrt(-log(1-rand))

Sobre la base de esa rutina podemos simular valores de T . Por ejemplo, en diez simulacionesde T obtuvimos los valores siguientes: 0.3577, 1.7233, 1.1623, 0.3988, 1.4417, 0.3052, 1.1532,0.3875, 0.8493, 0.9888.

t

10 2 3 4 5 6 7 8 9

Figura 6: Simulacion de los tiempos de ocurrencia de las fallas de un sistema electronico confuncion intensidad de fallas de la forma λ(t) = 2t1t ≥ 0. Las fallas ocurren los instantes0.3577, 2.0811, 3.2434, 3.6422, 5.0839, 5.3892, 6.5423, 6.9298, 7.7791, 8.7679.

La rutina puede utilizarse para simular cien mil realizaciones del experimento que consisteen observar la cantidad de fallas durante la primer unidad de tiempo de funcionamientodel sistema electronico bajo consideracion: N [0, 1] := mın n ≥ 1 :

∑ni=1 Ti > 1 − 1, donde

T1, T2, . . . son realizaciones independientes de los tiempos de funcionamiento del sistema hastala ocurrencia de una falla.

Por ejemplo, repitiendo la simulacion 100000 veces obtuvimos la siguiente tabla que con-tiene la cantidad de veces que fue simulado cada valor de la variable N [0, 1]:

valor simulado 0 1 2 3 4

frecuencia 36995 51792 10438 743 32(25)

15

Page 72: espacios de probabilidad

obteniendose las siguientes estimaciones

P(N [0, 1] = 0) ≈ 0.36995, P(N [0, 1] = 1) ≈ 0.51792, P(N [0, 1] = 2) ≈ 0.10438,

P(N [0, 1] = 3) ≈ 0.00743, P(N [0, 1] = 4) ≈ 0.00032.

Para finalizar este ejemplo, presentamos una rutina en Octave que simula cien mil vecesla cantidad de fallas en la primer unidad de tiempo y que al final produce los resultados paraconstruir una tabla similar a la tabla (25).

for i=1:100000

n=-1;

S=0;

while S<=1;

T=sqrt(-log(1-rand));

S=S+T;

n=n+1;

end

f(i)=n;

end

M=max(f);

for i=1:M+1;

N(i)=length(find(f==i-1));

end

N

Ejemplo 1.24 (Saltando, saltando, sa, sa, sa, saltando,...

). La funcion

F (x) =∞∑

n=1

1

2n1x ≥ rn, (26)

donde r1, r2, . . . es un reordenamiento de los numeros racionales del intervalo (0, 1) con denom-inadores crecientes: 1

2 , 13 , 2

3 , 14 , 3

4 , 15 , 2

5 , 35 , 4

5 , . . . , tiene las siguientes propiedades es creciente,continua a derecha, lım

x→−∞F (x) = 0 y lım

x→∞F (x) = 1; tiene saltos en todos los numeros

racionales del (0, 1) y es continua en los irracionales del (0, 1).Pero no! Mejor no hablar de ciertas cosas ...

Ejercicios adicionales

3. Sea X una variable aleatoria con funcion de distribucion FX(x). Mostrar que para cadaα ∈ (0, 1) vale que

supx ∈ R : FX(x) < α = mınx ∈ R : FX(x) ≥ α.

16

Page 73: espacios de probabilidad

1.5. Funcion de distribucion empırica e histogramas

Distribucion empırica

La funcion de distribucion empırica Fn(x) de n puntos sobre la recta x1, . . . , xn es lafuncion escalera con saltos de altura 1/n en los puntos x1, . . . , xn. En otras palabras, nFn(x)es igual a la cantidad de puntos xk en (−∞, x] y Fn(x) es una funcion de distribucion:

Fn(x) =1

n|i = 1, . . . , n : xi ≤ x| =

1

n

n∑

i=1

1xi ≤ x. (27)

Nota Bene. En la practica, disponemos de conjuntos de observaciones (“muestras”) corre-spondientes a un experimento considerado aleatorio y queremos extraer de ellas conclusionessobre los modelos que podrıan cumplir. Dada una muestra x1, . . . , xn, la funcion de distribu-cion empırica Fn(x) coincide con la funcion de distribucion de una variable aleatoria discretaque concentra toda la masa en los valores x1, . . . , xn, dando a cada uno probabilidad 1/n.

Observacion 1.25. Sea Fn(x) la funcion de distribucion empırica correspondiente a unamuestra de n valores x1, . . . , xn. Sean a y b dos numeros reales tales que a < b. Notar que

Fn(b) − Fn(a) =1

n

n∑

i=1

1xi ∈ (a, b] =1

n|i = 1, . . . , n : xi ∈ (a, b]|.

En consecuencia, el cociente incremental de Fn(x) sobre el intervalo [a, b] es la frecuenciarelativa de los valores de la muestra x1, . . . , xn contenidos en el intervalo (a, b] “normalizada”por la longitud de dicho intervalo:

Fn(b) − Fn(a)

b − a=

(

1

b − a

)

(

1

n

n∑

i=1

1xi ∈ (a, b]

)

. (28)

Notar que si los n valores, x1, . . . , xn, corresponden a n observaciones independientes delos valores de una variable aleatoria X, la interpretacion intuitiva de la probabilidad indicaque el cociente incremental (28) deberıa estar proximo del cociente incremental de la funcionde distribucion, FX(x), de la variable aleatoria X sobre el intervalo [a, b]:

Fn(b) − Fn(a)

b − a≈

P(a < X ≤ b)

b − a=

FX(b) − FX(a)

b − a. (29)

Cuando X es una variable aleatoria absolutamente continua con funcion densidad continuafX(x) la aproximacion (28) adopta la forma

Fn(b) − Fn(a)

b − a≈

1

b − a

∫ b

afX(x)dx = fX(x), (30)

donde x es algun punto perteneciente al intervalo (a, b).

17

Page 74: espacios de probabilidad

Histogramas

Un histograma de una muestra x1, . . . , xn se obtiene eligiendo una particion en m intervalosde extremos a0 < · · · < am, con longitudes Lj = aj−aj−1; calculando las frecuencias relativas

pj =1

n

n∑

i=1

1aj−1 < xi < aj

y graficando la funcion igual a pj/Lj en el intervalo (aj−1, aj ] y a 0 fuera de los intervalos:

fx1,...,xn; a0,...,am(x) :=m∑

j=1

pj

Lj1x ∈ (aj−1, aj ]. (31)

O sea, un conjunto de rectangulos con area pj .Cuando la muestra x1, . . . , xn corresponde a n observaciones independientes de una vari-

able aleatoria X absolutamente continua la funcion definida en (31) es una version discretade la densidad de X en la que las areas miden frecuencias relativas.

Ejercicios adicionales

4. Lucas filma vıdeos de tamanos aleatorios. En una muestra aleatoria de 5 vıdeos filmadospor Lucas se obtuvieron los siguiente tamanos (en MB):

17, 21.3, 18.7, 21, 18.7

Hallar y graficar la funcion de distribucion empırica asociada a esta muestra. Estimar, usandola funcion de distribucion empırica asociada a esta muestra, la probabilidad de que un vıdeoocupe menos de 19.5 MB.

5. Los siguientes datos corresponden a los tiempos de funcionamiento (en anos) hasta queocurre la primer falla de una muestra de 12 maquinas industriales:

2.0087, 1.9067, 2.0195, 1.9242, 1.8885, 1.8098,

1.9611, 2.0404, 2.1133, 2.0844, 2.1695, 1.9695.

Usando los intervalos con extremos 1.7, 1.9, 2.1, 2.3, hallar la funcion histograma basada enla muestra observada e integrarla para estimar la probabilidad de que una maquina industrialdel mismo tipo funcione sin fallas durante menos de dos anos.

Ejemplo 1.26. Sea T una variable aleatoria con distribucion exponencial de intensidad 1(ver (14)). Esto es, T es una variable aleatoria absolutamente continua con funcion densidadde probabilidad

fT (t) = e−t1t > 0

y funcion de distribucionFT (t) =

(

1 − e−t)

1t ≥ 0.

18

Page 75: espacios de probabilidad

De acuerdo con el esquema de la demostracion del Teorema 1.19 podemos simular muestras deT utilizando un generador de numeros aleatorios uniformemente distribuidos sobre el intervalo(0, 1). Concretamente, si U ∼ U(0, 1), entonces

T = − log(1 − U)

es una variable con distribucion exponencial de intensidad 1.Para obtener una muestra de 10 valores t1, . . . , t10 de una variable con distribucion ex-

ponencial de intensidad 1 generamos 10 numeros aleatorios u1, . . . , u10 y los transformamosponiendo ti = − log(1 − ui). Por ejemplo, si los valores u1, . . . , u10 son, respectivamente,

0.1406, 0.3159, 0.8613, 0.4334, 0.0595, 0.8859, 0.2560, 0.2876, 0.2239, 0.5912,

los valores de la muestra obtenida, t1, . . . , t10, son, respectivamente,

0.1515, 0.3797, 1.9753, 0.5682, 0.0613, 2.1703, 0.2957, 0.3390, 0.2535, 0.8946. (32)

La funcion de distribucion empırica de la muestra observada, F10(t), es una funcion escaleracon saltos de altura 1/10 en los siguientes puntos del eje t:

0.0613, 0.1515, 0.2535, 0.2957, 0.3390, 0.3797, 0.5682, 0.8946, 1.9753, 2.1703.

Para construir un histograma usaremos la particion que se obtiene dividiendo en dosintervalos de igual longitud el intervalo comprendido entre los valores mınimos y maximosobservados: 0.0613, 1.1158, 2.1703. La longitud L de cada intervalo es 1.0545. La frecuenciarelativa de la muestra sobre el primer intervalo es p1 = 8/10 y sobre el segundo p2 = 2/10 yla correspondiente altura de cada rectangulo es p1/L = 0.75865 y p2/L = 0.18966.

0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1EmpíricaTeórica

(a)

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1HitogramaDensidad

(b)

Figura 7: (a) Graficos de la funcion de distribucion empırica F10(t) correspondiente a lamuestra dada en (32) y de la funcion de distribucion de T . (b) Histograma correspondiente ala misma muestra y grafico de la densidad de T .

19

Page 76: espacios de probabilidad

Para producir los graficos de la Figura 7 usamos las siguientes rutinas en Octave.

Rutina para simular 10 valores de una exponencial de intensidad 1

U=rand(1,10);

T=-log(1-U);

Rutina para graficar la funcion de distribucion empırica de la muestra T

t=sort(T);

s=empirical_cdf(t,t);

stairs([t(1),t],[0 s])

Rutina para graficar un histograma de la muestra T

[f,c]=hist(T,2);

p=f/10;

L=c(2)-c(1);

bar(c,p/L,1,’w’)

Usando rutinas similares para muestras de tamano 100 se obtienen los siguientes graficos.

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

EmpíricaTeórica

(a)

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1HitogramaDensidad

(b)

Figura 8: (a) Graficos de la funcion de distribucion empırica F100(t) correspondiente a unamuestra de tamano 100 de una variable T con distribucion exponencial de intensidad 1 y dela funcion de distribucion de T . (b) Histograma correspondiente a la misma muestra y graficode la densidad de T .

20

Page 77: espacios de probabilidad

2. Variables truncadas

Sea X una variable aleatoria definida sobre un espacio de probabilidad (Ω,A, P). SeaB ⊂ R un conjunto tal que X−1(B) = ω ∈ Ω : X(ω) ∈ B ∈ A y tal que P(X ∈ B) > 0.

Truncar la variable aleatoria X al conjunto B significa condicionarla a tomar valores enel conjunto B.

Mediante X|X ∈ B designaremos la variable aleatoria obtenida por truncar X al conjuntoB. Por definicion, la funcion de distribucion de X|X ∈ B es

FX|X∈B(x) = P(X ≤ x|X ∈ B) =P(X ≤ x, X ∈ B)

P(X ∈ B). (33)

Caso absolutamente continuo. Si la variable aleatoria X es absolutamente continua condensidad de probabilidades fX(x), la funcion de distribucion de X|X ∈ B adopta la forma

FX|X∈B(x) =

X≤x∩X∈B fX(x)dx

P(X ∈ B)=

∫ x−∞ fX(x)1x ∈ Bdx

P(X ∈ B). (34)

Por lo tanto, X|X ∈ B es una variable aleatoria absolutamente continua con densidad deprobabilidades

fX|X∈B(x) =fX(x)

P(X ∈ B)1x ∈ B. (35)

Nota Bene. La densidad condicional fX|X∈B(x) es cero fuera del conjunto condicionanteB. Dentro del conjunto condicionante la densidad condicional tiene exactamente la mismaforma que la densidad incondicional, salvo que esta escalada por el factor de normalizacion1/P(X ∈ B) que asegura que fX|∈B(x) integra 1.

Ejemplo 2.1 (Exponencial truncada a la derecha). Sea T una variable aleatoria con distribu-cion exponencial de intensidad λ > 0 y sea t0 > 0. Segun la formula (35) la variable aleatoriaT truncada a la semi-recta (t, +∞), T |T > t0, tiene la siguiente densidad de probabilidades

fT |T>t0(t) =λe−λt

e−λt01t > t0 = e−λ(t−t0)1t − t0 > 0 = fT (t − t0).

En otros terminos, si T ∼ Exp(λ), entonces T |T > t0 ∼ t0+Exp(λ).

Caso discreto. El caso discreto se trata en forma analoga a la anterior. La funcion deprobabilidad de X|X ∈ B adopta la forma

pX|X∈B(x) =P(X = x)

P(X ∈ B)1x ∈ B. (36)

Ejemplo 2.2 (Dado equilibrado). Sea X el resultado del tiro de un dado equilibrado y seaB = 2, 4, 6. El evento “el resultado del tiro es un numero par” es X ∈ B. Aplicando laformula anterior obtenemos

pX|X∈B(x) =1/6

1/21x ∈ 2, 4, 6 =

1

31x ∈ 2, 4, 6. (37)

21

Page 78: espacios de probabilidad

2.1. Perdida de memoria

Ejemplo 2.3. Lucas camina hacia la parada del colectivo. El tiempo, T , entre llegadasde colectivos tiene distribucion exponencial de intensidad λ. Supongamos que Lucas llega tminutos despues de la llegada de un colectivo. Sea X el tiempo que Lucas tendra que esperarhasta que llegue el proximo colectivo. Cual es la distribucion del tiempo de espera X?

Designamos mediante A = T > t el evento “Lucas llego t minutos despues de la llegada

de un colectivo”. Tenemos que

P(X > x|A) = P(T > t + x|T > t) =P(T > t + x, T > t)

P(T > t)

=P(T > t + x)

P(T > t)=

e−λ(t+x)

e−λt= e−λx.

Definicion 2.4. Se dice que una variable aleatoria T no tiene memoria, o pierde memoria, si

P(T > s + t|T > t) = P(T > s) para todo s, t ≥ 0. (38)

La condicion de perdida de memoria es equivalente a la siguiente

P(T > s + t) = P(T > s)P(T > t). (39)

En efecto, basta observar que P(T > s + t, T > t) = P(T > s + t) y usar la definicion deprobabilidad condicional.

Nota Bene. Si se piensa que T es el tiempo para completar cierta operacion, la ecuacion(38) establece que si a tiempo t la operacion no ha sido completada, la probabilidad de quela operacion no se complete a tiempo s + t es la misma que la probabilidad inicial de que laoperacion no haya sido completada a tiempo s.

Lema 2.5. La variable exponencial no tiene memoria.

Demostracion Si T ∼ Exp(λ), entonces

P(T > t) = e−λt para todo t ≥ 0. (40)

Usando (40) se prueba inmediatamente que la ecuacion (39) se satisface cuando T tienedistribucion exponencial (pues e−λ(s+t) = e−λse−λt).

Nota Bene. Si modelamos el tiempo para completar cierta operacion por una variablealeatoria T con distribucion exponencial, la propiedad de perdida de memoria implica quemientras la operacion no haya sido completada, el tiempo restante para completarla tiene lamisma funcion de distribucion, no importa cuando haya empezado la operacion.

Ejemplo 2.6. Supongamos que el tiempo de espera para recibir un mensaje tenga distribu-cion exponencial de intensidad 1/10 minutos. Cual es la probabilidad de que tengamos queesperar mas de 15 minutos para recibirlo? Cual es la probabilidad de que tengamos que es-perar mas de 15 minutos para recibir el mensaje dado que hace mas de 10 minutos que loestamos esperando?

22

Page 79: espacios de probabilidad

Si T representa el tiempo de espera, T ∼ Exp(1/10). La primer probabilidad es

P(T > 15) = e−110

15 = e−32 ≈ 0.220

La segunda pregunta interroga por la probabilidad de que habiendo esperado 10 minutostengamos que esperar al menos 5 minutos mas. Usando la propiedad de falta de memoria dela exponencial, dicha probabilidad es

P(T > 5) = e−110

5 = e−12 ≈ 0.604.

2.2. Caracterizacion cualitativa de la distribucion exponencial

La propiedad de perdida de memoria caracteriza a la distribucion exponencial.

Teorema 2.7. Sea T una variable aleatoria continua a valores en R+. Si T pierde memoria,

entonces T ∼ Exp(λ), donde λ = − log P(T > 1).

Demostracion (a la Cauchy). Sea G(t) := P(T > t). De la ecuacion (39) se deduce que

G(s + t) = G(s)G(t). (41)

La unica funcion continua a derecha que satisface la ecuacion funcional (41) es

G(t) = G(1)t. (42)

Para ello basta ver que G(

mn

)

= G(1)mn . Si vale (41), entonces G

(

2n

)

= G(

1n + 1

n

)

=

G(

1n

)

G(

1n

)

= G(

1n

)2y repitiendo el argumento se puede ver que

G(m

n

)

= G

(

1

n

)m

. (43)

En particular, si m = n se obtiene G (1) = G(

1n

)n. Equivalentemente,

G

(

1

n

)

= G(1)1n (44)

De las identidades (43) y (44) se deduce que

G(m

n

)

= G(1)mn . (45)

Ahora bien, debido a que G(1) = P(T > 1) ∈ (0, 1), existe λ > 0 tal que G(1) = e−λ

(λ = − log G(1)). Reemplazando en (42) se obtiene G(t) =(

e−λ)t

= e−λt.

2.3. Dividir y conquistar

Teorema 2.8. Sea X una variable aleatoria absolutamente continua con densidad de proba-bilidades fX(x). Sea (Bi)i≥1 una familia de subconjuntos disjuntos dos a dos de la recta realtales que X ∈ Bi ∈ A y P(X ∈ Bi) > 0 para todo i ≥ 1. Si Ω = ∪i≥1X ∈ Bi, entonces

fX(x) =∑

i≥1

fX|X∈Bi(x)P(X ∈ Bi). (46)

23

Page 80: espacios de probabilidad

Demostracion. Inmediata de la formula (35) y de observar que∑

i≥1 1X ∈ Bi = 1.

Ejemplo 2.9 (Dividir y conquistar). Todas las mananas Lucas llega a la estacion del subteentre las 7:10 y las 7:30 (con distribucion uniforme en el intervalo). El subte llega a la estacioncada quince minutos comenzando a las 6:00. ¿Cual es la densidad de probabilidades del tiempoque tiene que esperar Lucas hasta subirse al subte?

Sea X el tiempo de llegada de Lucas a la estacion del subte, X ∼ U[7:10, 7:30]. Sea Yel tiempo de espera. Consideramos los eventos A = 7:10 ≤ X ≤ 7:15 = ”Lucas sube en el

subte de las 7:15”; B = 7:15 < X ≤ 7:30 = ”Lucas sube en el subte de las 7:30”.Condicionado al evento A, el tiempo de llegada de Lucas a la estacion del subte es uniforme

entre las 7:10 y las 7:15. En en ese caso, el tiempo de espera Y es uniforme entre 0 y 5 minutos.Analogamente, condicionado al evento B, Y es uniforme entre 0 y 15 minutos. La densidadde probabilidades de Y se obtiene dividiendo y conquistando

fY (y) =

(

5

20

)

1

510 ≤ y ≤ 5 +

(

15

20

)

1

1510 ≤ y ≤ 15

=1

1010 ≤ y ≤ 5 +

1

2015 ≤ y ≤ 15.

3. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.(2000)

2. Chung, K. L.: A Course in Probability Theory. Academic Press, San Diego. (2001)

3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1968)

5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. JohnWiley & Sons, New York. (1971)

6. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer-sity Press, New York. (2001)

7. Johnson, N. L., Kotz, S., Balakrishnan, N.: Continuous Univariate Distributions. Vol.1. John Wiley & Sons, New York. (1995)

8. Kolmogorov, A. N.: Foundations of the Theory of Probability. Chelsea Publishing Co.,New York. (1956)

9. Maronna R.: Probabilidad y Estadıstica Elementales para Estudiantes de Ciencias. Ed-itorial Exacta, La Plata. (1995).

10. Pugachev, V. S.: Introduccion a la Teorıa de las Probabilidades. Mir, Moscu. (1973)

11. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

24

Page 81: espacios de probabilidad

Vectores aleatorios: marginales e independencia

(Borradores, Curso 23)

Sebastian Grynberg

25 de marzo 2013

Um coup de des jamais n’abolira le hasard

(Stephane Mallarme)

1

Page 82: espacios de probabilidad

Indice

1. Vectores aleatorios 21.1. Distribucion conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.1. Marginales discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.2. Marginales continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.1. Caso bidimensional discreto . . . . . . . . . . . . . . . . . . . . . . . . 91.3.2. Caso bidimensional continuo . . . . . . . . . . . . . . . . . . . . . . . 11

2. Bibliografıa consultada 12

1. Vectores aleatorios

Notacion. Para simplificar la escritura usaremos las siguientes notaciones. Los puntos delespacio n-dimensional R

n, n ≥ 2, se denotan en negrita, x = (x1, . . . , xn). La desigualdady ≤ x significa que yi ≤ xi para todo i = 1, . . . , n y se puede interpretar diciendo que yesta al “sudoeste” de x. El conjunto de todos los puntos al “sudoeste” de x sera denotadomediante Sx := y ∈ R

n : y ≤ x. Finalmente, cualquiera sea el subconjunto de ındicesJ = i1, . . . , im ⊂ 1, . . . , n denotaremos mediante xJ ∈ R

m al punto m-dimensional quese obtiene de x quitandole todas las coordenadas que tengan ındices fuera de J . Por ejemplo,si J = 1, 2, entonces xJ = (x1, x2).

Definicion 1.1. Un vector aleatorio sobre un espacio de probabilidad (Ω,A, P) es una funcionX = (X1, . . . , Xn) : Ω → R

n tal que para todo x ∈ Rn

X ∈ Sx = ω ∈ Ω : X(ω) ≤ x ∈ A.

1.1. Distribucion conjunta

La funcion de distribucion (conjunta) FX : Rn → [0, 1] del vector aleatorio X se define

por

FX(x) := P(X ∈ Sx) (1)

Calculo de probabilidades. La funcion de distribucion conjunta resume toda la infor-macion relevante sobre el comportamiento de las variables aleatorias X1, . . . , Xn. Para fijarideas, consideremos el caso mas simple: n = 2. Si a1 < b1 y a2 < b2 vale que1

P(a1 < X1 ≤ b1, a2 < X2 ≤ b2) = F (b1, b2) − F (a1, b2) − F (b1, a2) + F (a1, a2). (2)

La identidad (2) permite calcular la probabilidad de observar al vector (X1, X2) en elrectangulo (a1, b1] × (a2, b2].

La formula n-dimensional analoga de (2) es complicada y no es relevante para el desarrolloposterior. (Se obtiene aplicando la formula de inclusion-exclusion para calcular la probabilidadde la union de eventos.)

1Ver la Figura 1.

2

Page 83: espacios de probabilidad

− +

+ −

b2

a2

a1 b1

Figura 1: Esquema de la demostracion de la identidad (2). El rectangulo (a1, b1] × (a2, b2] sepuede representar en la forma S(b1,b2) \

(

S(a1,b2) ∪ S(b1,a2)

)

.

Clasificacion

1. Vectores aleatorios discretos. El vector aleatorio X se dice discreto cuando existe unconjunto numerable A ⊂ R

n tal que P(X ∈ A) = 1. En tal caso, las variables aleatoriasX1, . . . , Xn son discretas y la funcion pX : R

n → [0, 1] definida por

pX(x) := P(X = x) (3)

se llama la funcion de probabilidad conjunta de X. Su relacion con la funcion de dis-tribucion conjunta es la siguiente

FX(x) =∑

y∈Sx

pX(y).

2. Vectores aleatorios continuos. El vector aleatorio X = (X1, . . . , Xn) se dice continuocuando existe una funcion fX : R

n → R+, llamada densidad de probabilidades conjunta

de X1, . . . , Xn tal que

FX(x) =

Sx

fX(y)dy.

(Para evitar dificultades relacionadas con el concepto de integracion supondremos quelas densidades son seccionalmente continuas.)

3. Vectores aleatorios mixtos. El vector aleatorio X se dice mixto si no es continuo nidiscreto.

3

Page 84: espacios de probabilidad

Calculo de probabilidades Dependiendo del caso, la funcion de probabilidad conjuntapX(x), o la densidad conjunta fX(x), resume toda la informacion relevante sobre el compor-tamiento del vector aleatorio X. Mas precisamente, para todo conjunto A ⊂ R

n “suficiente-mente regular”, vale que

P(X ∈ A) =

x∈A pX(x) en el caso discreto,

AfX(x)dx en el caso continuo.

Ejemplo 1.2. Sea (X, Y ) un vector aleatorio continuo con densidad conjunta fX,Y (x, y). Sia < b y c < d, entonces

P(a < X ≤ b, c < Y ≤ d) =

∫ b

a

∫ d

c

fX,Y (x, y)dxdy. (4)

Ejemplo 1.3 (Distribucion uniforme). Sea Λ ⊂ R2 una region acotada de area |Λ|. Si la

densidad conjunta de un vector aleatorio continuo (X, Y ) es de la forma

fX,Y (x, y) =1

|Λ|1(x, y) ∈ Λ, (5)

diremos que (X, Y ) esta uniformemente distribuido sobre Λ y escribiremos (X, Y ) ∼ U(Λ).Sea B ⊂ Λ una sub-region de Λ de area |B|. La probabilidad de que (X, Y ) ∈ B se calculadel siguiente modo

P((X, Y ) ∈ B) =x

B

fX,Y (x, y)dxdy =x

B

1

|Λ|dxdy =|B||Λ| . (6)

En otras palabras, la probabilidad de que (X, Y ) ∈ B es la proporcion del area de la regionΛ contenida en la sub-region B.

Ejemplo 1.4. Sea (X, Y ) un vector aleatorio uniformemente distribuido sobre el cuadrado[0, 1] × [0, 1]. ¿Cuanto vale P(XY > 1/2)?

Debido a que el cuadrado [0, 1]× [0, 1] tiene area 1 la probabilidad requerida es el area dela region B = (x, y) ∈ [0, 1] × [0, 1] : xy > 1/2. Ahora bien,

(x, y) ∈ B ⇐⇒ y > 1/2x (7)

y como y ≤ 1, la desigualdad del lado derecho de (7) solo es posible si 1/2 ≤ x. Vale decir,

B = (x, y) : 1/2 ≤ x ≤ 1, 1/2x < y ≤ 1.

En consecuencia,

P (XY > 1/2) = |B| =x

B

1 dxdy =

∫ 1

1

2

(

∫ 1

1

2x

1 dy

)

dx =

∫ 1

1

2

(

1 − 1

2x

)

dx

=1

2+

1

2log

(

1

2

)

=1

2(1 − log 2) ≈ 01534....

4

Page 85: espacios de probabilidad

1.2. Distribuciones marginales

Sea X = (X1, . . . , Xn) un vector aleatorio n-dimensional y sea FX(x) su funcion de dis-tribucion conjunta. La coordenadas de X son variables aleatorias. Cada variable individualXi tiene su correspondiente funcion de distribucion

FXi(xi) = P(Xi ≤ xi). (8)

Para enfatizar la relacion entre Xi y el vector X = (X1, . . . , Xn) se dice que FXi(xi) es la

funcion de distribucion marginal de Xi o la i-esima marginal de X.

Nota Bene. Observar que, para cada i = 1, . . . , n, la funcion de distribucion marginal deXi, FXi

(xi), se obtiene de la funcion de distribucion conjunta FX(x1, . . . , xn) fijando el valorde xi y haciendo xj → ∞ para toda j 6= i.

1.2.1. Marginales discretas

Caso bidimensional. Sea (X, Y ) un vector aleatorio discreto definido sobre un espaciode probabilidad (Ω,A, P) con funcion de probabilidad conjunta pX,Y (x, y). Los numerospX,Y (x, y), (x, y) ∈ X(Ω) × Y (Ω) = (X(ω), Y (ω)) : ω ∈ Ω, se pueden representar enla forma de una matriz con las siguientes propiedades

pX,Y (x, y) ≥ 0, y∑

x∈X(Ω)

y∈Y (Ω)

pX,Y (x, y) = 1. (9)

Fijando x ∈ X(Ω) y sumando las probabilidades que aparecen en la fila x de la matrizpX,Y (x, y) se obtiene

y∈Y (Ω)

pX,Y (x, y) =∑

y∈Y (Ω)

P(X = x, Y = y) = P(X = x) = pX(x). (10)

Fijando y ∈ Y (Ω) y sumando las probabilidades que aparecen en la columna y de la matrizpX,Y (x, y) se obtiene

x∈X(Ω)

pX,Y (x, y) =∑

x∈X(Ω)

P(X = x, Y = y) = P(Y = y) = pY (y). (11)

En otras palabras, sumando las probabilidades por filas obtenemos la funcion de probabilidadmarginal de la variable aleatoria X y sumando las probabilidades por columnas obtenemosla funcion de probabilidad marginal de la variable aleatoria Y . El adjetivo “marginal” quereciben las funciones de probabilidad pX(x) y pY (y) refiere a la apariencia externa que adoptan(10) y (11) en una tabla de doble entrada.

Ejemplo 1.5. En una urna hay 6 bolas rojas, 5 azules y 4 verdes. Se extraen dos. Sean X lacantidad de bolas rojas extraıdas e Y la cantidad de azules.

Existen(

152

)

= 105 resultados posibles. La cantidad de resultados con x rojas, y azules y2 − (x + y) verdes es

(

6

x

)(

5

y

)(

4

2 − (x + y)

)

Usando esa formula y poniendo q = 1/105 obtenemos

5

Page 86: espacios de probabilidad

x \ y 0 1 2 pX

0 6q 20q 10q 36q1 24q 30q 0 54q2 15q 0 0 15q

pY 45q 50q 10q

Figura 2: Distribucion conjunta de (X, Y ). En el margen derecho de la tabla se encuentra ladistribucion marginal de X y en el margen inferior, la marginal de Y .

Caso general. Para cada i = 1, . . . , n, la funcion de probabilidad marginal de Xi, pXi(xi),

se puede obtener fijando la variable xi y sumando la funcion de probabilidad conjunta pX(x)respecto de las demas variables

pXi(xi) =

xic

pX(x).

1.2.2. Marginales continuas

Sea (X, Y ) un vector aleatorio continuo con funcion densidad conjunta fX,Y (x, y).Las funciones de distribucion marginales de las variables individuales X e Y se obtienen

de la distribucion conjunta haciendo lo siguiente

FX(x) = P(X ≤ x) = lımy→∞

FX,Y (x, y) =

∫ x

−∞

(∫ ∞

−∞fX,Y (s, y) dy

)

ds, (12)

FY (y) = P(Y ≤ y) = lımx→∞

FX,Y (x, y) =

∫ y

−∞

(∫ ∞

−∞fX,Y (x, t) dx

)

dt. (13)

Aplicando en (12) y en (13) el Teorema Fundamental del Calculo Integral se obtiene quelas funciones de distribucion marginales FX(x) y FY (y) son derivables (salvo quizas en unconjunto despreciable de puntos) y vale que

fX(x) =d

dxFX(x) =

∫ ∞

−∞f(x, y) dy, (14)

fY (y) =d

dyFY (y) =

∫ ∞

−∞f(x, y) dx. (15)

En consecuencia, las variables aleatorias X e Y son individualmente (absolutamente) continuascon densidades “marginales” fX(x) y fY (y), respectivamente.

Ejemplo 1.6 (Distribucion uniforme). Sea Λ ⊂ R2 una region del plano acotada, que para

simplificar supondremos convexa, y sea (X, Y ) un vector aleatorio uniformemente distribuidosobre Λ. La densidad marginal de X en la abscisa x es igual al cociente entre el ancho de Λen x y el area de Λ.

Ejemplo 1.7 (Dardos). Consideramos un juego de dardos de blanco circular Λ de radio1 centrado en el origen del plano: Λ = (x, y) ∈ R

2 : x2 + y2 ≤ 1. Un tirador lanza

6

Page 87: espacios de probabilidad

un dardo al azar sobre Λ y se clava en un punto de coordenadas (X, Y ). El punto (X, Y )esta uniformemente distribuido sobre Λ. Debido a que el area de Λ es igual a π, la densidadconjunta de X e Y es

fX,Y (x, y) =1

π1x2 + y2 ≤ 1.

1

x2√

1 − x2

−√

1 − x2

√1 − x2

Λ

Figura 3: Para cada x ∈ [−1, 1] se observa que el ancho del cırculo en x es 2√

1 − x2.

Si se observa la Figura 3 es claro que la densidad marginal de X es

fX(x) =2√

1 − x2

π1x ∈ [−1, 1],

y por razones de simetrıa la densidad marginal de Y debe ser

fY (y) =2√

1 − y2

π1y ∈ [−1, 1].

Caso general. Para cada i = 1, . . . , n, la densidad marginal de Xi, fXi(xi), se puede obtener

fijando la variable xi e integrando la densidad conjunta fX(x) respecto de las demas variables

fXi(xi) =

Rn−1

fX(x)dxic .

Nota Bene: Conjuntas y marginales. A veces, es necesario conocer la distribucionde una sub-coleccion de variables aleatorias. En el caso bidimensional este problema no semanifiesta porque se reduce al calculo de las marginales. Para cada subconjunto de ındicesΛ ⊂ 1, 2, . . . , n la funcion de distribucion conjunta de las variables Xi : i ∈ Λ, FΛ(xΛ), seobtiene fijando los valores de las coordenadas xi : i ∈ Λ y haciendo xj → ∞ para toda j /∈ Λ.

En el caso discreto, la funcion de probabilidad conjunta de las variables Xi : i ∈ Λ, pΛ(xΛ),se obtiene fijando la variables xi : i ∈ Λ y sumando la funcion de probabilidad conjunta p(x)respecto de las demas variables

pΛ(xΛ) =∑

xΛc

pX(x).

7

Page 88: espacios de probabilidad

En el caso continuo, la densidad conjunta de las variables XΛ, fΛ(xΛ), se obtiene fijandolos valores de las variables xi : i ∈ Λ e integrando la densidad conjunta f(x) respecto de lasdemas variables

fΛ(xΛ) =

Rn−m

fX(x)dxΛc .

donde m es la cantidad de ındices contenidos en el conjunto Λ.

1.3. Independencia

Las variables X1, . . . , Xn son independientes si para cualquier coleccion de conjuntos (med-ibles) A1, . . . , An ⊂ R, los eventos X1 ∈ A1, . . . , Xn ∈ An son independientes.

Tomando conjuntos de la forma Ai = (−∞, xi] se deduce que la independencia de X1, . . . , Xn

implica

FX(x) = P

(

n⋂

i=1

Xi ≤ xi)

=

n∏

i=1

P(Xi ≤ xi) =

n∏

i=1

FXi(xi). (16)

Dicho en palabras, la independencia de las variables implica que su funcion de distribucionconjunta se factoriza como el producto de todas las marginales.

Recıprocamente, se puede demostrar que si para cada x = (x1, . . . , xn) ∈ Rn se verifica

la ecuacion (16), las variables aleatorias X1, . . . , Xn son independientes. (La demostracion estecnica y no viene al caso). Esta equivalencia reduce al mınimo las condiciones que permitencaracterizar la independencia de variables aleatorias y motivan la siguiente definicion massimple.

Definicion 1.8 (Independencia de una cantidad finita de variables aleatorias). Diremos quelas variables aleatorias X1, . . . , Xn son independientes si la ecuacion (16) se verifica en todox = (x1, . . . , xn) ∈ R

n.

Definicion 1.9 (Independencia). Dada una familia de variables aleatorias (Xi : i ∈ I)definidas sobre un mismo espacio de probabilidad (Ω,A, P), diremos que sus variables son(conjuntamente) independientes si para cualquier subconjunto finito de ındices J ⊂ I lasvariables Xi, i ∈ J son independientes.

Nota Bene. La independencia de las variables aleatorias X1, . . . , Xn es equivalente a lafactorizacion de la distribucion conjunta como producto de sus distribuciones marginales.Mas aun, esta propiedad se manifiesta a nivel de la funcion de probabilidad, pX(x) o de ladensidad conjunta, fX(x), del vector aleatorio X = (X1, . . . , Xn), segun sea el caso. Para sermas precisos, X1, . . . , Xn son independientes si y solo si

pX(x) =n∏

i=1

pXi(xi) en el caso discreto,

fX(x) =

n∏

i=1

fXi(xi) en el caso continuo.

8

Page 89: espacios de probabilidad

Ejemplo 1.10 (Numeros al azar). Se elige al azar un numero U del intervalo [0, 1). Sea U =0.X1X2X3 · · · el desarrollo decimal de U . Mostraremos que los dıgitos de U son independientesentre sı y que cada uno de ellos se distribuye uniformemente sobre el conjunto 0, 1, . . . , 9.

El problema se reduce a mostrar que para cada n ≥ 2 las variables aleatorias X1, X2, . . . , Xn

son independientes entre sı y que para cada k ≥ 1 y todo xk ∈ 0, 1, . . . , 9, P(Xk = xk) =1/10.

Primero observamos que para cada n ≥ 1 y para todo (x1, . . . , xn) ∈ 0, 1, . . . , 9n valeque

n⋂

i=1

Xi = xi ⇐⇒ U ∈[

n∑

i=1

xi

10i,

n∑

i=1

xi

10i+

1

10n

)

.

En consecuencia,

P

(

n⋂

i=1

Xi = xi)

=1

10n. (17)

Para calcular las marginales de los dıgitos observamos que para cada xk ∈ 0, 1, . . . , 9 valeque

Xk = xk =⋃

(x1,...,xk−1)∈0,1,...,9k−1

[(

k−1⋂

i=1

Xi = xi)

∩ Xk = xk]

.

De acuerdo con (17) cada uno de los 10k−1 eventos que aparecen en la union del lado derechode la igualdad tiene probabilidad 1/10k y como son disjuntos dos a dos obtenemos que

P(Xk = xk) = 10k−1 1

10k=

1

10. (18)

De (17) y (18) se deduce que para todo (x1, . . . , xn) ∈ 0, 1, . . . , 9n vale que

P

(

n⋂

i=1

Xi = xi)

=

n∏

i=1

P(Xi = xi).

Por lo tanto, las variables aleatorias X1, X2, . . . , Xn son independientes entre sı y cada unade ellas se distribuye uniformemente sobre el conjunto 0, 1, . . . , 9 .

1.3.1. Caso bidimensional discreto

Sea (X, Y ) un vector aleatorio discreto con funcion de probabilidad conjunta pX,Y (x, y)y marginales pX(x) y pY (y). Las variables X, Y son independientes si para cada pareja devalores x ∈ X(Ω), y ∈ Y (Ω) vale que

pX,Y (x, y) = pX(x) pY (y) (19)

En otras palabras, la matriz pX,Y (x, y) es la tabla de multiplicar de las marginales pX(x) ypY (y).

9

Page 90: espacios de probabilidad

Ejemplo 1.11. Se arrojan dos dados equilibrados y se observan las variables aleatorias X eY definidas por X =“el resultado del primer dado” e Y =“el mayor de los dos resultados”.

El espacio de muestral asociado al experimento se puede representar en la forma Ω =1, 2, . . . , 62, cada punto (i, j) ∈ Ω indica que el resultado del primer dado es i y el resultadodel segundo es j. Para reflejar que arrojamos dos dados equilibrados, todos los puntos deΩ seran equiprobables, i.e., para cada (i, j) ∈ Ω se tiene P(i, j) = 1/36. Formalmente lasvariables aleatorias X e Y estan definidas por

X(i, j) := i, Y (i, j) := maxi, j. (20)

Distribucion conjunta y distribuciones marginales de X e Y . En primer lugar vamosa representar el espacio muestral Ω en la forma de una matriz para poder observar masclaramente los resultados posibles

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)

Figura 4: Resultados posibles del experimento aleatorio que consiste en arrojar dos dados.

Debido a que Y ≥ X, tenemos que pX,Y (x, y) = 0 para todo 1 ≤ y < x ≤ 6. En los otroscasos, i.e., 1 ≤ x ≤ y ≤ 6, para calcular el valor de pX,Y (x, y) hay que contar la cantidadde elementos de la fila x, de la matriz representada en la Figura 4, que contengan algunacoordenada igual a y. Multiplicando por q = 1

36 la cantidad encontrada se obtiene pX,Y (x, y).En la figura 5 representamos la distribucion conjunta pX,Y (x, y) y las distribuciones marginalespX y pY .

x \ y 1 2 3 4 5 6 pX

1 q q q q q q 6q2 0 2q q q q q 6q3 0 0 3q q q q 6q4 0 0 0 4q q q 6q5 0 0 0 0 5q q 6q6 0 0 0 0 0 6q 6q

pY q 3q 5q 7q 9q 11q

Figura 5: Distribucion conjunta de (X, Y ). En el margen derecho se encuentra la distribucionmarginal de X y en el margen inferior, la marginal de Y . Para abreviar hemos puesto q = 1

36 .

De acuerdo con los resultados expuestos en la tabla que aparece en la Figura 5, las dis-tribuciones marginales son

pX(x) =1

6, pY (y) =

2y − 1

36.

10

Page 91: espacios de probabilidad

Debido a que no se trata de una tabla de multiplicar las variables X e Y no son independientes.Lo que, por otra parte, constituye una obviedad.

Criterio para detectar dependencia. Cuando en la tabla de la distribucion conjuntade dos variables hay un 0 ubicado en la interseccion de una fila y una columna de sumaspositivas, las variables no pueden ser independientes. (Las variables del Ejemplo 1.5 no sonindependientes.)

1.3.2. Caso bidimensional continuo

Sean X e Y variables aleatorias con densidad conjunta fX,Y (x, y) y marginales fX(x) yfY (y). Las variables aleatorias X e Y son independientes si y solo si

fX,Y (x, y) = fX(x)fY (y). (21)

En otras palabras, X e Y son independientes si y solo si su densidad conjunta se factorizacomo el producto de las marginales.

Criterios para detectar (in)dependencia.1. La independencia de X e Y equivale a la existencia de dos funciones f1(x) y f2(y) tales

que fX,Y (x, y) = f1(x)f2(y). Por lo tanto, para verificar independencia basta comprobar quela densidad conjunta se puede factorizar como alguna funcion de x por alguna funcion de y,siendo innecesario verificar que se trata de las densidades marginales. (Ejercicio)

2. La factorizacion (21) implica que, si X e Y son independientes, el recinto del planoSop (fX,Y ) := (x, y) ∈ R

2 : fX,Y (x, y) > 0, llamado el soporte de la densidad conjuntafX,Y , debe coincidir con el producto cartesiano de los soportes de sus densidades marginales:Sop(fX) × Sop(fY ) = x ∈ R : fX(x) > 0 × y ∈ R : fY (y) > 0. Por ejemplo, si el soportede la densidad conjunta es conexo y no es un rectangulo las variables X e Y no pueden serindependientes. (Ver el Ejemplo 1.7.)

Ejemplo 1.12. Sean X e Y variables aleatorias independientes con distribucion uniformesobre el intervalo (0, L). Una vara de longitud L metros se quiebra en dos puntos cuyasdistancias a una de sus puntas son X e Y metros. Calcular la probabilidad de que las trespiezas se puedan usar para construir un triangulo.

Primero designamos mediante L1, L2 y L3 a las longitudes de las tres piezas. Las tres piezasse pueden usar para construir un triangulo si y solamente si se satisfacen las desigualdadestriangulares

L1 + L2 > L3, L1 + L3 > L2 y L2 + L3 > L1. (22)

Vamos a distinguir dos casos: el caso en que X ≤ Y y el caso en que Y < X. En el primercaso, X ≤ Y , tenemos que L1 = X, L2 = Y −X y L3 = L−Y y las desigualdades triangulares(22) son equivalentes a las siguientes

Y > L/2, X + L/2 > Y y L/2 > X. (23)

En el segundo caso, Y < X, tenemos que L1 = Y , L2 = X − Y y L3 = L − X y lasdesigualdades triangulares (22) son equivalentes a las siguientes

X > L/2, Y > X − L/2 y L/2 > Y. (24)

11

Page 92: espacios de probabilidad

Por lo tanto, las tres piezas se pueden usar para construir un triangulo si y solamente si(X, Y ) ∈ B, donde

B = (x, y) ∈ (0, L) × (0, L) : 0 < x < L/2, L/2 < y < x + L/2∪(x, y) ∈ (0, L) × (0, L) : L/2 < x < L, x − L/2 < y < L/2. (25)

0 L/2 L

L/2

L

Figura 6: La region sombreada representa al conjunto B que es la union de dos triangulosdisjuntos cada uno de area L2/8.

La hipotesis de que X e Y son independientes con distribucion uniforme sobre el intervalo(0, L) significa que (X, Y ) ∼ U(Λ), donde Λ es el cuadrado de lado (0, L)

fX,Y (x, y) = fX(x)fY (y) =

(

1

L10 < x < L

)(

1

L10 < y < L

)

=1

L21(x, y) ∈ Λ.

De (6) se deduce que

P((X, Y ) ∈ B) =|B||Λ| =

(2/8)L2

L2=

1

4. (26)

2. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.(2000)

2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1968)

3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. JohnWiley & Sons, New York. (1971)

4. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

12

Page 93: espacios de probabilidad

Variables aleatorias: momentos

(Borradores, Curso 23)

Sebastian Grynberg

27 de marzo 2013

Denme un punto de apoyo y movere el mundo

(Arquımedes de Siracusa)

1

Page 94: espacios de probabilidad

Indice

1. Esperanza 2

1.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Calculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.4. Dividir y conquistar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. Varianza 12

2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2. Calculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3. Covarianza 14

3.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.2. Calculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4. Varianza de sumas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4. Algunas desigualdades 17

4.1. Cauchy-Schwartz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.2. Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5. La ley debil de los grandes numeros 20

6. Distribuciones particulares 22

7. Bibliografıa consultada 28

1. Esperanza

La informacion relevante sobre el comportamiento de una variable aleatoria esta contenidaen su funcion de distribucion. Sin embargo, en la practica, es util disponer de algunos numerosrepresentativos de la variable aleatoria que resuman esa informacion.

Motivacion Se gira una rueda de la fortuna varias veces. En cada giro se puede obteneralguno de los siguiente numeros x1, x2, . . . , xk -que representan la cantidad de dinero que seobtiene en el giro- con probabilidades p(x1), p(x2), . . . , p(xk), respectivamente. ¿Cuanto dinerose “espera” obtener como recompensa “por cada giro”? Los terminos “espera” y “por cadagiro” son un tanto ambiguos, pero se pueden interpretar de la siguiente manera.

Si la rueda se gira n veces y n(xi) es la cantidad de veces que se obtiene xi, la cantidad totalde dinero recibida es

∑ki=1 n(xi)xi y la cantidad media por giro es µ = 1

n

∑ki=1 n(xi)xi. Inter-

pretando las probabilidades como frecuencias relativas obtenemos que para n suficientementegrande la cantidad de dinero que se “espera” recibir “por cada giro” es

µ =1

n

k∑

i=1

xi n(xi) =k∑

i=1

xin(xi)

n≈

k∑

i=1

xi p(xi).

2

Page 95: espacios de probabilidad

1.1. Definicion

Definicion 1.1 (Esperanza de una variable discreta). Sea X una variable aleatoria discreta.La esperanza de X, denotada por E[X], es el promedio ponderado

E[X] :=∑

x∈A

xP(X = x), (1)

donde A = x ∈ R : F (x) − F (x−) > 0 es el conjunto de todos los atomos de la funciondistribucion de X.

Ejemplo 1.2 (Esperanza de la funcion indicadora). Sea (Ω,A, P) un espacio de probabilidad.Para cualquier evento A ∈ A vale que

E[1ω ∈ A] = 0 · (1 − P(A)) + 1 · P(A) = P(A). (2)

La esperanza como centro de gravedad. La nocion de esperanza es analoga a la nocionde centro de gravedad para un sistema de partıculas discreto.

Se consideran n partıculas ubicadas en los puntos x1, . . . , xn cuyos pesos respectivos sonp(x1), . . . , p(xn). No se pierde generalidad si se supone que

∑ni=1 p(xi) = 1. El centro de

gravedad, c, del sistema es el punto respecto de la cual la suma de los momentos causadospor los pesos p(xi) es nula. Observando que

k∑

i=1

(xi − c) p(xi) = 0 ⇐⇒ c =k∑

i=1

xip(xi)

resulta que el centro de gravedad del sistema coincide con la esperanza de una variable aleato-ria X a valores en x1, . . . , xn tal que P(X = xi) = p(xi).

1 3 6 10

c

Figura 1: Interpretacion de la esperanza como centro de gravedad. Se considera un sis-tema de cuatro “partıculas” de pesos pi proporcionales a las areas de los cırculos de radio1/3, 2/3, 3/3, 4/3 centrados en los puntos xi = 1, 3, 6, 10, respectivamente. No se pierde gen-eralidad si se supone que el peso total del sistema es la unidad. El centro de gravedad delsistema se encuentra en el punto c =

∑4i=1 xipi = 227/30 = 7.56 . . .

3

Page 96: espacios de probabilidad

La esperanza como promedio. Sea X una variable aleatoria a valores x1, . . . , xn confuncion de probabilidades

P(X = x) =1

n1x ∈ x1, . . . , xn.

Conforme a la Definicion 1.1 la esperanza de X es

E[X] =n∑

i=1

xiP(X = xi) =1

n

n∑

i=1

xi. (3)

Dicho en palabras: la esperanza de una variable aleatoria uniformemente distribuida sobre losvalores x1, x2, . . . , xn coincide con el promedio de dichos valores.

Ejemplo 1.3 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.De acuerdo con (3) la esperanza de X es

E[X] =1

6

6∑

x=1

x =21

6=

7

2.

Ejemplo 1.4 (Uniforme sobre el “intervalo” 1, 2, . . . , n). La variable aleatoria del Ejemplo1.3 es un caso particular de una variable aleatoria discreta X uniformemente distribuida sobreel “intervalo” de numeros enteros 1, 2, . . . , n. De acuerdo con (3) la esperanza de X es

E[X] =1

n

n∑

x=1

x =1

n

(

n(n + 1)

2

)

=1 + n

2.

Ejemplo 1.5 (Moneda equilibrada). Sea N la cantidad de veces que debe lanzarse una mon-eda equilibrada hasta que salga cara. N es una variable aleatoria discreta a valores 1, 2, . . . talque P(N = n) = (1/2)n, n = 1, 2, . . . . De acuerdo con la definicion 1.1, la esperanza de N es

E[N ] =

∞∑

n=1

nP(N = n) =

∞∑

n=1

n

(

1

2

)n

.

Derivando ambos lados de la igualdad∑∞

n=0 xn = (1− x)−1, que vale para |x| < 1, se deduceque

∑∞n=0 nxn−1 = (1 − x)−2 y de allı resulta que

∑∞n=1 nxn = x(1 − x)−2. Evaluando en

x = 1/2 se obtiene que

E[N ] =∞∑

n=1

n

(

1

2

)n

=

(

1

2

)(

1

2

)−2

= 2.

La nocion de esperanza se extiende a variables aleatorias absolutamente continuas cam-biando en (1) la suma por la integral y la funcion de probabilidades P (X = x), x ∈ A, por ladensidad de probabilidades de la variable X.

4

Page 97: espacios de probabilidad

Definicion 1.6 (Esperanza de una variable absolutamente continua). Sea X una variablealeatoria absolutamente continua con densidad de probabilidades fX(x). La esperanza de X,denotada por E[X], se define por

E[X] :=

∫ ∞

−∞xfX(x)dx. (4)

Ejemplo 1.7 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla en unsistema electronico con funcion intensidad de fallas de la forma λ(t) = 2t1t > 0. La funcionde distribucion de T es FT (t) =

(

1 − exp(

−t2))

1t > 0. En consecuencia, T es una variablealeatoria absolutamente continua con densidad de probabilidad fT (t) = 2t exp

(

−t2)

1t > 0.De acuerdo con la definicion 1.6, la esperanza de T es

E[T ] =

∫ ∞

−∞tfT (t)dt =

∫ ∞

0t2t exp(−t2)dt =

∫ ∞

0exp(−t2)dt =

√π

2.

La tercera igualdad se deduce de la formula de integracion por partes aplicada a u = t yv′ = 2t exp(−t2) y la cuarta se deduce de la identidad

∫∞0 exp(−x2/2)dx =

√2π/2 mediante

el cambio de variables t = x/√

2.

Extendiendo la nocion a variables mixtas. La nocion de esperanza para variablesmixtas se obtiene combinando las nociones anteriores.

Definicion 1.8 (Esperanza de una variable mixta). Sea X una variable aleatoria mixta confuncion de distribucion FX(x). La esperanza de X, denotada por E[X], se define de la siguientemanera:

E[X] :=∑

x∈A

xP(X = x) +

∫ ∞

−∞xF ′

X(x)dx, (5)

donde A = x ∈ R : FX(x) − FX(x−) > 0 es el conjunto de todos los atomos de FX(x) yF ′

X(x) es una funcion que coincide con la derivada de FX(x) en todos los puntos donde esafuncion es derivable y vale 0 en otro lado.

Ejemplo 1.9 (Mixtura). Sea X una variable aleatoria mixta cuya funcion de distribucion esFX(x) =

(

2x+58

)

1−1 ≤ x < 1 + 1x ≥ 1. De acuerdo con la formula (5), la esperanza deX es

E[X] = −1 · P(X = −1) + 1 · P(X = 1) +

∫ 1

−1F ′

X(x)dx = −3

8+

1

8+

∫ 1

−1

2

8dx =

1

4.

Nota Bene. En todas las definiciones anteriores, se presupone que las series y/o integralesinvolucradas son absolutamente convergentes.

Ejemplo 1.10 (Distribucion de Cauchy). Sea X una variable aleatoria con distribucion de

Cauchy. Esto es, X es absolutamente continua y admite una densidad de probabilidades dela forma

f(x) =1

π(1 + x2).

5

Page 98: espacios de probabilidad

Debido a que∫ ∞

−∞|x|f(x)dx =

∫ ∞

−∞

|x|π(1 + x2)

dx = ∞,

X no tiene esperanza.

Teorema 1.11. Sea X una variable aleatoria no negativa (i.e., FX(x) = P(X ≤ x) = 0 paratodo x < 0). Vale que

E[X] =

∫ ∞

0[1 − FX(x)] dx. (6)

Demostracion. El argumento principal esta contenido en la Figura 2. El caso general sededuce usando tecnicas de “paso al lımite”.

p2

p3

pk

1

x1

p1

pk−1

x2 x3 xk−1 xk0

Figura 2: Argumento geometrico que muestra la validez de la identidad (6) en el caso en queX es no negativa, discreta y a valores 0 ≤ x1 < x2 < · · · < xk. Si pi = P(X = xi), el areade la region sombreada es la suma x1p1 + · · · + xkpk = E[X] de las areas de los rectanguloshorizontales y coincide con la integral de la altura P(X > x).

Corolario 1.12. Sea X una variable aleatoria con funcion de distribucion FX(x). Vale que

E[X] =

∫ ∞

0[1 − FX(x)] dx −

∫ 0

−∞FX(x)dx. (7)

Demostracion. Ejercicio.

6

Page 99: espacios de probabilidad

Nota Bene. Las identidades (6) y (7) son interesantes porque muestran que para calcularla esperanza de una variable aleatoria basta conocer su funcion de distribucion. De hecho, laidentidad (7) ofrece una definicion alternativa y unificada de la nocion de esperanza.

Ejemplo 1.13. Una maquina fue disenada para prestar servicios en una instalacion produc-tiva. La maquina se enciende al iniciar la jornada laboral y se apaga al finalizar la misma. Sidurante ese perıodo la maquina falla, se la repara y en esa tarea se consume el resto de lajornada.

Suponiendo que la funcion intensidad de fallas de la maquina es una constante λ > 0 (yque el tiempo se mide en jornadas laborales), hallar el maximo valor de λ que permita asegurarcon una probabilidad mayor o igual que 2/3 que la maquina prestara servicios durante unajornada laboral completa. Para ese valor de λ, hallar (y graficar) la funcion de distribuciondel tiempo, T , de funcionamiento de la maquina durante una jornada laboral y calcular eltiempo medio de funcionamiento, E[T ].

Solucion. Si T1 es el tiempo que transcurre desde que se enciende la maquina hasta queocurre la primer falla, el evento “la maquina funciona durante una jornada laboral completa”se describe mediante T1 > 1. Queremos hallar el maximo λ > 0 tal que P(T1 > 1) ≥ 2/3.Debido a que la funcion intensidad de fallas es una constante λ se tiene que P(T1 > t) = e−λt.En consecuencia, P(T1 > 1) ≥ 2/3 ⇐⇒ e−λ ≥ 2/3 ⇐⇒ λ ≤ − log(2/3). Por lo tanto,λ = − log(2/3). En tal caso, P(T > 1) = 2/3.

0

1/3

1

1

Figura 3: Grafico de la funcion de distribucion de T .

El tiempo de funcionamiento de la maquina por jornada laboral es T = mınT1, 1. Parat > 0 vale que

FT (t) = P(T ≤ t) = 1 − P(T > t) = 1 − P(mınT1, 1 > t)

= 1 − P(T1 > t)11 > t = 1 − elog(2/3)t1t < 1=

(

1 − elog(2/3)t)

10 ≤ t < 1 + 1t ≥ 1.

7

Page 100: espacios de probabilidad

Como T > 0 y conocemos la funcion P(T > t) lo mas sencillo para calcular la esperanzaes usar la formula E[T ] =

∫∞0 P(T > t)dt:

E[T ] =

∫ ∞

0P(T > t)dt =

∫ 1

0elog(2/3)tdt =

elog(2/3)t

log(2/3)

1

0

=2/3 − 1

log(2/3)

=−1/3

log(2/3)≈ 0.822...

1.2. Calculo

Sea X una variable aleatoria cuya funcion de distribucion conocemos. Queremos calcularla esperanza de alguna funcion de X, digamos, g(X). ¿Como se puede efectuar ese calculo?Una manera es la siguiente: (1) Hallamos la funcion de distribucion de la variable aleatoriaY = g(X) a partir del conocimiento que tenemos sobre la distribucion de X:

FY (y) := P(Y ≤ y) = P(g(X) ≤ y) = P(

X ∈ g−1(−∞, y])

.

(2) Usando la distribucion de Y calculamos la esperanza E[g(X)] = E[Y ] por definicion.

Ejemplo 1.14. Sea X una variable aleatoria discreta tal que P(X = 0) = 0.2, P(X = 1) = 0.5y P(X = 2) = 0.3. Queremos calcular E[X2]. Poniendo Y = X2 obtenemos una variablealeatoria a valores en 02, 12, 22 tal que P(Y = 0) = 0.2 P(Y = 1) = 0.5 y P(Y = 4) = 0.3.Por definicion, E[X2] = E[Y ] = 0(0.2) + 1(0.5) + 4(0.3) = 1.7.

Ejemplo 1.15. Sea X una variable aleatoria con distribucion uniforme sobre el intervalo(0, 1). Queremos calcular E[X3]. Ponemos Y = X3 y calculamos su funcion de distribucion:para cada 0 < y < 1 vale que FY (y) = P(Y ≤ y) = P(X3 ≤ y) = P(X ≤ y1/3) = y1/3.Derivando FY (y) obtenemos la densidad de probabilidad de Y : fY (y) = 1

3y−2/310 < y < 1.Por definicion,

E[X3] = E[Y ] =

∫ ∞

−∞yfY (y)dy =

∫ 1

0y1

3y−2/3dy =

1

3

∫ 1

0y1/3dy =

1

3

3

4y4/3

1

0

=1

4.

Nota Bene. Existe una manera mucho mas simple para calcular la esperanza de Y = g(X)que no recurre al procedimiento de determinar primero la distribucion de Y para luego calcularsu esperanza por definicion. El Teorema siguiente muestra como hacerlo.

Teorema 1.16. Sea X una variable aleatoria y sea g : R → R una funcion tal que g(X)tambien es una variable aleatoria.

(a) Si X es discreta con atomos en el conjunto A, entonces

E[g(X)] =∑

x∈A

g(x)P(X = x). (8)

(b) Si X es continua con densidad de probabilidad fX(x) y g(X) es continua, entonces

E[g(X)] =

∫ ∞

−∞g(x)fX(x)dx. (9)

8

Page 101: espacios de probabilidad

(c) Si X es mixta,

E[g(X)] =∑

x∈A

g(x)P(X = x) +

∫ ∞

−∞g(x)F ′

X(x)dx, (10)

donde A es el conjunto de todos los atomos de FX(x) y F ′X(x) es un funcion que coincide

con la derivada de FX(x) en todos los puntos donde esa funcion es derivable y vale cero enotro lado.

Demostracion. Para simplificar la demostracion supondremos que g ≥ 0.(a) Por el Teorema 1.11 tenemos que

E[g(X)] =

∫ ∞

0P(g(X) > y)dy =

∫ ∞

0

(

x∈A

1g(x) > yP(X = x)

)

dy

=∑

x∈A

(∫ ∞

01g(x) > ydy

)

P(X = x) =∑

x∈A

g(x)P(X = x).

(b) Por el Teorema 1.11 tenemos que

E[g(X)] =

∫ ∞

0P(g(X) > y)dy =

∫ ∞

0

(

x: g(x)>yf(x)dx

)

dy

=

∫ ∞

−∞

(

∫ g(x)

0dy

)

f(x)dx =

∫ ∞

−∞g(x)f(x)dx.

(c) Se obtiene combinando adecuadamente los resultados (a) y (b).

Ejemplo 1.17. Aplicando la parte (a) del Teorema 1.16 al Ejemplo 1.14 se obtiene

E[X2] = 02(0.2) + 12(0.5) + 22(0.3) = 1.7.

Ejemplo 1.18. Aplicando la parte (b) del Teorema 1.16 al Ejemplo 1.15 se obtiene

E[X3] =

∫ 1

0x3dx =

1

4.

Teorema 1.19 (Calculo de Esperanzas). Sea X un vector aleatorio y sea g : Rn → R una

funcion tal que g(X) es una variable aleatoria. Si la variable aleatoria g(X) tiene esperanzafinita, entonces

E[g(X)] =

xg(x)pX(x) en el caso discreto,

Rng(x)fX(x) dx en el caso continuo,

donde, segun sea el caso, pX(x) y fX(x) son la funcion de probabilidad y la densidad conjuntadel vector X, respectivamente.

9

Page 102: espacios de probabilidad

Demostracion. Enteramente analoga a la que hicimos en dimension 1.

Sobre el calculo de esperanzas. El Teorema 1.19 es una herramienta practica paracalcular esperanzas. Su resultado establece que si queremos calcular la esperanza de unatransformacion unidimensional del vector X, g(X), no necesitamos calcular la distribucionde g(X). La esperanza E[g(X)] puede calcularse directamente a partir del conocimiento de ladistribucion conjunta de X.

Corolario 1.20 (Esperanza de las marginales). Sea X = (X1, . . . , Xn) un vector aleatorio.Si la variable Xi tiene esperanza finita, entonces

E[Xi] =

xxipX(x) en el caso discreto,

RnxifX(x) dx en el caso continuo.

1.3. Propiedades

(a) Si X = 1, entonces E[X] = 1.(b) Monotonıa. Si X1 y X2 son dos variables aleatorias tales que X1 ≤ X2, entonces

E[X1] ≤ E[X2].(c) Si X es una variable aleatoria tal que E[Xn] es finita y a0, a1, . . . , an son constantes,

entonces

E

[

n∑

k=0

akXk

]

=

n∑

k=0

akE[Xk]. (11)

(d) Linealidad. Si las variables aleatorias X1, . . . , Xn tienen esperanza finita y a1, a2, . . . , an

son constantes, entonces

E

[

n∑

i=1

aiXi

]

=

n∑

i=1

aiE[Xi]. (12)

(e) Regla del producto independiente. Si las variables aleatorias X1, . . . , Xn tienen esper-anza finita y son independientes, entonces el producto tiene esperanza finita y coincide conel producto de las esperanzas:

E

[

n∏

i=1

Xi

]

=

n∏

i=1

E[Xi]. (13)

Demostracion. (a) es consecuencia inmediata de la Definicion 1.1 porque P(X = 1) = 1.(b) es consecuencia del Teorema 1.11 y de que para todo x ∈ R vale que FX1

(x) ≥ FX2(x).

(c) es consecuencia inmediata del Teorema 1.16. (d) es consecuencia inmediata del Teorema1.19. (e) es consecuencia del Teorema 1.19 y de la factorizacion de la distribucion conjuntacomo producto de las distribuciones marginales.

10

Page 103: espacios de probabilidad

1.4. Dividir y conquistar

Teorema 1.21. Sea (Ω,A, P) un espacio de probabilidad y sea X : Ω → R una variablealeatoria. Sea A ⊂ R un conjunto tal que X ∈ A = ω ∈ Ω : X(ω) ∈ A ∈ A. SiP(X ∈ A) > 0, entonces

E[X|X ∈ A] =1

P(X ∈ A)E[X1X ∈ A]. (14)

Demostracion. Para simplificar la exposicion vamos a suponer que la variable aleatoria Xes discreta. Por la Definicion 1.1 tenemos que

E[X|X ∈ A] =∑

x∈X(Ω)

xpX|X∈A(x) =∑

x∈X(Ω)

xP(X = x)

P(X ∈ A)1x ∈ A

=1

P(X ∈ A)

x∈X(Ω)

x1x ∈ AP(X = x) =1

P(X ∈ A)E[X1X ∈ A].

La ultima igualdad es consecuencia del Teorema 1.16.

Ejemplo 1.22. Sea X el resultado del tiro de un dado equilibrado y sea A = 2, 4, 6. Deacuerdo con (14) la esperanza de X|X ∈ A es

E[X|X ∈ A] =1

P(X ∈ A)E[X1X ∈ A] =

1

1/2

(

2

6+

4

6+

6

6

)

= 4.

Resultado que por otra parte es intuitivamente evidente.

Teorema 1.23 (Formula de probabilidad total). Sea X una variable aleatoria. Si A1, . . . , An

es una particion medible de R tal que P(X ∈ Ai) > 0, i = 1, . . . , n. Entonces,

E[X] =n∑

i=1

E[X|X ∈ Ai]P(X ∈ Ai). (15)

Demostracion. Descomponemos la variable X como una suma de variables (dependientesde la particion) X =

∑ni=1 X1X ∈ Ai. Como la esperanza es un operador lineal tenemos

que

E[X] =n∑

i=1

E[X1X ∈ Ai] =n∑

i=1

E[X|X ∈ Ai]P(X ∈ Ai).

La ultima igualdad se obtiene de (14).

Nota Bene. Sea g : R → R una funcion tal que g(X) es una variable aleatoria. Bajo lashipotesis del Teorema 1.23 tambien vale que

E[g(X)] =n∑

i=1

E[g(X)|X ∈ Ai]P(X ∈ Ai). (16)

La formula (16) se puede extender sin ninguna dificultad al caso multidimensional.

11

Page 104: espacios de probabilidad

Ejemplo 1.24 (Dividir y conquistar). Todas las mananas Lucas llega a la estacion del subteentre las 7:10 y las 7:30 (con distribucion uniforme en el intervalo). El subte llega a la estacioncada quince minutos comenzando a las 6:00. Calcular la media del tiempo que tiene que esperarLucas hasta subirse al subte.

Sea X el horario en que Lucas llega a la estacion del subte. El tiempo que tiene que esperarhasta subirse al subte se describe por

T = (7.15 − X)1X ∈ [7 : 10, 7 : 15] + (7 : 30 − X)1X ∈ (7 : 15, 7 : 30].

Ahora bien, dado que X ∈ [7 : 10, 7 : 15], la distribucion de T es uniforme sobre el intervalo[0, 5] minutos y dado que X ∈ (7 : 15, 7 : 30] la distribucion de T es uniforme sobre el intervalo[0, 15] minutos. De acuerdo con (16)

E[T ] =5

2

(

5

20

)

+15

2

(

15

20

)

= 6.25.

2. Varianza

2.1. Definicion

La esperanza de una variable aleatoria X, E[X], tambien se conoce como la media o elprimer momento de X. La cantidad E[Xn], n ≥ 1, se llama el n-esimo momento de X. Si laesperanza E[X] es finita, la cantidad E[(X − E[X])n] se llama el n-esimo momento central.

Despues de la esperanza la siguiente cantidad en orden de importancia para resumir elcomportamiento de una variable aleatoria X es su segundo momento central tambien llamadola varianza de X.

Definicion 2.1 (Varianza). Sea X una variable aleatoria con esperanza finita. La varianza

de X se define por

V(X) := E[

(X − E[X])2]

. (17)

En otras palabras, la varianza de X es la esperanza de la variable aleatoria (X − E[X])2.Puesto que (X − E[X])2 solo puede tomar valores no negativos, la varianza es no negativa.

La varianza de X es una de las formas mas utilizadas para medir la dispersion de losvalores de X respecto de su media. Otra medida de dispersion es el desvıo estandar de X,que se define como la raız cuadrada de la varianza y se denota σ(X):

σ(X) :=√

V(X). (18)

A diferencia de la varianza, el desvıo estandar de una variable aleatoria es mas facil deinterpretar porque tiene las mismas unidades de X.

Nota Bene: Grandes valores de V(X) significan grandes variaciones de los valores de Xalrededor de la media. Al contrario, pequenos valores de V(X) implican una pronunciadaconcentracion de la masa de la distribucion de probabilidades en un entorno de la media. Enel caso extremo, cuando la varianza es 0, la masa total de la distribucion de probabilidades seconcentra en la media. Estas afirmaciones pueden hacerse mas precisas y seran desarrolladasen la seccion 4.

12

Page 105: espacios de probabilidad

2.2. Calculo

Una manera “brutal” de calcular V(X) es calcular la funcion de distribucion de la variablealeatoria (X − E[X])2 y usar la definicion de esperanza. En lo que sigue mostraremos unamanera mas simple de realizar ese tipo calculo.

Proposicion 2.2 (Expresion de la varianza en terminos de los momentos). Sea X una variablealeatoria con primer y segundo momentos finitos, entonces

V(X) = E[X2] − E[X]2. (19)

En palabras, la varianza es la diferencia entre el segundo momento y el cuadrado del primermomento.

Demostracion. Desarrollar el cuadrado (X−E[X])2 y usar las propiedades de la esperanza.Poniendo (X − E[X])2 = X2 − 2XE[X] + E[X]2 se obtiene

V(X) = E[X2] − 2XE[X] + E[X]2 = E[X2] − 2E[X]2 + E[X]2 = E[X2] − E[X]2.

Ejemplo 2.3 (Varianza de la funcion indicadora). Sea (Ω,A, P) un espacio de probabilidad.Para cualquier evento A ∈ A vale que

V(1ω ∈ A) = E[1ω ∈ A2] − E[1ω ∈ A]2 = P(A) − P(A)2 = P(A)(1 − P(A)). (20)

Ejemplo 2.4 (Dado equilibrado). Sea X el resultado del lanzamiento de un dado equilibrado.Por el Ejemplo 1.3 sabemos que E[X] = 7/2. Por otra parte

E[X2] =6∑

x=1

x2P(X = x) =

1

6

6∑

x=1

x2 =1 + 4 + 9 + 16 + 25 + 36

6=

91

6.

Por lo tanto, de acuerdo con la Proposicion 2.2, la varianza de X es

V(X) =91

6−(

7

2

)2

=32

12=

8

3.

Ejemplo 2.5 (Fiabilidad). Sea T el tiempo de espera hasta que ocurre la primer falla enun sistema electronico con funcion intensidad de fallas de la forma λ(t) = 2t1t > 0. Por elEjemplo 1.7 sabemos que E[T ] =

√π/2. Por otra parte,

E[T 2] =

∫ ∞

−∞t2f(t)dt =

∫ ∞

0t22t exp(−t2)dt =

∫ ∞

0xe−xdx = 1.

La tercera igualdad se obtiene mediante el cambio de variables t2 = x y la cuarta se deduceusando la formula de integracion por partes aplicada a u = x y v′ = e−x.

Por lo tanto, de acuerdo con la Proposicion 2.2, la varianza de T es

V(T ) = 1 −(√

π

2

)2

= 1 − π

4.

13

Page 106: espacios de probabilidad

2.3. Propiedades

Proposicion 2.6. Para todo a, b ∈ R

V(aX + b) = a2V(X). (21)

Demostracion. Por definicion,

V(aX + b) = E[(aX + b − E[aX + b])2] = E[a2(X − E[X])2] = a2V(X).

Para obtener la segunda igualdad usamos que E[aX + b] = aE[X] + b.

Error cuadratico medio. Una manera de “representar” la variable aleatoria X medianteun valor fijo c ∈ R es hallar el valor c que minimice el llamado error cuadratico medio,E[(X − c)2].

Teorema 2.7 (Pitagoras). Sea X una variable aleatoria con esperanza y varianza finitas.Para toda constante c ∈ R vale que

E[(X − c)2] = V(X)2 + (E[X] − c)2.

En particular, el valor de c que minimiza el error cuadratico medio es la esperanza de X,E[X].

Demostracion. Escribiendo X−c en la forma X−E[X]+E[X]−c y desarrollando cuadradosse obtiene (X−c)2 = (X−E[X])2+(E[X]−c)2+2(X−E[X])(E[X]−c). El resultado se obtienetomando esperanza en ambos lados de la igualdad y observando que E[X − E[X]] = 0.

3. Covarianza

3.1. Definicion

Definicion 3.1 (Covarianza). Sean X e Y dos variables aleatorias de varianzas finitasdefinidas sobre el mismo espacio de probabilidad (Ω,A, P). La covarianza de X e Y se definepor

Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])]. (22)

3.2. Calculo

Proposicion 3.2. Sean X e Y dos variables aleatorias definidas sobre el mismo espacio deprobabilidad (Ω,A, P). Si los segundos momentos de las variables aleatorias X e Y son finitos,se tiene que

Cov(X, Y ) = E[XY ] − E[X]E[Y ]. (23)

14

Page 107: espacios de probabilidad

Demostracion. La esperanza del producto E[XY ] es finita porque las esperanzas E[X2] yE[Y 2] son finitas y vale que |xy| ≤ 1

2(x2 + y2). Usando la propiedad distributiva del productoy la linealidad de la esperanza tenemos que

E[(X − E[X]) (Y − E[Y ])] = E[XY − E[Y ]X − E[X]Y + E[X]E[Y ]]

= E[XY ] − E[Y ]E[X] − E[X]E[Y ] + E[X]E[Y ]

= E[XY ] − E[X]E[Y ].

Ejemplo 3.3. Sea (Ω,A, P) un espacio de probabilidad y sean A ∈ A y B ∈ A dos eventos deprobabilidad positiva. Consideremos las variables aleatorias X = 1ω ∈ A e Y = 1ω ∈ B.Entonces,

Cov(X, Y ) = E[XY ] − E[X]E[Y ]

= P(XY = 1) − P(X = 1)P(Y = 1)

= P(X = 1, Y = 1) − P(X = 1)P(Y = 1).

La segunda y la tercera igualdad se obtienen de (2) observando que XY es una variable avalores 0 o 1 que vale 1 si y solo si X e Y son ambas 1.

Notamos que

Cov(X, Y ) > 0 ⇐⇒ P(X = 1, Y = 1) > P(X = 1)P(Y = 1)

⇐⇒ P(X = 1, Y = 1)

P(X = 1)> P(Y = 1)

⇐⇒ P(Y = 1|X = 1) > P(Y = 1).

En palabras, la covarianza de X e Y es positiva si y solamente si la condicion X = 1 aumentala probabilidad de que Y = 1.

Ejemplo 3.4. En una urna hay 6 bolas rojas y 4 bolas negras. Se extraen 2 bolas al azar sinreposicion. Consideramos los eventos

Ai = sale una bola roja en la i-esima extraccion, i = 1, 2,

y definimos las variables aleatorias X1 y X2 como las funciones indicadoras de los eventosA1 y A2 respectivamente. De acuerdo con el Ejemplo anterior es intuitivamente claro queCov(X1, X2) < 0. (¿Por que? )

Cov(X1, X2) = P(X1 = 1, X2 = 1) − P(X1 = 1)P(X2 = 1) = P(A1 ∩ A2) − P(A1)P(A2)

=6

10× 5

9− 6

10

(

5

9× 6

10+

6

9× 4

10

)

= − 2

75= −0.02666....

Nota Bene. Se puede mostrar que Cov(X, Y ) > 0 es una indicacion de que Y tiende acrecer cuando X lo hace, mientras que Cov(X, Y ) < 0 es una indicacion de que Y decrececuando X crece.

15

Page 108: espacios de probabilidad

3.3. Propiedades

Lema 3.5 (Propiedades). Para variables aleatorias X, Y, Z y constantes a, valen las siguientespropiedades

1. Cov(X, X) = V(X),2. Cov(X, Y ) = Cov(Y, X),3. Cov(aX, Y ) = aCov(X, Y ),4. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).

Demostracion. Ejercicio.

Sobre la esperanza del producto. Si se conoce la covarianza y la esperanza de lasmarginales, la identidad (23) puede ser util para calcular la esperanza del producto:

E[XY ] = E[X]E[Y ] + Cov(X, Y ).

Nota Bene. Si X e Y son independientes, Cov(X, Y ) = 0 porque E[XY ] = E[X]E[Y ]. Perola recıproca no es cierta.

Ejemplo 3.6 (Dos bolas en dos urnas). El experimento aleatorio consiste en ubicar dosbolas distinguibles en dos urnas. Sean N la cantidad de urnas ocupadas y Xi la cantidadde bolas en la urna i. El espacio muestral se puede representar de la siguiente manera Ω =(1, 1); (1, 2); (2, 1); (2, 2). La funcion de probabilidad conjunta de N y X1 se muestra en elCuadro 1

N \ X1 0 1 2 pN

1 1/4 0 1/4 1/22 0 1/2 0 1/2

pX11/4 1/2 1/4

Cuadro 1: Funcion de probabilidad conjunta de (N, X1).

Para calcular la esperanza del producto NX1 usamos el Teorema 1.19

E[NX1] = 1 · 1 · pN,X1(1, 1) + 1 · 2 · pN,X1

(1, 2) + 2 · 1 · pN,X1(2, 1) + 2 · 2 · pN,X1

(2, 2)

= 1 · 0 + 2 · 1/4 + 2 · 1/2 + 4 · 0 = 3/2.

Es facil ver que E[N ] = 3/2 y E[X1] = 1. Por lo tanto, Cov(N, X1) = 0. Sin embargo, lasvariables N y X1 no son independientes.

3.4. Varianza de sumas

Usando las propiedades de la covarianza enunciadas en Lema 3.5 se puede demostrar que

Cov

n∑

i=1

Xi,m∑

j=1

Yj

=n∑

i=1

m∑

j=1

Cov(Xi, Yj) (24)

16

Page 109: espacios de probabilidad

En particular, se obtiene que

V

(

n∑

i=1

Xi

)

= Cov

n∑

i=1

Xi,n∑

j=1

Xj

=n∑

i=1

V(Xi) + 2n∑

i=1

j<i

Cov(Xi, Yj). (25)

Finalmente, si las variables son independientes

V

(

n∑

i=1

Xi

)

=

n∑

i=1

V(Xi). (26)

4. Algunas desigualdades

4.1. Cauchy-Schwartz

Teorema 4.1 (Cauchy-Schwartz).

E[|XY |] ≤ (E[X2]E[Y 2])1/2 (27)

Demostracion. Observar que para todo t ∈ R:

0 ≤ E[(t|X| + |Y |)2] = t2E[X2] + 2tE[|XY |] + E[Y 2].

Como la funcion cuadratica en t que aparece en el lado derecho de la igualdad tiene a lo sumouna raız real se deduce que

4E[|XY |]2 − 4E[X2]E[Y 2] ≤ 0.

Por lo tanto,

E[|XY |]2 ≤ E[X2]E[Y 2].

Corolario 4.2. Sea X una variable aleatoria tal que E[X2] < ∞. Si a < E[X], entonces

P(X > a) ≥ (E[X] − a)2

E[X2].

Demostracion. De la desigualdad X1X > a ≤ |X1X > a| y de la propiedad demonotonıa de la esperanza se deduce que

E[X1X > a] ≤ E[|X1X > a|]. (28)

Aplicando la desigualdad de Cauchy-Schwartz a |X1X > a| se obtiene que

E[|X1X > a|] ≤ (E[X2]E[1X > a2])1/2 = (E[X2]P(X > a))1/2 (29)

Observando que X = X1X > a + X1X ≤ a y que X1X ≤ a ≤ a se deduce que

E[X] = E[X1X > a] + E[X1X ≤ a] ≤ E[X1X > a] + a

17

Page 110: espacios de probabilidad

y en consecuencia,

E[X] − a ≤ E[X1X > a]. (30)

Combinando las desigualdades (30), (28) y (29) se obtiene que

E[X] − a ≤ (E[X2]P(X > a))1/2

y como E[X] − a > 0, elevando al cuadrado, se concluye que

(E[X] − a)2 ≤ E[X2]P(X > a).

El resultado se obtiene despejando.

4.2. Chebyshev

Teorema 4.3 (Desigualdad de Chebyshev). Sea ϕ : R → R tal que ϕ ≥ 0 y A ∈ B(R). Sea

iA := ınfϕ(x) : x ∈ A. Entonces,

iAP(X ∈ A) ≤ E[ϕ(X)] (31)

Demostracion. La definicion de iA y el hecho de que ϕ ≥ 0 implican que

iA1X ∈ A ≤ ϕ(X)1X ∈ A ≤ ϕ(X)

El resultado se obtiene tomando esperanza.En lo que sigue enunciaremos algunos corolarios que se obtienen como casos particulares

del Teorema 4.3.

Corolario 4.4 (Desigualdad de Markov). Sea X una variable aleatoria a valores no negativos.Para cada a > 0 vale que

P(X ≥ a) ≤ E[X]

a. (32)

Demostracion. Aplicar la desigualdad de Chebyshev usando la funcion ϕ(x) = x restringi-da a la semi-recta no negativa [0,∞) y el conjunto A = [a,∞) para obtener

aP(X ≥ a) ≤ E[ϕ(X)] = E[X].

y despejar.

Corolario 4.5. Sea a > 0. Vale que

P(X > a) ≤ 1

a2E[X2]. (33)

Demostracion. Aplicar la desigualdad de Chebyshev usando la funcion ϕ(x) = x2 y elconjunto A = (a,∞) para obtener

a2P(X > a) ≤ E[X2]

y despejar.

Corolario 4.6 (Pequena desigualdad de Chebyshev). Sea X una variable aleatoria de vari-anza finita. Para cada a > 0 vale que

P(|X − E[X]| ≥ a) ≤ V(X)

a2. (34)

18

Page 111: espacios de probabilidad

Demostracion. Debido a que (X − E[X])2 es una variable aleatoria no negativa podemosaplicar la desigualdad de Markov (poniendo a2 en lugar de a) y obtenemos

P(

(X − E[X])2 ≥ a2)

≤ E[(X − E[X])2]

a2=

V(X)

a2.

La desigualdad (X − E[X])2 ≥ a2 es equivalente a la desigualdad |X − E[X]| ≥ a. Por lotanto,

P (|X − E[X]| ≥ a) ≤ V(X)

a2.

Lo que concluye la demostracion.

Nota Bene. Grosso modo la pequena desigualdad de Chebyshev establece que si la varianzaes pequena, los grandes desvıos respecto de la media son improbables.

Corolario 4.7. Sea X una variable aleatoria con varianza finita, entonces para cada α > 0

P(|X − E[X]| ≥ ασ(X)) ≤ 1

α2. (35)

El resultado se obtiene poniendo a = ασ(X) en la pequena desigualdad de Chebyshev.

Ejemplo 4.8. La cantidad X de artıculos producidos por un fabrica durante una semana esuna variable aleatoria de media 500.

(a) ¿Que puede decirse sobre la probabilidad de que la produccion semanal supere los1000 artıculos? Por la desigualdad de Markov,

P (X ≥ 1000) ≤ E[X]

1000=

500

1000=

1

2.

(b) Si la varianza de la produccion semanal es conocida e igual a 100, ¿que puede decirsesobre la probabilidad de que la produccion semanal se encuentre entre 400 y 600 artıculos?Por la desigualdad de Chebyshev,

P (|X − 500| ≥ 100) ≤ σ2

(100)2=

1

100.

Por lo tanto, P (|X − 500| < 100) ≥ 1 − 1100 = 99

100 , la probabilidad de que la produccionsemanal se encuentre entre 400 y 600 artıculos es al menos 0.99.

El que mucho abarca poco aprieta. Las desigualdades de Markov y Chebyshev son im-portantes porque nos permiten deducir cotas sobre las probabilidades cuando solo se conocenla media o la media y la varianza de la distribucion de probabilidades. Sin embargo, debetenerse en cuenta que las desigualdades de Markov y de Chebyshev producen cotas universalesque no dependen de las distribuciones de las variables aleatorias (dependen pura y exclusiva-mente de los valores de la esperanza y de la varianza). Por este motivo su comportamientosera bastante heterogeneo: en algunos casos produciran cotas extremadamente finas, pero enotros casos solamente cotas groseras.

19

Page 112: espacios de probabilidad

5. La ley debil de los grandes numeros

Teorema 5.1 (Ley debil de los grandes numeros). Sea X1, X2, . . . una sucesion de variablesaleatorias independientes identicamente distribuidas, tales que V(X1) < ∞. Sea Sn, n ≥ 1, lasucesion de las sumas parciales definida por Sn :=

∑ni=1 Xi. Entonces, para cualquier ǫ > 0

lımn→∞

P

(∣

Sn

n− E[X1]

> ǫ

)

= 0.

Demostracion. Se obtiene aplicando la desigualdad de Chebyshev a la variable aleatoriaSn/n. Usando que la esperanza es un operador lineal se obtiene que

E [Sn/n] =1

nE

[

n∑

i=1

Xi

]

=1

n

n∑

i=1

E[Xi] = E[X1].

Como las variables X1, X2, . . . son independientes tenemos que

V (Sn/n) =1

n2V

(

n∑

i=1

Xi

)

=1

n2

n∑

i=1

V(Xi) =V(X1)

n.

Entonces, por la desigualdad de Chebyshev, obtenemos la siguiente estimacion

P

(∣

Sn

n− E[X1]

> ǫ

)

≤ V(X1)

nǫ2. (36)

Como V(X1) < ∞ el lado derecho de la ultima desigualdad tiende a 0 cuando n → ∞.

Nota Bene. La ley debil de los grandes numeros establecida en el Teorema 5.1 sirve comobase para la nocion intuitiva de probabilidad como medida de las frecuencias relativas. Laproposicion “en una larga serie de ensayos identicos la frecuencia relativa del evento A seaproxima a su probabilidad P(A)” se puede hacer teoricamente mas precisa de la siguientemanera: el resultado de cada ensayo se representa por una variable aleatoria (independiente delas demas) que vale 1 cuando se obtiene el evento A y vale cero en caso contrario. La expresion“una larga serie de ensayos” adopta la forma de una sucesion X1, X2, . . . de variables aleatoriasindependientes cada una con la misma distribucion que la indicadora del evento A. Notar queXi = 1 significa que “en el i-esimo ensayo ocurrio el evento A” y la suma parcial Sn =

∑ni=1 Xi

representa la “frecuencia del evento A” en los primeros n ensayos. Puesto que E[X1] = P(A)y V(X1) = P(A)(1 − P(A)) la estimacion (36) adopta la forma

P

(∣

Sn

n− P(A)

> ǫ

)

≤ P(A)(1 − P(A))

nǫ2. (37)

Por lo tanto, la probabilidad de que la frecuencia relativa del evento A se desvıe de su prob-

abilidad P(A) en mas de una cantidad prefijada ǫ, puede hacerse todo lo chica que se quiera,

siempre que la cantidad de ensayos n sea suficientemente grande.

Ejemplo 5.2 (Encuesta electoral). Se quiere estimar la proporcion del electorado que pre-tende votar a un cierto candidato. Cual debe ser el tamano muestral para garantizar undeterminado error entre la proporcion poblacional, p, y la proporcion muestral Sn/n?

20

Page 113: espacios de probabilidad

Antes de resolver este problema, debemos reflexionar sobre la definicion de error. Habit-ualmente, cuando se habla de error, se trata de un numero real que expresa la (in)capacidadde una cierta cantidad de representar a otra. En los problemas de estimacion estadıstica,debido a que una de las cantidades es una variable aleatoria y la otra no lo es, no es posibleinterpretar de un modo tan sencillo el significado de la palabra error.

Toda medida muestral tiene asociada una incerteza (o un riesgo) expresada por un modeloprobabilıstico. En este problema consideramos que el voto de cada elector se comporta comouna variable aleatoria X tal que P(X = 1) = p y P(X = 0) = 1−p, donde X = 1 significa queel elector vota por el candidato considerado. Por lo tanto, cuando se habla de que queremosencontrar un tamano muestral suficiente para un determinado error maximo, por ejemplo0.02, tenemos que hacerlo con una medida de certeza asociada. Matematicamente, queremosencontrar n tal que P

(∣

Sn

n − p∣

∣ ≤ 0.02)

≥ 0.9999 o, equivalentemente, queremos encontrar ntal que

P

(∣

Sn

n− p

> 0.02

)

≤ 0.0001.

Usando la estimacion (37) se deduce que

P

(∣

Sn

n− p

> 0.02

)

≤ p(1 − p)

n(0.02)2.

El numerador de la fraccion que aparece en el lado derecho de la estimacion depende de p yel valor de p es desconocido. Sin embargo, sabemos que p(1− p) es una parabola convexa conraıces en p = 0 y p = 1 y por lo tanto su maximo ocurre cuando p = 1/2, esto es p(1−p) ≤ 1/4.En la peor hipotesis tenemos:

P

(∣

Sn

n− p

> 0.02

)

≤ 1

4n(0.02)2.

Como maximo estamos dispuestos a correr un riesgo de 0.0001 y en el peor caso tenemos aco-tada la maxima incerteza por (4n(0.02)2)−1. El problema se reduce a resolver la desigualdad(4n(0.02)2)−1 ≤ 0.0001. Por lo tanto,

n ≥ ((0.0001)4(0.02)2)−1 = 6250000.

Una cifra absurdamente grande!! Mas adelante, mostraremos que existen metodos mas sofisti-cados que permiten disminuir el tamano de la muestra.

21

Page 114: espacios de probabilidad

6. Distribuciones particulares

Para facilitar referencias posteriores presentaremos tablas de esperanzas y varianzas dealgunas distribuciones importantes de uso frecuente y describiremos el metodo para obtener-las.

Discretas

No. Nombre Probabilidad Soporte Esperanza Varianza

1. Uniforme 1b−a+1 a ≤ x ≤ b (a + b)/2 (b − a)(b − a − 2)/12

2. Bernoulli px(1 − p)1−x x ∈ 0, 1 p p(1 − p)

3. Binomial(

nx

)

px(1 − p)n−x 0 ≤ x ≤ n np np(1 − p)

4. Geometrica (1 − p)x−1p x ∈ N 1/p (1 − p)/p2

5. Poisson λx

x! e−λ x ∈ N0 λ λ

Cuadro 2: Esperanza y varianza de algunas distribuciones discretas de uso frecuente.

Continuas

No. Nombre Densidad Soporte Esperanza Varianza

1. Uniforme 1b−a x ∈ [a, b] (a + b)/2 (b − a)2/12

2. Exponencial λe−λx x > 0 1/λ 1/λ2

3. Gamma λν

Γ(ν)xν−1e−λx x > 0 ν/λ ν/λ2

4. Beta Γ(ν1+ν2)Γ(ν1)Γ(ν2)

xν1−1(1 − x)ν2−1 x ∈ (0, 1) ν1

ν1+ν2

ν1ν2

(ν1+ν2)2(ν1+ν2+1)

5. Normal 1√2πσ

e−(x−µ)2/2σ2

x ∈ R µ σ2

Cuadro 3: Esperanza y varianza de algunas distribuciones continuas de uso frecuente.

22

Page 115: espacios de probabilidad

Cuentas con variables discretas

1. Distribucion uniforme discreta.

Sean a y b dos numeros enteros tales que a < b. Se dice que la variable aleatoria X tienedistribucion uniforme sobre el “intervalo” de numeros enteros [a, b] := a, a + 1, . . . , b, y sedenota X ∼ U[a, b], si X es discreta y tal que

P(X = x) =1

b − a + 11x ∈ a, a + 1, . . . , b.

Notando que la distribucion de X coincide con la de la variable X∗ + a − 1, donde X∗

esta uniformemente distribuida sobre 1, . . . , b − a + 1, resulta que

E[X] = E[X∗] + a − 1 =1 + (b − a + 1)

2+ a − 1 =

a + b

2.

Para calcular la varianza de X, consideramos primero el caso mas simple donde a = 1 y b = n.Por induccion en n se puede ver que

E[X2] =1

n

n∑

k=1

k2 =(n + 1)(2n + 1)

6.

La varianza puede obtenerse en terminos de los momentos de orden 1 y 2:

V(X) = E[X2] − E[X]2 =(n + 1)(2n + 1)

6− (n + 1)2

4

=(n + 1)[2(2n + 1) − 3(n + 1)]

12=

n2 − 1

12.

Para el caso general, notamos que la variable aleatoria uniformemente distribuida sobre [a, b]tiene la misma varianza que la variable aleatoria uniformemente distribuida sobre [1, b−a+1],puesto que esas dos variables difieren en la constante a− 1. Por lo tanto, la varianza buscadase obtiene de la formula anterior sustituyendo n = b − a + 1

V(X) =(b − a + 1)2 − 1

12=

(b − a)(b − a + 2)

12.

2. Distribucion Bernoulli.

Sea p ∈ (0, 1). Se dice que la variable aleatoria X tiene distribucion Bernoulli de parametro

p, y se denota X ∼ Bernoulli(p), si X es discreta y tal que

P(X = x) = px(1 − p)1−x, donde x = 0, 1.

Por definicion,

E[X] = 0 · P(X = 0) + 1 · P(X = 1) = 0 · (1 − p) + 1 · p = p.

Por otra parte,

E[X2] = 02 · P(X = 0) + 12 · P(X = 1) = p.

Por lo tanto,

V(X) = E[X2] − E[X]2 = p − p2 = p(1 − p).

23

Page 116: espacios de probabilidad

3. Distribucion Binomial.

Sean p ∈ (0, 1) y n ∈ N. Se dice que la variable aleatoria X tiene distribucion Binomial

de parametros n y p, y se denota X ∼ Binomial (n, p), si X es discreta y tal que

P(X = x) =

(

n

x

)

px(1 − p)n−x, donde x = 0, 1, . . . , n.

Por definicion,

E[X] =n∑

x=0

xP(X = x) =n∑

x=0

x

(

n

x

)

px(1 − p)n−x =n∑

x=1

xn!

(n − x)!x!px(1 − p)n−x

=

n∑

x=1

n!

(n − x)!(x − 1)!px(1 − p)n−x = np

n∑

x=1

(n − 1)!

(n − x)!(x − 1)!px−1(1 − p)n−x

= npn−1∑

y=0

(

n − 1

y

)

py(1 − p)n−1−y = np(p + (1 − p))n−1 = np.

Analogamente se puede ver que

E[X2] = np((n − 1)p + 1).

Por lo tanto,

V(X) = E[X2] − E[X]2 = np((n − 1)p + 1) − (np)2

= np((n − 1)p + 1 − np) = np(1 − p).

4. Distribucion Geometrica.

Sea p ∈ (0, 1). Se dice que la variable aleatoria X tiene distribucion Geometrica de

parametro p, y se denota X ∼ Geometrica(p), si X es discreta y tal que

P(X = x) = (1 − p)x−1p1x ∈ N.

Por definicion,

E[X] =∞∑

x=1

xP(X = x) =∞∑

x=1

x(1 − p)x−1p = p∞∑

x=1

x(1 − p)x−1.

La serie se calcula observando que x(1 − p)x−1 = − ddp(1 − p)x y recordando que las series de

potencias se pueden derivar termino a termino:

∞∑

x=1

x(1 − p)x−1 = − d

dp

∞∑

x=1

(1 − p)x = − d

dp

(

p−1 − 1)

= p−2.

Por lo tanto, E[X] = p · p−2 = 1/p.

24

Page 117: espacios de probabilidad

Para calcular V(X) usaremos la misma tecnica: derivamos dos veces ambos lados de laigualdad

∑∞x=1(1 − p)x−1 = p−1 y obtenemos

2p−3 =d2

dp2p−1 =

d2

dp2

∞∑

x=1

(1 − p)x−1 =∞∑

x=1

(x − 1)(x − 2)(1 − p)x−3

=∞∑

x=1

(x + 1)x(1 − p)x−1 =∞∑

x=1

x2(1 − p)x−1 +∞∑

x=1

x(1 − p)x−1.

Multiplicando por p los miembros de las igualdades obtenemos, 2p−2 = E[X2] + E[X] =E[X2] + p−1. En consecuencia, E[X2] = 2p−2 − p−1. Por lo tanto,

V(X) = E[X2] − E[X]2 = 2p−2 − p−1 − p−2 = p−2 − p−1 = p−2(1 − p).

5. Distribucion de Poisson.

Sea λ > 0. Se dice que la variable aleatoria X tiene distribucion de Poisson de intensidad

λ, y se denota X ∼ Poisson(λ), si X es discreta y tal que

P(X = x) =λx

x!e−λ1x ∈ N0.

Por definicion,

E[X] =

∞∑

x=0

xP(X = x) =

∞∑

x=0

xλx

x!e−λ = λe−λ

∞∑

x=1

xλx−1

x!= λe−λ

∞∑

x=1

λx−1

(x − 1)!= λe−λeλ

= λ.

Derivando termino a termino, se puede ver que

E[X2] =∞∑

x=0

x2P(X = x) =

∞∑

x=0

x2 λx

x!e−λ = λe−λ

∞∑

x=1

x2 λx−1

x!= λe−λ

∞∑

x=1

xλx−1

(x − 1)!

= λe−λ d

∞∑

x=1

λx

(x − 1)!= λe−λ d

(

λeλ)

= λe−λ(

eλ + λeλ)

= λ + λ2.

Por lo tanto,

V(X) = E[X2] − E[X] = λ + λ2 − λ2 = λ.

Cuentas con variables continuas

1. Distribucion uniforme.

Sean a < b. Se dice que la variable aleatoria X tiene distribucion uniforme sobre el

intervalo [a, b], y se denota X ∼ U[a, b], si X es absolutamente continua con densidad deprobabilidades

f(x) =1

b − a1x ∈ [a, b].

25

Page 118: espacios de probabilidad

Por definicion,

E[X] =

∫ ∞

−∞xf(x)dx =

∫ ∞

−∞x

1

b − a1x ∈ [a, b] dx =

1

b − a

∫ b

ax dx =

1

b − a

(

b2 − a2

2

)

=a + b

2.

Por otra parte,

E[X2] =

∫ ∞

−∞x2f(x)dx =

1

b − a

∫ b

ax2 dx =

1

b − a

(

b3 − a3

3

)

=a2 + ab + b2

3.

Finalmente,

V(X) = E[X2] − E[X]2 =a2 + ab + b2

3−(

a + b

2

)2

=a2 − 2ab + b2

12=

(b − a)2

12.

2. Distribucion exponencial.

Sea λ > 0. Se dice que la variable aleatoria X tiene distribucion exponencial de intensi-

dad λ, y se denota X ∼ Exp(λ), si X es absolutamente continua con funcion densidad deprobabilidades

f(x) = λe−λx1x ≥ 0.El calculo de E[X] y V(X) se reduce al caso X ∼ Exp(1). Basta observar que Y ∼ Exp(λ)si y solo si Y = λ−1X, donde X ∼ Exp(1) y usar las identidades E[λ−1X] = λ−1

E[X] yV(λ−1X) = λ−2

V(X). En lo que sigue suponemos que X ∼ Exp(1).Integrando por partes se obtiene,

E[X] =

∫ ∞

−∞xf(x)dx =

∫ ∞

−∞xe−x1x ≥ 0 =

∫ ∞

0λxe−xdx = −xe−x

0

+

∫ ∞

0e−xdx

= 1.

Por otra parte,

E[X2] =

∫ ∞

−∞x2f(x)dx =

∫ ∞

0x2e−xdx = −x2e−x

∞0

+

∫ ∞

02xe−xdx = 2.

Por lo tanto, V(X) = E[X2] − E[X]2 = 2 − 1 = 1.

3. Distribucion gamma.

La funcion gamma se define por

Γ(t) :=

∫ ∞

0xt−1e−xdx t > 0.

Integrando por partes puede verse que Γ(t) = (t − 1)Γ(t − 1) para todo t > 0. De aquı sededuce que la funcion gamma interpola a los numeros factoriales en el sentido de que

Γ(n + 1) = n! para n = 0, 1, . . .

26

Page 119: espacios de probabilidad

Sean λ > 0 y ν > 0. Se dice que la variable aleatoria X tiene distribucion gamma de parametros

ν, λ, , y se denota X ∼ Γ(ν, λ), si X es absolutamente continua con funcion densidad deprobabilidades

f(x) =λν

Γ(ν)xν−1e−λx1x > 0.

El calculo de E[X] y V(X) se reduce al caso X ∼ Γ(ν, 1). Para ello, basta observar que Y ∼Γ(ν, λ) si y solo si Y = λ−1X, donde X ∼ Γ(ν, 1) y usar las identidades E[λ−1X] = λ−1

E[X]y V(λ−1X) = λ−2

V(X). En lo que sigue suponemos que X ∼ Γ(ν, 1)

E[X] =

∫ ∞

0xf(x) dx =

∫ ∞

0

1

Γ(ν)xνe−xdx =

1

Γ(ν)Γ(ν + 1) = ν.

Del mismo modo se puede ver que E[X2] = (ν + 1)ν = ν2 + ν. Por lo tanto, V(X) =E[X2] − E[X]2 = ν.

4. Distribucion beta

Sean ν1 > 0 y ν2 > 0. Se dice que la variable aleatoria X tiene distribucion beta de

parametros ν1, ν2, y se denota X ∼ β(ν1, ν2), si X es absolutamente continua con funciondensidad de probabilidades

f(x) =Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)xν1−1(1 − x)ν2−11x ∈ (0, 1.

Por definicion,

E[X] =

∫ ∞

−∞xf(x)dx =

∫ ∞

−∞x

Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)xν1−1(1 − x)ν2−11x ∈ (0, 1 dx

=Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)

∫ 1

0xν1(1 − x)ν2−1 dx =

Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)

Γ(ν1 + 1)Γ(ν2)

Γ(ν1 + ν2 + 1)=

ν1

ν1 + ν2

Por otra parte,

E[X2] =

∫ ∞

−∞x2f(x)dx =

Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)

∫ 1

0xν1+1(1 − x)ν2−1 dx

=Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)

Γ(ν1 + 2)Γ(ν2)

Γ(ν1 + ν2 + 2)=

ν1(ν1 + 1)

(ν1 + ν2)(ν1 + ν2 + 1)

Finalmente,

V(X) = E[X2] − E[X]2 =ν1(ν1 + 1)

(ν1 + ν2)(ν1 + ν2 + 1)−(

ν1

ν1 + ν2

)2

=ν1ν2

(ν1 + ν2)2(ν1 + ν2 + 1).

27

Page 120: espacios de probabilidad

5. Distribucion normal.

Sean µ ∈ R y σ > 0. Se dice que la variable aleatoria X tiene distribucion normal de

parametros µ, σ2, y se denota X ∼ N (µ, σ2), si X es absolutamente continua con funciondensidad de probabilidades

f(x) =1√2πσ

e−(x−µ)2/2σ2

.

El calculo de E[X] y V(X) se reduce al caso X ∼ N (0, 1). Para ello, basta observar queY ∼ N (µ, σ2) si y solo si Y = σX +µ, donde X ∼ N (0, 1) y usar las identidades E[σX +µ] =σE[X]+µ y V(σX +µ) = σ2

V(X). En lo que sigue suponemos que X ∼ N (0, 1) y denotamossu densidad mediante

ϕ(x) =1√2π

e−x2/2

Es evidente que E[X] = 0. En consecuencia,

V(X) = E[X2] =

∫ ∞

−∞x2ϕ(x)dx

Observando que ϕ′(x) = −xϕ(x) e integrando por partes se obtiene,

V(X) =

∫ ∞

−∞x(xϕ(x))dx = −xϕ(x)

−∞+

∫ ∞

−∞ϕ(x)dx = 0 + 1.

7. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.(2000)

2. Billingsley, P.: Probability and Measure. John Wiley & Sons, New York. (1986)

3. Durrett, R. Elementary Probability for Applications. Cambridge University Press, NewYork. (2009)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1957)

5. Kolmogorov, A. N.: The Theory of Probability. Mathematics. Its Content, Methods,and Meaning. Vol 2. The M.I.T. Press, Massachusetts. (1963) pp. 229-264.

6. Ross, S.: Introduction to Probability and Statistics for Engineers and Scientists. Aca-demic Press, San Diego. (2004)

7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

8. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &Sons Ltd. (2004)

28

Page 121: espacios de probabilidad

Transformaciones de variables aleatorias

(Borradores, Curso 23)

Sebastian Grynberg

3 de abril de 2013

Mi unicornio azul ayer se me perdio,

pastando lo deje y desaparecio.

(Silvio Rodrıguez)

1

Page 122: espacios de probabilidad

Indice

1. Funciones de variables aleatorias 2

1.1. Metodo basico: eventos equivalentes . . . . . . . . . . . . . . . . . . . . . . . 21.2. Funciones a trozos: dividir y conquistar . . . . . . . . . . . . . . . . . . . . . 51.3. Funciones inyectivas suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4. Funciones suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Funciones de vectores aleatorios 7

2.1. Metodo basico: eventos equivalentes . . . . . . . . . . . . . . . . . . . . . . . 72.1.1. Suma de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1.2. Mınimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2. El metodo del Jacobiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3. Funciones k a 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3. Mınimo y maximo de dos exponenciales independientes 18

4. Funciones regulares e independencia 19

5. Bibliografıa consultada 20

1. Funciones de variables aleatorias

Sea X una variable aleatoria definida sobre un espacio de probabilidad (Ω,A, P). Seag : D ⊆ R → R una funcion cuyo dominio D contiene al rango de X: X(Ω) := x(ω) : ω ∈ Ω.Entonces Y = g(X) esta bien definida y sera una variable aleatoria si y solo si

ω ∈ Ω : g(X) ≤ y ∈ A para todo y ∈ R. (1)

En palabras, si g−1((−∞, y]) := x ∈ R : g(x) ≤ y, el conjunto X ∈ g−1(−∞, y] debe tenerasignada probabilidad. Este es tıpicamente el caso. Por ejemplo, si X es discreta, cualquierfuncion g cuyo dominio contenga al rango de X satisface (1). Si X no es discreta, cualquierfuncion g seccionalmente continua cuyo dominio contenga al rango de X satisface (1).

1.1. Metodo basico: eventos equivalentes

Si queremos hallar la funcion de distribucion de Y = g(X) tenemos que calcular

FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P(X ∈ g−1(−∞, y]). (2)

Los siguientes ejemplos ilustran el metodo basico para hacerlo.

Ejemplo 1.1 (Del pendulo a la distribucion de Cauchy). Sea Θ el angulo de un pendulomedido desde la vertical cuyo extremo superior se encuentra sostenido del punto (0, 1). Sea(X, 0) el punto de interseccion de la recta que contiene al pendulo y el eje x -ver la Figura 1-.Trigonometrıa mediante, sabemos que

X = tan Θ

2

Page 123: espacios de probabilidad

X0

1

Θ

Figura 1: Pendulo.

Si el angulo Θ es una variable aleatoria uniformemente distribuida sobre el intervalo (−π2 , π

2 ),cual es la distribucion de X?

Primero observamos que para cada θ ∈ (−π/2, π/2) tenemos que

P(Θ ≤ θ) =θ − (−π/2)

π/2 − (−π/2)=

θ + π/2

π=

1

2+

θ

π.

De allı se deduce que

P(X ≤ x) = P(tan Θ ≤ x) = P(Θ ≤ arctanx) =1

2+

1

πarctanx,

y derivando obtenemos que

fX(x) =1

π(1 + x2).

Teorema 1.2. Sea X una variable aleatoria continua con funcion de distribucion creciente.

Entonces, Y = FX(X) ∼ U(0, 1).

Demostracion. El analisis se reduce a examinar el comportamiento de la funcion de dis-tribucion de Y sobre el intervalo (0, 1). Para cada y ∈ (0, 1) vale que

FY (y) = P(Y ≤ y) = P(FX(X) ≤ y) = P(X ≤ F−1X (y)) = FX(F−1

X (y)) = y.

Corolario 1.3. Sea X una variable aleatoria continua con funcion de distribucion creciente.

Sea Y una variable aleatoria cualquiera. Entonces X puede transformarse en una copia de Yhaciendo lo siguiente: Y = F−1

Y (FX(X)), donde F−1Y es la inversa generalizada de Y .

Ejemplo 1.4. Construir una moneda equilibrada X usando una variable aleatoria T condistribucion exponencial de intensidad 1.

X = 1

1

2< 1 − e−T < 1

.

3

Page 124: espacios de probabilidad

El siguiente ejemplo puede considerarse un prototipo que ilustra como tratar con lasfunciones de variables aleatorias cuando no son inyectivas.

Ejemplo 1.5 (Prototipo). Sea X una variable aleatoria cualquiera y sea Y = X2. Queremosdeterminar la distribucion de Y .

1. Calculo explıcito de la funcion de distribucion. La funcion de distribucion de Y secalcula observando que g(x) = x2 y utilizando la formula: FY (y) = P

(

X ∈ g−1((−∞, y]))

. Eneste caso, el conjunto g−1((−∞, y]) adopta la forma

g−1((−∞, y]) =

x ∈ R : x2 ≤ y

=

[−√y,√

y] si y ≥ 0,∅ si y < 0.

Por lo tanto,

FY (y) = P (−√y ≤ X ≤ √

y )1y ≥ 0 = (FX(√

y) − FX(−√y−))1y ≥ 0. (3)

En particular, si X es continua, P(X = x) = 0 para todo x ∈ R y la identidad (3) adopta laforma

FY (y) = (FX(√

y) − FX(−√y))1y > 0. (4)

2. Calculo explıcito de la densidad de probabilidades. Si X es absolutamente continuacon densidad de probabilidades fX(x), la densidad de probabilidades de Y = X2 se obtienederivando la funcion de distribucion FY (y). De la identidad (4) se deduce que:

fY (y) =d

dyFY (y) =

(

fX(√

y)1

2√

y− fX(−√

y)1

−2√

y

)

1y > 0

=1

2√

y(fX(

√y) + fX(−√

y))1y > 0. (5)

Ejemplo 1.6 (De continua a discreta). Sea U ∼ U(0, 1]. Hacemos Y = [10U ], donde [x]representa la parte entera de x ∈ R. Queremos determinar la funcion de probabilidad de Y .

En primer lugar observamos que la variable aleatoria Y es el primer dıgito del desarrollodecimal de un numero elegido al azar sobre el intervalo (0, 1). Los posibles valores de Y son0, 1, . . . , 9. Para cada y ∈ 0, 1, . . . , 9 vale que

P(Y = y) = P

(

y

10< U ≤ y + 1

10

)

=1

10.

En otras palabras, Y ∼ U0, 1, . . . , 9.Ejemplo 1.7. Sea T ∼ Exp (λ) la duracion en minutos de una llamada telefonica. Se facturaun pulso cada t0 minutos o fraccion. Queremos determinar la distribucion de la cantidad depulsos facturados por la llamada.

La cantidad de pulsos facturados por la llamada se describe por:

N =∑

n≥1

n1(n − 1)t0 < T ≤ nt0.

Notando que N > n ⇐⇒ T > nt0 obtenemos que

P (N > n) = e−λnt0 =(

e−λt0)n

= P(T > t0)n.

Por lo tanto, N ∼ Geometrica (P(T ≤ t0)).

4

Page 125: espacios de probabilidad

Ejemplo 1.8 (Variables discretas). Sea X una variable aleatoria discreta a valores (xi)i≥1.De la relacion Y = g(X) se deduce que los posibles valores de Y son yi = g(xi), i ≥ 1. Si lafuncion de probabilidad de X esta dada por pX(xi) = pi, i ≥ 1, la funcion de probabilidad deY se determina por

pY (yi) = P(Y = yi) = P(X ∈ g−1(yi)) =∑

x∈g−1(yi)

px.

Ejercicios adicionales

1. Sea X una variable aleatoria discreta tal que P (X = −1) = 1/2, P(X = 0) = 1/4 yP(X = 1) = P(X = 2) = 1/8. Hallar la funcion de probabilidad de Y para Y = 2X +1 y paraY = 2X2 + 1.

1.2. Funciones a trozos: dividir y conquistar

Sea X una variable y sea A1, A2, . . . una particion de R tal que P(X ∈ Ai) > 0 para todoi ≥ 1. Consideramos una funcion a trozos definida por

g(x) =∑

i≥1

gi(x)1x ∈ Ai,

donde, para cada i ≥ 1, gi : R → R, es una funcion tal que gi(X) es una variable aleatoria. Sise quiere hallar la distribucion de

Y = g(X) =∑

i≥1

gi(X)1X ∈ Ai

se puede hacer lo siguiente: considerar las variables truncadas Xi = X|X ∈ Ai, hallar lasdistribuciones de las variables Yi = gi(Xi) y luego ponderarlas con los pesos P(X ∈ Ai):

FY (y) =∑

i≥1

FYi(y)P(X ∈ Ai). (6)

En efecto, por una parte tenemos que

FY (y) = P

j≥1

gj(X)1X ∈ Aj ≤ y

=∑

i≥1

P

j≥1

gj(X)1X ∈ Aj ≤ y, X ∈ Ai

=∑

i≥P (gi(X) ≤ y, X ∈ Ai) =

i≥1

P(

X ∈ g−1i (−∞, y] ∩ Ai

)

. (7)

Por otra parte,

FYi(y) = P(gi(Xi) ≤ y) = P(Xi ∈ g−1(−∞, y]) =

P(X ∈ g−1(−∞, y] ∩ Ai)

P(X ∈ Ai).

Equivalentemente,

P (X ∈ g−1(−∞, y] ∩ Ai) = FYi(y)P(X ∈ Ai). (8)

Combinando (7) y (8) se obtiene (6).

5

Page 126: espacios de probabilidad

1.3. Funciones inyectivas suaves

Teorema 1.9 (Cambio de variables). Sea X una variable aleatoria absolutamente continuacon densidad de probabilidades fX(x). Sea Y = g(X), donde g es una funcion monotonacon derivada no nula. Entonces Y es absolutamente continua y admite una densidad deprobabilidades de la forma

fY (y) =fX(x)

|g′(x)|

x=g−1(y)

. (9)

Demostracion.

1. La funcion g es creciente: g(x1) ≤ g(x2) para x1 ≤ x2. En tal caso la funcion inversag−1 tambien es creciente. En consecuencia,

FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P(

X ≤ g−1(y))

= FX

(

g−1(y))

. (10)

La funcion FY (y) es derivable porque es una composicion de funciones derivables. Derivandocon respecto a y y usando la regla de la cadena se obtiene

d

dyFY (y) =

d

dyFX(g−1(y)) =

fX(g−1(y))

g′(g−1(y)).

2. La funcion g es decreciente: g(x1) ≥ g(x2) para x1 ≤ x2. En este caso la funcion inversag−1 tambien es decreciente. En consecuencia,

FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P(

X ≥ g−1(y))

= 1 − FX

(

g−1(y))

. (11)

Derivando con respecto a y se obtiene

d

dyFY (y) =

d

dy

(

1 − FX(g−1(y)))

= −fX(g−1(y))

g′(g−1(y)).

Corolario 1.10 (Cambio lineal). Dados a > 0 y b ∈ R, la densidad de probabilidades deY = aX + b adopta la forma

fY (y) =1

afX

(

y − b

a

)

. (12)

En palabras, desde el punto de vista de la densidad de probabilidades, el cambio linealy = ax + b efectua una traslacion en b seguida de un cambio de escala de 1 en a sobre ladensidad original. Cuando el parametro a se achica, los valores de Y tienden a estar masconcentrados (alrededor del valor medio) y cuando a se agranda, tienden a dispersarse.

Ejemplo 1.11 (Variables exponenciales). Se dice que la variable aleatoria Y tiene distribucion

exponencial de intensidad λ > 0, y se denota Y ∼ Exp(λ), si Y = 1λX, donde X es una

variable aleatoria absolutamente continua que admite una densidad de probabilidades de laforma fX(x) = e−x1x ≥ 0. De (12) se deduce que Y admite una densidad de probabilidadesde la forma fY (y) = λe−λy1y ≥ 0.Ejemplo 1.12 (Variables Normales). Sean µ ∈ R y σ > 0. Se dice que la variable aleatoriaY tiene distribucion normal de parametros µ, σ2, y se denota Y ∼ N (µ, σ2), si Y = σX + µ,donde X es una variable aleatoria absolutamente continua con densidad de probabilidadesϕ(x) = 1√

2πe−x2/2. De (12) se deduce que Y admite una densidad de probabilidades de la

forma fY (y) = 1√2πσ

exp(

− (y−µ)2

2σ2

)

.

6

Page 127: espacios de probabilidad

1.4. Funciones suaves

Nota Bene. Las formulas (10) y (11) permiten calcular explıcitamente la funcion de dis-tribucion, FY , para transformaciones monotonas (continuas) Y = g(X), independientementede la clase de variable que sea X. ¿Que hacer cuando la transformacion g es suave pero no esinyectiva?

Ejemplo 1.13. Sea X ∼ N (0, 1). Segun la formula (5) la densidad de probabilidades deY = X2 es fY (y) = 1

2√

y

(

ϕ(√

y) + ϕ(−√y))

1y > 0, donde ϕ(x) = 1√2π

e−x2/2. Por lo tanto,

fY (y) =1√2π

y−1/2e−y/21y > 0.

En otras palabras, si X ∼ N (0, 1), entonces X2 ∼ Γ(1/2, 1/2).

El Teorema 1.9 puede generalizarse del siguiente modo

Teorema 1.14 (Cambio de variables II). Sea X una variable aleatoria absolutamente con-tinua con densidad de probabilidades fX(x). Sea Y = g(X), donde g es una funcion deriv-able con derivada no nula (salvo en contables puntos). Si para cada y ∈ R, el conjuntog−1(y) = x ∈ R : g(x) = y es discreto, entonces Y es absolutamente continua y admite unafuncion densidad de probabilidades de la forma

fY (y) =∑

x∈g−1(y)

fX(x)

|g′(x)| .

Se sobreentiende que si g−1(y) = ∅, fY (y) = 0.

Ejercicios adicionales

2. [James p.98] Si X tiene densidad fX(x), cual es la densidad de Y = cos X?

2. Funciones de vectores aleatorios

2.1. Metodo basico: eventos equivalentes

Sea X = (X1, . . . , Xn) un vector aleatorio definido sobre un espacio de probabilidad(Ω,A, P) y sea g : Rn → R una funcion cualquiera. Entonces, Y := g(X) sera una variablealeatoria si y solo si ω ∈ Ω : g(X(ω)) ≤ y ∈ A para todo y ∈ R. La funcion de distribucionde Y , FY (y), se puede calcular mediante la funcion de distribucion de X de la siguientemanera:

FY (y) = P(Y ≤ y) = P(g(X) ≤ y) = P (X ∈ By) , (13)

donde By := g−1((−∞, y]) = x ∈ Rn : g(x) ≤ y.

7

Page 128: espacios de probabilidad

Caso bidimensional continuo. Sea (X, Y ) un vector aleatorio con densidad conjuntafX,Y (x, y). Cualquier funcion continua a valores reales g : R2 → R define una nueva variablealeatoria Z := g(X, Y ). La funcion de distribucion de Z, FZ(z) = P(Z ≤ z), se puede obtenera partir de la densidad conjunta de X e Y de la siguiente forma:

1. Para cada z ∈ R se determina el conjunto Bz ⊂ R2 de todos los puntos (x, y) tales queg(x, y) ≤ z.

2. Integrando la densidad conjunta fX,Y (x, y) sobre el conjunto Bz se obtiene la funcionde distribucion de Z:

FZ(z) =x

Bz

fX,Y (x, y)dxdy. (14)

3. La densidad de Z se obtiene derivando la funcion de distribucion respecto de z.

Ejemplo 2.1. Sean X e Y dos variables aleatorias independientes cada una con distribucionuniforme sobre el intervalo [−1, 1]. Se quiere hallar la funcion de distribucion y la densidadde Z = |X − Y |.

La funcion de distribucion de la variable Z = |X − Y | se puede obtener observando laFigura 2.

1

1

−1

−1

y = x + z

2 − z

y = x − z

y

x

Figura 2: La region sombreada representa los puntos del cuadrado [−1, 1] × [−1, 1] tales que|x − y| ≤ z, 0 ≤ z ≤ 2 y su area es 4 − (2 − z)2 = 4z − z2.

Debido a que las variables aleatorias X e Y son independientes y uniformemente dis-tribuidas obre el intervalo [−1, 1], tenemos que P((X, Y ) ∈ B) = area(B)/4, para cualquierregion B contenida en el cuadrado [−1, 1] × [−1, 1] para la que tenga sentido la nocionde area. En consecuencia, FZ(z) = P (|X − Y | ≤ z) = (4z − z2)/4 para todo z ∈ [0, 2].Derivando esta ultima expresion respecto de z se obtiene la densidad de Z = |X − Y |:fZ(z) =

(

2−z2

)

1z ∈ (0, 2).

8

Page 129: espacios de probabilidad

Caso bidimensional discreto. Sea (X, Y ) un vector aleatorio discreto sobre un espaciode probabilidad (Ω,A, P), con funcion de probabilidad conjunta pX,Y (x, y). Sea g : R2 →R una funcion cualquiera, Z := g(X, Y ) es una nueva variable aleatoria, cuya funcion deprobabilidad, pZ(z), se obtiene de la siguiente manera:

pZ(z) = P(Z = z) = P(g(X, Y ) = z) =∑

(x,y)∈Bz

pX,Y (x, y), (15)

donde Bz = (x, y) ∈ X(Ω) × Y (Ω) : g(x, y) = z.

2.1.1. Suma de variables

Ejemplo 2.2 (Suma). Sean X, Y dos variables aleatorias con densidad conjunta fX,Y (x, y)y sea Z = X + Y . Para cada z ∈ R, Bz = (x, y) ∈ R2 : y ≤ z − x. Usando la formula (14)se obtiene la funcion de distribucion de Z

FZ(z) =

∫ ∞

−∞

(∫ z−x

−∞fX,Y (x, y)dy

)

dx. (16)

La densidad de Z se obtiene derivando respecto de z la funcion de distribucion FZ(z)

fZ(z) =d

dzFZ(z) =

∫ ∞

−∞fX,Y (x, z − x)dx. (17)

Ejemplo 2.3 (Suma de variables independientes). Sean X, Y dos variables aleatorias contin-uas e independientes con densidad conjunta fX,Y (x, y) = fX(x)fY (y). Segun la formula (17)la densidad de probabilidades de la suma Z = X + Y es

fZ(z) =

∫ ∞

−∞fX,Y (x, z − x)dx =

∫ ∞

−∞fX(x)fY (z − x)dx (18)

y se denomina el producto convolucion, fX ∗ fY , de las densidades marginales fX y fY .Si las densidades marginales fX(x) y fY (y) concentran la masa en [0,∞) la formula (18)

del producto convolucion es un poco mas sencilla:

(fX ∗ fY )(z) =

∫ ∞

0fX(x)fY (z − x)dx =

∫ z

0fX(x)fY (z − x)dx. (19)

Ejemplo 2.4 (Suma de exponenciales independientes de igual intensidad). Sean X e Yvariables aleatorias independientes con distribucion exponencial de intensidad λ > 0. Ladensidad de la suma X + Y es

fX+Y (z) =

∫ z

0λe−λxλez−xdx = λ2ze−λz. (20)

En el lado derecho de la identidad (20) se puede reconocer la densidad de la distribucionGamma: Γ(2, λ).

9

Page 130: espacios de probabilidad

2.1.2. Mınimo

Queremos caracterizar la funcion de distribucion del mınimo entre dos variables aleatoriasX e Y , U := mınX, Y . En primer lugar observamos que para cada u ∈ R vale que

FU (u) = P(U ≤ u) = P(mınX, Y ≤ u) = 1 − P(mınX, Y > u)

= 1 − P(X > u, Y > u). (21)

Si (X, Y ) es continuo con funcion de densidad conjunta fX,Y (x, y) tenemos que

FU (u) = 1 −∫ ∞

u

∫ ∞

ufX,Y (x, y)dxdy. (22)

Si (X, Y ) es discreto con funcion de probabilidad conjunta pX,Y (x, y) tenemos que

FU (u) = 1 −∑

x>u

y>u

pX,Y (x, y). (23)

Si X e Y son independientes tenemos que

FU (u) = 1 − P(X > u)P(Y > u). (24)

Etcetera...

Ejemplo 2.5 (Mınimo de exponenciales independientes). Sean X1 e X2 variables aleatoriasexponenciales independientes de intensidades λ1 y λ2 respectivamente. De acuerdo con laidentidad (24) tenemos que la funcion de distribucion del mınimo U = mınX1, X2 es

FU (u) = (1 − e−λ1ue−λ2u)1u ≥ 0 = (1 − e−(λ1+λ2)u)1u ≥ 0. (25)

En palabras, el mınimo de dos variables exponenciales independientes es una exponencial cuya

intensidad es la suma de las intensidades de las variables originales.

2.2. El metodo del Jacobiano

Teorema 2.6 (Cambio de variables en la integral multiple). Sea f : Rn → R una funcion

integrable. Sean G0 ⊂ Rn y G ⊂ Rn regiones abiertas y sea h : G0 → G, h = (h1, . . . , hn)una biyeccion entre G0 y G, cuyas componentes tienen derivadas parciales de primer orden

continuas. Esto es, para todo 1 ≤ i, j ≤ n, las funciones∂hi(y)

∂yjson continuas. Si el Jacobiano

de h es diferente de cero en casi todo punto, entonces,

Af(x)dx =

h−1(A)f(h(y))|Jh(y)|dy,

para todo conjunto abierto A ⊂ G, donde

Jh(y) = det

(

(

∂hi(y)

∂yj

)

i,j

)

.

10

Page 131: espacios de probabilidad

El siguiente resultado, que caracteriza la distribucion de un cambio de variables aleatorias,es una consecuencia inmediata del Teorema 2.6.

Corolario 2.7. Sea X un vector aleatorio n-dimensional con funcion densidad de probabilidadfX(x). Sean G0 ⊂ Rn y G ⊂ Rn regiones abiertas y sea g : G → G0 una biyeccion cuya funcioninversa h = g−1 satisface las hipotesis del Teorema 2.6. Si P(X ∈ G) = 1, entonces, el vectoraleatorio Y = g(X) tiene funcion densidad de probabilidad fY(y) de la forma:

fY(y) = fX(g−1(y))|Jg−1(y)|. (26)

Demostracion. Cualquiera sea el conjunto abierto B ⊂ G0 tenemos

P (Y ∈ B) = P (g(X) ∈ B) = P(X ∈ g−1(B)) =

g−1(B)fX(x)dx.

Poniendo f = fX y h = g−1 en el Teorema 2.6 se obtiene∫

g−1(B)fX(x)dx =

BfX(g−1(y))|Jg−1(y)|dy.

En consecuencia,

P (Y ∈ B) =

BfX(g−1(y))|Jg−1(y)|dy.

Por lo tanto, el vector aleatorio Y tiene funcion densidad de probabilidad de la forma fY(y) =fX(g−1(y))|Jg−1(y)|.

Nota Bene. Operativamente, la formula (26) para hallar la densidad conjunta de Y = g(X)involucra los siguientes pasos: 1. Invertir las variables (i.e., despejar las x’s en funcion de lasy’s). 2. Calcular el Jacobiano de la inversa de g (i.e., calcular el determinante de la matrizformada por las derivadas parciales de las xi respecto de las yj). 3. Substituir los resultadosobtenidos en los pasos 1. y 2. en la formula (26). Aunque mecanico, el metodo del

jacobiano es un metodo de naturaleza analıtica muy poderoso.

Nota Bene. Con frecuencia es mas facil obtener el jacobiano de y en relacion a x, pues Y

es una funcion de X. Hay que recordar que los dos jacobianos son recıprocos y que Jg−1(y) sepuede obtener a partir de Jg(x), invirtiendo este ultimo y substituyendo x por g−1(y). Estaregla es analoga a la regla para la derivada de una funcion inversa en el caso unidimensional:

dg−1(y)

dy=

1

g′(x)

x=g−1(y)

=1

g′(g−1(y)).

Ejemplo 2.8 (Transformaciones lineales). Si (X1, X2) = (aY1 + bY2, cY1 + dY2). Entonces,

fY1,Y2(y1, y2) = |ad − bc|fX1,X2(ay1 + by2, cy1 + dy2).

En general, si X = AY, donde A ∈ Rn×n es una matriz inversible, se obtiene

fY(y) = |det(A)|fX(Ay). (27)

11

Page 132: espacios de probabilidad

Ejemplo 2.9 (Suma y resta de normales independientes). Sean X1 y X2 dos variables aleato-rias independientes con distribuciones normales N (µ1, σ

2) y N (µ2, σ2), respectivamente. Su

densidad conjunta es

fX1,X2(x1, x2) =1

2πσ2exp

(

− 1

2σ2

(

(x1 − µ1)2 + (x2 − µ2)

2)

)

(28)

Consideramos el cambio de variables (y1, y2) = g(x1, x2) = (x1 + x2, x1 − x2) cuya inversa es(x1, x2) = g−1(y1, y2) = 1

2 (y1 + y2, y1 − y2). De acuerdo con la formula (27) tenemos que

fY1,Y2(y1, y2) =1

4πσ2exp

(

− 1

2σ2

(

(

y1 + y2

2− µ1

)2

+

(

y1 − y2

2− µ2

)2))

∝ exp

(

− 1

4σ2

(

y21 − 2(µ1 + µ2)y1

)

)

exp

(

− 1

4σ2

(

y22 − 2(µ1 − µ2)y2

)

)

∝ exp

(

−(y1 − (µ1 + µ2))2

2(2σ2)

)

exp

(

−(y2 − (µ1 − µ2))2

2(2σ2)

)

. (29)

De la identidad (29) podemos concluir que las variables Y1 e Y2 son independientes y quese distribuyen de la siguiente manera: Y1 ∼ N (µ1 + µ2, 2σ2), Y2 ∼ N (µ1 − µ2, 2σ2). Enotras palabras, si X1 y X2 son dos variables aleatorias independientes con distribuciones

normales N (µ1, σ2) y N (µ2, σ

2), entonces X1+X2 y X1−X2 son independientes y X1+X2 ∼N (µ1 + µ2, 2σ2) y X1 − X2 ∼ N (µ1 − µ2, 2σ2)

Nota Bene. Sean X1 y X2 dos variables aleatorias independientes con distribuciones nor-males N (µ1, σ

21) y N (µ2, σ

22), respectivamente. Calculos similares permiten deducir que X1 +

X2 ∼ N (µ1 + µ2, σ21 + σ2

2) y X1 − X2 ∼ N (µ1 − µ2, σ21 + σ2

2). Mas aun, X1 + X2 y X1 − X2

son independientes si y solo si σ21 = σ2

2.

Ejemplo 2.10 (Persistencia de la mala suerte). Sean X1 y X2 variables aleatorias inde-pendientes con distribucion comun exponencial de intensidad λ. Vamos a hallar la densidadconjunta de (Y1, Y2) donde

(Y1, Y2) = (X1 + X2, X1/X2).

Para ello consideramos la transformacion

g(x1, x2) = (x1 + x2, x1/x2) = (y1, y2).

La transformacion inversa de g es

x1 =y1y2

1 + y2, x2 =

y1

1 + y2(30)

y se obtiene resolviendo un sistema de dos ecuaciones en las variables x1 y x2:

x1 + x2 = y1

x1/x2 = y2⇐⇒

x1 + x2 = y1

x1 = y2x2⇐⇒

(1 + y2)x2 = y1

x1 = y2x2⇐⇒

x2 = y1

1+y2

x1 = y1y2

1+y2

El Jacobiano de la transformacion inversa Jg−1(y1, y2) = det

(

(

∂xi

∂yj

)

i,j

)

es

Jg−1(y1, y2) =∂x1

∂y1

∂x2

∂y2− ∂x1

∂y2

∂x2

∂y1=

(

y2

1 + y2

)( −y1

(1 + y2)2

)

−(

y1

(1 + y2)2

)(

1

1 + y2

)

=−y1y2

(1 + y2)3− y1

(1 + y2)3= −y1(1 + y2)

(1 + y2)3= − y1

(1 + y2)2. (31)

12

Page 133: espacios de probabilidad

Substituyendo los resultados (30) y (31) en la formula (26) se obtiene:

fY1,Y2(y1, y2) = fX1,X2

(

y1y2

1 + y2,

y1

1 + y2

) |y1|(1 + y2)2

. (32)

Por hipotesis,

fX1,X2(x1, x2) = λe−λx11x1 > 0λe−λx21x2 > 0 = λ2e−λ(x1+x2)1x1 > 0, x2 > 0. (33)

De (32) y (33) se obtiene

fY1,Y2(y1, y2) = λ2e−λy1y1

(1 + y2)21y1 > 0, y2 > 0

=(

λ2y1e−λy11y1 > 0

)

(

1

(1 + y2)21y2 > 0

)

. (34)

De (34) se deduce que las variables Y1 e Y2 son independientes.

Nota Bene sobre la persistencia de la mala suerte. De (34) se deduce que la densidaddel cociente Y2 = X1/X2 de dos variables exponenciales independientes de igual intensidades de la forma

fY2(y2) =1

(1 + y2)21y2 > 0. (35)

En consecuencia, la variable Y2 tiene esperanza infinita. Se trata de un hecho notable queofrece una explicacion probabilıstica de un fenomeno conocido por cualquiera que haya entradoen una fila de espera denominado la persistencia de la mala suerte1

¿Por que? Supongamos que la variable X1 representa el tiempo de espera para ser atendi-dos en la fila elegida (a la que llamaremos la fila 1) y que X2 representa el tiempo de esperaen otra fila que estamos observando mientras esperamos ser atendidos (a la que llamaremosla fila 2). El cociente X1/X2 representa la proporcion del tiempo esperado en la fila 1 en enrelacion al tiempo de espera en fila 2. Por ejemplo, X1/X2 ≥ 3 significa esperamos por lomenos el triple del tiempo que hubiesemos esperado en la otra fila.

Integrando (35) se deduce que

P(Y2 ≤ y2) =

∫ y2

0

1

(1 + y)2dy = 1 − 1

1 + y2=

y2

1 + y2, y2 ≥ 0

Equivalentemente,

P(Y2 > y2) =1

1 + y2, y2 ≥ 0

En particular, la probabilidad de que tengamos que esperar por lo menos el triple del tiempoque hubiesemos esperado en la otra fila es 1/4. Aunque de acuerdo con este modelo, enpromedio, la mitad de las veces esperamos menos tiempo que en la otra fila, en la practica, elfenomeno de la mala suerte se ve sobredimensionado porque no le prestamos atencion a lostiempos cortos de espera.

1Basta elegir una fila en las multiples cajas de un supermercado para sufrir este fenomeno y observar que

en la fila elegida el tiempo de espera es el doble o el triple que el tiempo de espera en las otras filas.

13

Page 134: espacios de probabilidad

Para percibir que significa el resultado E[X1/X2] = +∞ basta simular algunos valores dela variable X1/X2. Por ejemplo, en 10 simulaciones obtuvimos la siguiente muestra:

1.2562, 0.8942, 0.9534, 0.3596, 29.3658, 1.2641, 3.3443, 0.3452, 13.5228, 7.1701.

El lector puede extraer sus propias conclusiones.

Ejemplo 2.11 (Gammas y Betas). Sean X1 y X2 variables aleatorias independientes condistribuciones Γ(ν1, λ) y Γ(ν2, λ). Vamos a hallar la densidad conjunta de (Y1, Y2) donde

Y1 = X1 + X2, e Y2 =X1

X1 + X2.

Para ello consideramos la transformacion

g(x1, x2) =

(

x1 + x2,x1

x1 + x2

)

= (y1, y2).

La transformacion inversa de g es

x1 = y1y2, x2 = y1(1 − y2). (36)

El Jacobiano de la transformacion inversa es

Jg−1(y1, y2) =∂x1

∂y1

∂x2

∂y2− ∂x1

∂y2

∂x2

∂y1= y2(−y1) − y1(1 − y2) = −y1 (37)

Substituyendo los resultados (36) y (37) en la formula (26) se obtiene:

fY1,Y2(y1, y2) = fX1,X2 (y1y2, y1(1 − y2)) |y1|. (38)

Por hipotesis,

fX1,X2(x1, x2) = =λν1xν1−1

1 e−λx1

Γ(ν1)1x1 > 0λν2xν2−1

2 e−λx2

Γ(ν2)1x2 > 0

=λν1+ν2xν1−1

1 xν2−12 e−λ(x1+x2)

Γ(ν1)Γ(ν2)1x1 > 0, x2 > 0. (39)

De (38) y (39) se obtiene

fY1,Y2(y1, y2) =λν1+ν2(y1y2)

ν1−1(y1(1 − y2))ν2−1e−λy1

Γ(ν1)Γ(ν2)1y1y2 > 0, y1(1 − y2) > 0|y1|

=

(

λν1+ν2yν1+ν2−11 e−λy1

Γ(ν1 + ν2)1y1 > 0

)

×(

Γ(ν1 + ν2)yν1−12 (1 − y2)

ν2−1

Γ(ν1)Γ(ν2)10 < y2 < 1

)

. (40)

Por lo tanto, Y1 e Y2 son independientes y sus distribuciones son Y1 ∼ Γ(ν1 + ν2, λ), Y2 ∼β(ν1, ν2):

fY1(y1) =λν1+ν2

Γ(ν1 + ν2)yν1+ν2−11 e−λy11y1 > 0,

fY2(y2) =Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)yν1−12 (1 − y2)

ν2−110 < y2 < 1.

14

Page 135: espacios de probabilidad

Nota Bene. Algunos autores utilizan (y promueven!) el metodo del Jacobiano como unaherramienta para obtener la densidad de variables aleatorias de la forma Y1 = g1(X1, X2).Hacen lo siguiente: 1. Introducen una variable auxiliar de la forma Y2 = g2(X1, X2) paraobtener un cambio de variables (g1, g2) : R2 → R2. 2. Utilizan la formula del Jacobiano (26)para obtener la densidad conjunta de (Y1, Y2) a partir de la densidad conjunta de (X1, X2).3. Obtienen la densidad de Y1 marginando (i.e., integrando la densidad conjunta de (Y1, Y2)con respecto de y2). Por ejemplo,

Suma: (X1, X2) → (X1 + X2, X2) =: (Y1, Y2). En tal caso, (x1, x2) = (y1 − y2, y2) y elJacobiano tiene la forma J(y1, y2) = ∂x1

∂y1

∂x2∂y2

− ∂x1∂y2

∂x2∂y1

= 1. De donde se obtiene

fY1(y1) =

R

fX1,X2(y1 − y2, y2)dy2.

Producto: (X1, X2) → (X1X2, X1) =: (Y1, Y2). En tal caso, (x1, x2) = (y2, y1/y2) y elJacobiano tiene la forma J(y1, y2) = ∂x1

∂y1

∂x2∂y2

− ∂x1∂y2

∂x2∂y1

= − 1y2

. De donde se obtiene

fY1(y1) =

R

fX1,X2(y2, y1/y2)|y2|−1dy2.

Cociente: (X1, X2) → (X1/X2, X2) =: (Y1, Y2). En tal caso, (x1, x2) = (y1y2, y2) y elJacobiano tiene la forma J(y1, y2) = ∂x1

∂y1

∂x2∂y2

− ∂x1∂y2

∂x2∂y1

= y2. De donde se obtiene

fY1(y1) =

R

fX1,X2(y1y2, y2)|y2|dy2.

Ejercicios adicionales

3. [James p.97] Si X, Y, Z tienen densidad conjunta

fX,Y,Z(x, y, z) =6

(1 + x + y + z)41x > 0, y > 0, z > 0.

Hallar la densidad de la variable aleatoria W = X +Y +Z de dos maneras diferentes (metodobasico y metodo del Jacobiano)

2.3. Funciones k a 1

Si la funcion g : Rn → Rn no es 1 a 1 tambien podemos utilizar el metodo del jacobianopara determinar la distribucion de Y = g(X). Basta con que g sea 1 a 1 cuando se la restringea una de k regiones abiertas disjuntas cuya union contiene al valor de X con probabilidad 1.

Supongamos que G, G1, . . . , Gk son regiones abiertas de Rn tales que G1, . . . Gk son dis-juntas dos a dos y que

P

(

X ∈k⋃

ℓ=1

Gℓ

)

= 1.

Supongamos ademas que la restriccion de g a Gℓ, g|Gℓ, es una correspondencia 1 a 1 entreGℓ y G, para todo ℓ = 1, . . . , k y que la funcion inversa de g|Gℓ, denotada por h(ℓ), satisfacetodas las condiciones de la funcion h del Teorema 2.6.

15

Page 136: espacios de probabilidad

Teorema 2.12. Bajo las condiciones enunciadas mas arriba, si X tiene densidad fX(x),entonces Y tiene densidad

fY(y) =k∑

ℓ=1

fX(h(ℓ)(y))|Jh(ℓ)(y)|1y ∈ G. (41)

Demostracion. Sea B ⊂ G,

P(Y ∈ B) = P(g(X) ∈ B) =k∑

ℓ=1

P(g(X) ∈ B, X ∈ Gℓ) =k∑

ℓ=1

P(X ∈ h(ℓ)(B))

=k∑

ℓ=1

h(ℓ)(B)fX(x)dx = (cambio de variables en la integral)

=k∑

ℓ=1

BfX(h(ℓ)(y))|Jh(ℓ)(y)|dy =

B

(

k∑

ℓ=1

fX(h(ℓ)(y))|Jh(ℓ)(y)|)

dy.

Ejemplo 2.13. Sean X e Y dos variables aleatorias independientes con distribucion comunN (0, 1). Mostrar que Z = X2+Y 2 y W = X/Y son independientes y hallar sus distribuciones.

Solucion. La funcion g : R2 → R2, definida por g(x, y) = (x2 + y2, x/y) = (z, w), es 2 a 1.Sean G = (z, w) : z > 0, G1 = (x, y) : y > 0, G2 = (x, y) : y < 0. Entonces,

las restricciones g|G1 y g|G2 son correspondencias 1 a 1 entre las regiones abiertas Gi y G,i = 1, 2, y P((X, Y ) ∈ G1 ∪ G2) = 1.

Tenemos que calcular los jacobianos de las funciones inversas h(1) y h(2) en G. Paraello calculamos los jacobianos de las restricciones g|G1 y g|G2, que son los recıprocos de losjacobianos de las inversas, y substituimos el valor (x, y) por el valor h(1)(z, w) o h(2)(z, w).Tenemos

J1(z, w) =

(∣

2x 2y1y − x

y2

)−1

=

(

−2

(

x2

y2+ 1

))−1

= − 1

2(w2 + 1)

y

J2(z, w) = − 1

2(w2 + 1).

Por lo tanto, la densidad de (Z, W ) es

fZ,W (z, w) =(

f(h(1)(z, w)) + f(h(2)(z, w))) 1

2(w2 + 1)1(z, w) ∈ G.

Como

f(x, y) =1

2πe−(x2+y2)/2 =

1

2πe−z/2,

tenemos

fZ,W (z, w) = 2

(

1

2πe−z/2

)

1

2(w2 + 1)1z > 0, w ∈ R =

(

1

2e−z/21z > 0

)

1

π(w2 + 1).

Como la densidad conjunta es el producto de dos densidades, concluimos que Z y W sonindependientes, Z ∼ Exp(1/2) y W ∼ Cauchy.

16

Page 137: espacios de probabilidad

Ejemplo 2.14 (Mınimo y maximo). Sean X1, X2 dos variables aleatorias con densidad con-junta fX1,X2(x1, x2). Hallar la densidad conjunta de U = mın(X1, X2) y V = max(X1, X2).

La funcion g(x1, x2) = (mın(x1, x2), max(x1, x2)), es 2 a 1.Sean G = (u, v) : u < v, G1 = (x1, x2) : x1 < x2 y G2 = (x1, x2) : x2 < x1.Las restricciones g|G1(x1, x2) = (x1, x2) y g|G2(x1, x2) = (x2, x1) son correspondencias 1

a 1 entre las regiones abiertas Gi y G, i = 1, 2; P((X, Y ) ∈ G1 ∪ G2) = 1 y los jacobianos delas funciones inversas h(1) y h(2) en G valen 1 y −1, respectivamente. Usando la formula (41)obtenemos la densidad conjunta de (U, V ):

fU,V (u, v) = (fX1,X2(u, v) + fX1,X2(v, u))1u < v.

Ejercicios adicionales

4. La distribucion de (X, Y ) es uniforme sobre el recinto sombreado

−1

0

−1

1

1

Hallar la densidad conjunta de (U, V ) = (|2Y |, |3X|).

5. [James p.99] Sean X1, . . . , Xn variables aleatorias independientes e identicamente dis-tribuidas, con densidad comun f . Mostrar que la densidad conjunta de

U = mın1≤i≤n

Xi y V = max1≤i≤n

Xi

esfU,V (u, v) = n(n − 1)[F (v) − F (u)]n−2f(u)f(v)1u < v.

(Sugerencia. Primero hallar P(u < U, V ≤ v). Despues, calcular las derivadas parcialescruzadas de la distribucion conjunta.)

6. [James p.99] Sean X1, . . . , Xn variables aleatorias independientes e identicamente dis-tribuidas, con distribucion uniforme sobre el intervalo [0, 1]. Sean

U = mın1≤i≤n

Xi y V = max1≤i≤n

Xi

17

Page 138: espacios de probabilidad

(a) Mostrar que la densidad conjunta de (U, V ) es

fU,V (u, v) = n(n − 1)(v − u)n−210 ≤ u < v ≤ 1.

(b) Mostrar que la densidad de W = V − U es

fW (w) = n(n − 1)wn−2 (1 − w)10 ≤ w ≤ 1.

3. Mınimo y maximo de dos exponenciales independientes

Teorema 3.1. Sean X1 y X2 dos variables aleatorias independientes con distribuciones ex-ponenciales de intensidades λ1 y λ2 respectivamente. Si U = mın(X1, X2), V = max(X1, X2),W = V − U y J = 1U = X1 + 21U = X2, entonces

(a) U ∼ Exp (λ1 + λ2).

(b) P(J = i) = λi(λ1 + λ2)−1, i = 1, 2.

(c) U y J son independientes.

(d) fW (w) = P(J = 1)fX2(w) + P(J = 2)fX1(w).

(e) U y W son independientes.

Demostracion. Primero observamos que para cada u > 0 el evento J = 1, U > u equivaleal evento X2 ≥ X1 > u. En consecuencia,

P(J = 1, U > u) =

∫ ∞

uλ1e

−λx1

(∫ ∞

x1

λ2e−λ2x2dx2

)

dx1 =

∫ ∞

uλ1e

−λx1e−λ2x1dx1

=λ1

λ1 + λ2

∫ ∞

u(λ1 + λ2)e

−(λ1+λ2)x1dx1

=

(

λ1

λ1 + λ2

)

e−(λ1+λ2)u. (42)

De (42) se deducen (a), (b) y (c).Si g : (u, v) : 0 < u < v → (u, w) : u > 0, w > 0 es la funcion definida por

g(u, v) = (u, v − u), tenemos que (U, W ) = g(U, V ). La funcion g es biyectiva y su inversah(u, w) = (u, u + w) tiene jacobiano identicamente igual a 1. Aplicar el metodo del jacobianodel Corolario 2.7 obtenemos:

fU,W (u, w) = fU,V (u, u + w). (43)

Por el Ejemplo 2.14 sabemos que la densidad conjunta de U y V es

fU,V (u, v) = λ1λ2

(

e−(λ1u+λ2v) + e−(λ1v+λ2u))

10 < u < v. (44)

18

Page 139: espacios de probabilidad

Combinando (43) y (44) obtenemos:

fV,W (u, w) = λ1λ2

(

e−(λ1u+λ2(u+w)) + e−(λ1(u+w)+λ2u))

1u > 0, w > 0

= λ1λ2 e−(λ1+λ2)u(

e−λ2w + e−λ1w)

1u > 0, w > 0

= (λ1 + λ2)e−(λ1+λ2)u1u > 0

×(

λ1

λ1 + λ2λ2 e−λ2w +

λ2

λ1 + λ2λ1 e−λ1w

)

1w > 0. (45)

De (45) se deducen (d) y (e).

Ejercicios adicionales

7. Un avion tiene dos motores cada uno de los cuales funciona durante un tiempo exponen-cial de media 10 horas independientemente del otro. El avion se mantiene volando mientrasfuncione alguno de sus motores. Calcular la probabilidad de que el avion se mantenga volandodurante mas de cinco horas despues de que dejo de funcionar un motor.

8. Una cueva sera iluminada por dos lamparas L1 y L2 cuyas duraciones (en horas) son inde-pendientes y tienen distribuciones exponenciales de medias 8 y 10, respectivamente. Sabiendoque desde que se apago una lampara la cueva se mantuvo iluminada durante mas de una horacalcular la probabilidad de que se haya apagado primero la lampara L2.

4. Funciones regulares e independencia

Definicion 4.1. Una funcion g se dice regular si existen numeros · · · < a−1 < a0 < a1 < · · · ,con ai → ∞ y a−i → −∞, tales que g es continua y monotona sobre cada intervalo (ai, ai+1).

Ejemplo 4.2. La funcion senx es regular; todos los polinomios son funciones regulares. Unejemplo de una funcion que no es regular es 1x ∈ Q.Teorema 4.3. Sean X1, . . . , Xn variables aleatorias independientes. Si g1, . . . , gn son fun-

ciones regulares, entonces g1(X1), . . . , gn(Xn) son variables aleatorias independientes.

Demostracion. Para simplificar la prueba supondremos que n = 2. De la regularidad delas funciones g1 y g2 se deduce que para todo y ∈ R podemos escribir

A1(y) := x : g1(x) ≤ y = ∪iA1,i(y) y A2(y) := x : g2(x) ≤ y = ∪iA2,i(y),

como uniones de intervalos disjuntos dos a dos. Por lo tanto,

P(g1(X1) ≤ y1, g1(X2) ≤ y2) =∑

i

j

P(X1 ∈ A1,i(y1), X2 ∈ A2,i(y2))

=∑

i

j

P(X1 ∈ A1,i(y1))P(X2 ∈ A2,i(y2))

=∑

i

P(X1 ∈ A1,i(y1))∑

j

P(X2 ∈ A2,i(y2))

= P(g1(X1) ≤ y1)P(g2(X2) ≤ y2).

19

Page 140: espacios de probabilidad

En rigor de verdad, vale un resultado mucho mas general.

Teorema 4.4. Si para 1 ≤ i ≤ n, 1 ≤ j ≤ mi, Xi,j son independientes y fi : Rmi → R son

medibles entonces fi(Xi,1, . . . , Xi,mi) son independientes.

Demostracion. Durrett(1996), p.25-27.Un caso concreto que usaremos permanentemente al estudiar sumas es el siguiente: si

X1, . . . , Xn son independientes, entonces X = X1 + · · · + Xn−1 y Xn son independientes.

Ejercicios adicionales

9. (Fragmentaciones aleatorias.) Si U1, . . . , Un son independientes con distribucion comunU(0, 1), entonces

− logn∏

i=1

Ui ∼ Γ(n, 1).

10. Una varilla de 1 metro de longitud es sometida a un proceso de fragmentacion aleatoria.En la primera fase se elige un punto al azar de la misma y se la divide por el punto elegido endos varillas de longitudes L1 y L2. En la segunda fase se elige un punto al azar de la varillade longitud L1 y se la divide por el punto elegido en dos varillas de longitudes L1,1 y L1,2.Calcular la probabilidad de que L1,1 sea mayor que 25 centımetros.

5. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996).

2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. JohnWiley & Sons, New York. (1971).

3. James, B. R.: probabilidade: um curso em nıvel intermediario. IMPA, Rio de Janeiro.(2002).

4. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008).

5. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,Massachusetts. (1972).

6. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

7. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &Sons Ltd. (2004).

20

Page 141: espacios de probabilidad

Condicionales

(Borradores, Curso 23)

Sebastian Grynberg

8-10 de abril 2013

Serpientes de Akiyoshi Kitaoka.

Si no se espera,

no se encontrara lo inesperado,

pues el sendero que a ello conduce

es inaccesible

(Heraclito.)

1

Page 142: espacios de probabilidad

Indice

1. Condicionales 2

1.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Mezclas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Sobre la regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Prediccion y Esperanza condicional 10

2.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.1. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.2. Regla de Bayes para mezclas . . . . . . . . . . . . . . . . . . . . . . . 122.1.3. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3. Ejemplo: sumas aleatorias de variables aleatorias . . . . . . . . . . . . . . . . 162.4. Ejemplo: esperanza y varianza de una mezcla. . . . . . . . . . . . . . . . . . . 17

3. Prediccion lineal y coeficiente de correlacion 18

4. Bibliografıa consultada 20

1. Condicionales

1.1. Caso discreto

SeanX e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabil-idad (Ω,A,P). Fijemos un valor x ∈ R tal que pX(x) > 0. Usando la nocion de probabilidadcondicional podemos definir la funcion de probabilidad condicional de Y dado que X = x,mediante

pY |X=x(y) := P(Y = y|X = x) =P(X = x, Y = y)

P(X = x)=pX,Y (x, y)

pX(x). (1)

Funcion de distribucion condicional de Y dado que X = x. La funcion de distribucion

condicional de Y dado que X = x se define por

FY |X=x(y) := P(Y ≤ y|X = x) =∑

z≤y

P(Y = z|X = x) =∑

z≤y

pY |X=x(z). (2)

Esperanza condicional de Y dado que X = x. La esperanza condicional de Y dado que

X = x se define por

E[Y |X = x] :=∑

y

y pY |X=x(y). (3)

2

Page 143: espacios de probabilidad

Nota Bene 1. La funcion FY |X=x : R → R definida en (2) es una funcion de distribucion

genuina: es no decreciente, continua a derecha, tiende a 0 cuando y → −∞ y tiende a 1cuando y → ∞. Por lo tanto, podemos interpretarla como la funcion de distribucion de unanueva variable aleatoria, Y |X = x, cuya ley de distribucion coincide con la de Y cuando sesabe que ocurrio el evento X = x. Motivo por el cual la llamaremos Y condicional a que

X = x.

Nota Bene 2. Todas las nociones asociadas a las distribuciones condicionales se definende la misma manera que en el caso de una unica variable aleatoria discreta, salvo que ahoratodas las probabilidades se determinan condicionales al evento X = x. Las definiciones tienensentido siempre y cuando x ∈ Sop(pX).

Nota Bene 3. Si se quieren calcular las funciones de probabilidad de las variables Y |X = x,x ∈ Sop(pX), la formula (1) dice que basta dividir cada fila de la representacion matricialde la funcion de probabilidad conjunta de X e Y , pX,Y (x, y) por el correspondiente valor desu margen derecho, pX(x). En la fila x de la matriz resultante se encuentra la funcion deprobabilidad condicional de Y dado que X = x, pY |X=x(y).

Ejemplo 1.1. En una urna hay 3 bolas rojas, 2 amarillas y 1 verde. Se extraen dos. SeanX e Y la cantidad de bolas rojas y amarillas extraıdas, respectivamente. La representacionmatricial de la funcion de probabilidad conjunta pX,Y (x, y) y de sus marginales pX(x), pY (y)es la siguiente

X \ Y 0 1 2 pX

0 0 2/15 1/15 3/151 3/15 6/15 0 9/152 3/15 0 0 3/15

pY 6/15 8/15 1/15

Cuadro 1: Distribucion conjunta de X e Y y sus respectivas marginales.

Dividiendo cada fila de la matriz pX,Y (x, y) por el correspondiente valor de su margenderecho se obtiene el Cuadro 2 que contiene toda la informacion sobre las funciones de prob-abilidad de las condicionales Y |X = x.

X \ Y 0 1 2

0 0 2/3 1/31 1/3 2/3 02 1 0 0

Cuadro 2: Distribuciones de las variables condicionales Y dado que X = x. Interpretacionintuitiva de los resultados: a medida que X aumenta el grado de indeterminacion de Y dis-

minuye.

Por ejemplo, la funcion de probabilidad condicional de Y dado que X = 0, es la funcion dey definida en la primera fila del Cuadro 2: pY |X=0(0) = 0, pY |X=0(1) = 2/3 y pY |X=0(2) = 1/3.

3

Page 144: espacios de probabilidad

Notar que la funcion de probabilidad condicional obtenida es diferente de la correspondi-ente a la marginal de Y , pY (y). Del Cuadro 2 y la definicion (3) se deduce que

E[Y |X = x] =4

31x = 0 +

2

31x = 1. (4)

Nota Bene. Observar que en general la funcion de probabilidad condicional pY |X=x(y) esdiferente de la funcion de probabilidad pY (y). Esto indica que se pueden hacer inferenciassobre los valores posibles de Y a partir de los valores observados de X y viceversa; las dosvariables son (estocasticamente) dependientes. Mas adelante veremos algunas maneras dehacer este tipo de inferencias.

1.2. Mezclas

Definicion 1.2 (Mezcla). Sea (Ω,A,P) un espacio de probabilidad. Sea M : Ω → R unavariable aleatoria discreta tal que M(Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M.Sea (Xm : m ∈ M) una familia de variables aleatorias definidas sobre el mismo espacio deprobabilidad (Ω,A,P) e independiente de M . En tal caso, la variable aleatoria X := XM

esta bien definida y se llama la mezcla de las variables Xm obtenida mediante la variablemezcladora M .

Nota Bene. La distribucion de probabilidades de M indica la proporcion en que debenmezclarse las variables Xm: para cada m ∈ M, la probabilidad pM (m) representa la propor-cion con que la variable Xm participa de la mezcla XM .

Calculo de la funcion de distribucion. La funcion de distribucion de la mezcla X seobtiene utilizando la formula de probabilidad total:

FX(x) = P(XM ≤ x) =∑

m∈M

P(XM ≤ x|M = m)P(M = m)

=∑

m∈M

P(Xm ≤ x|M = m)pM (m)

=∑

m∈M

P(Xm ≤ x)pM (m) (pues (Xm : m ∈ M) y M son indep.)

=∑

m∈M

FXm(x)pM (m), (5)

donde, para cada m ∈ M, FXm(x) = P(Xm ≤ x) es la funcion de distribucion de la variable

Xm.

Variables discretas. Si las variables aleatorias Xm son discretas con funciones de prob-abilidad pXm

(x) = P(Xm = x), respectivamente, la mezcla X es discreta y su funcion deprobabilidad es

pX(x) =∑

m∈M

pXm(x)pM (m). (6)

4

Page 145: espacios de probabilidad

Variables absolutamente continuas. Si las variables Xm son absolutamente continuascon densidades fXm

(x), respectivamente, la mezcla X es absolutamente continua y tienedensidad

fX(x) =∑

m∈M

fXm(x)pM (m). (7)

Ejemplo 1.3. Para simular los valores de una variable aleatoria X se recurre al siguiente al-goritmo: se simula el valor de un variable aleatoria M con distribucion Bernoulli de parametrop = 1/5. Si M = 0, se simula el valor de una variable aleatoria X0 con distribucion uniformesobre el intervalo (0, 4). Si M = 1, se simula el valor de una variable aleatoria X1 con dis-tribucion uniforme sobre el intervalo (2, 6). Se quiere hallar la densidad de probabilidades dela variable X ası simulada.

La variable X es una mezcla. La variable mezcladora es M y las variables aleatorias quecomponen la mezcla son X0 y X11. Por hipotesis, la variable mezcladora M se distribuye deacuerdo con la funcion de probabilidad pM (0) = 4/5, pM (1) = 1/5 y las distribuciones de lasvariables componentes son X0 ∼ U(0, 4) y X1 ∼ U(2, 6). En otras palabras, las densidades delas variables componente son fX0

(x) = 1410 < x < 4 y fX1

(x) = 1412 < x < 6. Usando la

formula de probabilidad total (7) se obtiene la densidad de la mezcla X

fX(x) = pM (0)fX0(x) + pM (1)fX1

(x) =

(

4

5

)

1

410 < x < 4 +

(

1

5

)

1

412 < x < 6

=4

2010 < x ≤ 2 +

5

2012 < x < 4 +

1

2014 ≤ x < 6. (8)

1.3. Sobre la regla de Bayes

Sean (Ω,A,P) un espacio de probabilidad; M : Ω → R una variable aleatoria discreta talque M(Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M. Sea (Xm : m ∈ M) unafamilia de variables aleatorias definidas sobre el mismo espacio de probabilidad (Ω,A,P) eindependiente de M . Supongamos ademas que las variables Xm,m ∈ M son absolutamentecontinuas con densidades de probabilidad continuas fXm

(x),m ∈ M, respectivamente.Sea X := XM la mezcla de las variables Mm obtenida mediante la variable mezcladora M .

¿Que sentido deberıa tener la expresion P(M = m|X = x)? No debe olvidarse que la variableX es absolutamente continua y en consecuencia P(X = x) = 0. Por lo tanto, no tiene ningunsentido definir P(M = m|X = x) mediante un cociente de la forma

P(M = m|X = x) =P(X = x,M = m)

P(X = x)=

0

0.

¿Que hacer? El obstaculo se puede superar siempre y cuando fX(x) > 0. En tal caso, si“engordamos” el punto xmediante el intervalo de radio h > 0 (suficientemente chico) centradoen x, Bh(x) := x− h < t < x+ h, el evento X ∈ Bh(x) tiene probabilidad positiva

P(X ∈ Bh(x)) =

∫ x+h

x−hfY (t)dt = 2hfX(θ(h)), θ(h) ∈ Bh(x). (9)

5

Page 146: espacios de probabilidad

y la probabilidad condicional del evento M = m, dado que ocurrio el evento X ∈ Bh(x)esta bien definida y vale

P(M = m|X ∈ Bh(x)) =P(M = m,X ∈ Bh(x))

P(X ∈ Bh(x)).

Por otra parte,

P(M = m, X ∈ Bh(x)) = pM (m)P(Xm ∈ Bh(x)|M = m) = pM (m)P(Xm ∈ Bh(x))

= pM (m)

∫ x+h

x−hfXm

(t)dt = 2hpM (m)fXm(θm(h)), (10)

para algun θm(h) ∈ Bh(x). De (9) y (10) se deduce que

P (M = m|X ∈ Bh(x)) =pM (m)fXm

(θm(h))

fX(θ(h))(11)

Para “adelgazar” el punto “engordado” hacemos h→ 0 y obtenemos

lımh→0

P (M = m|X ∈ Bh(x)) = lımh→0

pM (m)fXm(θm(h))

fX(θ(h))=pM (m)fXm

(x)

fX(x). (12)

Finalmente, para cada x ∈ R tal que fX(x) > 0 definimos P(M = m|X = x) mediante laformula

P(M = m|X = x) :=pM (m)fXm

(x)

fX(x). (13)

Ejemplo 1.4 (Deteccion de senales). Un emisor transmite un mensaje binario en la formade una senal aleatoria Y que puede ser −1 o +1 con igual probabilidad. El canal de comu-nicacion corrompe la transmision con un ruido normal aditivo de media 0 y varianza 1. Elreceptor recibe la senal X = N + Y , donde N es un ruido (noise) con distribucion N (0, 1),independiente de Y . La pregunta del receptor es la siguiente: dado que recibı el valor x, cuales la probabilidad de que la senal sea 1?

La senal que recibe el receptor es una mezcla. La variable mezcladora es Y y las variablesaleatorias que componen la mezcla son X−1 = N − 1 y X1 = N + 1. Por hipotesis, la variablemezcladora Y se distribuye de acuerdo con la funcion de probabilidad pY (−1) = pY (1) = 1/2y las distribuciones de las variables componentes son X−1 ∼ N (−1, 1) y X1 ∼ N (1, 1). Enotras palabras, las densidades de las variables componente son

fX−1

(x) =1√2πe−(x+1)2/2 y fX1

(x) =1√2πe−(z−1)2/2.

Usando la formula de probabilidad total (7) se obtiene la densidad de la mezcla X

fX(x) = pY (−1)fX−1

(x) + pY (1)fX1(x) =

1

2

(

1√2πe−(x+1)2/2

)

+1

2

(

1√2πe−(z−1)2/2

)

.

El receptor pregunta P(Y = 1|X = x) =? La respuesta se obtiene usando la regla de Bayes(13)

P(Y = 1|X = x) =pY (1)fX1

(x)

fX(x)=

e−(x−1)2/2

e−(x−1)2/2 + e−(x+1)2/2=

ex

ex + e−x. (14)

6

Page 147: espacios de probabilidad

−4 −3 −2 −1 0 1 2 3 40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 1: Grafico de la probabilidad condicional P(Y = 1|X = ·) : R → R vista como funcionde x.

1.4. Caso continuo

Sean X e Y dos variables aleatorias definidas sobre (Ω,A,P) con densidad conjuntafX,Y (x, y) continua. A diferencia del caso en que X es discreta en este caso tenemos queP(X = x) = 0 para todo x ∈ R, lo que hace imposible definir la funcion de distribucioncondicional de Y dado que X = x, P(Y ≤ y|X = x), mediante el cociente (2):

P(Y ≤ y,X = x)

P(X = x)=

0

0.

Este obstaculo se puede superar observando que para cada x ∈ Sop(fX) y para cada h > 0 elevento X ∈ Bh(x) = x− h < X < x+ h tiene probabilidad positiva

P(X ∈ Bh(x)) =

∫ x+h

x−hfX(s)ds = 2hfX(θ1(h)), θ1(h) ∈ Bh(x).

Por otra parte,

P(Y ≤ y,X ∈ Bh(x)) =

∫ x+h

x−h

(∫ y

−∞fX,Y (s, t)dt

)

ds = 2h

∫ y

−∞fX,Y (θ2(h), t)dt,

donde θ2(h) ∈ Bh(x).Si x ∈ Sop(fX), la probabilidad condicional P(Y ≤ y|X ∈ Bh(x)) esta bien definida y vale

P (Y ≤ y|X ∈ Bh(x)) =P(Y ≤ y, X ∈ Bh(x))

P(X ∈ Bh(x))=

∫ y−∞ fX,Y (θ2(h), t)dt

fX(θ1(h)).

En consecuencia,

lımh→0

P(Y ≤ y|X ∈ Bh(x)) =

∫ y−∞ fX,Y (x, t)dt

fX(x). (15)

7

Page 148: espacios de probabilidad

El lado derecho de (15) define una genuina funcion de distribucion FY |X=x : R → R,

FY |X=x(y) :=

∫ y−∞ fX,Y (x, t)dt

fX(x), (16)

que se llama la funcion distribucion condicional de Y dado X = x y se puede interpretar comola funcion de distribucion de una nueva variable aleatoria que llamaremos Y condicional a

que X = x y que sera designada mediante el sımbolo Y |X = x.La funcion de distribucion FY |X=x(y) es derivable y su derivada

fY |X=x(y) :=d

dyFY |X=x(y) =

fX,Y (x, y)

fX(x)(17)

se llama la densidad condicional de Y dado que X = x.

Curva peligrosa. Todo el argumento usa la hipotesis fX(x) > 0. Si fX(x) = 0 las ex-presiones (15)-(17) carecen de sentido. Sin embargo, esto no es un problema grave ya queP(X ∈ Sop(fX)) = 1. Para los valores de x tales que fX(x) = 0 las variables condicionalesY |X = x seran definidas como identicamente nulas. En tal caso, FY |X=x(y) = 1y ≥ 0.

Regla mnemotecnica. De la formula (17) se deduce que fX,Y (x, y) = fY |X=x(y)fX(x) ypuede recordarse mediante el siguiente “versito”: “la densidad conjunta es igual a la densidad

condicional por la marginal de la condicion”.

Ejemplo 1.5 (Dos etapas: conjunta = marginal × condicional). Se elige un numero alazar X sobre el intervalo (0, 1) y despues otro numero al azar Y sobre el intervalo (X, 1).Se quiere hallar la densidad marginal de Y . Por hipotesis, fX(x) = 10 < x < 1 yfY |X=x(y) = 1

1−x1x < y < 1. La densidad conjunta de X e Y se obtiene multipli-cando la densidad condicional fY |X=x(y) por la densidad marginal fX(x): fX,Y (x, y) =

fY |X=x(y)fX(x) = 11−x10 < x < y < 1. La densidad marginal de Y se obtiene integrando

la densidad conjunta fX,Y (x, y) con respecto a x

fY (y) =

∫ ∞

−∞

1

1 − x10 < x < y < 1dx = 10 < y < 1

∫ y

0

1

1 − xdx

= − log(1 − y)10 < y < 1.

Formula de probabilidad total. La densidad de probabilidades de Y es una combinacionconvexa de las condicionales:

fY (y) =

∫ ∞

−∞fY |X=x(y)fX(x)dx.

Inmediato de la relacion “conjunta = marginal × condicional”. Integrando respecto de y seobtiene que la funcion de distribucion de Y es una combinacion convexa de las condicionales:

FY (y) =

∫ y

−∞fY (t)dt =

∫ y

−∞

(∫ ∞

−∞fY |X=x(t)fX(x)dx

)

dt

=

∫ ∞

−∞

(∫ y

−∞fY |X=x(t)dt

)

fX(x)dx =

∫ ∞

−∞FY |X=x(y)fX(x)dx.

8

Page 149: espacios de probabilidad

Esperanza condicional de Y dado que X = x. Para cada x ∈ R, la esperanza condicional

de Y dado que X = x se define por

E[Y |X = x] :=

∫ ∞

−∞yfY |X=x(y)dy. (18)

siempre y cuando la integral del converja absolutamente. Si fX(x) = 0, E[Y |X = x] = 0.

Varianza condicional

En cualquier caso, definidas las esperanzas condicionales de Y y de Y 2 dado que X = x,la varianza condicional de Y dado que X = x se define mediante

V(Y |X = x) := E

[

(Y − E[Y |X = x])2 |X = x]

(19)

Desarrollando el termino derecho se obtiene

V(Y |X = x) = E[Y 2|X = x] − E[Y |X = x]2. (20)

Nota Bene. La definicion es consistente y coincide con la varianza de la variable aleatoriaY |X = x cuya funcion de distribucion es FY |X=x(y).

Ejemplo 1.6 (Dardos). Volvamos al problema del juego de dardos de blanco circular Λ =(x, y) ∈ R

2 : x2 + y2 ≤ 1. Por hipotesis, el dardo se clava en un punto de coordenadas(X,Y ) uniformemente distribuido sobre Λ.

−√

1 − x2

x0 1

Y

X

√1 − x2

Figura 2: Para cada x ∈ [−1, 1] se observa que Y |X = x ∼ U

[

−√

1 − x2,√

1 − x2]

.

9

Page 150: espacios de probabilidad

La densidad conjunta de X e Y es fX,Y (x, y) = 1π1x2+y2 ≤ 1. Por definicion, para cada

x ∈ [−1, 1], la densidad condicional de Y dado que X = x es el cociente entre la densidadconjunta fX,Y (x, y) y la densidad marginal de X

fX(x) =2√

1 − x2

π1x ∈ [−1, 1].

Por lo tanto,

fY |X=x(y) =1

2√

1 − x21−

1 − x2 ≤ y ≤√

1 − x2. (21)

En otras palabras, dado que X = x, x ∈ [−1, 1], la variable Y se distribuye uniformemente

sobre el intervalo[

−√

1 − x2,√

1 − x2]

. En consecuencia,

E[Y |X = x] = 0 y V(Y |X = x) = (2√

1 − x2)2/12 = (1 − x2)/3.

2. Prediccion y Esperanza condicional

Planteo del problema

En su version mas simple un problema de prediccion o estimacion involucra dos variablesaleatorias: una variable aleatoria Y desconocida (o inobservable) y una variable aleatoria Xconocida (u observable). El problema consiste en deducir informacion sobre el valor de Y apartir del conocimiento del valor de X. Para ser mas precisos, se busca una funcion ϕ(X) que(en algun sentido) sea lo mas parecida a Y como sea posible. La variable aleatoria Y := ϕ(X)se denomina un estimador de Y .

Ejemplo 2.1 (Deteccion de senales). Un emisor transmite un mensaje binario en la forma deuna senal aleatoria Y que puede ser −1 o +1 con igual probabilidad. El canal de comunicacioncorrompe la transmision con un ruido normal aditivo de media 0 y varianza σ2. El receptorrecibe la senal X = Y + N , donde N es un ruido con distribucion N (0, σ2), independientede Y . El receptor del mensaje observa la senal corrompida X y sobre esa base tiene que“reconstruir” la senal original Y . ¿Como lo hace?, ¿Que puede hacer?

En lo que sigue desarrollaremos herramientas que permitan resolver este tipo de proble-mas. Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad(Ω,A,P). El objetivo es construir una funcion ϕ(X) que sea lo mas parecida a Y como sea

posible. En primer lugar, vamos a suponer que E[|Y |] <∞. Esta hipotesis permite precisar elsentido del enunciado parecerse a Y . Concretamente, queremos construir una funcion de X,ϕ(X), que solucione la siguiente ecuacion funcional

E[ϕ(X)h(X)] = E[Y h(X)], (22)

para toda funcion medible y acotada h : R → R.

10

Page 151: espacios de probabilidad

Esperanza condicional

Sean X e Y dos variables aleatorias definidas sobre un mismo espacio de probabilidad(Ω,A,P). Supongamos que E[|Y |] < ∞. Definimos la esperanza condicional de Y dada X,E[Y |X], como cualquier variable aleatoria de la forma ϕ(X), donde ϕ : R → R es una funcion(medible), que solucione la ecuacion funcional (22).

Existencia. La existencia de la esperanza condicional depende de teoremas profundos deTeorıa de la medida y no sera discutida en estas notas. El lector interesado puede consultarBillingsley(1986) y/o Durrett(1996).

Unicidad. Supongamos que ϕ(X) y ψ(X) son dos soluciones de la ecuacion funcional (22).Entonces, ϕ(X) = ψ(X) cası seguramente (i.e., P(ϕ(X) 6= ψ(X)) = 0).

Demostracion. Por cuestiones de simetrıa, la prueba se reduce a mostrar que para cadaǫ > 0, P(Aǫ) = 0, donde Aǫ := ϕ(X) − ψ(X) ≥ ǫ. Observar que, por hipotesis, paratoda funcion medible y acotada h : R → R vale que E[ϕ(X)h(X)] = E[ψ(X)h(X)] o loque es equivalente E[(ϕ(X) − ψ(X))h(X)] = 0. Poniendo h(X) = 1X ∈ Aǫ tenemos que0 = E[(ϕ(X) − ψ(X))1X ∈ Aǫ] ≥ E[ǫ1X ∈ Aǫ] = ǫP(Aǫ). Por lo tanto, P(Aǫ) = 0.

Lema 2.2 (Tecnico). La esperanza condicional satisface E[|E[Y |X]|] ≤ E[|Y |].

Demostracion. La variable aleatoria ϕ(X) satisface la ecuacion (22). Poniendo h(X) =1ϕ(X) > 0 y usando (22) se obtiene

E[ϕ(X)1ϕ(X) > 0] = E[Y 1ϕ(X) > 0] ≤ E[|Y |].Analogamente se puede ver que E[−ϕ(X)1ϕ(X) ≤ 0] = E[−Y 1ϕ(X) ≤ 0] ≤ E[|Y |]. Porlo tanto,

E[|ϕ(X)|] = E[ϕ(X)1ϕ(X) > 0 − ϕ(X)1ϕ(X) ≤ 0]= E[ϕ(X)1ϕ(X) > 0] − E[ϕ(X)1ϕ(X) ≤ 0]= E[Y 1ϕ(X) > 0] − E[Y 1ϕ(X) ≤ 0]= E[Y 1ϕ(X) > 0 − Y 1ϕ(X) ≤ 0] ≤ E[|Y |]].

Propiedades que merecen ser subrayadas

Aunque se deducen inmediatamente de la definicion, las propiedades siguientes merecen sersubrayas porque, como se podra apreciar mas adelante, constituyen poderosas herramientasde calculo.

1. Formula de probabilidad total:

E[E[Y |X]] = E[Y ]. (23)

2. Sea g : R → R una funcion tal que E[|g(X)Y |] <∞,

E[g(X)Y |X] = g(X)E[Y |X]. (24)

3. Si X e Y son independientes, entonces E[Y |X] = E[Y ].

11

Page 152: espacios de probabilidad

Demostracion. La formula de probabilidad total se deduce de la ecuacion (22) poniendoh(X) ≡ 1. La identidad (24) se obtiene observando que g(X)E[Y |X] es una funcion de X quesoluciona la ecuacion E[g(X)E[Y |X]h(X)] = E[(g(X)Y )h(X)]. Si X e Y son independientesE[Y h(X)] = E[Y ]E[h(X)] = E[E[Y ]h(X)].

2.1. Ejemplos

2.1.1. Caso continuo

Sean X e Y dos variables aleatorias continuas definidas sobre un mismo espacio de prob-abilidad (Ω,A,P) con densidad de probabilidades conjunta fX,Y (x, y) y E[|Y |] < ∞. Laesperanza condicional de Y dada X es E[Y |X] = ϕ(X), donde ϕ : R → R es la funcion deregresion de Y sobre X definida por

ϕ(x) := E[Y |X = x] =

∫ ∞

−∞yfY |X=x(y)dy. (25)

Demostracion. Basta ver ϕ(X) verifica la ecuacion funcional (22) para cualquier funcionh medible y acotada.

E[ϕ(X)h(X)] =

∫ ∞

−∞ϕ(x)h(x)fX(x)dx =

∫ ∞

−∞E[Y |X = x]h(x)fX(x)dx

=

∫ ∞

−∞

(∫ ∞

−∞yfY |X=x(y)dy

)

h(x)fX(x)dx

=

∫ ∞

−∞

∫ ∞

−∞yh(x)fY |X=x(y)fX(x)dxdy

=

∫ ∞

−∞

∫ ∞

−∞yh(x)fX,Y (x, y)dxdy = E[Y h(X)].

2.1.2. Regla de Bayes para mezclas

Volvamos el Ejemplo 2.1 la pregunta es ¿Que puede hacer el receptor para “reconstruir” lasenal original, Y , a partir de la senal corrompida X? Lo “mejor” que puede hacer es estimarY mediante la esperanza condicional E[Y |X]. El receptor recibe la mezcla de dos variablesaleatorias X|Y = −1 ∼ N (−1, σ2) e X|Y = 1 ∼ N (1, σ2), mezcladas en igual proporcion:pY (−1) = pY (1) = 1/2. Las densidades de las componentes de la mezcla son

fX|Y =−1(x) =1√2π σ

e−(x+1)2/2σ2

y fX|Y =1(x) =1√2π σ

e−(x−1)2/2σ2

.

De la formula de probabilidad total se deduce que la densidad de la mezcla X es

fX(x) = pY (−1)fX|Y =−1(x) + pY (1)fX|Y =1(x)

=1

2

(

1√2π σ

e−(x+1)2/2σ2

)

+1

2

(

1√2π σ

e−(x−1)2/2σ2

)

. (26)

12

Page 153: espacios de probabilidad

Para construir la esperanza condicional E[Y |X] el receptor debe calcular la funcion de regre-sion ϕ(x) = E[Y |X = x] = 1P(Y = 1|X = x) − 1P(Y = −1|X = x). Que de acuerdo con laregla de Bayes para mezclas adopta la forma

ϕ(x) =pY (1)fX|Y =1(x) − pY (−1)fX|Y =−1(x)

fX(x)=ex/σ2 − e−x/σ2

ex/σ2 + e−x/σ2= tanh(x/σ2). (27)

−4 −3 −2 −1 0 1 2 3 4−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

(a)

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

(b)

Figura 3: Lıneas de regresion de Y sobre X para distintos valores de la varianza σ2. (a) σ2 = 1:ϕ(x) = tanh(x); (b) σ2 = 1/4, ϕ(x) = tanh(4x).

El receptor reconstruye Y basandose en X mediante E[Y |X] = tanh(X/σ2).

2.1.3. Caso discreto

SeanX e Y dos variables aleatorias discretas definidas sobre un mismo espacio de probabil-idad (Ω,A,P),con funcion de probabilidad conjunta pX,Y (x, y) y E[|Y |] <∞. Para simplificarla exposicion supongamos que Sop(pX) = X(Ω). En tal caso, la esperanza condicional de Ydada X es E[Y |X] = ϕ(X), donde ϕ : R → R es la funcion de regresion de Y sobre X definidapor

ϕ(x) := E[Y |X = x] =∑

y∈Y (Ω)

ypY |X=x(y) (28)

Demostracion. Basta ver ϕ(X) verifica la ecuacion funcional (22) para cualquier funcionh medible y acotada.

E[ϕ(X)h(X)] =∑

x

ϕ(x)h(x)pX(x) =∑

x

E[Y |X = x]h(x)pX(x)

=∑

x

(

y

ypY |X=x(y)

)

h(x)pX(x) =∑

x

y

yh(x)pY |X=x(y)pX(x)

=∑

x

y

yh(x)pX,Y (x, y) = E[Y h(X)].

13

Page 154: espacios de probabilidad

Ejemplo 2.3 (Formula de probabilidad total). Una rata esta atrapada en un laberinto.Inicialmente puede elegir una de tres direcciones. Si elige la primera se perdera en el laberintoy luego de 4 minutos volvera a su posicion inicial; si elige la segunda volvera a su posicion inicialluego de 7 minutos; si elige la tercera saldra del laberinto luego de 3 minutos. Suponiendo queen cada intento, la rata elige con igual probabilidad cualquiera de las tres direcciones, cual esla esperanza del tiempo que demora en salir del laberinto?

Sean Y la cantidad de tiempo que demora la rata en salir del laberinto y sea X la direccionque elige inicialmente. Usando la formula de probabilidad total puede verse que

E[Y ] = E[E[Y |X]] =

3∑

x=1

E[Y |X = x]P(X = x) =1

3

3∑

x=1

E[Y |X = x]

Si la rata elige la primera direccion, se pierde en el laberinto durante 4 minutos y vuelve a suposicion inicial. Una vez que vuelve a su posicion inicial el problema se renueva y la esperanzadel tiempo adicional hasta que la rata consiga salir del laberinto es E[Y ]. En otros terminosE[Y |X = 1] = 4 + E[Y ]. Analogamente puede verse que E[Y |X = 2] = 7 + E[Y ]. La igualdadE[Y |X = 3] = 3 no requiere comentarios. Por lo tanto,

E[Y ] =1

3(4 + E[Y ] + 7 + E[Y ] + 3) =

1

3(2E[Y ] + 14) .

Finalmente, E[Y ] = 14.

2.2. Propiedades

La esperanza condicional tiene propiedades similares a la esperanza.

Linealidad. E[aY1 + bY2|X] = aE[Y1|X] + bE[Y2|X].

Monotonıa. Si Y1 ≤ Y2, entonces E[Y1|X] ≤ E[Y2|X].

Desigualdad de Jensen. Si g : R → R es una funcion convexa y E[|Y |], E[|g(Y )|] < ∞,entonces

g(E[Y |X]) ≤ E[g(Y )|X]. (29)

En particular, si E[Y 2] <∞, poniendo g(t) = t2 en la desigualdad de Jensen se obtiene

E[Y |X]2 ≤ E[Y 2|X] (30)

Definicion 2.4 (Varianza condicional). Sean X e Y dos variables aleatorias definidas sobreel mismo espacio de probabilidad (Ω,A,P). Si E[Y 2] <∞, la varianza condicional de Y dada

X, V(Y |X), se define por

V(Y |X) := E[Y 2|X] − E[Y |X]2 (31)

14

Page 155: espacios de probabilidad

Prediccion

Existen diversas maneras en las que dos variables pueden considerarse cercanas entre sı.Una manera es trabajar con la norma dada por ‖X‖ :=

E[X2] y definir la distancia entredos variables aleatorias X e Y , d(X,Y ) mediante

d(X,Y ) := ‖Y −X‖ =√

E[(Y −X)2]. (32)

.

Definicion 2.5 (Predictor). Sean X e Y variables aleatorias definidas sobre el mismo espaciode probabilidad (Ω,A,P), tales que E[Y 2] <∞. El predictor de error cuadratico medio mınimo(o mejor predictor) de Y dada X es la funcion Y = h(X) de X que minimiza la distanciad(Y , Y ) definida en (32).

El mejor predictor de Y dada X es una variable aleatoria Y perteneciente al espaciovectorial H = h(X) : h : R → R, E[h(X)2] < ∞ tal que E[(Y − Y )2] ≤ E[(Y − Z)2] paratoda Z ∈ H.

Interpretacion geometrica. Sea L2(Ω,A,P) el conjunto de todas la variables aleatoriasdefinidas sobre (Ω,A,P) que tienen varianza finita. H es un subespacio de L2(Ω,A,P). SiY /∈ H entonces el camino mas corto desde Y hasta H es por la recta ortogonal al subespacioH que pasa por Y . Por lo tanto, Y debe ser la proyeccion ortogonal de Y sobre H. En tal casoY − Y es ortogonal a cualquier vector de H. En otras palabras, 〈Y − Y , Z〉 = 0 para todoZ ∈ H, donde 〈X,Y 〉 es el producto interno en L2(Ω,A,P) definido por 〈X,Y 〉 := E[XY ].

La esperanza condicional E[Y |X] es el mejor predictor de Y basado en X

1) La condicion E[Y 2] <∞ implica que E[Y |X] ∈ H:

E[E[Y |X]2] ≤ E[E[Y 2|X]] = E[Y 2] <∞.

2) La ecuacion funcional (22) significa que Y − E[Y |X] ⊥ H:

〈Y − E[Y |X], h(X)〉 = 0 ⇐⇒ E[(Y − E[Y |X])h(X)] = 0

⇐⇒ E[E[Y |X]h(X)] = E[Y h(X)].

Por lo tanto, la esperanza condicional, E[Y |X], satisface las dos condiciones que caracterizana la proyeccion ortogonal sobre el subespacio H y en consecuencia es el predictor de Y basadoen X de menor error cuadratico:

E[Y |X] = arg mınh(X)∈H

E[(Y − h(X))2].

El error cuadratico medio mınimo se puede expresar en la forma

‖Y − E[Y |X]‖2 = E[(Y − E[Y |X])2] = E[E[(Y − E[Y |X])2|X]]

= E[V(Y |X)].

La ultima igualdad se obtiene desarrollando el cuadrado (Y − E[Y |X])2 y usando laspropiedades de la esperanza condicional. (Ejercicio)

15

Page 156: espacios de probabilidad

E[Y ] E[Y |X]

Y

H

E[V(Y |X)]

V(Y )

0

E[Y 2]

V(E[Y |X])

E[Y ]2

Figura 4: Teorema de Pitagoras: V(X) = E[V(Y |X)] + V(E[Y |X]) .

Por ultimo, como E[Y ] ∈ H, el Teorema de Pitagoras implica que

V(Y ) = ‖Y − E[Y ]‖2 = ‖Y − E[Y |X] + E[Y |X] − E[Y ]‖2

= ‖Y − E[Y |X]‖2 + ‖E[Y |X] − E[Y ]‖2 = E[V(Y |X)] + V(E[Y |X]). (33)

En otras palabras, la variabilidad de Y se descompone de la siguiente manera: la variabilidad(media) de Y alrededor de su esperanza condicional, mas la variabilidad de esta ultima.

2.3. Ejemplo: sumas aleatorias de variables aleatorias

Sea X1, X2, . . . una sucesion de variables aleatorias identicamente distribuidas de mediaµ y varianza σ2. Sea N una variable discreta a valores en N que es independiente de las Xi.El problema consiste en hallar la media y la varianza de la variable aleatoria S =

∑Ni=1Xi,

llamada variable aleatoria compuesta. Este problema se puede resolver utilizando las identi-dades

E[S] = E[E[S|N ]] y V(S) = E[V(S|N)] + V(E[S|N ]).

En la jerga probabilıstica esta tecnica de calculo se conoce bajo el nombre de calculo de

esperanzas y varianzas mediante condicionales.

16

Page 157: espacios de probabilidad

Calculo de la esperanza por condicionales.

E [S|N = n] = E

[

N∑

i=1

Xi

∣N = n

]

= E

[

n∑

i=1

Xi

∣N = n

]

= E

[

n∑

i=1

Xi

]

por la independencia de las Xi y N

= nµ.

En consecuencia, E [S|N ] = µN . Por lo tanto, E [S] = E[E[S|N ]] = E [µN ] = µE[N ].

Calculo de la varianza por condicionales.

V(S|N = n) = V

(

N∑

i=1

Xi

∣N = n

)

= V

(

n∑

i=1

Xi

∣N = n

)

= V

(

n∑

i=1

Xi

)

por la independencia de Xi y N

= nσ2.

En consecuencia, V(S|N) = σ2N . Por lo tanto, E[V(S|N)] = E[σ2N ] = σ2E[N ]. Por otra

parte, V[E(S|N)] = V[µN ] = µ2V[N ]. Finalmente,

V(S) = E[V(S|N)] + V(E[S|N ]) = σ2E[N ] + µ2

V[N ].

2.4. Ejemplo: esperanza y varianza de una mezcla.

Sea (Ω,A,P) un espacio de probabilidad. Sea M : Ω → R una variable aleatoria discretatal que M(Ω) = M y pM (m) = P(M = m) > 0 para todo m ∈ M y sea (Xm : m ∈ M) unafamilia de variables aleatorias definidas sobre el mismo espacio de probabilidad, independientede M . El problema consiste en hallar la media y la varianza de la mezcla X := XM .

La forma natural de resolver este problema es usar la tecnica del calculo de esperanzas y

varianzas mediante condicionales:

E[X] = E[E[X|M ]] y V(X) = E[V(X|M)] + V(E[X|M ]).

Calculo de la esperanza por condicionales. En primer lugar hay que observar queX|M = m ∼ Xm por lo tanto,

E[X] = E[E[X|M ]] =∑

m∈M

E [X|M = m] P(M = m) =∑

m∈M

E[Xm]pM (m).

17

Page 158: espacios de probabilidad

Calculo de la varianza por condicionales.

E[V(X|M)] =∑

m∈M

V(X|M = m)P(M = m) =∑

m∈M

V(Xm)pM (m).

Por otra parte,

V(E[X|M ]) = E[(E[X|M ] − E[X])2] =∑

m∈M

(E[X|M = m] − E[X])2P(M = m)

=∑

m∈M

(E[Xm] − E[X])2pM (m).

Finalmente,

V(X) =∑

m∈M

V(Xm)pM (m) +∑

m∈M

(E[Xm] − E[X])2pM (m).

Nota Bene. Comparar con el Teorema de Steiner para el momento de inercia.

3. Prediccion lineal y coeficiente de correlacion

Definicion 3.1 (Predictor lineal). Sean X e Y dos variables aleatorias definidas sobre unmismo espacio de probabilidad (Ω,A,P), tales que E[X2] < ∞ y E[Y 2] < ∞. La recta de

regresion de Y basada en X es la funcion lineal Y = aX + b que minimiza la distancia

d(Y , Y ) =

E[(Y − Y )2].

Calculo explıcito de la recta de regresion. El problema consiste en hallar los valoresde a y b que minimizan la siguiente funcion de dos variables

g(a, b) := E[(Y − (aX + b))2].

Usando tecnicas de calculo diferencial en varias variables el problema se reduce a resolver elsistema de ecuaciones ∇g = 0. Desarrollando cuadrados se puede ver que

∂g(a, b)

∂a= 2aE[X2] − 2E[XY ] + 2bE[X],

∂g(a, b)

∂b= 2b− 2E[Y ] + 2aE[X].

El problema se reduce a resolver el siguiente sistema lineal de ecuaciones

aE[X2] + bE[X] = E[XY ]aE[X] + b = E[Y ]

Sumando la primera ecuacion y la segunda multiplicada por −E[X], se obtiene

a(E[X2] − E[X]2) = E[XY ] − E[X]E[Y ] ⇐⇒ a =Cov(X,Y )

V(X).

18

Page 159: espacios de probabilidad

Sustituyendo el valor de a en la segunda y despejando b se obtiene

b = E[Y ] − Cov(X,Y )

V(X)E[X].

Por lo tanto, la recta de regresion de Y basada en X es

Y =Cov(X,Y )

V(X)X + E[Y ] − Cov(X,Y )

V(X)E[X]

=Cov(X,Y )

V(X)(X − E[X]) + E[Y ]. (34)

Ademas el error cuadratico medio es igual a

E[(Y − Y )2] = V(Y )(

1 − ρ(X,Y )2)

, (35)

donde

ρ(X,Y ) :=Cov(X,Y )

σ(X)σ(Y )(36)

es el llamado coeficiente de correlacion de las variables X, Y .

Coeficiente de correlacion

El coeficiente de correlacion definido en (36) es la covarianza de las variables normalizadas

X∗ :=X − E[X]

σ(X), Y ∗ :=

Y − E[Y ]

σ(Y ). (37)

Este coeficiente es independiente de los orıgenes y unidades de medida, esto es, para constantesa1, a2, b1, b2 con a1 > 0, a2 > 0, tenemos ρ(a1X + b1, a2Y + b2) = ρ(X,Y ).

Desafortunadamente, el termino correlacion sugiere implicaciones que no le son inherentes.Si X e Y son independientes, ρ(X,Y ) = 0. Sin embargo la recıproca no es cierta. De hecho,el coeficiente de correlacion ρ(X,Y ) puede anularse incluso cuando Y es funcion de X.

Ejemplo 3.2.

1. Sea X una variable aleatoria que toma valores ±1,±2 cada uno con probabilidad 14 y

sea Y = X2. La distribucion conjunta esta dada por

p(−1, 1) = p(1, 1) = p(−2, 4) = p(2, 4) = 1/4.

Por razones de simetrıa (E[X] = 0 y E[XY ] = 0) ρ(X,Y ) = 0 incluso cuando Y es unafuncion de X.

2. Sean U y V variables independientes con la misma distribucion, y sean X = U + V ,Y = U − V . Entonces E[XY ] = E[U2] − E[V 2] = 0 y E[Y ] = 0. En consecuencia,Cov(X,Y ) = 0 y por lo tanto tambien ρ(X,Y ) = 0. Por ejemplo, X e Y podrıan serla suma y la diferencia de los puntos de dos dados. Entonces X e Y son ambos pareso ambos impares y por lo tanto dependientes.

19

Page 160: espacios de probabilidad

Nota Bene. El coeficiente de correlacion no es una medida general de la dependencia entreX e Y . Sin embargo, ρ(X,Y ) esta conectado con la dependencia lineal de X e Y . En efecto,de la identidad (35) se deduce que |ρ(X,Y )| ≤ 1 y que ρ(X,Y ) = ±1 si y solo si Y es unafuncion lineal de X (cası seguramente).

4. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)

2. Bertsekas, D. P., Tsitsiklis, J. N.: Introduction to Probability. M.I.T. Lecture Notes.(2000)

3. Durrett R.:Probability.Theory and Examples. Duxbury Press, Belmont. (1996)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1957)

5. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. JohnWiley & Sons, New York. (1971)

6. Maronna R.: Probabilidad y Estadıstica Elementales para Estudiantes de Ciencias. Ed-itorial Exacta, La Plata. (1995)

7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

20

Page 161: espacios de probabilidad

Ensayos Bernoulli y otras cositas

(Borradores, Curso 23)

Sebastian Grynberg

15-17 de abril de 2013

Jakob Bernoulli (1654 - 1705)

En la “buena” te encontrey en la “mala” te perdı ...

(Enrique Cadıcamo)

1

Page 162: espacios de probabilidad

Indice

1. Ensayos Bernoulli 31.1. La distribucion binomial: cantidad de exitos en n ensayos . . . . . . . . . . . 41.2. Termino central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3. La distribucion geometrica: tiempo de espera hasta el primer exito . . . . . . 61.4. La distribucion Pascal: tiempo de espera hasta el k-esimo exito . . . . . . . . 81.5. La distribucion multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.6. j Miscelanea de ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2. La distribucion de Poisson 122.1. Motivacion: Aproximacion de Poisson de la distribucion binomial . . . . . . . 122.2. La distribucion Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3. e La aproximacion Poisson. (Tecnica de acoplamiento) . . . . . . . . . . . . 16

3. Cuentas con exponenciales 203.1. Motivacion: pasaje de lo discreto a lo continuo . . . . . . . . . . . . . . . . . 203.2. Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3. Suma de exponenciales independientes de igual intensidad . . . . . . . . . . . 213.4. Mınimos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4. Bibliografıa consultada 24

2

Page 163: espacios de probabilidad

1. Ensayos Bernoulli

Se trata de ensayos repetidos en forma independiente en los que hay solo dos resultadosposibles, usualmente denominados “exito” y “fracaso”, cuyas probabilidades, p y 1 − p, semantienen constantes a lo largo de todos los ensayos.

El espacio muestral de cada ensayo individual esta formado por dos puntos S y F . Elespacio muestral de n ensayos Bernoulli contiene 2n puntos o secuencias de n sımbolos S yF , cada punto representa un resultado posible del experimento compuesto. Como los ensayosson independientes las probabilidades se multiplican. En otras palabras, la probabilidad decada sucesion particular es el producto que se obtiene reemplazando los sımbolos S y F por py 1 − p, respectivamente. Ası,

P(SSFSF . . . FFS) = pp(1 − p)p(1 − p) · · · (1 − p)(1 − p)p.

Ejemplo 1.1. Si repetimos en forma independiente un experimento aleatorio y estamos in-teresados en la ocurrencia del evento A al que consideramos “exito”, tenemos ensayos Bernoullicon p = P(A).

Modelando ensayos Bernoulli. Los ensayos Bernoulli (con probabilidad de exito p) sedescriben mediante una sucesion de variables aleatorias independientes e identicamente dis-tribuidas (Xi : i ∈ N) cada una con distribucion Bernoulli(p),

P(Xi = xi) = pxi(1 − p)1−xi , xi ∈ 0, 1. (1)

Esto es, P(Xi = 1) = p y P(Xi = 0) = 1 − p. En este contexto, Xi = 1 significa que “elresultado del i-esimo ensayo es exito”.

Preguntas elementales. Se pueden formular varios tipos de preguntas relacionadas conlos ensayos Bernoulli. Las mas sencillas son las siguientes:

(a) ¿Cual es la cantidad total de exitos en los primeros n ensayos?

(b) ¿En n ensayos, cual es el numero de exitos mas probable?

(c) ¿Cuanto “tiempo” hay que esperar para observar el primer exito?

(d) ¿Cuanto “tiempo” hay que esperar para observar el k-esimo exito?

En lo que sigue expresaremos las preguntas (a)-(d) en terminos de las variables aleatoriasXi, i ≥ 1, que describen los ensayos Bernoulli.

La cantidad de exitos en los primeros n ensayos se describe mediante la suma de lasprimeras variables X1, . . . , Xn

Sn :=n∑

i=1

Xi. (2)

3

Page 164: espacios de probabilidad

La pregunta (a) interroga por la distribucion de probabilidades de la variable aleatoriaSn definida en (2). Esto es, para cada k = 0, . . . , n, se trata de determinar cuanto valenlas probabilidades P(Sn = k). En cambio, la pregunta (b) interroga por el valor de k quemaximiza a la funcion de k, P(Sn = k).

El tiempo de espera hasta el primer exito se describe mediante la variable aleatoria

T1 := mıni ∈ N : Xi = 1, (3)

y en general, el tiempo de espera hasta el k-esimo exito, k ≥ 1 se describe, recursivamente,mediante

Tk := mıni > Tk−1 : Xi = 1. (4)

La pregunta (c) interroga por la distribucion de probabilidades de la variable T1 definida en(3): cuanto valen las probabilidades P(T1 = n), n ∈ N? Finalmente, la pregunta (d) interrogapor la distribucion de probabilidades de las variables Tk, k ≥ 2, definidas en (4): cuanto valenlas probabilidades P(Tk = n), n ≥ k?

1.1. La distribucion binomial: cantidad de exitos en n ensayos

La cantidad de exitos puede ser 0, 1, . . . , n. El primer problema es determinar las corre-spondientes probabilidades. El evento en n ensayos resultaron k exitos y n − k fracasos

(X1, . . . , Xn) = (x1, . . . , xn) :

n∑

i=1

xi = k

puede ocurrir de tantas formas distintas como k sımbolos 1 se puedan ubicar en n lugares.En otras palabras, el evento considerado contiene

(

nk

)

puntos, cada uno de probabilidad

P

(

n⋂

i=1

Xi = xi

)

=n∏

i=1

pxi(1 − p)1−xi = pPn

i=1 xi(1 − p)n−Pn

i=1 xi

= pk(1 − p)n−k.

Por lo tanto,

P(Sn = k) =

(

n

k

)

pk(1 − p)n−k 0 ≤ k ≤ n. (5)

En particular, la probabilidad de que no ocurra ningun exito en n ensayos es (1 − p)n y laprobabilidad de que ocurra al menos un exito es 1 − (1 − p)n.

La distribucion de Sn, determinada en (5), se denomina la distribucion binomial deparametros n y p y se denota Binomial(n, p).

Nota Bene. Por definicion, la distribucion binomial de parametros n y p es la distribucionde una suma de n variables aleatorias independientes cada con distribucion Bernoulli deparametro p.

4

Page 165: espacios de probabilidad

Ejemplo 1.2. Se tira un dado equilibrado 11 veces y en cada tiro se apuesta al 6, ¿cual esla probabilidad de ganar exactamente 2 veces? Como el dado es equilibrado, la probabilidadde exito es 1/6 y la cantidad de exitos en 11 tiros tiene distribucion Binomial (11, 1/6). Porlo tanto, la probabilidad requerida es

(

11

2

)(

1

6

)2(5

6

)9

= 0.2960 . . .

Ejemplo 1.3. Cada artıculo producido por una maquina sera defectuoso con probabilidad0.1, independientemente de los demas. En una muestra de 3, ¿cual es la probabilidad deencontrar a lo sumo un defectuoso?

Si X es la cantidad de artıculos defectuosos en la muestra, entonces X ∼ Binomial(3, 0.1).En consecuencia,

P(X ≤ 1) = P(X = 0) + P(X = 1) =

(

3

0

)

(0.1)0(0.9)3 +

(

3

1

)

(0.1)1(0.9)2 = 0.972.

Ejemplo 1.4. Un avion se mantendra en vuelo mientras funcionen al menos el 50 % de susmotores. Si cada motor del avion en vuelo puede fallar con probabilidad 1 − p independien-temente de los demas, ¿para cuales valores de p ∈ (0, 1) es mas seguro un avion de 4 motoresque uno de 2?

Como cada motor puede fallar o funcionar independientemente de los demas, la cantidadde motores que siguen funcionando es una variable aleatoria con distribucion binomial. Laprobabilidad de que un avion de 4 motores realice un vuelo exitoso es

(

4

2

)

p2(1 − p)2 +

(

4

3

)

p3(1 − p) +

(

4

4

)

p4 = 6p2(1 − p)2 + 4p3(1 − p) + p4,

mientras que la correspondiente probabilidad para un avion de 2 motores es(

2

1

)

p(1 − p) +

(

2

2

)

p2 = 2p(1 − p) + p2.

En consecuencia, el avion de 4 motores es mas seguro que el de 2 si

6p2(1 − p)2 + 4p3(1 − p) + p4 > 2p(1 − p) + p2

lo que es equivalente a las siguientes expresiones simplificadas

3p3 − 8p2 + 7p − 2 > 0 ⇐⇒ 3(p − 2/3)(p − 1)2 > 0 ⇐⇒ p > 2/3.

Por lo tanto, el avion de 4 motores es mas seguro cuando la probabilidad de que cada motorse mantenga en funcionamiento es mayor que 2/3, mientras que el avion de 2 motores es masseguro cuando esa probabilidad es menor que 2/3.

Ejemplo 1.5. Si la probabilidad de exito es p = 0.01, cuantos ensayos se deben realizar paraasegurar que la probabilidad de que ocurra por lo menos un exito sea al menos 1/2?

Buscamos el menor entero n tal que 1 − (0.99)n ≥ 12 , o equivalentemente 1

2 ≥ (0.99)n.Tomando logaritmos − log 2 ≥ n log(0.99) y despejando n resulta n ≥ − log(2)/ log(0.99) ≈68.96. Por lo tanto, n = 69.

5

Page 166: espacios de probabilidad

1.2. Termino central

De la formula (5) se puede ver que

P(Sn = k)

P(Sn = k − 1)=

(

nk

)

pk(1 − p)n−k

(

nk−1

)

pk−1(1 − p)n−k+1=

(k − 1)!(n − k + 1)!p

k!(n − k)!(1 − p)

=(n − k + 1)p

k(1 − p)= 1 +

(n + 1)p − k

k(1 − p). (6)

De (6) se deduce que P(Sn = k) crece cuando k < (n + 1)p y decrece cuando k > (n + 1)p. Si(n + 1)p es un numero entero, entonces P(Sn = (n + 1)p) = P(Sn = (n + 1)p − 1). En otraspalabras, la cantidad mas probable de exitos en n ensayos es m := [(n+1)p]. Salvo en el casoen que m = (n + 1)p, donde tambien lo es m − 1.

Cuando p = 12 el resultado anterior se puede observar directamente en el triangulo de

Pascal: en el centro de las filas pares esta el maximo. En la region central de las filas impareshay dos maximos.

Ejemplo 1.6. Se tira un dado equilibrado n veces y en cada tiro se apuesta al 6. ¿Cual es lacantidad mas probable de exitos cuando n = 12? y cuando n = 11?

La cantidad de exitos tiene distribucion Binomial (n, p), donde p = 1/6. Cuando n = 12,(n + 1)p = 13/6 = 2.16... y entonces la cantidad mas probable de exitos es m = 2. Cuandon = 11, (n + 1)p = 2 y entonces la cantidad mas probable de exitos es m = 1 o m = 2.

1.3. La distribucion geometrica: tiempo de espera hasta el primer exito

El tiempo que hay que esperar para observar el primer exito en una sucesion de ensayosBernoulli puede ser n = 1, 2, . . . . El evento T1 = 1 significa que se obtuvo exito en el primerensayo y tiene probabilidad p. Para cada n ≥ 2, el evento T1 = n significa que en los primerosn − 1 ensayos se obtuvieron fracasos y que en el n-esimo se obtuvo exito, lo que tiene proba-bilidad (1 − p)n−1p. Por lo tanto, la distribucion de T1 es

P(T1 = n) = (1 − p)n−1p, n ∈ N. (7)

El evento T1 > n significa que los primeros n ensayos de la sucesion resultaron fracaso. Porlo tanto,

P(T1 > n) = (1 − p)n, n ≥ 1. (8)

La distribucion de T1 se denomina distribucion geometrica de parametro p y se designa me-diante Geometrica(p).

Ejemplo 1.7. Se arroja repetidamente un dado equilibrado. ¿Cual es la probabilidad deque el primer 6 aparezca antes del quinto tiro?. La probabilidad de obtener 6 es 1/6 y lacantidad de tiros hasta obtener el primer as tiene distribucion Geometrica(1/6). Por lo tanto,la probabilidad requerida es

1/6 + (5/6)(1/6) + (5/6)2(1/6) + (5/6)3(1/6) = (1/6)

(

1 − (5/6)4

1 − (5/6)

)

= 1− (5/6)4 = 0.5177 . . .

6

Page 167: espacios de probabilidad

Ejemplo 1.8 (Ocurrencias casi seguras). Si al realizarse un experimento aleatorio un eventoA tiene probabilidad positiva de ocurrir, entonces en una sucesion de experimentos indepen-dientes el evento A ocurrira casi seguramente.

En efecto, el tiempo de espera hasta que ocurra el evento A es una variable aleatoria TA

con distribucion geometrica de parametro p = P(A). Si se observa que

TA > 1 ⊇ TA > 2 ⊇ TA > 3 ⊇ · · ·

y que

TA = ∞ =⋂

n≥1

TA > n

y se usa la propiedad de continuidad de P, se obtiene que

P(TA = ∞) = P

n≥1

TA > n

= lımn→∞

P(TA > n) = lımn→∞

(1 − p)n = 0.

Por lo tanto, P(TA < ∞) = 1.

Perdida de memoria

La variable aleatoria, T , con distribucion geometrica de parametro p tiene la propiedadde perdida de memoria,

P(T > n + m|T > n) = P(T > m) n, m ∈ N (9)

La identidad (9) se obtiene de (8) y de la formula de probabilidad condicional:

P(T > n + m|T > n) =P(T > n + m, T > n)

P(T > n)

=P(T > n + m)

P(T > n)=

(1 − p)n+m

(1 − p)n

= (1 − p)m = P(T > m).

De hecho, la propiedad de perdida de memoria definida en (9) caracteriza a la distribuciongeometrica.

Teorema 1.9. Si T es una variable aleatoria a valores en N con la propiedad de perdida dememoria, entonces T ∼ Geometrica(p), donde p = P(T = 1).

Demostracion. Sea G(n) := P(T > n). Si T pierde memoria, tenemos que

G(n + m) = G(n)G(m) (10)

De (10) sigue que G(2) = G(1)G(1) = G(1)2, G(3) = G(2)G(1) = G(1)3 y en generalG(n) = G(1)n cualquiera sea n ∈ N. En otros terminos, la distribucion de T es tal que

P(T > n) = G(1)n.

Por lo tanto,

P(T = n) = P(T > n − 1) − P(T > n) = G(1)n−1 − G(1)n = G(1)n−1(1 − G(1)).

7

Page 168: espacios de probabilidad

1.4. La distribucion Pascal: tiempo de espera hasta el k-esimo exito

Si se quieren observar k-exitos en una sucesion de ensayos Bernoulli lo mınimo que sedebe esperar es k ensayos. ¿Cuando ocurre el evento Tk = n, n ≥ k? El n-esimo ensayo debeser exito y en los n− 1 ensayos anteriores deben ocurrir exactamente k − 1 exitos. Hay

(

n−1k−1

)

formas distintas de ubicar k − 1 sımbolos 1 en n − 1 lugares. Por lo tanto,

P(Tk = n) =

(

n − 1

k − 1

)

pk(1 − p)n−k n ≥ k. (11)

La distribucion de Tk se denomina distribucion Pascal de parametros k y p y se designamediante Pascal(k, p).

La distribucion Pascal de parametros k y p es la distribucion de una suma de k variablesaleatorias independientes cada una con ley Geometrica(p). Lo cual es intuitivamente claro sise piensa en el modo que arribamos a su definicion.

En efecto, definiendo T0 := 0 vale que

Tk =k∑

i=1

(Ti − Ti−1).

Basta ver que para cada i = 1, . . . , k las diferencias Ti − Ti−1 son independientes y todas sedistribuyen como T1 ∼ Geometrica(p). De acuerdo con la regla del producto

P

(

∩ki=1Ti − Ti−1 = mi

)

= P(T1 = m1)

×n−1∏

i=2

P

(

Ti − Ti−1 = mi| ∩i−1j=1 Tj − Tj−1 = mj

)

. (12)

Si se sabe que T1 = m1, . . . , Ti−1 − Ti−2 = mi−1, entonces el evento Ti − Ti−1 = mi dependelas variables aleatorias XPi−1

j=1 mj+1, . . . , XPi

j=1 mjy equivale a decir que las primeras mi − 1

de esas variables valen 0 y la ultima vale 1. En consecuencia,

P

(

Ti − Ti−1 = mi| ∩i−1j=1 Tj − Tj−1 = mj

)

= (1 − p)mi−1p. (13)

De (12) y (13) se deduce que

P

(

∩ki=1Ti − Ti−1 = mi

)

=k∏

i=1

(1 − p)mi−1p. (14)

De la factorizacion (14) se deduce que T1, T2 − T1, . . . , Tk − Tk−1 son independientes y quecada una tiene distribucion geometrica de parametro p.

Ejemplo 1.10. Lucas y Monk disputan la final de un campeonato de ajedrez. El primeroque gane 6 partidas (no hay tablas) resulta ganador. La probabilidad de que Lucas ganecada partida es 3/4. ¿Cual es la probabilidad de que Lucas gane el campeonato en la novenapartida? La cantidad de partidas que deben jugarse hasta que Lucas gane el campeonato tienedistribucion Pascal(6, 3/4). Por lo tanto, la probabilidad requerida es

(

8

5

)(

3

4

)6(1

4

)3

= 0.1557 . . .

8

Page 169: espacios de probabilidad

Ejemplo 1.11. En una calle hay tres parquımetros desocupados. Se estima que en los proxi-mos 10 minutos pasaran 6 coches por esa calle y, en media, el 80 % tendra que estacionarseen alguno de ellos. Calcular la probabilidad de que los tres parquımetros sean ocupados enlos proximos 10 minutos.

La probabilidad requerida es la probabilidad de que la cantidad, N , de ensayos hasta eltercer exito sea menor o igual que 6. Como N tiene distribucion Pascal(3, 0.8) resulta que

P(N ≤ 6) =6∑

n=3

P(N = n) =6∑

n=3

(

n − 1

2

)

(0.8)3(0.2)n−3

= (0.8)3[(

2

2

)

(0.2)0 +

(

3

2

)

(0.2)1 +

(

4

2

)

(0.2)2 +

(

5

2

)

(0.2)3]

= (0.8)3[

1 + 3(0.2) + 6(0.2)2 + 10(0.2)3]

= 0.983 . . .

Notar que una forma alternativa de obtener el mismo resultado es sumar las probabilidadesde observar 3, 4, 5, 6 exitos en 6 ensayos Bernoulli.

Relacion entre las distribuciones Binomial y Pascal. Sean Sn ∼ Binomial(n, p) yTk ∼ Pascal(k, p). Vale que

P(Sn ≥ k) = P(Tk ≤ n). (15)

En efecto, decir que en n ensayos Bernoulli ocurren por lo menos k exitos es lo mismo quedecir que el tiempo de espera hasta observar el k-esimo exito no supera a n.

1.5. La distribucion multinomial

La distribucion binomial se puede generalizar al caso de n ensayos independientes dondecada ensayo puede tomar uno de varios resultados. Sean 1, 2, . . . , r los resultados posibles decada ensayo y supongamos que para cada k ∈ 1, 2, . . . , r la probabilidad pk de observar elvalor k se mantiene constante a lo largo de los ensayos. La pregunta es: ¿Cuantas veces ocurrecada uno de los resultados en los primeros n ensayos?

Consideramos una sucesion X1, X2, . . . de variables aleatorias independientes e identi-camente distribuidas a valores 1, 2, . . . , r tal que P(Xi = k) = pk. Fijado n, para cadak = 1, . . . , r definimos la variables Mk =

∑ni=1 1Xi = k. La variable Mk cuenta la cantidad

de veces que ocurre el resultado k en n ensayos. La probabilidad de que en n ensayos elresultado 1 ocurra m1 veces, el resultado 2 ocurra m2 veces, etc. es

P(M1 = m1, M2 = m2, . . . , Mr = mr) =n!

m1!m2! · · ·mr!pm11 pm2

2 · · · pmrr , (16)

donde los mk son enteros no negativos sujetos a la condicion m1 + m2 + · · · + mr = n.Si r = 2, entonces (16) se reduce a la distribucion Binomial con p1 = p, p2 = 1− p, k1 = k

y k2 = n − k.

9

Page 170: espacios de probabilidad

1.6. j Miscelanea de ejemplos

Observacion 1.12 (Desarrollo de Taylor). Para todo x ∈ (0, 1) vale que

1

(1 − x)k+1=∑

n≥0

(

n + k

k

)

xn. (17)

La identidad (17) se obtiene desarrollando la funcion h(x) = (1 − x)−(k+1) en serie deTaylor alrededor del 0: observando que h(n)(0) = (k + 1)(k + 2) · · · (k + n), se obtiene queh(n)(0)

n! =(

n+kk

)

.

Ejemplo 1.13 (Variable compuesta). Sean N1; X1, X2, . . . una sucesion de variables aleato-rias independientes. Supongamos que N1 ∼ Geometrica(p1) y que Xi ∼ Bernoulli(p2), i ≥ 1.Entonces,

N2 =

N1−1∑

i=1

Xi ∼ Geometrica

(

p1

p1 + p2(1 − p1)

)

− 1. (18)

Por definicion N2|N1 = n ∼ Binomial(n − 1, p2). Aplicando la formula de probabilidad totalobtenemos

P(N2 = k) =∑

n≥1

P(N2 = k|N1 = n)P(N1 = n)

=∑

n≥k+1

(

n − 1

k

)

pk2(1 − p2)

n−1−k(1 − p1)n−1p1

=∑

m≥0

(

m + k

k

)

pk2(1 − p2)

m(1 − p1)m+kp1

= (p2(1 − p1))k p1

m≥0

(

n + k

k

)

[(1 − p1)(1 − p2)]m. (19)

Usando (17) vemos que

m≥0

(

m + k

k

)

[(1 − p1)(1 − p2)]m =

1

(1 − (1 − p1)(1 − p2))k+1

=1

(p1 + p2(1 − p1))k+1. (20)

Combinando (19) y (20) obtenemos que

P(N2 = k) =(p2(1 − p1))

k p1

(p1 + p2(1 − p1))k+1=

(

p2(1 − p1)

p1 + p2(1 − p1)

)k ( p1

p1 + p2(1 − p1)

)

. (21)

Ejemplo 1.14 (Rachas). Para cada numero entero m > 1 sea Ym la cantidad de ensayosBernoulli(p) que se deben realizar hasta obtener por primera vez una racha de m exitos segui-dos. En lo que sigue vamos a calcular E[Ym] mediante condicionales. Para ello introducimos

10

Page 171: espacios de probabilidad

una variable aleatoria auxiliar N que cuenta la cantidad de ensayos que deben realizarse hastaobtener por primera vez un fracaso y usaremos la identidad E[Ym] = E[E[Ym|N ]].

Observando que

Ym|N = n ∼

n + Ym si n ≤ m,m si n > m,

obtenemos la expresion de la funcion de regresion

ϕ(n) = E[Ym|N = n] =

n + E[Ym] si n ≤ m,m si n > m.

En consecuencia, E[Ym|N ] = N1N ≤ m + E[Ym]1N ≤ m + m1N > m, de donde sededuce que E[Ym] = E[N1N ≤ m] + E[Ym]P(N ≤ m) + mP(N > m). Equivalentemente,

E[Ym] =E[N1N ≤ m]

P(N > m)+ m. (22)

Debido a que N1N ≤ m = N − N1N > m el primer termino del lado derecho de laigualdad (22) se puede expresar de siguiente forma

E[N1N ≤ m]

P(N > m)=

E[N ] − E[N1N > m]

P(N > m)=

E[N ]

P(N > m)− E[N |N > m]

=E[N ]

P(N > m)− E[N ] − m. (23)

La ultima igualdad se deduce de la propiedad de perdida de memoria de la distribucionGeometrica. De N |N > m ∼ m + N , resulta que E[N |N > m] = m + E[N ].

Combinando (22) y (23) obtenemos

E[Ym] =E[N ]

P(N > m)− E[N ] =

E[N ]P(N ≤ m)

P(N > m)=

1 − pm

(1 − p)pm. (24)

Ejemplo 1.15 (Coleccionista I). Sea M una variable aleatoria a valores 1, 2, . . . , m. Sea(Mn : n ∈ N) una sucesion de variables aleatorias independientes tal que Mn ∼ M paratodo n ∈ N. Sea K = mınn ≥ m : M1, . . . , Mn = 1, 2, . . . , m el tamano de muestramınimo que se necesita para “coleccionar” todos los valores 1, 2, . . . , m. En lo que sigue vamosa calcular E[K] mediante condicionales. Introducimos un elemento aleatorio C que indica elorden en que se obtuvieron los valores 1, 2, . . . , m y usamos la identidad E[K] = E[E[K|C]].

Sea S(m) al conjunto de todas las permutaciones de los numeros 1, 2, . . . , m. Para cadapermutacion σ = (σ1, σ2, . . . , σm) ∈ S(m) vale que:

P(C = σ) =

m−1∏

k=1

P(M = σk)∑m

i=k P(M = σi).

Por otra parte

K|C = σ ∼ 1 +m−1∑

k=1

N(σi : 1 ≤ 1 ≤ k),

11

Page 172: espacios de probabilidad

donde N(σi : 1 ≤ i ≤ k) ∼ Geometrica(∑m

i=k+1 P(M = σi))

. Por lo tanto,

E[K] =∑

σ∈S(m)

E[K|C = σ]P(C = σ)

=∑

σ∈S(m)

(

1 +m−1∑

k=1

1∑m

i=k+1 P(M = σi)

)

m−1∏

k=1

P(M = σk)∑m

i=k P(M = σi). (25)

En el caso particular en que P(M = i) = 1/m para todo i ∈ 1, 2, . . . , m tenemos que

E[K] =∑

σ∈S(m)

(

1 +m−1∑

k=1

1∑m

i=k+1 1/m

)

m−1∏

k=1

1/m∑m

i=k 1/m

= m!

(

1 +m−1∑

k=1

1∑m

i=k+1 1/m

)

1

m!=

m−1∑

k=0

1∑m

i=k+1 1/m= m

m∑

i=1

1

i. (26)

Ejemplo 1.16 (Coleccionista II). Sea X1, X2, . . . una sucesion de variables aleatorias inde-pendientes e identicamente distribuidas a valores 1, 2, . . . , r. Sea Nr = mınn ≥ 1 : Xn = r.Para cada i = 1, . . . , r − 1 sea Mi =

∑Nr−1n=1 1Xn = i. Queremos hallar la funcion de

probabilidad de Mi.Por definicion Nr ∼ Geometrica(pr) y Mi|Nr = n ∼ Binomial

(

n − 1, pi(1 − pr)−1)

. Deacuerdo con el Ejemplo 1.13 tenemos que

Mi ∼ Geometrica

(

pr

pr + pi(1 − pr)−1(1 − pr)

)

− 1 = Geometrica

(

pr

pr + pi

)

− 1.

En particular, E[Mi] = pi/pr y V(Mi) = pi(pr + pi)/p2r .

2. La distribucion de Poisson

2.1. Motivacion: Aproximacion de Poisson de la distribucion binomial

En diversas aplicaciones tenemos que tratar con ensayos Bernoulli donde, para decirlode algun modo, n es grande y p es pequeno, mientras que el producto λ = np es modera-do. En tales casos conviene usar una aproximacion de las probabilidades P(Sn = k), dondeSn ∼Binomial(n, p) y p = λ/n. Para k = 0 tenemos

P(Sn = 0) = (1 − p)n =

(

1 −λ

n

)n

. (27)

Tomando logaritmos y usando el desarrollo de Taylor,

log(1 − t) = −t −1

2t2 −

1

3t3 −

1

4t4 − · · · ,

se obtiene

log P(Sn = 0) = n log

(

1 −λ

n

)

= −λ −λ2

2n− · · · (28)

12

Page 173: espacios de probabilidad

En consecuencia, para n grande se tiene que

P(Sn = 0) ≈ e−λ, (29)

donde el signo ≈ se usa para indicar una igualdad aproximada (en este caso de orden demagnitud 1/n). Mas aun, usando la identidad (6) se puede ver que para cada k fijo y nsuficientemente grande

P(Sn = k)

P(Sn = k − 1)=

(n − k + 1)p

k(1 − p)≈

λ

k. (30)

Recursivamente se concluye que

P(Sn = 1) ≈ λ · P(Sn = 0) ≈ λe−λ,

P(Sn = 2) ≈λ

2· P(Sn = 1) ≈

λ2

2e−λ,

y en general

P(Sn = k) ≈λk

k!e−λ. (31)

La igualdad aproximada (31) se llama la aproximacion de Poisson de la distribucion binomial.

0 2 4 6 8 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Figura 1: Comparacion. Funciones de probabilidad de las distribuciones Binomial(10, 1/5)(bolita negra) y Poisson(2) (cuadradillo vacıo).

Otro modo de obtener el mismo resultado.

P(Sn = k) =

(

n

k

)

pk(1 − p)n−k ∼1

k!

(

np

1 − p

)k

(1 − p)n−k →λk

k!e−λ.

13

Page 174: espacios de probabilidad

Ejemplo 2.1 (Artıculos defectuosos). Una industria produce tornillos. Supongamos que laprobabilidad de que un tornillo resulte defectuoso sea p = 0.015, entonces la probabilidad deque una caja de 100 tornillos no contenga ninguno defectuoso es (0.985)100 = 0.2206... Laaproximacion de Poisson es e−1.5 = 0.2231... y es suficientemente proxima para la mayorıa delos propositos practicos. Si se pregunta: Cuantos tornillos deberıa contener la caja para que laprobabilidad de encontrar al menos 100 tornillos sin defectos sea 0.8 o mejor? Si 100+x es elnumero buscado, entonces x es un numero pequeno. Para aplicar la aproximacion de Poissonpara n = 100 + x ensayos debemos poner λ = np, pero np es aproximadamente 100p = 1.5.Buscamos el menor entero x para el cual

e−1.5

(

1 +1.5

1+ · · ·

(1.5)x

x!

)

≥ 0.8 (32)

Para x = 1 el valor del lado izquierdo de la inecuacion (32) es aproximadamente 0.558, parax = 2 es aproximadamente 0.809. Por lo tanto, la aproximacion de Poisson permite concluirque se necesitan 102 tornillos. En realidad la probabilidad de encontrar al menos 100 tornillossin defectos en una caja de 102 es 0.8022 . . . .

2.2. La distribucion Poisson

Sea λ > 0. Una variable aleatoria N tiene distribucion Poisson(λ) si sus posibles valoresson los enteros no negativos y si

P(N = n) = e−λ λn

n!, n = 0, 1, . . . (33)

Media y varianza. Usando el desarrollo de Taylor de la funcion exponencial ex =∑∞

n=0xn

n!se demuestra que E[N ] = λ y V(N) = λ.

Aditividad. El rasgo mas importante de la distribucion Poisson es su aditividad.

Teorema 2.2 (Aditividad). Si N1 y N2 son variables aleatorias independientes con distribu-cion Poisson de medias λ1 y λ2, respectivamente. Entonces,

N1 + N2 ∼ Poisson(λ1 + λ2).

Demostracion.

P(N1 + N2 = n) =

n∑

m=0

P(N1 = m, N2 = n − m) =

n∑

m=0

P(N1 = m)P(N2 = n − m)

=

n∑

m=0

e−λ1λm

1

m!e−λ2

λn−m2

(n − m)!=

e−(λ1+λ2)

n!

n∑

m=0

(

n

m

)

λm1 λn−m

2

= e−(λ1+λ2) (λ1 + λ2)n

n!.

14

Page 175: espacios de probabilidad

Nota Bene. El resultado del Teorema 2.2 se extiende por induccion a la suma de unacantidad finita de variables aleatorias independientes con distribucion Poisson.

Teorema 2.3 (Competencia). Sean N1, N2, . . . , Nm variables aleatorias independientes, cadaNj con distribucion Poisson de media λj, respectivamente. Sea S = N1 + · · ·+Nm. Entonces,para cada n ≥ 1 vale que

(N1, N2, . . . , Nm)|S = n ∼ Multinomial

(

n,λ1

λ,λ2

λ, . . . ,

λm

λ

)

,

donde λ =∑

j λj. En particular,

P(Nj = 1|S = 1) =λj

λ.

Demostracion. La suma S = N1+· · ·+Nm tiene distribucion Poisson de media λ =∑

j λj ;y entonces siempre que n1 + · · · + nm = n,

P(N1 = n1, . . . , Nm = nm|S = n) =P(N1 = n1, . . . , Nm = nm)

P(S = n)

=∏

j

(

e−λjλ

nj

j

nj !

)/

(

e−λ λn

n!

)

=n!

n1!n2! · · ·nm!

j

(

λj

λ

)nj

.

Nota Bene. En el caso particular n = 2, el resultado del Teorema 2.3 se reduce a que,si N1 y N2 son variables aleatorias independientes con distribucion Poisson de medias λ1 yλ2, respectivamente, entonces, dado que N1 + N2 = n, la distribucion condicional de N1 esBinomial(n, p), donde p = λ1

λ1+λ2.

Teorema 2.4 (Adelgazamiento). Sea N una variable aleatoria Poisson de media λ. Sea Muna variable aleatoria tal que

M |N = n ∼ Binomial(n, p).

Entonces, M y N − M son variables aleatorias independientes con distribucion Poisson demedias pλ y (1 − p)λ, respectivamente.

Demostracion. Sean m, k ≥ 0

P(M = m, N − M = k) = P(M = m, N − M = k|N = m + k)P(N = m + k)

= P(M = m|N = m + k)P(N = m + k)

=

((

m + k

m

)

pm(1 − p)k

)

e−λ λm+k

(m + k)!

=

(

e−pλ (pλ)m

m!

)(

e−(1−p)λ ((1 − p)λ)k

k!

)

.

15

Page 176: espacios de probabilidad

Ejercicios adicionales

1. Sea N una variable aleatoria con distribucion Poisson de media λ. Mostrar que

P(N = n) =λ

nP(N = n − 1), n = 1, 2, . . .

Usar ese resultado para encontrar el valor de n para el cual P(N = n) es maximal.

2.

Se lanza una moneda una cantidad aleatoria N de veces, donde N tiene distribucionPoisson. Sean N1 y N2 la cantidad de total de caras y de cecas observadas, respectivamente.Mostrar que las variables aleatorias N1 y N2 son independientes y que tienen distribucionPoisson.

3. Sea X1, X2, . . . una sucesion de variables aleatorias independientes, cada una con distribu-cion Bernoulli(p). Para cada n ≥ 1 se define Sn :=

∑ni=1 Xi. Por convencion, S0 := 0. Sea N

una variable aleatoria con distribucion Poisson(λ). Mostrar que SN ∼ Poisson(pλ).

2.3. e La aproximacion Poisson. (Tecnica de acoplamiento)

En lo que sigue mostraremos que cuando se consideran una gran cantidad de eventos inde-pendientes y cada uno de ellos tiene una probabilidad muy pequena de ocurrir, la cantidad detales eventos que realmente ocurre tiene una distribucion “cercana” a la distribucion Poisson.

0 0.5 1 1.5 2 2.5 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Figura 2: Comparacion de las funciones de probabilidad de las distribuciones Bernoulli(1/4)(bolita negra) y Poisson(1/4) (cuadradillo vacıo)

16

Page 177: espacios de probabilidad

Construccion conjunta de variables Bernoulli y Poisson (Acoplamiento).Para cada p ∈ [0, 1] dividimos el intervalo [0, 1) en dos intervalos

I0(p) = [0, 1 − p), I1(p) = [1 − p, 1) (34)

y en la sucesion de intervalos

J0(p) = [0, e−p), Jk(p) =

k−1∑

j=0

e−p pk

k!,

k∑

j=0

e−p pk

k!

, k = 1, 2, . . . . (35)

Consideramos una variable aleatoria U con distribucion U[0, 1) y construimos dos variablesaleatorias V y W con distribuciones Bernoulli(p) y Poisson(p), respectivamente:

V := 1U ∈ I1(p), W :=∞∑

k=0

k1U ∈ Jk(p). (36)

De la desigualdad 1−p ≤ e−p resulta que I0(p) ⊂ J0(p) y que J1(p) ⊂ I1(p). En consecuencia,V = W ⇐⇒ U ∈ I0(p) ∪ J1(p). Por ende,

P(V = W ) = P(U ∈ I0(p) ∪ J1(p)) = 1 − p + e−pp, (37)

y en consecuencia,

P(V 6= W ) = p − e−pp = p(1 − e−p) ≤ p2. (38)

Usando la desigualdad (38) pueden obtenerse las siguientes cotas:

supk≥0

|P(V = k) − P(W = k)| ≤ p2, (39)

k

|P(V = k) − P(W = k)| ≤ 2p2. (40)

La cota (39) se deduce de observar que

|P(V = k) − P(W = k)| = |E[1V = k] − E[1W = k]|

= |E[1V = k − 1W = k]|

≤ E[|1V = k − 1W = k|]

≤ E[1V 6= W]

= P(V 6= W ).

La cota (40) se deduce de observar que para todo k = 0, 1, . . .

|P(V = k) − P(W = k)| = |P(V = k, W 6= k) − P(W = k, V 6= k)|

≤ P(V = k, V 6= W ) + P(W = k, V 6= W ),

y luego sumar sobre los posibles valores de k:∑

k

|P(V = k) − P(W = k)| ≤ 2P(V 6= W ).

17

Page 178: espacios de probabilidad

Nota Bene. Esta tecnica, denominada tecnica de acoplamiento de variables aleatorias,permite probar (sin usar la formula de Stirling) que la distribucion Binomial converge a ladistribucion Poisson.

Teorema 2.5 (Le Cam). Sean X1, . . . , Xn variables aleatorias independientes con distribu-cion Bernoulli de parametros p1, . . . , pn, respectivamente y sea S =

∑ni=1 Xi. Entonces

k

|P(S = k) − P(N = k)| ≤ 2n∑

i=1

p2i , (41)

donde N es una variable aleatoria con distribucion Poisson de media λ =∑n

i=1 pi.

Demostracion. Sean U1, . . . , Un variables aleatorias independientes con distribucion comunU[0, 1). Construimos variables aleatorias acopladas Vi ∼ Bernoulli(pi) y Wi ∼Poisson(pi),i = 1, . . . , n:

Vi := 1Ui ∈ I1(pi), Wi :=∞∑

k=0

k1Ui ∈ Jk(pi),

y las sumamos

S∗ =n∑

i=1

Vi, N =n∑

i=1

Wi.

Por construccion, las variables V1, . . . , Vn son independientes y con distribucion Bernoulli(pi),respectivamente, y entonces, la variable S∗ tiene la misma distribucion que S; las variablesW1, . . . , Wn son independientes y tienen distribucion Poisson(pi), respectivamente, y entonces,la variable N tiene distribucion Poisson de media λ =

∑ni=1 pi.

Observando que cada k

|P(S∗ = k) − P(N = k)| ≤ P(S∗ = k, N 6= k) + P(N = k, S∗ 6= k).

se obtiene que

k

|P(S∗ = k) − P(N = k)| ≤ 2P(S∗ 6= N).

Si S∗ 6= N , entonces Vi 6= Wi para algun i = 1, . . . , n. En consecuencia,

P(S∗ 6= N) ≤

n∑

i=1

P(Vi 6= Wi) ≤

n∑

i=1

p2i .

Corolario 2.6 (Aproximacion Poisson). Para cada k ≥ 0

lımn→∞

(

n

k

)(

1 −λ

n

)n−k (λ

n

)k

= e−λ λk

k!

18

Page 179: espacios de probabilidad

Demostracion. Sean U1, . . . , Un variables aleatorias independientes con distribucion comunU[0, 1). Para cada i = 1, . . . , n definimos parejas de variables aleatorias (Vi, Wi) independientes

Vi := 1Ui ∈ I1(p), Wi :=∞∑

k=0

k1Ui ∈ Jk(p).

Por construccion, Vi ∼ Bernoulli(p) y Wi ∼ Poisson(p), en consecuencia las sumas

S =n∑

i=1

Vi, N =n∑

i=1

Wi

son variables aleatorias con distribuciones Binomial(n, p) y Poisson(np), respectivamente. Deacuerdo con la demostracion del Teorema de Le Cam tenemos que

(

n

k

)(

1 −λ

n

)n−k (λ

n

)k

− e−λ λk

k!

= |P(S = k) − P(N = k)| ≤ 2np2 = 2λ2

n→ 0.

Teorema 2.7. Supongamos que para cada n, Xn,1, . . . , Xn,rn son variables aleatorias inde-pendientes con distribucion Bernoulli(pn,k). Si

rn∑

k=1

pn,k → λ ≥ 0, max1≤k≤rn

pn,k → 0, (42)

entonces

P

(

rn∑

k=1

Xn,k = i

)

→ e−λ λi

i!, i = 0, 1, 2, . . . . (43)

Si λ = 0, el lımite (43) se interpreta como 1 para i = 0 y 0 para i ≥ 1. En el caso rn = ny pn,k = λ/n, (43) es la aproximacion Poisson a la binomial. Notar que si λ > 0, entonces(42) implica que rn → ∞.

Demostracion. Sea U1, U2, . . . una sucesion de variables aleatorias independientes, condistribucion comun U[0, 1). Definimos

Vn,k := 1Uk ∈ I1(pn,k).

Las variables Vn,1, . . . , Vn,rn son independientes y con distribucion Bernoulli(pn,k). Puesto queVn,1, . . . , Vn,rn tienen la misma distribucion que Xn,1, . . . , Xn,rn , (43) se obtiene mostrandoque Vn =

∑rn

k=1 Vn,k satisface

P(Vn = i) → e−λ λi

i!. (44)

Ahora definimos

Wn,k :=∞∑

i=0

i1Uk ∈ Ji(pn,k)

19

Page 180: espacios de probabilidad

Wn,k tiene distribucion Poisson de media pn,k. Puesto que las Wn,k son independientes, Wn =∑rn

k=1 Wn.k tiene distribucion Poisson de media λn =∑rn

k=1 pn,k. De la desigualdad 1−p ≤ e−p,se obtiene como consecuencia que

P(Vn,k 6= Wn,k) = P(Vn.k = 1 6= Wn,k) = P(Uk ∈ I1(pn,k) − J1(pn,k))

= pn,k − e−pn,kpn,k ≤ p2n,k,

y por (42)

P(Vn 6= Wn) ≤

rn∑

k=1

p2n,k ≤ λn max

1≤k≤rn

pn,k → 0.

(44) y (43) se obtienen de observar que

P(Wn = i) = e−λnλi

n

n!→ e−λ λn

n!.

3. Cuentas con exponenciales

3.1. Motivacion: pasaje de lo discreto a lo continuo

Para fijar ideas consideraremos una conversacion telefonica y supondremos que su duraciones un numero entero de segundos. La duracion de la conversacion sera tratada como unavariable aleatoria T cuya distribucion de probabilidades pn = P(T = n) es conocida. La lıneatelefonica representa un sistema fısico con dos estados posibles “ocupada” (E0) y “libre” (E1).

Imaginemos que cada segundo se decide si la conversacion continua o no por medio deuna moneda cargada. En otras palabras, se realiza una sucesion de ensayos Bernoulli conprobabilidad de exito p a una tasa de un ensayo por segundo y se continua hasta el primerexito. La conversacion termina cuando ocurre el primer exito. En este caso la duracion totalde la conversacion, el tiempo de espera, tiene distribucion geometrica pn = (1− p)n−1p. Si enun instante cualquiera la lınea esta ocupada, la probabilidad que permanezca ocupada pormas de un segundo es (1 − p), y la probabilidad de transicion E0 → E1 en el siguiente pasoes p. En este caso esas probabilidades son independientes de cuanto tiempo estuvo ocupadala lınea.

La descripcion de los tiempos de espera mediante modelos discretos presupone la cuanti-zacion del tiempo y que los cambios solo pueden ocurrir en las epocas ε, 2ε, . . . . El tiempo deespera T mas sencillo es el tiempo de espera hasta el primer exito en una sucesion de ensayosBernoulli con probabilidad de exito p(ε). En tal caso P(T > nε) = (1 − p(ε))n y el tiempomedio de espera es E[T ] = ε/p(ε). Este modelo puede se puede refinar haciendo que ε seacada vez mas chico pero manteniendo fija la esperanza ε/p(ε) = 1/λ. Para un intervalo deduracion t corresponden aproximadamente n ≈ t/ε ensayos, y entonces para ε pequeno

P(T > t) ≈ (1 − λε)t/ε ≈ e−λt. (45)

Este modelo considera el tiempo de espera como una variable aleatoria discreta distribuidageometricamente y (45) dice que “en el lımite” se obtiene una distribucion exponencial.

20

Page 181: espacios de probabilidad

Si no discretizamos el tiempo tenemos que tratar con variables aleatorias continuas. El rolde la distribucion geometrica para los tiempos de espera lo ocupa la distribucion exponencial.Es la unica variable continua dotada de una completa falta de memoria. En otras palabras, laprobabilidad de que una conversacion que llego hasta el tiempo t continue mas alla del tiempot + s es independiente de la duracion pasada de la conversacion si, y solo si, la probabilidadque la conversacion dure por lo menos t unidades de tiempo esta dada por una exponenciale−λt.

Nota Bene Si en un momento arbitrario t la lınea esta ocupada, entonces la probabilidadde un cambio de estado durante el proximo segundo depende de cuan larga ha sido la con-versacion. En otras palabras, el pasado influye sobre el futuro. Esta circunstancia es la fuentede muchas dificultades en problemas mas complicados.

3.2. Distribucion exponencial

Se dice que la variable aleatoria T tiene distribucion exponencial de intensidad λ > 0 y sedenota T ∼ Exp(λ) si la funcion de distribucion de T es de la forma

FT (t) := P(T ≤ t) =(

1 − e−λt)

1t ≥ 0. (46)

En tal caso T admite la siguiente funcion densidad de probabilidades

fT (t) = λe−λt1t ≥ 0. (47)

Media y Varianza. Los valores de la esperanza y la varianza de T son, respectivamente,E[T ] = 1/λ y V(T ) = 1/λ2.

3.3. Suma de exponenciales independientes de igual intensidad

Teorema 3.1. Sean T1, T2, . . . , Tn variables aleatorias independientes, identicamente dis-tribuidas, con distribucion exponencial de intensidad λ > 0. La suma Sn = T1 + · · · + Tn

admite una densidad de probabilidades de la forma

fSn(t) = λe−λt (λt)n−1

(n − 1)!1t > 0 (48)

y su funcion de distribucion es

FSn(t) =

(

1 − e−λtn−1∑

i=0

(λt)i

i!

)

1t ≥ 0. (49)

En otras palabras, la suma de n variables aleatorias independientes exponenciales de intensi-dad λ > 0 tiene distribucion Gamma de parametros n y λ: Γ(n, λ).

21

Page 182: espacios de probabilidad

Demostracion. Por induccion. Para n = 1 no hay nada que probar: S1 = T1 ∼ Exp(λ).Supongamos ahora que la suma Sn = T1 + · · · + Tn admite una densidad de la forma (48).Debido a que las variables aleatorias Sn y Tn+1 son independientes, la densidad de Sn+1 =Sn + Tn+1 se obtiene convolucionando las densidades de Sn y Tn+1:

fSn+1(t) = (fSn∗ fTn+1)(t) =

∫ t

0fSn

(t − x)fTn+1(x)dx

=

∫ t

0λe−λ(t−x) (λ(t − x))n−1

(n − 1)!λe−λxdx

= λe−λt λn

(n − 1)!

∫ t

0(t − x)n−1dx = λe−λt λn

(n − 1)!

tn

n

= λe−λt (λt)n

n!.

Las funciones de distribucion (49) se obtienen integrando las densidades (48). Sea t ≥ 0,integrando por partes puede verse que

FSn(t) =

∫ t

0fSn

(s)ds =

∫ t

0

(λs)n−1

(n − 1)!λe−λsds

= −(λs)n−1

(n − 1)!e−λs

t

0

+

∫ t

0

(λs)n−2

(n − 2)!λe−λtds

= −(λt)n−1

(n − 1)!e−λt + FSn−1(t). (50)

Iterando (50) obtenemos (49).

Nota Bene. En la demostracion anterior se utilizo el siguiente resultado: si T1, . . . , Tn sonvariables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de lasTi tambien son independientes. (Para mas detalles ver el Capıtulo 1 de Durrett, R., (1996).Probability Theory and Examples, Duxbury Press, New York.)

3.4. Mınimos

Lema 3.2. Sean T1 y T2 dos variables aleatorias independientes y exponenciales de intensi-dades λ1 y λ2, respectivamente. Vale que

P(T1 < T2) =λ1

λ1 + λ2. (51)

Demostracion. La probabilidad P(T1 < T2) puede calcularse condicionando sobre T1:

P(T1 < T2) =

∫ ∞

0P(T1 < T2|T1 = t)fT1(t)dt =

∫ ∞

0P(t < T2)λ1e

−λ1tdt

= λ1

∫ ∞

0e−λ2te−λ1tdt = λ1

∫ ∞

0e−(λ1+λ2)tdt =

λ1

λ1 + λ2.

22

Page 183: espacios de probabilidad

Teorema 3.3. Sean T1, T2, . . . , Tn variables aleatorias exponenciales independientes de in-tensidades λ1, λ2, . . . , λn, respectivamente. Sean T y J las variables aleatorias definidas por

T := mıni

Ti, J := ındice que realiza T.

Entonces, T tiene distribucion exponencial de intensidad λ1 + · · · + λn y

P(J = j) =λj

λ1 + · · · + λn.

Mas aun, las variables T y J son independientes.

Demostracion. En primer lugar, hay que observar que T > t si y solo si Ti > t paratodo i = 1, . . . , n. Como las variables T1, T2, . . . , Tn son exponenciales independientes deintensidades λ1, λ2, . . . λn tenemos que

P(T > t) =n∏

i=1

P(Ti > t) =n∏

i=1

e−λit = e−(λ1+···+λn)t.

Por lo tanto, T tiene distribucion exponencial de intensidad λ1 + · · · + λn.En segundo lugar hay que observar que J = j si y solo si T = Tj . Por lo tanto,

P(J = j) = P(Tj = mıni

Ti) = P(Tj < mıni6=j

Ti) =λj

λ1 + · · · + λn.

La ultima igualdad se obtiene utilizando el Lema 3.2 pues las variables Tj y mıni6=j Ti sonindependientes y exponenciales con intensidades λj y

i6=j λi, respectivamente.Finalmente, si para cada j definimos Uj = mıni6=j Ti, tenemos que

P(J = j, T ≥ t) = P(t ≤ Tj < Uj)

=

∫ ∞

tP(Tj < Uj |Tj = s)λje

−λjsds

= λj

∫ ∞

tP(Uj > s)e−λjsds = λj

∫ ∞

te−(

P

i6=j λi)se−λjsds

=λj

λ1 + · · · + λn

∫ ∞

t(λ1 + · · · + λn)e−(λ1+···+λn)sds

=λj

λ1 + · · · + λne−(λ1+···+λn)t.

Lo que completa la demostracion.

Ejercicios adicionales

4. Sean T1 y T2 variables aleatorias independientes exponenciales de intensidad 2. SeanT(1) = mın(T1, T2) y T(2) = max(T1, T2). Hallar la esperanza y la varianza de T(1) y de T(2).

23

Page 184: espacios de probabilidad

5. Suma geometrica de exponenciales independientes. Sean T1, T2, . . . variables aleatoriasindependientes identicamente distribuidas con ley exponencial de intensidad λ. Se defineT =

∑Ni=1 Ti, donde N es una variable aleatoria con distribucion geometrica de parametro

p, independiente de las variables T1, T2, . . . . Hallar la distribucion de T . (Sugerencia: Utilizarla formula de probabilidad total condicionando a los posibles valores de N y el desarrollo enserie de Taylor de la funcion exponencial.)

4. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Billingsley, P.: Probability and measure. John Wiley & Sons, New York. (1986)

2. Durrett R.:Probability. Theory and Examples. Duxbury Press, Belmont. (1996)

3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1957)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. JohnWiley & Sons, New York. (1971)

5. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer-sity Press, New York. (2001)

6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008).

7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,Massachusetts. (1972)

8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.Elsevier Academic Press, San Diego. (2004)

9. Soong, T. T.: Fundamentals of Probability and Statistics for Engineers. John Wiley &Sons Ltd. (2004)

24

Page 185: espacios de probabilidad

Procesos de Poisson

(Borradores, Curso 23)

Sebastian Grynberg

22 de abril de 2013

ollin tonatiuh

el tiempo solo es tardanza

de lo que esta por venir

(Martın Fierro)

1

Page 186: espacios de probabilidad

Indice

1. Proceso puntual de Poisson 2

1.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Construccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4. Distribucion condicional de los tiempos de llegada . . . . . . . . . . . . . . . 101.5. Coloracion y adelgazamiento de procesos de Poisson . . . . . . . . . . . . . . 111.6. Superposicion de Procesos de Poisson: competencia . . . . . . . . . . . . . . . 131.7. Procesos de Poisson compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2. Bibliografıa consultada 17

1. Proceso puntual de Poisson

1.1. Procesos puntuales

Informalmente, un proceso puntual aleatorio es un conjunto enumerable de puntos aleato-rios ubicados sobre la recta real. En la mayorıa de las aplicaciones un punto de un procesopuntual es el instante en que ocurre algun evento, motivo por el cual los puntos tambien sellaman eventos o arribos. Por ejemplo, los tiempos de arribo de clientes a la caja de un super-mercado o de los trabajos al procesador central de una computadora son procesos puntuales.En teorıa fiabilidad, un evento podrıa ser el instante en que ocurre una falla. El ejemplo basicode este tipo de procesos es el proceso de Poisson.

Definicion 1.1 (Proceso puntual aleatorio). Un proceso puntual aleatorio sobre la semi-

recta positiva es una sucesion Sn : n ≥ 0 de variables aleatorias no negativas tales que, casi

seguramente,

(a) S0 ≡ 0,

(b) 0 < S1 < S2 < · · · ,

(c) lımn→∞ Sn = +∞.

La condicion (b) significa que no hay arribos simultaneos. La condicion (c) significa queno hay explosiones, esto es, no hay una acumulacion de arribos en tiempos finitos.

La sucesion de variables aleatorias Tn : n ≥ 1 definida por

Tn := Sn − Sn−1 (1)

se llama la sucesion de tiempos de espera entre arribos.Introducimos una familia de nuevas variables aleatorias N(t), t ≥ 0, de la siguiente manera:

para cada t ≥ 0 definimos N(t) como la cantidad de arribos ocurridos durante el intervalo detiempo (0, t],

N(t) :=∑

n≥1

1Sn ≤ t (2)

= maxn ≥ 0 : Sn ≤ t. (3)

2

Page 187: espacios de probabilidad

1

2

3

4

5

t

N(t)

S5S4S3S2S1

T2 T3T1 T4 T5

Figura 1: Realizacion tıpica de un proceso puntual aleatorio sobre la semi-recta positiva.

Observacion 1.2. Notar que N(t) es una funcion de t y de las variables aleatorias T1, T2, . . .a valores enteros no negativos. Indicaremos esa relacion de la siguiente manera

N(t) = Ψ(t; T1, T2, . . . ), (4)

donde Ψ es la relacion definida en (2).

La cantidad de arribos ocurridos durante el intervalo de tiempo (s, t] ⊂ R+, N(s, t], es el

incremento N(t) − N(s)

N(s, t] := N(t) − N(s) =∑

n≥1

1s < Sn ≤ t. (5)

De (3) se obtiene la relacion basica que conecta a las variables N(t) con las Sn:

N(t) ≥ n ⇐⇒ Sn ≤ t. (6)

De allı se desprende que

N(t) = n ⇐⇒ Sn ≤ t < Sn+1. (7)

Proceso de conteo. La familia de variables aleatorias N(t) : t ≥ 0 es un proceso es-tocastico denominado el proceso de conteo de la sucesion de arribos Sn : n ≥ 0. Debido a quela sucesion de arribos se puede reconstruir a partir de N , N tambien recibe la denominacion“proceso puntual”.

Propiedades. Por definicion, el proceso de conteo satisface las siguientes propiedades:(i) Para cada t ≥ 0, la variable aleatoria N(t) tiene valores enteros no negativos.(ii) N(0) = 0 y lımt→∞ N(t) = ∞.

3

Page 188: espacios de probabilidad

(iii) Si s < t, entonces N(s) ≤ N(t).(iv) Como el intervalo (0, t] es cerrado a la derecha, la funcion (aleatoria) N : R

+ → N0

es continua a derecha. Ademas, en los puntos de discontinuidad tiene saltos de longitud 1.En otras palabras, el grafico de la funcion aleatoria N : R

+ → N0 es una escalera nodecreciente, continua a derecha y con saltos de longitud 1 en cada uno de los arribos delproceso puntual.

Programa. En lo que sigue estudiaremos la distribucion conjunta de las N(t) bajo ciertascondiciones sobre los tiempos de espera entre arribos Tn y vice versa.

1.2. Procesos de Poisson

Existen varias definiciones equivalentes de procesos de Poisson. Adoptamos la que nosparece mas sencilla y generalizable. 1

Definicion 1.3 (Proceso de Poisson). Un proceso puntual Sn : n ≥ 0 sobre la semi-recta

positiva es un proceso de Poisson de intensidad λ > 0 si satisface las siguientes condiciones

(i) El proceso tiene incrementos independientes: para cada coleccion finita de tiempos 0 =t0 < t1 < · · · < tn, los incrementos N(ti−1, ti] = N(ti) − N(ti−1), i = 1, . . . , n sonindependientes.

(ii) Los incrementos individuales N(s, t] = N(t) − N(s) tienen la distribucion Poisson:

P(N(s, t] = n) = e−λ(t−s) (λ(t − s))n

n!, n = 0, 1, . . . , 0 ≤ s < t. (8)

Nota Bene. La condicion (ii) de la Definicion 1.3 se puede descomponer en dos partes.(a) Los incrementos son temporalmente homogeneos (i.e., la distribucion de los incrementosdepende solamente de la longitud del intervalo de tiempo pero no de su posicion) y (b) la

distribucion de cada incremento individual es Poisson de media proporcional a la cantidad de

tiempo considerado.Que un proceso puntual sea temporalmente homogeneo y que tenga incrementos independi-

entes significa que si se lo reinicia desde cualquier instante de tiempo t, el proceso ası obtenidoes independiente de todo lo que ocurrio previamente (por tener incrementos independientes)y que tiene la misma distribucion que el proceso original (por ser temporalmente homogeneo).En otras palabras, el proceso no tiene memoria.

Es de suponer que, bajo esas condiciones, los tiempos de espera entre arribos tienenque ser variables aleatorias independientes, cada una con distribucion exponencial del mismoparametro. Esto ultimo es consistente con la condicion sobre la distribucion que tienen losincrementos individuales (8).

1Elegimos la Definicion 1.3 porque tiene la virtud de que se puede extender a Rd sin ninguna dificultad:

un subconjunto aleatorio (numerable) Π de Rd se llama un proceso de Poisson de intensidad λ si, para todo

A ∈ B(Rd), las variables aleatorias N(A) = |Π ∩ A| satisfacen (a) N(A) tiene la distribucion Poisson deparametro λ|A|, y (b) Si A1, A2, . . . , An ∈ B(Rd) son conjuntos disjuntos, entonces N(A1), N(A2), . . . N(An)son variables aleatorias independientes.

4

Page 189: espacios de probabilidad

En efecto, de la relacion basica (6) se deduce que si Sn : n ≥ 0 es un proceso de Poissonde intensidad λ, entonces las variables Sn tienen distribucion Γ(n, λ):

P(Sn > t) = P(N(t) < n) =n−1∑

k=0

P(N(t) = k) =n−1∑

k=0

e−λt (λt)k

k!.

1.3. Construccion

En lo que sigue mostraremos una forma de construir un proceso puntual de Poisson Sn :n ≥ 0 de intensidad λ. Los arribos, Sn, se construyen utilizando una sucesion de variablesaleatorias a valores positivos Tn : n ≥ 1:

S0 := 0, Sn :=n∑

i=1

Ti, n = 1, 2, . . . . (9)

Teorema 1.4. Sea Tn : n ≥ 1 una sucesion de variables aleatorias independientes, cada

una con distribucion exponencial de intensidad λ. El proceso de arribos Sn : n ≥ 0 definido

en (9) es un proceso puntual de Poisson de intensidad λ. (Ver la Definicion 1.3).

Demostracion.

1. Proceso Puntual. Para cada n ≥ 1, P(Tn > 0) = 1 y por la ley fuerte de los grandesnumeros 1

n

∑ni=1 Ti →

casi seguramente. Por lo tanto, Sn : n ≥ 0 es un proceso puntual.

2. Distribuciones Poisson. Para cada n ≥ 1, Sn = T1 + · · ·+ Tn tiene distribucion Γ(n, λ):

FSn(t) = P(Sn ≤ t) =

(

1 − e−λtn−1∑

k=0

(λt)k

k!

)

1t ≥ 0 =

(

e−λt∞∑

k=n

(λt)k

k!

)

1t ≥ 0.

Observando que N(t) = n = N(t) < n + 1 \ N(t) < n y usando la relacion basica,N(t) < n ⇐⇒ Sn > t, se deduce que

P(N(t) = n) = P(N(t) < n + 1) − P(N(t) < n) = P(Sn+1 > t) − P(Sn > t)

= e−λtn∑

k=0

(λt)k

k!− e−λt

n−1∑

k=0

(λt)k

k!= e−λt (λt)n

n!, n = 0, 1, . . . . (10)

Por lo tanto, para cada t > 0 fijo, el incremento N(t) tiene una distribucion Poisson de mediaλt:

N(t) ∼ Poisson(λt).

3. Perdida de memoria. Fijamos t > 0 y consideramos los arribos posteriores al instante t.Por (3) tenemos que SN(t) ≤ t < SN(t)+1. El tiempo de espera desde t hasta el primer arriboposterior a t es SN(t)+1− t; el tiempo de espera entre el primer y el segundo arribo posterioresa t es TN(t)+2; y ası siguiendo. De este modo

T(t)1 := SN(t)+1 − t, T

(t)2 := TN(t)+2, T

(t)3 := TN(t)+3, . . . (11)

5

Page 190: espacios de probabilidad

definen los tiempos de espera entre arribos posteriores a t.Debido a la independencia de las Tk y la propiedad de perdida de memoria de la distribu-

cion exponencial, parece intuitivamente claro que condicionando al evento N(t) = n lasvariables aleatorias (11) son independientes y con distribucion exponencial.

En lo que sigue mostraremos que N(t), T(t)1 , T

(t)2 , . . . son variables aleatorias independi-

entes y que

(T(t)1 , T

(t)2 , . . . ) ∼ (T1, T2, . . . ). (12)

Basta mostrar que para todo n ≥ 0 y para toda eleccion de numeros positivos t1, . . . , tm,m ∈ N, vale que

P(N(t) = n, T(t)1 > t1, . . . , T

(t)m > tm) = P(N(t) = n)e−λt1 · · · e−λtm . (13)

Para probarlo condicionaremos sobre la variable Sn,

P(N(t) = n, T(t)1 > t1) = P(Sn ≤ t < Sn+1, Sn+1 − t > t1)

= P(Sn ≤ t, Tn+1 > t1 + t − Sn)

=

∫ t

0P(Tn+1 > t1 + t − s)fSn

(s)ds

= e−λt1

∫ t

0P(Tn+1 > t − s)fSn

(s)ds

= e−λt1P(Sn ≤ t, Tn+1 > t − Sn)

= P(N(t) = n)e−λt1 .

Para obtener la segunda igualdad hay que observar que Sn+1 > t ∩ Sn+1 − t > t1 =Sn+1 > t1 + t y escribir Sn+1 = Sn + Tn+1; la tercera se obtiene condicionando sobre Sn; lacuarta se obtiene usando la propiedad de perdida de memoria de la exponencial (P(Tn+1 >t1 + t − s) = P(Tn+1 > t1)P(Tn+1 > t − s) = e−λt1P(Tn+1 > t − s)).

Por la independencia de las variables Tn,

P(N(t) = n, T(t)1 > t1, . . . , T

(t)m > tm)

= P(Sn ≤ t < Sn+1, Sn+1 − t > t1, Tn+2 > t2, Tn+m > tm)

= P(Sn ≤ t < Sn+1, Sn+1 − t > t1)e−λt2 · · · e−λtm

= P(N(t) = n)e−λt1 · · · e−λtm .

4. Incrementos estacionarios e independientes. Por (6), N(t + s)−N(t) ≥ m, o N(t +

s) ≥ N(t)+m, si y solo si SN(t)+m ≤ t+ s, que es la misma cosa que T(t)1 + · · ·+T

(t)m ≤ s. Ası

N(t + s) − N(t) = maxm : T(t)1 + · · · + T (t)

m ≤ s. (14)

Comparando (14) y (3) se puede ver que para t fijo las variables aleatorias N(t + s) − N(t)para s ≥ 0 se definen en terminos de la sucesion (11) exactamente de la misma manera enque las N(s) se definen en terminos de la sucesion original de tiempos de espera. En otraspalabras,

N(t + s) − N(t) = Ψ(s; T(t)1 , T

(t)2 , . . . ), (15)

6

Page 191: espacios de probabilidad

donde Ψ es la funcion definida en la Observacion 4. De acuerdo con (12)

N(t + s) − N(t) : s ≥ 0 ∼ N(s) : s ≥ 0. (16)

De (15) y lo visto en 3. se deduce que N(t) y N(t+s)−N(t) : s ≥ 0 son independientes.Sean n ≥ 2 y 0 < t1 < t2 < . . . < tn. Como (N(t2) − N(t1), . . . , N(tn) − N(tn−1)) es una

funcion de N(t1 + s) − N(t1) : s ≥ 0, tenemos que

N(t1) y (N(t2) − N(t1), . . . , N(tn) − N(tn−1))

son independientes. Esto es,

P(N(t1) = m1, N(t2) − N(t1) = m2, . . . , N(tn) − N(tn−1) = mn)

= P(N(t1) = m1)P(N(t2) − N(t1) = m2, . . . , N(tn) − N(tn−1) = mn)

En particular, se obtiene la la independencia de los incrementos para el caso en que n = 2:

P(N(t1) = m1, N(t2) − N(t1) = m2) = P(N(t1) = m1)P(N(t2) − N(t1) = m2).

Usando (16) se concluye que

(N(t2) − N(t1), N(t3) − N(t2), . . . , N(tn) − N(tn−1))

∼ (N(t2 − t1), N(t3 − t1) − N(t2 − t1), . . . , N(tn − t1) − N(tn−1 − t1)). (17)

El caso general se obtiene por iteracion del mismo argumento, aplicado al lado derecho de(17):

P(N(t2) − N(t1) = m2, N(tk) − N(tk−1) = mk, 3 ≤ k ≤ n)

= P(N(t2 − t1) = m2, N(tk − t1) − N(tk−1 − t1) = mk, 3 ≤ k ≤ n)

= P(N(t2 − t1) = m2)P(N(tk − t1) − N(tk−1 − t1) = mk, 3 ≤ k ≤ n)

= P(N(t2) − N(t1) = m2)P(N(tk) − N(tk−1) = mk, 3 ≤ k ≤ n)

= · · ·

=n∏

k=2

P(N(tk) − N(tk−1) = mk).

Por lo tanto, si 0 = t0 < t1 < · · · < tn, entonces

P(N(tk) − N(tk−1) = mk, 1 ≤ k ≤ n) =n∏

k=1

P(N(tk − tk−1) = mk). (18)

De (18) y (10) se obtienen las dos condiciones que definen a un proceso de Poisson.

En lo que sigue mostraremos que vale la recıproca. Esto es, los tiempos de espera entrearribos de un proceso de Poisson de intensidad λ son variables aleatorias independientes cadauna con distribucion exponencial de intensidad λ.

Teorema 1.5. Sea Sn : n ≥ 0 un proceso puntual de Poisson de intensidad λ sobre la semi-

recta positiva. Los tiempos de espera entre arribos Tn, n ≥ 1, definidos en (1), constituyen

una sucesion de variables aleatorias independientes cada una con distribucion exponencial de

intensidad λ.

7

Page 192: espacios de probabilidad

Demostracion. La densidad conjunta de T = (T1, T2 . . . , Tn) se obtendra a partir de ladensidad conjunta de las variables S = (S1, S2, . . . , Sn) usando el metodo del Jacobiano. Pordefinicion,

(T1, T2, . . . , Tn) = g(S1, S2, . . . , Sn),

donde g : G0 → G es la transformacion lineal biyectiva entre los conjuntos abiertos G0 =(s1, . . . , sn) ∈ R

n : 0 < s1 < s2 < · · · < sn y G = (t1, . . . , tn) : t1 > 0, . . . , tn > 0 definidapor

g(s1, s2, . . . , sn) = (s1, s2 − s1, . . . , sn − sn−1).

La funcion inversa h = g−1 es de la forma

h(t1, . . . , tn) = (t1, t1 + t2, . . . , t1 + · · · + tn)

y sus derivadas parciales

∂si

∂tj=

∂∑i

k=1 tk∂tj

= 1j ≤ i, 1 ≤ i, j ≤ n

son continuas en G. El jacobiano es

J(s, t) =

(

∂si

∂tj

)∣

= 1

debido a que se trata de una matriz triangular inferior con 1’s en la diagonal. Bajo esascondiciones tenemos que

fT(t) = fS(h(t))1t ∈ G.

La densidad conjunta de las variables (S1, . . . , S2) queda unıvocamente determinada por larelacion

P(S ∈ A) =

A

fS(s)ds, A = (a1, b1] × · · · (an, bn] ⊂ G0.

Supongamos que 0 = b0 ≤ a1 < b1 < a2 < b2 < · · · < an < bn y calculemos la probabilidaddel evento

⋂ni=1ai < Si ≤ bi. Para ello observamos que

⋂ni=1ai < Si ≤ bi =

⋂n−1i=1 N(ai)−

N(bi−1) = 0, N(bi)−N(ai) = 1 ∩ N(an)−N(bn−1) = 0, N(bn)−N(an) ≥ 1 y usamos laspropiedades de independencia y homogeneidad temporal que caracterizan a los incrementosde un proceso de Poisson de intensidad λ:

P

(

n⋂

i=1

ai < Si ≤ bi

)

=

(

n−1∏

i=1

e−λ(ai−bi−1)λ(bi − ai)e−λ(bi−ai)

)

e−λ(an−bn−1)(1 − e−λ(bn−an))

=

(

n−1∏

i=1

λ(bi − ai)

)

e−λan(1 − e−λ(bn−an))

=

(

n−1∏

i=1

λ(bi − ai)

)

(e−λan − e−λbn)

=

∫ b1

a1

λds1 · · ·

∫ bn−1

an−1

λdsn−1

∫ bn

an

λe−λsndsn

=

∫ b1

a1

· · ·

∫ bn−1

an−1

∫ bn

an

λne−λsnds1 · · · dsn−1dsn (19)

8

Page 193: espacios de probabilidad

De (19) se deduce que la densidad conjunta de (S1, . . . , Sn) es

f(S1,...,Sn)(s1, . . . , sn) = λne−λsn10 < s1 < · · · < sn.

Por lo tanto,

f(T1,...,Tn)(t1, . . . , tn) = λne−λPn

i=1ti1t1 > 0, . . . , tn > 0

=n∏

i=1

λe−λti1ti > 0. (20)

La identidad (20) significa que los tiempos de espera entre arribos son independientes cadauno con distribucion exponencial de intensidad λ.

Ejemplo 1.6. Suponga que el flujo de inmigracion de personas hacia un territorio es unproceso de Poisson de tasa λ = 1 por dıa.

(a) ¿Cual es el tiempo esperado hasta que se produce el arribo del decimo inmigrante?

(b) ¿Cual es la probabilidad de que el tiempo de espera entre el decimo y el undecimo arribosupere los dos dıas?

Solucion:

(a) E[S10] = 10λ

= 10 dıas.

(b) P(T11 > 2) = e−2λ = e−2 ≈ 0.133.

Ejercicios adicionales

1. En un sistema electronico se producen fallas de acuerdo con un proceso de Poisson de tasa2.5 por mes. Por motivos de seguridad se ha decidido cambiarlo cuando ocurran 196 fallas.Hallar la media y la varianza del tiempo de uso del sistema.

2. Sean T una variable aleatoria con distribucion exponencial de media 2 y N(t), t ≥ 0 unproceso de Poisson de tasa 10 (independiente de T ). Hallar Cov(T, N(T )).

3.h Sea A(t) = t − SN(t) el tiempo reverso al evento mas reciente en un proceso de

Poisson y sea B(t) = SN(t)+1 − t el tiempo directo hasta el proximo evento. Mostrar que

(a) A(t) y B(t) son independientes,

(b) B(t) se distribuye como T1 (exponencial de intensidad λ) ,

(c) A(t) se distribuye como mın(T1, t):

P(A(t) ≤ x) = (1 − e−λx)10 ≤ x < t + 1x ≥ t.

9

Page 194: espacios de probabilidad

4.h Sea L(t) = A(t) + B(t) = SN(t)+1 − SN(t) la longitud del intervalo de tiempo entre

arribos que contiene a t.

(a) Mostrar que L(t) tiene densidad

dt(x) = λ2xe−λx10 < x < t + λ(1 + λt)e−λx1x ≥ t.

(b) Mostrar que E[L(t)] converge a 2E[T1] cuando t → ∞. Esto parece una paradoja debidoa que L(t) es uno de los Tn. Dar una resolucion intuitiva de esta paradoja.

1.4. Distribucion condicional de los tiempos de llegada

Supongamos que sabemos que ocurrio exactamente un arribo de un proceso de Poissonen el intervalo [0, t]. Queremos determinar la distribucion del tiempo en que el arribo ocurrio.Como el proceso de Poisson es temporalmente homogeneo y tiene incrementos independienteses razonable pensar que los intervalos de igual longitud contenidos en el intervalo [0, t] debentener la misma probabilidad de contener al arribo. En otras palabras, el tiempo en que ocur-rio el arribo debe estar distribuido uniformemente sobre el intervalo [0, t]. Esto es facil deverificar puesto que, para s ≤ t,

P(T1 < s|N(t) = 1) =P(T1 < s, N(t) = 1)

P(N(t) = 1)

=P(1 arribo en (0, s], 0 arribos en (s, t])

P(N(t) = 1)

=P(1 arribo en (0, s])P(0 arribos en (s, t])

P(N(t) = 1)

=λse−λse−λ(t−s)

λte−λt

=s

t

Este resultado puede generalizarse

Teorema 1.7 (Propiedad condicional). Sea Π un proceso de Poisson de intensidad λ sobre

R+. Condicional al evento N(t) = n, los n arribos ocurridos en el intervalo [0, t] tienen la mis-

ma distribucion conjunta que la de n puntos independientes elegidos al azar sobre el intervalo

[0, t]. En otras palabras, condicional a N(t) = n los puntos en cuestion se distribuyen como

n variables aleatorias independientes, cada una con distribucion uniforme sobre el intervalo

[0, t].

Demostracion. Sea A1, A2, . . . , Ak una particion del intervalo [0, t]. Si n1+n2+· · ·+nk = n,entonces

P(N(Ai) = ni, 1 ≤ i ≤ k|N(t) = n) =

i P(N(Ai) = ni)

P(N(t) = n)

=

i e−λ|Ai|(λ|Ai|)

ni/ni!

e−λt(λt)n/n!

=n!

n1!n2! · · ·nk!

i

(

|Ai|

t

)ni

. (21)

10

Page 195: espacios de probabilidad

Por una parte la distribucion condicional de las posiciones de los n arribos queda completa-mente caracterizada por esta funcion de A1, . . . , Ak.

Por otra parte la distribucion multinomial (21) es la distribucion conjunta de n puntosindependientes elegidos al azar de acuerdo con la distribucion uniforme sobre el intervalo [0, t].

En efecto, basta observar que si U1, . . . , Un son variables aleatorias independientes condistribucion uniforme sobre un conjunto A, y M(B) =

i 1Ui ∈ B, entonces

P(M(Bi) = ni, i = 1, . . . , k) =n!

n1! · · ·nk!

k∏

i=1

(

|Bi|

|Ai|

)ni

.

Se infiere que la distribucion conjunta de los puntos en Π ∩ [0, t] condicional a que hayexactamente n de ellos, es la misma que la de n puntos independientes elegidos al azar conla distribucion uniforme sobre el intervalo [0, t].

Nota Bene. La propiedad condicional permite probar la existencia de procesos de Poissonmediante simulacion. Sea λ > 0 y sea A1, A2, . . . una particion de R

d en conjuntos borelianosde medida de Lebesgue finita. Para cada i, simulamos una variable aleatoria Ni con distribu-cion Poisson de parametro λ|Ai|. Luego muestreamos n puntos elegidos independientementesobre Ai, cada uno con distribucion uniforme sobre Ai. La union sobre i de tales conjuntos depuntos es un proceso de Poisson de intensidad λ. (Para mas detalles ver el Chap 7 de Ferrari,Galves (2001))

Ejemplo 1.8 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de un asadoa la manera de un proceso de Poisson de tasa 3 por minuto. Si entre las 13:30 y las 13:35aterrizaron 8 insectos, cual es la probabilidad de que exactamente 3 de ellos hayan aterrizadodurante el primer minuto?

Solucion: Dado que aterrizaron 8 insectos durante 5 minutos, la distribucion de cada ater-rizaje se distribuye, independientemente de los demas, como una variable uniforme sobre elintervalo [0, 5]. En consecuencia, la probabilidad de que cada insecto hubiese aterrizado du-rante el primer minuto es 1/5. Por lo tanto, la probabilidad de que exactamente 3 insectoshayan aterrizado durante el primer minuto es

(

8

3

)(

1

5

)3(4

5

)5

= 5645

58= 0.1468 . . .

1.5. Coloracion y adelgazamiento de procesos de Poisson

Teorema 1.9 (Coloracion). Sea Π un proceso de Poisson de intensidad λ sobre R+. Col-

oreamos los puntos de Π de la siguiente manera. Cada punto de Π se pinta de rojo con

probabilidad p o de negro con probabilidad 1 − p. Los puntos se pintan independientemente

unos de otros. Sean Π1 y Π2 los conjuntos de puntos pintado de rojo y de negro, respec-

tivamente. Entonces Π1 y Π2 son procesos de Poisson independientes de intensidades pλ y

(1 − p)λ, respectivamente.

11

Page 196: espacios de probabilidad

Demostracion. Sea t > 0 fijo. Por la propiedad condicional, si N(t) = n, esos puntos tienenla misma distribucion que n puntos independientes elegidos al azar sobre el intervalo [0, t] deacuerdo con la distribucion uniforme. Por tanto, podemos considerar n puntos elegidos al azarde esa manera. Por la independencia de los puntos, sus colores son independientes unos de losotros. Como la probabilidad de que un punto dado sea pintado de rojo es p y la probabilidadde sea pintado de negro es 1 − p se deduce que, condicional a N(t) = n, las cantidades N1(t)y N2(t) de puntos rojos y negros en [0, t] tienen, conjuntamente, la distribucion binomial

P(N1(t) = n1, N2(t) = n2|N(t) = n) =n!

n1!n2!pn1(1 − p)n2 , donde n1 + n2 = n.

Por lo tanto, la probabilidad incondicional es

P(N1(t) = n1, N2(t) = n2) =

(

(n1 + n2)!

n1!n2!pn1(1 − p)n2

)(

e−λt (λt)n1+n2

(n1 + n2)!

)

=

(

e−pλt (pλt)n1

n1!

)

(

e−(1−p)λt((1 − p)λt)n2

n2!

)

.

Vale decir, las cantidades N1(t) y N2(t) de puntos rojos y negros en el intervalo [0, t] son inde-pendientes y tienen distribuciones Poisson de intensidades pλt y (1 − p)λt, respectivamente.

La independencia de las contadoras de puntos en intervalos disjuntas sigue trivialmentedel hecho de que Π tiene esa propiedad.

Otra prueba. Sean N1(t) y N2(t) la cantidad de arribos de tipo I y de tipo II que ocurrenen [0, t], respectivamente. Es claro que N(t) = N1(t) + N2(t).

Los arribos de tipo I (II) son un proceso puntual aleatorio debido a que son una subsucesion(aleatoria) infinita de los arribos del proceso original y heredan su propiedad de independenciapara intervalos disjuntos.

La prueba de que N1(t), t ≥ 0 y que N2(t), t ≥ 0 son procesos de Poisson independi-entes de intensidades pλ y (1 − p)λ, respectivamente, se completa observando que

P(N1(t) = n, N2(t) = m) = P(N1(t) = n)P(N2(t) = m).

Condicionando a los valores de N(t) y usando probabilidades totales se obtiene

P(N1(t) = n, N2(t) = m) =∞∑

i=0

P(N1(t) = n, N2(t) = m |N(t) = i)P(N(t) = i)

Puesto que P(N1(t) = n, N2(t) = m |N(t) = i) = 0 cuando i 6= n + m, la ecuacion anteriorse reduce a

P(N1(t) = n, N2(t) = m) = P(N1(t) = n, N2(t) = m |N(t) = n + m)P(N(t) = n + m)

= P(N1(t) = n, N2(t) = m |N(t) = n + m)e−λt (λt)n+m

(n + m)!.

Dado que ocurrieron n+m arribos, la probabilidad de que n sean de tipo I (y m sean de tipo

12

Page 197: espacios de probabilidad

II) es la probabilidad binomial de que ocurran n exitos en n + m ensayos. Por lo tanto,

P(N1(t) = n, N2(t) = m) =

(

n + m

n

)

pn(1 − p)me−λt (λt)n+m

(n + m)!

=(n + m)!

n! m!pn(1 − p)me−λpte−λ(1−p)t (λt)n(λt)m

(n + m)!

=

(

e−λpt (λpt)n

n!

)(

e−λ(1−p)t (λ(1 − p)t)m

m!

)

.

Lo que completa la demostracion.

Ejemplo 1.10 (Insectos en un asado). Todo tipo de insectos aterrizan en la mesa de unasado a la manera de un proceso de Poisson de tasa 3 por minuto y cada insecto puede seruna mosca con probabilidad 2/3, independientemente de la naturaleza de los demas insectos.Si a las 13:30 se sirven los chorizos, cual es la probabilidad de que la tercer mosca tarde masde 2 minutos en aterrizar en la mesa?

Solucion: Las moscas aterrizan en la mesa a la manera de un proceso de Poisson de tasa233 = 2 por minuto. En consecuencia, los aterrizajes de moscas ocurren cada tiempos exponen-ciales independientes de intensidad 2. De aquı se deduce que el tiempo que tarda en aterrizarla tercer mosca, S3 tiene distribucion Γ(3, 2). Por lo tanto, la probabilidad de que la tercermosca tarde mas de 2 minutos en aterrizar en la mesa es

P(S3 > 2) = e−2·23−1∑

i=0

(2 · 2)i

i!= e−4 (1 + 4 + 8) = 0.2381 . . .

Ejercicios adicionales

5. A un banco llegan clientes de acuerdo con un proceso de Poisson de intensidad 20 porhora. En forma independiente de los demas, cada cliente realiza un deposito con probabilidad1/4 o una extraccion con probabilidad 3/4.

(a) Si el banco abre sus puertas a las 10:00, cual es la probabilidad de que el segundo depositose efectue pasadas las 10:30?

(b) Cada deposito (en pesos) se distribuye como una variable U[100, 900] y cada extraccioncomo una variable U[100, 500]. Si un cliente realiza una operacion bancaria de 200 pesos, cuales la probabilidad de que se trate de un deposito?

1.6. Superposicion de Procesos de Poisson: competencia

El siguiente teorema de superposicion puede verse como complementario del teorema decoloracion.

Teorema 1.11 (Superposicion). Sean Π1 y Π2 dos procesos de Poisson independientes de

intensidades λ1 y λ2, respectivamente, sobre R+. El conjunto Π = Π1 ∪ Π2 es un proceso de

Poisson de intensidad λ1 + λ2.

13

Page 198: espacios de probabilidad

Demostracion. Sean N1(t) = |Π1 ∩ [0, t]| y N2(t) = |Π2 ∩ [0, t]|. Entonces N1(t) y N2(t)son variables aleatorias independientes con distribucion Poisson de parametros λ1t y λ2t.Se infiere que la suma N(t) = N1(t) + N2(t) tiene la distribucion de Poisson de parametroλ1t+λ2t = (λ1 +λ2)t. Mas aun, si A1, A2, . . . , son intervalos disjuntos las variables aleatoriasN(A1), N(A2), . . . son independientes. Falta mostrar que, casi seguramente, N(t) = |Π∩ [0, t]|para todo t > 0, que es lo mismo que decir que Π1 y P12 no tienen puntos en comun. Este esun paso tecnico (ver el Lema 1.12) y la prueba puede omitirse en una primera lectura.

Lema 1.12. Dos procesos de Poisson Π1 = S1n : n ≥ 0 y Π2 = S2

n : n ≥ 0 independientes

y de tasas λ1 y λ2, respectivamente, no tienen puntos en comun.

Demostracion. Basta probar que P(D(t)) = 0 para todo t, donde D(t) es el evento definidopor

D(t) := existen puntos en comun en el intervalo (0, t]

Para simplificar la notacion lo demostraremos para D = D(1).Sean N1(t), t ≥ 0 y N2(t), t ≥ 0 los procesos de conteo de los procesos de Poisson

S1n : n ≥ 0 y S2

n : n ≥ 0. El evento

Dn :=

N1

(

i

2n,i + 1

2n

]

+ N2

(

i

2n,i + 1

2n

]

≥ 2 para algun i ∈ [0, 2n − 1]

decrece a D cuando n tiende a infinito, y por lo tanto, por la continuidad de la probabilidadpara sucesiones monotonas de eventos,

P(D) = lımn→∞

P(Dn) = 1 − lımn→∞

P(Dcn).

Pero

P(Dcn) = P

(

2n−1⋂

i=1

N1

(

i

2n,i + 1

2n

]

+ N2

(

i

2n,i + 1

2n

]

≤ 1

)

=2n−1∏

i=1

P

(

N1

(

i

2n,i + 1

2n

]

+ N2

(

i

2n,i + 1

2n

]

≤ 1

)

.

Debido a que los procesos son temporalmente homogeneos, para cada i vale que

P

(

N1

(

i

2n,i + 1

2n

]

+ N2

(

i

2n,i + 1

2n

]

≤ 1

)

= P(

N1

(

2−n)

+ N2

(

2−n)

≤ 1)

Y el problema se reduce a calcular P (N1 (2−n) + N2 (2−n) ≤ 1). La ultima probabilidad puedeexpresarse como la suma de los siguientes terminos

P(

N1

(

2−n)

= 0, N2

(

2−n)

= 0)

= e−λ12−n

e−λ22−n

,

P(

N1

(

2−n)

= 0, N2

(

2−n)

= 1)

= e−λ12−n

e−λ22−n

λ22−n,

P(

N1

(

2−n)

= 1, N2

(

2−n)

= 0)

= e−λ12−n

λ12−ne−λ22−n

.

En consecuencia,

P(

N1

(

2−n)

+ N2

(

2−n)

≤ 1)

= e−(λ1+λ2)2−n (

1 + (λ1 + λ2)2−n)

. (22)

14

Page 199: espacios de probabilidad

Por lo tanto,

P(Dcn) = e−(λ1+λ2)

(

1 + (λ1 + λ2)2−n)2n

. (23)

La ultima cantidad tiende a 1 cuando n → ∞, y se concluye que P(D) = 0.

Teorema 1.13 (Competencia). En la situacion del Teorema 1.11, sea T el primer arribo del

proceso N = N1 + N2 y J el ındice del proceso de Poisson responsable por dicho arribo; en

particular T es el primer arribo de NJ . Entonces

P(J = j, T ≥ t) = P(J = j)P(T ≥ t) =λj

λ1 + λ2e−(λ1+λ2)t.

En particular, J y T son independientes, P(J = j) =λj

λ1+λ2y T tiene distribucion exponencial

de intensidad λ1 + λ2.

Demostracion. Ver la demostracion del Teorema que caracteriza la distribucion del mınimode dos exponenciales independientes.

Ejemplo 1.14 (Insectos en un asado). Moscas y abejas aterrizan en la mesa de un asado a lamanera de dos procesos de Poisson independientes de tasas 2 y 1 por minuto, respectivamente.Cual es la probabilidad de que el primer insecto en aterrizar en la mesa sea una mosca? Rta.2/3.

1.7. Procesos de Poisson compuestos

Un proceso estocastico se dice un proceso de Poisson compuesto si puede representarsecomo

X(t) =

N(t)∑

i=1

Yi

donde N(t), t ≥ 0 es un proceso de Poisson, y las variables Yi, i ≥ 1 son iid e independi-entes de N .

Lema 1.15. Sea X(t) un proceso de Poisson compuesto. Si N(t), t ≥ 0 tiene intensidad λy las variables Y tienen esperanza finita, entonces

E[X(t)] = λtE[Y1].

Mas aun, si las variables Y tienen varianza finita, entonces,

V(X(t)) = λtE[Y 21 ].

Demostracion. Para calcular la esperanza de X(t) condicionamos sobre N(t):

E [X(t)] = E [E [X(t) |N(t)]]

15

Page 200: espacios de probabilidad

Ahora bien,

E [X(t) |N(t) = n] = E

N(t)∑

i=1

Yi |N(t) = n

= E

[

n∑

i=1

Yi |N(t) = n

]

= E

[

n∑

i=1

Yi

]

por la independencia de Yi y N(t)

= nE[Y1].

Esto implica que

E [X(t) |N(t)] = N(t)E[Y1]

y por lo tanto,

E [X(t)] = E [N(t)E[Y1]] = E[N(t)]E[Y1] = λtE[Y1].

Aunque podemos obtener E[X(t)2] condicionando sobre N(t), usaremos la formula de lavarianza condicional

V(X(t)) = E[V(X(t)|N(t))] + V(E[X(t)|N(t)]).

Ahora bien,

V [X(t) |N(t) = n] = V

N(t)∑

i=1

Yi |N(t) = n

= V

(

n∑

i=1

Yi |N(t) = n

)

= V

(

n∑

i=1

Yi

)

por la independencia de Yi y N(t)

= nV[Y1].

Esto implica que

V (X(t) |N(t)) = N(t)V(Y1)

y por lo tanto,

V (X(t)) = E [N(t)V(Y1)] + V(N(t)E[Y1])

= V(Y1)E[N(t)] + E[Y1]2V(N(t))

= V(Y1)λt + E[Y1]2λt

= λtE[Y 21 ].

16

Page 201: espacios de probabilidad

Ejemplo 1.16. Supongamos que la cantidad de accidentes en una fabrica industrial se rige porun proceso de Poisson de intensidad 4 por mes y que la cantidad de trabajadores damnificadosen cada accidente son variables aleatorias independientes con distribucion uniforme sobre1, 2, 3. Supongamos tambien que la cantidad de trabajadores damnificados en cada accidentees independiente de la cantidad de accidentes ocurridos. Se quiere hallar la media y la varianzade la cantidad anual de trabajadores damnificados en dicha fabrica.

Solucion: Sean N(t) la cantidad de accidentes en t meses e Yi el numero de trabajadoresdamnificados en el i-esimo accidente, i = 1, 2, . . . . El numero total de trabajadores damnifi-

cados en un ano puede expresarse en la forma X(12) =∑N(12)

i=1 Yi.Utilizando los resultados del Lema 1.15 tenemos que

E[X(12)] = (4 · 12)E[Y1] = 48E[Y1] = 48 · 2 = 96

V(X(12)) = (4 · 12)E[Y 21 ] = 48 ·

14

3= 224.

Ejercicios adicionales

6. Una partıcula suspendida en agua es bombardeada por moleculas en movimiento termicode acuerdo con un proceso de Poisson de intensidad 10 impactos por segundo. Cuando recibeun impacto la partıcula se mueve un milımetro hacia la derecha con probabilidad 3/4 o unmilımetro hacia la izquierda con probabilidad 1/4. Transcurrido un minuto, cual es la posicionmedia de la partıcula?

7. Un servidor recibe clientes de acuerdo con un proceso de Poisson de intensidad 4 clientespor hora. El tiempo de trabajo (en minutos) consumido en cada servicio es una variablealeatoria U[1, 9]. Al cabo de 8 horas, cual es el tiempo medio de trabajo consumido por todoslos servicios?

2. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bremaud, P.: Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues.Springer, New York. (1999)

2. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. JohnWiley & Sons, New York. (1971)

3. Ferrari, P. A., Galves, A.: Construction of Stochastic Procecesses, Coupling and Regen-eration. (2001)

4. Grimmett, G. R., Stirzaker, D. R.: Probability and Random Processes. Oxford Univer-sity Press, New York. (2001)

17

Page 202: espacios de probabilidad

5. Kingman, J. F. K.: Poisson Processes. Oxford University Press. New York. (2002)

6. Meester, R.: A Natural Introduction to Probability Theory. Birkhauser, Berlin. (2008)

7. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

18

Page 203: espacios de probabilidad

Normalidad y Teorema central del lımite

(Borradores, Curso 23)

Sebastian Grynberg

24 de abril de 2013

¿donde es mas util aplicar la fuerza de la propia voluntad:en el desarrollo de la cantidad o en el de la calidad?

¿Cual de los dos aspectos es mas fiscalizable?¿Cual mas facilmente mensurable?

¿Sobre cual se pueden hacer previsiones, construir planes de trabajo?

1

Page 204: espacios de probabilidad

Indice

1. La distribucion normal 2

1.1. Presentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Cuentas con normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4. Suma de normales independientes . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Genesis de la distribucion normal 8

2.1. Teorema lımite de De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . 8

3. Teorema central del lımite 14

3.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4. Distribuciones relacionadas con la Normal 19

4.1. χ2 (chi-cuadrado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.2. t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.3. F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5. Bibliografıa consultada 23

1. La distribucion normal

1.1. Presentacion

Definicion 1.1. La funcion definida por

ϕ(x) =1√2π

e−x2/2 (1)

se llama la funcion densidad normal; su integral

Φ(x) =1√2π

∫ x

−∞e−t2/2dt (2)

es la funcion distribucion normal.

Folclore. Se sabe que la funcion e−x2

no admite una primitiva que pueda expresarse medi-ante un numero finito de funciones elementales: xν , sen(x), cos(x), ax, etc.... (Ver Piskunov,N., (1983). calculo diferencial e integral, tomo I, Mir, Moscu). Sin embargo, usando tecnicasde cambio de variables bidimensionales se puede demostrar que

∫∞−∞ ϕ(x)dx = 1.

La funcion Φ(x) crece desde 0 hasta 1. Su grafico es una curva con forma de S con

Φ(−x) = 1 − Φ(x). (3)

2

Page 205: espacios de probabilidad

−4 −3 −2 −1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

(a)

−4 −3 −2 −1 0 1 2 3 40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(b)

Figura 1: (a) La funcion densidad normal ϕ(x) := 1√2π

e−x2/2; (b) La funcion distribucion

normal Φ(x) = 1√2π

∫ x−∞ e−t2/2dt

Tablas. La tabla de valores de la funcion distribucion normal se puede consultar en lamayorıa de los libros sobre probabilidad y/o estadıstica. En general se tabulan los valoresde Φ(x) para x = d0 + d1

10 + d2

100 , donde d0 ∈ 0, 1, 2, 3 y d1, d2 ∈ 0, 1, 2, . . . , 9. Las filasde la tabla estan indexadas por los numeros d0. d1 y sus columnas por los numeros 0.0d2:en la posicion (d0. d1, 0.0d2) de la tabla se encuentra el valor Φ(d0. d1 d2). Por ejemplo, sise consulta la tabla del libro de Feller, W. (1968). An Introduction to Probability Theoryand its Applications, en fila 1.2 y columna de 0.08 puede leerse 0.8997, lo que significa queΦ(1.28) = 0.8997.

En el Cuadro 1.1 reproducimos algunos de los valores de la tabla del Feller:

Lema 1.2. Para cada x > 0 valen las siguientes desigualdades:

ϕ(x)

(

1

x− 1

x3

)

< 1 − Φ(x) < ϕ(x)

(

1

x

)

. (4)

3

Page 206: espacios de probabilidad

x 1.28 1.64 1.96 2.33 2.58 3.09 3.29

Φ(x) 0.8997 0.9495 0.975 0.9901 0.9951 0.9990 0.9995

Cuadro 1: En la tabla se muestran algunos valores de Φ(x) := 1√2π

∫ x−∞ e−t2/2dt.

Demostracion. Usando que ddxϕ(x) = −xϕ(x) es facil ver que las derivadas de los miembros

de las desigualdades (4) satisfacen:

d

dx

[

ϕ(x)

(

1

x− 1

x3

)]

= −ϕ(x)

(

1 − 3

x4

)

.

d

dx[1 − Φ(x)] = −ϕ(x).

d

dx

[

ϕ(x)

(

1

x

)]

= −ϕ(x)

(

1 +1

x2

)

.

Por lo tanto,

d

dx

[

−ϕ(x)

(

1

x− 1

x3

)]

<d

dx[Φ(x) − 1] <

d

dx

[

−ϕ(x)

(

1

x

)]

(5)

Las desigualdades (4) se obtienen integrando desde x hasta ∞.

Nota Bene. De las desigualdades (4) se infiere un metodo de calculo para aproximar losvalores de 1 − Φ(x): promediando los valores de los extremos de las desigualdades se obtieneuna aproximacion cuyo error absoluto es menor que la semi-diferencia entre ambos:

1 − Φ(x) − ϕ(x)

(

1

x− 1

2x3

)∣

≤ ϕ(x)

2x3. (6)

De la desigualdad (6) se puede ver que la aproximacion

Φ(x) ≈ 1 − ϕ(x)

(

1

x− 1

2x3

)

(7)

es practicamente inutil para valores “pequenos” de x (i.e., x ∈ (0, 1]) pero va mejorando amedida que los valores de x “crecen”. Usando la aproximacion dada en (7) se obtienen lassiguientes aproximaciones

x 1.28 1.64 1.96 2.33 2.58 3.09 3.29

Φ(x) 0.90454 0.94839 0.97406 0.98970 0.99487 0.99896 0.99948|error| ≤ 0.04192 0.01178 0.00388 0.00104 0.00041 0.00005 0.00002

Cuadro 2: Algunos valores de Φ(x) obtenidos mediante la estimacion (7).

Nota historica La distribucion normal fue descubierta por De Moivre en 1733 como re-sultado de analizar la forma lımite de la distribucion binomial simetrica y redescubiertanuevamente por Gauss (1809) y Laplace (1812) quienes la estudiaron en relacion con sus tra-bajos sobre la teorıa de los errores de observacion. Laplace dio, ademas, el primer enunciado(incompleto) del teorema central del lımite. (Ver Cramer, H., (1970). Metodos matematicosde estadıstica, Aguilar, Madrid.)

4

Page 207: espacios de probabilidad

1.2. Cuentas con normales

Sean µ ∈ R y σ > 0 arbitrarios, pero fijos. Se dice que la variable aleatoria X tienedistribucion normal de parametros µ y σ2 y se denota X ∼ N (µ, σ2) si la funcion densidadde X es de la forma

ϕµ,σ2(x) =1

σ√

2πexp

(

−(x − µ)2

2σ2

)

. (8)

Nota Bene. Un hecho importante sobre las variables aleatorias normales es que si X tienedistribucion normal N (µ, σ2), entonces

Z =X − µ

σ(9)

tiene distribucion normal N (0, 1). En efecto,

P(Z ≤ z) = P((X − µ)/σ ≤ z) = P(X ≤ zσ + µ)

=1

σ√

∫ zσ+µ

−∞exp

(

−(x − µ)2

2σ2

)

dx

=1√2π

∫ z

−∞e−

1

2t2dt por sustitucion x = tσ + µ.

Este hecho significa que si trasladamos el origen de las abscisas en µ y cambiamos la escalade manera tal que σ represente la unidad de medida, la distribucion normal N (µ, σ2) setransforma en la distribucion normal N (0, 1). Su importancia practica radica en que permitereducir el calculo de probabilidades de las distribuciones normales N (µ, σ2) al de la distribu-cion normal N (0, 1). Motivo por el cual esta ultima recibe el nombre de normal estandar (otıpica). Mas precisamente, si X tiene distribucion normal N (µ, σ2), su funcion de distribu-cion podra reducirse a la funcion de distribucion normal Φ(·) definida en (2) de la siguientemanera:

P(X ≤ x) = P

(

X − µ

σ≤ x − µ

σ

)

= P

(

Z ≤ x − µ

σ

)

= Φ

(

x − µ

σ

)

. (10)

La identidad (10) resume toda la informacion probabilısticamente relevante sobre la variablealeatoria X ∼ N (µ, σ2) y permite calcular (con ayuda de la tabla de la funcion de distribucionnormal Φ(·)) la probabilidad de que la variable X se encuentre en cualquier intervalo prefijadode antemano:

P(a < X < b) = Φ

(

b − µ

σ

)

− Φ

(

a − µ

σ

)

. (11)

En particular, cuando el intervalo (a, b) es simetrico con respecto a µ, las cantidades a y b sepueden expresar en la forma a = µ − ǫ, b = µ + ǫ, donde ǫ > 0, y la formula (11) adopta laforma

P (|X − µ| < ǫ) = Φ( ǫ

σ

)

− Φ(

− ǫ

σ

)

= 2Φ( ǫ

σ

)

− 1. (12)

5

Page 208: espacios de probabilidad

Significado de los parametros µ y σ2. La relacion (9) dice que si X es una variablealeatoria con distribucion normal de parametros µ y σ2, entonces X = σZ + µ donde Z esuna variable con distribucion normal estandar. Calculos de rutina muestran que E[Z] = 0y V(Z) = 1, lo que permite deducir que la media y la varianza de la N (µ, σ2) son µ y σ2,respectivamente.

1.3. Ejemplos

Ejemplo 1.3. Una maquina produce ejes cuyos diametros X tienen distribucion normal demedia µ = 10 mm y varianza σ2 = 0.25 mm. Un eje se considera defectuoso si X < 9.5 mm.Cual es la probabilidad de que un eje elegido al azar resulte defectuoso?

Solucion: El problema se resuelve calculando P(X < 9.5). Poniendo µ = 10 y σ = 0.5 enla formula (10) obtenemos P(X < 9.5) = Φ

(

9.5−100.5

)

= Φ(−1) = 0.1587.

Curva peligrosa. De inmediato podrıa surgir una objecion al uso de la distribucion nor-mal N (10, 0.25) para modelar el diametro de los ejes. Al fin y al cabo, los diametros debenser positivos y la distribucion normal adopta valores positivos y negativos. Sin embargo, elmodelo anterior asigna una probabilidad despreciable al evento X < 0. En efecto,P(X < 0) =P(

X−100.5 < 0−10

0.5

)

= P (Z < −20) = Φ (−20) = 1 − Φ(20). De acuerdo con la estimacion (6)tenemos que 1−Φ(20) ≈ ϕ(20)

(

120 − 1

2·203

)

= O(10−89). Este tipo de situacion es habitual enla practica. Se tiene una variable aleatoria X de la que se sabe que no puede tomar valoresnegativos (p.ej. una distancia, una longitud, un area, un peso, una temperatura, un precio,etc.) y se la modela utilizando una distribucion normal N (µ, σ2); motivados, por ejemplo,por cuestiones de simetrıa. En principio, el modelo podra ser perfectamente valido siemprey cuando los valores de los parametros µ y σ2 sean tales que la probabilidad P(X < 0) seapracticamente 0.

Nota Bene sobre grandes desvıos. Sea X una variable aleatoria con distribucion normalde media µ y varianza σ2. Sea t > 0, utilizando la formula (12) podemos ver que

pt := P (|X − µ| > tσ) = 1 − P (|X − µ| ≤ tσ) = 1 −(

(

σ

)

− 1

)

= 2 (1 − Φ(t)) .

Usando la tabla de la distribucion normal Φ(·) se puede ver que p1 = 0.3174, p2 = 0.0454,p3 = 0.0028. Estos probabilidades admiten la siguiente interpretacion: cerca del 32 % de losvalores de una variable X ∼ N (µ, σ2) se desvıan de su media en mas de σ; solamente cercade un 5 % lo hacen en mas de 2σ y solamente cerca de un 3 % en mas de 3σ. Esto da lugara que en la mayor parte de los problemas de la practica se consideren casi imposibles lasdesviaciones respecto de la media µ que superen 3σ y se consideren limitados por el intervalo[µ − 3σ, µ + 3σ] todos los valores practicamente posibles de la variable X.

Ejemplo 1.4. Sea X una variable aleatoria con distribucion normal de media µ = 3 yvarianza σ2 = 4. ¿Cual es la probabilidad de que X sea no menor que 1 y no mayor que 7?

Solucion: Poner µ = 3 y σ = 2 en la formula (11) y usar la tabla de la distribucion normalΦ(·): P(1 ≤ X ≤ 7) = Φ

(

7−32

)

− Φ(

1−32

)

= Φ(2) − Φ(−1) = 0.9773 − 0.1587 = 0.8186.

6

Page 209: espacios de probabilidad

1.4. Suma de normales independientes

Lema 1.5. Sean X1 y X2 dos variables aleatorias independientes con distribucion nor-mal N (µ1, σ

21) y N (µ2, σ

22), respectivamente. Entonces X1 + X2 tiene distribucion normal

N(

µ1 + µ2, σ21 + σ2

2

)

.

Demostracion. Observando que X1 +X2 = (X1−µ1)+(X2−µ2)+µ1 +µ2 el problema sereduce a considerar el caso µ1 = µ2 = 0. La prueba se obtiene mostrando que la convolucion delas densidades f1(x1) = 1√

2πσ1

exp(

−x21/2σ2

1

)

y f2(x2) = 1√2πσ2

exp(

−x22/2σ2

2

)

es la densidad

normal de media µ1 + µ2 y varianza σ2 = σ21 + σ2

2. Por definicion

(f1 ∗ f2)(x) =

∫ ∞

−∞f1(x − y)f2(y) =

1

2πσ1σ2

∫ ∞

−∞exp

(

−(x − y)2

2σ21

− y2

2σ22

)

dy (13)

El resultado se obtendra mediante un poco de algebra, bastante paciencia, y un cambio devariables en la integral del lado derecho de la identidad (13).

exp

(

−(x − y)2

2σ21

− y2

2σ22

)

= exp

(

−1

2

(

σ

σ1σ2y − σ2

σσ1x

)2

− x2

2σ2

)

= exp

(

−1

2

(

σ

σ1σ2y − σ2

σσ1x

)2)

exp

(

− x2

2σ2

)

La primera igualdad se obtuvo completando cuadrados respecto de y en la expresion − (x−y)2

2σ21

−y2

2σ22

y reagrupando algunos terminos. Mediante el cambio de variables z = σσ1σ2

y− σ2

σσ1x, cuya

diferencial es de la forma dz = σσ1σ2

dy, se puede ver que

(f1 ∗ f2)(x) =1

2πσexp

(

− x2

2σ2

)∫ ∞

−∞exp

(

−z2

2

)

dz =1√2π σ

exp

(

− x2

2σ2

)

.

Este resultado se puede generalizar para una suma de n variables aleatorias independientes:Sean X1, X2, . . . , Xn variables aleatorias independientes con distribuciones normales: Xi ∼N (µi, σ

2i ), 1 ≤ i ≤ n. Entonces,

n∑

i=1

Xi ∼ N(

n∑

i=1

µi,n∑

i=1

σ2i

)

.

La prueba se obtiene por induccion y utilizando la siguiente propiedad “hereditaria” defamilias de variables aleatorias independientes (cuya prueba puede verse en el Capıtulo 1del libro de Durrett, R.(1996): Probability Theory and Examples): Si X1, X2, . . . , Xn sonvariables aleatorias independientes, entonces funciones (medibles) de familias disjuntas de lasXi tambien son independientes.

Nota Bene. Observando que para cada a ∈ R y X ∼ N (µ, σ2) resulta que aX ∼ N (aµ, a2σ2)se obtiene el siguiente resultado:

7

Page 210: espacios de probabilidad

Teorema 1.6. Sean X1, X2, . . . , Xn variables aleatorias independientes con distribucionesnormales: Xi ∼ N (µi, σ

2i ), 1 ≤ i ≤ n y sean a1, a2, . . . , an numeros reales cualesquiera.

Entonces,n∑

i=1

aiXi ∼ N(

n∑

i=1

aiµi,n∑

i=1

a21σ

2i

)

.

2. Genesis de la distribucion normal

2.1. Teorema lımite de De Moivre - Laplace

En 1733, De Moivre observo que la distribucion binomial correspondiente a la cantidadde exitos, Sn, en n ensayos de Bernoulli simetricos tiene la forma lımite de una campana.Esta observacion fue la clave que le permitio descubrir la famosa campana de Gauss y allanarel camino que lo condujo a establecer la primera version del Teorema Central del Lımite: laconvergencia de la distribucion Binomial(n, 1/2) a la distribucion normal estandar. En 1801,Laplace refino y generalizo este resultado al caso de la distribucion Binomial(n, p). El Teoremade De Moivre-Laplace, que enunciamos mas abajo, mejora sustancialmente la Ley debil de losgrandes numeros porque proporciona una estimacion mucho mas precisa de las probabilidadesP(

|Sn

n − p| ≤ ǫ)

.

0 2 4 6 8 10 12 14 160

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

Figura 2: Relacion entre la distribucion Binomial simetrica y la distribucion normal. La prob-abilidad de que ocurran k exitos en n ensayos de Bernoulli esta representada por un segmentoparalelo al eje de las abscisas localizado en la ordenada k de altura igual a P(Sn = k). La curvacontinua “aproxima” los valores de P(Sn = k). Observar que dichas probabilidades tambiense pueden representar como areas de rectangulos de altura P(Sn = k) y de base unitariacentrada en k.

8

Page 211: espacios de probabilidad

Teorema 2.1 (Teorema lımite de De Moivre-Laplace). Consideramos una sucesion de en-sayos de Bernoulli independientes. Sean p la probabilidad de exito en cada ensayo y Sn lacantidad de exitos observados en los primeros n ensayos. Para cualquier x ∈ R vale que

lımn→∞

P

(

Sn − np√

np(1 − p)≤ x

)

= Φ(x), (14)

donde Φ(x) :=∫ x−∞

1√2π

e−t2/2dt es la funcion distribucion normal estandar.

Demostracion. Ver Capıtulo VII de Feller, W., (1971). An Introduction to ProbabilityTheory and Its Applications, Vol. I, John Wiley & Sons, New York.

¿Que significa el Teorema Lımite de De Moivre-Laplace? Para contestar esta pre-gunta vamos a reconstruir las ideas principales de su genesis. En otras palabras, vamos a(re)construir el Teorema. La clave de la construccion esta “embutida” en la Figura 2. La im-agen permite “capturar de inmediato” la existencia de una forma lımite para la distribucionBinomial en el caso simetrico p = 1/2.Paso 1. El primer paso en la direccion del Teorema de De Moivre consiste en darse cuentaque la Figura 2 senala la existencia de una forma lımite. En una primera fase (completa-mente abstracta) podemos conjeturar que “la distribucion binomial simetrica tiene una formaasintotica. En otras palabras, cuando la cantidad de ensayos de Bernoulli es suficientementegrande, salvo traslaciones y cambios de escala apropiados, la distribucion Binomial se parecea una funcion continua par, ϕ(x), cuyo grafico tiene la forma de una campana.”Paso 2. El segundo paso consiste en precisar la naturaleza de la traslacion y los cambios deescala que permiten “capturar” esa forma lımite. Si se reflexiona sobre el significado de lamedia y la varianza de una variable aleatoria, parece claro que la forma lımite se obtendra cen-trando la variable Sn en su valor medio, E[Sn] = 1

2n, y adoptando como unidad de medidala desviacion tıpica de los valores observados respecto de dicho valor, σ(Sn) = 1

2

√n. El sig-

nificado geometrico de esta transformacion consiste en (1) trasladar el origen de las abscisasen 1

2n y (2) dividirlas por 12

√n. Para que las areas de los rectangulos sigan representando

probabilidades, las ordenadas deben multiplicarse por el mismo numero. Este paso permiteenunciar la siguiente version mejorada de la conjetura inicial: “existe una funcion continuaϕ(x) tal que

P(Sn = k) =

(

n

k

)(

1

2

)n

∼ 112

√n

ϕ

(

k − 12n

12

√n

)

, (15)

siempre y cuando n sea suficientemente grande.”Paso 3. Establecida la conjetura el problema consiste en “descubrir” la expresion de la funcionϕ(x) y en precisar cual es el sentido de la relacion aproximada que aparece en (15). En estepunto no queda otra que “arremangarse y meter la mano en el barro”. Como resultado seobtiene que la expresion de la funcion ϕ(x) es

ϕ(x) =1√2π

exp

(

−x2

2

)

y que la relacion ∼ vale para valores de k del orden de√

n y significa que el cociente de losdos lados tiende a 1 cuando n → ∞.

9

Page 212: espacios de probabilidad

Nota Bene. La relacion (15) expresa matematicamente un hecho que se observa claramenteen la Figura 2: la campana “pasa” por los puntos de base k y altura P(Sn = k). Convieneobservar que la expresion que aparece en el lado derecho de la relacion (15) es la funcionde densidad de la normal N

(

12n, 1

4n)

evaluada en x = k. En la practica, esto significa quepara obtener una buena aproximacion de la probabilidad de observar k exitos en n ensayos deBernoulli independientes, basta con evaluar la densidad de la normal N

(

12n, 1

4n)

en x = k.Sin temor a equivocarnos, podemos resumir estas observaciones mediante una expresion dela forma Sn ∼ N ( E[Sn], V(Sn) ).Paso 4. Observar que para cada x1 < x2 vale que

P

(

x1 ≤ Sn − 12n

12

√n

≤ x2

)

= P

(

1

2n + x1

1

2

√n ≤ Sn ≤ 1

2n + x2

1

2

√n

)

=∑

x11

2

√n≤j≤x2

1

2

√n

P

(

Sn =1

2n + j

)

≈∑

x1≤jh≤x2

hϕ (jh) , (16)

donde h = 2√n

y la suma se realiza sobre todos los enteros j tales que x1 ≤ jh ≤ x2. Cada

uno de los sumandos que aparecen en el lado derecho de la aproximacion (16) es el area deun rectangulo de base [kh, (k + 1)h y altura ϕ(kh). Como la funcion ϕ(·) es continua, paravalores pequenos de h la suma total de las areas de los rectangulo debe estar proxima del areabajo la curva de la densidad normal entre x1 y x2. Por lo tanto, debe valer lo siguiente

lımn→∞

P

(

x1 ≤ Sn − 12n

12

√n

≤ x2

)

=

∫ x2

x1

ϕ(t)dt = Φ(x2) − Φ(x1). (17)

Este paso puede hacerse formalmente preciso “arremangandose y metiendo la mano en ...”

Nota Bene. La variable aleatoria que aparece dentro de la probabilidad del lado izquierdode (17)

S∗n =

Sn − 12n

12

√n

=Sn − E[Sn]

σ(Sn)(18)

es una medida de la desviacion de Sn respecto de la media E[Sn] en unidades de la desviaciontıpica σ(Sn). El teorema lımite de De Moivre-Laplace significa que cuando se considera unacantidad n (suficientemente grande) de ensayos de Bernoulli independientes, la distribucion dela variable aleatoria S∗

n es “practicamente indistinguible” de la distribucion normal estandarN (0, 1).

Comentario sobre prueba del Teorema 2.1. Si se sigue con cuidado la demostracionpresentada por Feller se puede ver que las herramientas principales de la prueba son el desar-rollo de Taylor (1712) de la funcion log(1 + t) = t + O(t2) y la formula asintotica de Stirling(1730) para los numeros factoriales n! ∼

√2πn nne−n. Partiendo de la funcion de probabilidad

de la Binomial(n, 1/2) se “deduce” la expresion de la funcion densidad normal (√

2π)−1e−x2/2:el factor (

√2π)−1 proviene de la formula de Stirling y el factor e−x2/2 del desarrollo de Tay-

lor. Dejando de lado los recursos tecnicos utilizados en la prueba, se observa que las ideasinvolucradas son simples y “recorren el camino del descubrimiento” de De Moivre (1733).

10

Page 213: espacios de probabilidad

Ejemplo 2.2. Se lanza 40 veces una moneda honesta. Hallar la probabilidad de que seobtengan exactamente 20 caras. Usar la aproximacion normal y compararla con la solucionexacta.

Solucion: La cantidad de caras en 40 lanzamientos de una moneda honesta, S40, es unavariable Binomial de parametros n = 40 y p = 1/2. La aproximacion normal (15) estableceque

P(S40 = 20) ∼ 112

√40

ϕ(0) =1√20π

= 0.12615...

El resultado exacto es

P(X = 20) =

(

40

20

)(

1

2

)40

= 0.12537...

Ejemplo 2.3. Se dice que los recien nacidos de madres fumadoras tienden a ser mas pequenosy propensos a una variedad de dolencias. Se conjetura que ademas parecen deformes. A ungrupo de enfermeras se les mostro una seleccion de fotografıas de bebes, la mitad de loscuales nacieron de madres fumadoras; las enfermeras fueron invitadas a juzgar a partir de laapariencia de cada uno si la madre era fumadora o no. En 1500 ensayos se obtuvieron 910respuestas correctas. La conjetura es plausible?

Solucion: Aunque superficial, un argumento atendible consiste en afirmar que, si todos losbebes parecen iguales, la cantidad de repuestas correctas Sn en n ensayos es una variablealeatoria con distribucion Binomial (n, 1/2). Entonces, para n grande

P

(

Sn − 12n

12

√n

> 3

)

= 1 − P

(

Sn − 12n

12

√n

≤ 3

)

≈ 1 − Φ(3) ≈ 1

1000

por el Teorema lımite de De Moivre-Laplace. Para los valores dados de Sn,

Sn − 12n

12

√n

=910 − 750

5√

15≈ 8.

Se podrıa decir que el evento X − 12n > 3

2

√n es tan improbable que su ocurrencia arroja

dudas sobre la suposicion original de que los bebes parecen iguales. Este argumento otorgarıacierto grado de credibilidad a la conjetura enunciada.

Comentarios sobre el caso general

1. En el caso general, la probabilidad de exito en cada ensayo de Bernoulli individual esp ∈ (0, 1). Si Sn es la cantidad de exitos observados en los primeros n ensayos, entoncesE[Sn] = np y V(Sn) = np(1 − p). Por lo tanto, la variable aleatoria

S∗n :=

Sn − np√

np(1 − p)(19)

es una medida de la desviacion de Sn respecto de la media E[Sn] = np en unidades de ladesviacion tıpica σ(Sn) =

np(1 − p). El teorema lımite de De Moivre-Laplace significa

11

Page 214: espacios de probabilidad

que cuando se considera una cantidad n (suficientemente grande) de ensayos de Bernoulliindependientes, la distribucion de la variable aleatoria S∗

n es “practicamente indistinguible”de la distribucion normal estandar N (0, 1).

2. Tecnicamente la prueba del teorema se puede hacer recurriendo a las mismas herramientasutilizadas en la prueba del caso simetrico, pero los calculos involucrados son mas complica-dos. Sin embargo, el resultado tambien es claro si se observan las graficas de la distribucionBinomial(n, p). En la Figura 3 se ilustra el caso n = 16 y p = 1/4. Nuevamente es “evidente”que la forma lımite de distribucion Binomial debe ser la distribucion normal.

0 2 4 6 8 10 12 14 160

0.05

0.1

0.15

0.2

Figura 3: Grafica de la funcion de probabilidad binomial con n = 16 y p = 1/4. Cercadel termino central m = np = 4, salvo un cambio de escala (cuya unidad de medida es√

np(1 − p) =√

3) la grafica es “indistinguible” de la grafica de la densidad normal.

3. De la Figura 3 deberıa estar claro que, para n suficientemente grande, debe valer lo siguiente

P(Sn = k) =

(

n

k

)

pk(1 − p)n−k ∼ 1√

np(1 − p)ϕ

(

k − np√

np(1 − p)

)

. (20)

Ejemplo 2.4. Para el caso ilustrado en la Figura 3: n = 16 y p = 1/4, la aproximacion (20)es bastante buena, incluso con un valor de n pequeno. Para k = 0, . . . 4 las probabilidadesP(Sn = 4+k) son 0.2252, 0.1802, 0.1101, 0.0524, 0.0197. Las aproximaciones correspondientesson 0.2303, 0.1950, 0.1183, 0.0514, 0.0160.

Nota Bene. El Teorema lımite de De Moivre-Laplace justifica el uso de los metodos de lacurva normal para aproximar probabilidades relacionadas con ensayos de Bernoulli con prob-abilidad de exito p. La experiencia “indica” que la aproximacion es bastante buena siempreque np > 5 cuando p ≤ 1/2, y n(1 − p) cuando p > 1/2. Un valor muy pequeno de p juntocon un valor de n moderado daran lugar a una media pequena y con ello se obtendra una

12

Page 215: espacios de probabilidad

distribucion asimetrica. La mayor parte de la distribucion se acumulara alrededor de 0, im-pidiendo con ello que una curva normal se le ajuste bien. Si la media se aparta por lo menos5 unidades de una y otra extremidad, la distribucion tiene suficiente espacio para que resultebastante simetrica. (Ver la Figura 4).

0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

(a)

0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

(b)

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

(c)

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

(d)

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

(e)

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

(f)

Figura 4: Comparacion entre la distribucion Binomial(10, p) y su aproximacion por la normalpara distintos valores de p (a) p = 0.025; (b) p = 0.05; (c) p = 0.1; (d) p = 0.2; (e) p = 0.4;(f) p = 0.5.

Ejemplo 2.5 (Encuesta electoral). Queremos estimar la proporcion del electorado que pre-tende votar a un cierto candidato. Para ello consideramos que el voto de cada elector tieneuna distribucion Bernoulli de parametro p. Concretamente, queremos encontrar un tamanomuestral n suficiente para que con una certeza del 99.99 % podamos garantizar un error maxi-mo de 0.02 entre el verdadero valor de p y la proporcion muestral Sn/n. En otras palabras,queremos encontrar n tal que

P

(∣

Sn

n− p

≤ 0.02

)

≥ 0.9999. (21)

Para acotar la incerteza usaremos la aproximacion por la normal provista por el teorema lımitede De Moivre - Laplace. Para ello, en lugar de observar la variable Sn, debemos observar lavariable normalizada S∗

n := (Sn − np)/√

np(1 − p). En primer lugar observamos que, comoconsecuencia del teorema lımite, tenemos la siguiente aproximacion

P

(∣

Sn − np√

np(1 − p)

≤ a

)

≈ Φ(−a) − Φ(a) = 2Φ(a) − 1 (22)

13

Page 216: espacios de probabilidad

o lo que es equivalente

P

(

Sn

n− p

≤ a√

p(1 − p)√n

)

≈ 2Φ(a) − 1. (23)

Como el verdadero valor de p es desconocido, la formula (23) no puede aplicarse directamenteya que no se conoce el valor de

p(1 − p). Sin embargo, es facil ver que√

p(1 − p) ≤ 1/2 ypor lo tanto

P

(∣

Sn

n− p

≤ a

2√

n

)

≥ P

(

Sn

n− p

≤ a√

p(1 − p)√n

)

≈ 2Φ(a) − 1. (24)

Esta ultima relacion es la herramienta con la que podemos resolver nuestro problema.En primer lugar tenemos que resolver la ecuacion 2Φ(a) − 1 = 0.9999 o la ecuacion

equivalente Φ(a) = 1.99992 = 0.99995. La solucion de esta ecuacion se obtiene consultando una

tabla de la distribucion normal: a = 3.9. Reemplazando este valor de a en (24) obtenemos

P

(∣

Sn

n− p

≤ 3.9

2√

n

)

≥ 0.9999.

En segundo lugar tenemos que encontrar los valores de n que satisfacen la desigualdad

3.9

2√

n≤ 0.02. (25)

Es facil ver que n satisface la desigualdad (25) si y solo si

n ≥(

3.9

0.04

)2

= (97.5)2 = 9506.2

El problema esta resuelto.

3. Teorema central del lımite

Los teoremas sobre normalidad asintotica de sumas de variables aleatorias se llaman Teo-remas Centrales del Lımite. El Teorema lımite de De Moivre - Laplace es un Teorema Centraldel Lımite para variables aleatorias independientes con distribucion Bernoulli(p). Una versionmas general es la siguiente:

Teorema 3.1 (Teorema Central del Lımite). Sea X1, X2, . . . una sucesion de variables aleato-rias independientes identicamente distribuidas, cada una con media µ y varianza σ2. Entoncesla distribucion de

∑ni=1 Xi − nµ

σ√

n

tiende a la normal estandar cuando n → ∞. Esto es,

lımn→∞

P

(∑ni=1 Xi − nµ

σ√

n≤ x

)

= Φ(x),

donde Φ(x) :=∫ x−∞

1√2π

e−t2/2dt es la funcion de distribucion de una normal de media 0 yvarianza 1.

14

Page 217: espacios de probabilidad

Demostracion. Ver Capıtulo XV de Feller, W., (1971). An Introduction to ProbabilityTheory and Its Applications, Vol. II, John Wiley & Sons, New York.

Corolario 3.2. Sea X1, X2, . . . una sucesion de variables aleatorias independientes identi-camente distribuidas, cada una con media µ y varianza σ2. Si n es suficientemente grande,para cada valor a > 0 vale la siguiente aproximacion

P

(∣

1

n

n∑

i=1

Xi − µ

≤ aσ√n

)

≈ 2Φ(a) − 1 (26)

Demostracion. El teorema central del lımite establece que si n es suficientemente grande,entonces para cada x ∈ R vale que

P

(∑ni=1 Xi − nµ

σ√

n≤ x

)

≈ Φ(x) (27)

De la aproximacion (27) se deduce que para cada valor a > 0

P

(∣

∑ni=1 Xi − nµ

σ√

n

≤ a

)

≈ Φ(a) − Φ(−a) = 2Φ(a) − 1. (28)

El resultado se obtiene de (28) observando que

∑ni=1 Xi − nµ

σ√

n

=n

σ√

n

1

n

n∑

i=1

Xi − µ

=

√n

σ

1

n

n∑

i=1

Xi − µ

. (29)

Nota Bene. Para los usos practicos, especialmente en estadıstica, el resultado lımite ensı mismo no es de interes primordial. Lo que interesa es usarlo como una aproximacion convalores finitos de n. Aunque no es posible dar un enunciado consiso sobre cuan buena es laaproximacion, se pueden dar algunas pautas generales y examinando algunos casos especialesse puede tener alguna idea mas precisa del comportamiento de cuan buena es la aproximacion.Que tan rapido la aproximacion es buena depende de la distribucion de los sumandos. Sila distribucion es bastante simetrica y sus colas decaen rapidamente, la aproximacion esbuena para valores relativamente pequenos de n. Si la distribucion es muy asimetrica o sisus colas decaen muy lentamente, se necesitan valores grandes de n para obtener una buenaaproximacion.

3.1. Ejemplos

Ejemplo 3.3 (Suma de uniformes). Puesto que la distribucion uniforme sobre[

−12 , 1

2

]

tienemedia 0 y varianza 1

12 , la suma de 12 variables independientes U[

−12 , 1

2

]

tiene media 0 yvarianza 1. La distribucion de esa suma esta muy cerca de la normal.

Ejemplo 3.4. Para simplificar el calculo de una suma se redondean todos los numeros alentero mas cercano. Si el error de redondeo se puede representar como una variable aleatoriaU(

−12 , 1

2

)

y se suman 12 numeros, ¿cual es la probabilidad de que el error de redondeo exceda1?

15

Page 218: espacios de probabilidad

−4 −3 −2 −1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

(a)

−3 −2 −1 0 1 2 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

(b)

Figura 5: (a) Comparacion entre un histograma de 1000 valores, cada uno de los cuales es lasuma de 12 variables uniformes U

[

−12 , 1

2

]

, y la funcion densidad normal; (b) Comparacionentre la funcion de distribucion empırica correspondiente a 1000 valores de la suma de 12uniformes U

[

−12 , 1

2

]

y la funcion de distribucion normal. El ajuste es sorprendentementebueno, especialmente si se tiene en cuenta que 12 no se considera un numero muy grande.

Solucion: El error de redondeo cometido al sumar 12 numeros se representa por la suma∑12

i=1 Xi de 12 variables aleatorias independientes X1, . . . , X12 cada una con distribucion uni-

forme sobre el intervalo(

−12 , 1

2

)

. El error de redondeo excede 1 si y solamente si∣

∑12i=1 Xi

∣> 1.

Puesto que E[Xi] = 0 y V(Xi) = 112 de acuerdo con el teorema central del lımite tenemos que

la distribucion de

∑12i=1 Xi − 12E[Xi]√

12V(Xi)=

12∑

i=1

Xi

se puede aproximar por la distribucion normal estandar. En consecuencia,

P

(∣

12∑

i=1

Xi

> 1

)

= 1 − P

(∣

12∑

i=1

Xi

≤ 1

)

≈ 1 − (Φ(1) − Φ(−1))

= 1 − (2Φ(1) − 1) = 2 − 2Φ(1) = 0.3173...

16

Page 219: espacios de probabilidad

Ejemplo 3.5 (Suma de exponenciales). La suma Sn de n variables aleatorias independientesexponenciales de intensidad λ = 1 obedece a una distribucion gamma, Sn ∼ Γ(n, 1). En lasiguiente figura se comparan, para distintos valores de n, la funcion de distribucion de la sumaestandarizada Sn−E[Sn]√

V(Sn)con la funcion de distribucion normal estandar.

−3 −2 −1 0 1 2 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 6: La normal estandar (solida) y las funciones de distribucion de las variables Γ(n, 1)estandarizadas para n = 5 (punteada), n = 10 (quebrada y punteada) y n = 30 (quebrada).

Ejemplo 3.6. La distribucion de Poisson de media λ se puede aproximar por la normal paravalores grandes de λ: si N ∼ Poisson(λ), entonces

N − λ√λ

≈ N (0, 1).

Ejemplo 3.7. Si la emision de una cierta clase de partıculas obedece a un proceso de Poissonde intensidad 900 por hora, ¿cual es la probabilidad de que se emitan mas de 950 partıculasen una hora determinada?

Solucion: Sea N una variable Poisson de media 900. Calculamos P(N > 950) estandarizan-do

P(N > 950) = P

(

N − 900√900

>950 − 900√

900

)

≈ 1 − Φ

(

5

3

)

= 0.04779.

Ejemplo 3.8. El tiempo de vida de una baterıa es una variable aleatoria de media 40 horasy desvıo 20 horas. Una baterıa se usa hasta que falla, momento en el cual se la reemplaza por

17

Page 220: espacios de probabilidad

una nueva. Suponiendo que se dispone de un stock de 25 baterıas, cuyos tiempos de vida sonindependientes, aproximar la probabilidad de que pueda obtenerse un uso superior a las 1100horas.

Solucion: Si ponemos Xi para denotar el tiempo de vida de la i-esima baterıa puesta enuso, lo que buscamos es el valor de p = P(X1 + · · ·+ X25 > 1000), que puede aproximarse dela siguiente manera:

p = P

(

∑25i=1 Xi − 1000

20√

25>

1100 − 1000

20√

25

)

≈ 1 − Φ(1) = 0.1587.

Ejemplo 3.9. El peso W (en toneladas) que puede resistir un puente sin sufrir danos es-tructurales es una variable aleatoria con distribucion normal de media 1400 y desvıo 100. Elpeso (en toneladas) de cada camion de arena es una variable aleatoria de media 22 y desvıo0.25. Calcular la probabilidad de que ocurran danos estructurales cuando hay 64 camiones dearena sobre el tablero del puente.

Solucion: Ocurren danos estructurales cuando la suma de los pesos de los 64 camiones,X1, . . . , X64, supera al peso W . Por el teorema central del lımite, la distribucion de la suma∑64

i=1 Xi es aproximadamente una normal de media 1408 y desvıo 2. En consecuencia, W −∑64

i=1 Xi se distribuye (aproximadamente) como una normal de media 1400 − 1408 = −8 yvarianza 10000 + 4 = 10004. Por lo tanto,

P

(

64∑

i=1

Xi > W

)

= P

(

W −64∑

i=1

Xi < 0

)

= P

(

W −∑64i=1 Xi + 8√

10004<

8√10004

)

≈ Φ(0.07998...) = 0.5318...

Ejercicios adicionales

1. Un astronauta debera permanecer 435 dıas en el espacio y tiene que optar entre dosalternativas. Utilizar 36 tanques de oxıgeno de tipo A o 49 tanques de oxigeno de tipo B.Cada tanque de oxıgeno de tipo A tiene un rendimiento de media 12 dıas y desvıo 1/4. Cadatanque de oxıgeno de tipo B tiene un rendimiento de media de 8, 75 dıas y desvıo 25/28.¿Que alternativa es la mas conveniente?

2. 432 numeros se redondean al entero mas cercano y se suman. Suponiendo que los erroresindividuales de redondeo se distribuyen uniformemente sobre el intervalo (−0.5, 0.5), aproxi-mar la probabilidad de que la suma de los numeros redondeados difiera de la suma exacta enmas de 6.

3. Dos aerolıneas A y B que ofrecen identico servicio para viajar de Buenos Aires a San Pablocompiten por la misma poblacion de 400 clientes, cada uno de los cuales elige una aerolıneaal azar. ¿Cual es la probabilidad de que la lınea A tenga mas clientes que sus 210 asientos?

18

Page 221: espacios de probabilidad

4. Distribuciones relacionadas con la Normal

En esta seccion se presentan tres distribuciones de probabilidad relacionadas con la dis-tribucion normal: las distribuciones χ2, t y F . Esas distribuciones aparecen en muchos prob-lemas estadısticos.

4.1. χ2 (chi-cuadrado)

Definicion 4.1 (Distribucion chi-cuadrado con un grado de libertad). Si Z es una una vari-able aleatoria con distribucion normal estandar, la distribucion de U = Z2 se llama la dis-tribucion chi-cuadrado con 1 grado de libertad.

0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

Figura 7: Grafico de la funcion densidad de probabilidad de la distribucion χ21.

Caracterizacion de la distribucion χ21. La funcion de distribucion de la variable U = Z2

es FU (u) = P(Z2 ≤ u), donde Z es N (0, 1). Para cada u > 0, vale que

F (x) = P(Z2 ≤ u) = P(|Z| ≤ √u) = P(−√

u ≤ Z ≤ √u) =

√u

−√

u

1√2π

e−z2/2dz.

Usando el teorema fundamental del calculo integral y la regla de la cadena obtenemos quepara cada u > 0 vale que

fU (u) =d

duFU (u) =

d

du

√u

−√

u

1√2π

e−z2/2dz

=1√2π

(

e−(√

u)2/2 d

du(√

u) − e−(−√

u)2/2 d

du(−√

u)

)

=1√2π

(

e−u/2 1

2√

u+ e−u/2 1

2√

u

)

=1√2π

(

e−u/2 1√u

)

=(1/2)

1

2√π

(

u−1/2e−(1/2)u)

=(1/2)

1

2√π

u1

2−1e−(1/2)u. (30)

19

Page 222: espacios de probabilidad

La ultima expresion que aparece en el lado derecho de la identidad (30) es la expresion de ladensidad de la distribucion Γ

(

12 , 1

2

)

. Por lo tanto,

χ21 = Γ

(

1

2,1

2

)

.

Nota Bene. Notar que si X ∼ N (µ, σ2), entonces X−µσ ∼ N (0, 1), y por lo tanto

(

X−µσ

)2∼

χ21.

Definicion 4.2 (Distribucion chi-cuadrado). Si U1, U2, . . . , Un son variables aleatorias inde-pendientes, cada una con distribucion χ2

1, la distribucion de V =∑n

i=1 Ui se llama distribucionchi-cuadrado con n grados de libertad y se denota χ2

n.

Caracterizacion de la distribucion chi-cuadrado. La distribucion χ2n es un caso par-

ticular de la distribucion Gamma. Mas precisamente,

χ2n = Γ

(

n

2,1

2

)

.

Basta recordar que la suma de variables Γ i.i.d. tambien es Γ. En particular, la funciondensidad de V es

fV (v) =(1/2)

n

2

Γ(

n2

) vn

2−1e−

1

2v1v > 0.

Nota Bene. La distribucion χ2n no es simetrica.

0 5 10 15 20 250

0.02

0.04

0.06

0.08

0.1

0.12

0.14

Figura 8: Grafico de la funcion densidad de probabilidad de la distribucion χ27.

20

Page 223: espacios de probabilidad

4.2. t de Student

Definicion 4.3 (La distribucion t de Student). Sean Z y U variables aleatorias independientescon distribuciones N (0, 1) y χ2

n, respectivamente. La distribucion de la variable

T =Z

U/n

se llama distribucion t de Student con n grados de libertad y se denota mediante tn.

La funcion densidad de la t de Student con n grados de libertad es

fT (t) =Γ(

n+12

)

√nπΓ

(

n2

)

(

1 +t2

n

)−n+1

2

.

La formula de la densidad se obtiene por los metodos estandar desarrollados en las notassobre transformaciones de variables.

−5 −4 −3 −2 −1 0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Figura 9: Comparacion de la funcion densidad de probabilidad de una distribucion t7 (lıneasolida) con la de la distribucion N (0, 1) (lınea punteada).

Observacion 4.4. Notar que la densidad de tn es simetrica respecto del origen. Cuando lacantidad de grados de libertad, n, es grande la distribucion tn se aproxima a la la distribucionN (0, 1); de hecho para mas de 20 o 30 grados de libertad, las distribuciones son muy cercanas..

4.3. F de Fisher

Definicion 4.5 (Distribucion F ). Sean U y V variables aleatorias independientes con dis-tribuciones χ2

m y χ2n, respectivamente. La distribucion de la variable

W =U/m

V/n

21

Page 224: espacios de probabilidad

se llama distribucion F con m y n grados de libertad y se denota por Fm, n.

La funcion densidad de W es

fW (w) =Γ(

m+n2

)

Γ(

m2

)

Γ(

n2

)

(m

n

)m

2

wm

2−1(

1 +m

nw)−m+n

2

1w ≥ 0.

W es el cociente de dos variables aleatorias independientes, y su densidad se obtiene usandolos metodos estandar desarrollados en las notas sobre transformaciones de variables.

Nota Bene. Se puede mostrar que, para n > 2, E[W ] = n/(n − 2). De las definiciones delas distribuciones t y F , se deduce que el cuadrado de una variable aleatoria tn se distribuyecomo una F1,n.

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Figura 10: Grafico tıpico de la funcion densidad de probabilidad de una distribucion F .

¿Como usar las tablas de las distribuciones F? Para cada α ∈ (0, 1), sea Fα,m,n elpunto del semieje positivo de las abscisas a cuya derecha la distribucion Fm,n acumula unaprobabilidad α:

P(Fm,n > Fα,m,n) = α.

Observacion 4.6. Notar que de las igualdades

α = P

(

U/m

V/n> Fα,m,n

)

= P

(

V/n

U/m<

1

Fα,m,n

)

= 1 − P

(

V/n

U/m≥ 1

Fα,m,n

)

se deduce que

F1−α,n,m =1

Fα,m,n. (31)

22

Page 225: espacios de probabilidad

En los manuales de estadıstica se pueden consultar las tablas de los valores Fα,m,n paradiferentes valores de m, n y α ∈ 0.01, 0.05. Por ejemplo, segun la tabla que tengo a midisposicion1

P(F9, 9 > 3.18) = 0.05 y P(F9,9 > 5.35) = 0.01

Usando esa informacion queremos hallar valores φ1 y φ2 tales que

P(F9, 9 > φ2) = 0.025 y P(F9, 9 < φ1) = 0.025.

El valor de φ2 se obtiene por interpolacion lıneal entre los dos puntos dados en la tabla:A = (3.18, 0.05) y B = (5.35, 0.01). La ecuacion de la recta que pasa por ellos es y − 0.01 =−0.04

2.17(x−5.35). En consecuencia, φ2 sera la solucion de la ecuacion 0.025−0.01 = −0.042.17(φ2−

5.35). Esto es, φ2 = 4.5362.

El valor de φ1 se obtiene observando que la ecuacion P(F9, 9 < φ1) = 0.025 es equivalentea la ecuacion P (1/F9, 9 > 1/φ1) = 0.025. Por definicion, la distribucion de 1/F9, 9 coincide conla de F9, 9. En consecuencia, φ1 debe satisfacer la ecuacion P (F9, 9 > 1/φ1) = 0.025. Por lotanto, φ1 = 1/4.5362 = 0.2204.

5. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Cramer, H.: Metodos matematicos de estadıstica. Aguilar, Madrid. (1970)

2. Durrett R.: Probability. Theory and Examples. Duxbury Press, Belmont. (1996)

3. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 1. JohnWiley & Sons, New York. (1968)

4. Feller, W.: An introduction to Probability Theory and Its Applications. Vol. 2. JohnWiley & Sons, New York. (1971)

5. Hoel P. G.: Introduccion a la estadıstica matematica. Ariel, Barcelona. (1980)

6. Piskunov, N.: Calculo diferencial e integral, tomo I. Mir, Moscu (1983)

7. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont. (1995)

8. Ross, S. M: Introduction to Probability and Statistics for Engineers and Scientists.Elsevier Academic Press, San Diego. (2004)

9. Ross, S.: Introduction to Probability Models. Academic Press, San Diego. (2007)

1Introduccion a la estadıstica matematica. Ariel, Barcelona. (1980).

23

Page 226: espacios de probabilidad

Estimadores puntuales

(Borradores, Curso 23)

Sebastian Grynberg

20-22 de mayo de 2013

La libertad de los pueblos no consiste en palabras,ni debe existir en los papeles solamente. (...)

Si deseamos que los pueblos sean libres,observemos religiosamente el sagrado dogma de la igualdad.

(Mariano Moreno)

1

Page 227: espacios de probabilidad

Indice

1. Introduccion 2

1.1. Nociones y presupuestos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Algunas familias parametricas . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Estimadores 4

2.1. Error cuadratico medio, sesgo y varianza . . . . . . . . . . . . . . . . . . . . . 52.2. Comparacion de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3. Metodo de maxima verosimilitud 10

3.1. Estimador de maxima verosimilitud (emv) . . . . . . . . . . . . . . . . . . . . 103.2. Calculo del emv para familias regulares . . . . . . . . . . . . . . . . . . . . . 12

3.2.1. Familias exponenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.2.2. Malas noticias! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.3. Calculo del emv para familias no regulares . . . . . . . . . . . . . . . . . . . . 203.4. Principio de invariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4. Bibliografıa consultada 23

1. Introduccion

1.1. Nociones y presupuestos basicos

Definicion 1.1 (Muestra aleatoria). Sea (Ω,A,P) un espacio de probabilidad y X : Ω → R

una variable aleatoria. Una muestra aleatoria de volumen n de la variable aleatoria X es unasucesionX1, . . . , Xn de variables aleatorias independientes cada una con la misma distribucionde X.

Modelos parametricos. En todo lo que sigue vamos a suponer que

1. La funcion de distribucion de la variable aleatoria X es desconocida parcialmente: sesabe que F (x) = P(X ≤ x) pertenece a una familia, F , de distribuciones conocidas quedependen de un parametro θ desconocido: F = Fθ : θ ∈ Θ.

2. El conjunto parametrico, Θ, es no vacıo y esta contenido en Rd.

3. Las distribuciones de la familia F son distinguibles: Fθ1 6= Fθ2 cuando θ1 6= θ2.

4. Las distribuciones de la familia F tienen “densidad”. Si se trata de una familia dedistribuciones continuas esto significa que para cada θ ∈ Θ, existe una funcion densidadde probabilidades (f.d.p.) f(x|θ) tal que d

dxFθ(x) = f(x|θ). Si se trata de una familiade distribuciones discretas esto significa que para cada θ ∈ Θ, existe una funcion deprobabilidad (f.p.) f(x|θ) tal que Fθ(x) − Fθ(x−) = f(x|θ).

5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.

2

Page 228: espacios de probabilidad

Nota Bene. De los presupuestos basicos adoptados resulta que los modelos parametricosadoptan la forma

F = f(x|θ) : θ ∈ Θ ,donde θ es un parametro desconocido que puede tomar valores en un espacio parametricoΘ ⊂ R

d.

1.2. Algunas familias parametricas

Repasamos algunas de las familias de distribuciones que se utilizan comunmente en elanalisis de datos en problemas practicos.

1. Familia Normal, N (µ, σ2). Decimos que X tiene distribucion normal de parametrosµ ∈ R y σ2 > 0 cuando la f.d.p. de X esta dada por

f(x|µ, σ2) =1

σ√

2πexp

(−(x− µ)2

2σ2

), −∞ < x <∞.

Vale que E[X] = µ y V(X) = σ2.

2. Familia Gamma, Γ(ν, λ). Decimos que X tiene distribucion gamma de parametrosν > 0 y λ > 0 cuando la f.d.p. de X esta dada por

f(x|ν, λ) =λν

Γ(ν)xν−1e−λx1x ≥ 0,

donde Γ(ν) :=∫∞0 xν−1e−xdx. Vale que E[X] = ν/λ y V(X) = ν/λ2.

Casos particulares de las familias Gamma son las familias exponenciales Exp(λ) = Γ(1, λ)y las familias chi cuadrado χ2

ν = Γ(ν/2, 1/2).

3. Familia Beta, β(ν1, ν2). Decimos que X tiene distribucion beta de parametros ν1 > 0y ν2 > 0 cuando la f.d.p. de X esta dada por

f(x|ν1, ν2) =Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)xν1−1(1 − x)ν2−110 < x < 1.

Vale que

E[X] =ν1

ν1 + ν2y V(X) =

ν1ν2

(ν1 + ν2)2(ν1 + ν2 + 1).

Notar que cuando los parametros ν1 y ν2 son numeros naturales se tiene que

Γ(ν1 + ν2)

Γ(ν1)Γ(ν2)=

(ν1 + ν2 − 1)!

(ν1 − 1)!(ν2 − 1)!= (ν1 + ν2 − 1)

(ν1 + ν2 − 2

ν1 − 1

).

La distribucion β(ν1, ν2) se puede obtener como la distribucion del cociente X1/(X1 + X2)donde X1 ∼ Γ(ν1, 1) y X2 ∼ Γ(ν2, 1).

Notar que β(1, 1) = U(0, 1).

3

Page 229: espacios de probabilidad

4. Familia Binomial, Binomial(n, p). Decimos que X tiene distribucion Binomial deparametros n ∈ N y 0 < p < 1 cuando su f.p. esta dada por

f(x|n, p) =

(n

x

)(1 − p)n−xpx, x = 0, 1, . . . , n.

Vale que E[X] = np y V(X) = np(1 − p).

5. Familia Pascal, Pascal(n, p). Decimos que X tiene distribucion Pascal de parametrosn ∈ N y 0 < p < 1 cuando su f.p. esta dada por

f(x|n, p) =

(x− 1

n− 1

)pn(1 − p)x−n, x = n, n+ 1, . . . .

Vale que E[X] = n/p y V(X) = n(1 − p)/p2.

6. Familia Poisson, Poisson(λ). Decimos que X tiene distribucion Poisson de parametroλ > 0 cuando su f.p. esta dada por

f(x|λ) = e−λλx

x!, x = 0, 1, . . . .

Vale que E[X] = λ y V(X) = λ.

2. Estimadores

El punto de partida de la investigacion estadıstica esta constituido por una muestraaleatoria, X = (X1, . . . , Xn), de la distribucion desconocida F perteneciente a una familiaparametrica de distribuciones F = Fθ : θ ∈ Θ1. Como las distribuciones de la familia Fson distinguibles lo que se quiere saber es cual es el parametro θ ∈ Θ que corresponde a ladistribucion F . En otras palabras, se quiere hallar θ ∈ Θ tal que F = Fθ.

Formalmente, “cualquier” funcion, θ := θ(X), de la muestra aleatoria X que no dependede parametros desconocidos se denomina una estadıstica.

Ejemplo 2.1. Sea X = (X1, . . . , Xn) una muestra aleatoria de la variable aleatoria X confuncion de distribucion Fθ. Ejemplos de estadısticas son

(i) X(1) = mın(X1, . . . , Xn),

(ii) X(n) = max(X1, . . . , Xn),

(iii) X = 1n

∑ni=1Xi,

(iv) σ2 = 1n

∑ni=1(Xi − X)2.

1Notacion. Si F es una familia de distribuciones Fθ con “densidades” f(x|θ), θ ∈ Θ, escribimos

Pθ(X ∈ A) =

Z

A

f(x|θ)dx y Eθ[r(X)] =

Z

r(x)f(x|θ)dx

El subındice θ indica que la probabilidad o la esperanza es con respecto a f(x|θ). Similarmente, escribimos Vθ

para la varianza.

4

Page 230: espacios de probabilidad

En (i) y (ii), mın(·) y max(·) denotan, respectivamente, el mınimo y el maximo muestralesobservados. Por otro lado, X y σ2 denotan, respectivamente, la media y la varianza muestrales.

Cualquier estadıstica que asuma valores en el conjunto parametrico Θ de la familia dedistribuciones F se denomina un estimador puntual para θ. El adjetivo puntual esta puestopara distinguirla de las estimaciones por intervalo que veremos mas adelante.

En muchas situaciones lo que interesa es estimar una funcion g(θ). Por ejemplo, cuandose considera una muestra aleatoria X de una variable X ∼ N (µ, σ2) donde µ y σ2 sondesconocidos entonces θ = (µ, σ2) y el conjunto de parametros es Θ = (µ, σ2) : µ ∈ R y σ2 >0. Si el objetivo es estimar solamente µ, entonces g(θ) = µ.

Definicion 2.2. Cualquier estadıstica que solamente asuma valores en el conjunto de losposibles valores de g(θ) es un estimador para g(θ).

Uno de los grandes problemas de la estadıstica es construir estimadores razonables parael parametro desconocido θ o para una funcion g(θ). Existen diversos metodos para elegirentre todos los estimadores posibles de θ. Cada eleccion particular del estimador depende deciertas propiedades que se consideran “deseables” para la estimacion.

2.1. Error cuadratico medio, sesgo y varianza

Uno de los procedimientos mas usados para evaluar el desempeno de un estimador esconsiderar su error cuadratico medio. Esta nocion permite precisar el sentido que se le otorgaa los enunciados del tipo “el estimador puntual θ = θ(X) esta proximo de θ”.

Definicion 2.3 (Error cuadratico medio). El error cuadratico medio (ECM) de un estimadorθ para el parametro θ se define por

ECM(θ) = Eθ

[(θ − θ)2

]. (1)

El ECM se puede descomponer de la siguiente manera2

[(θ − θ)2

]= Vθ(θ) + B

2θ(θ), (2)

donde Bθ(θ) := Eθ[θ] − θ es el llamado sesgo del estimador. El primer termino de la descom-posicion (2) describe la “variabilidad” del estimador, y el segundo el “error sistematico”: Eθ[θ]describe alrededor de que valor fluctua θ y Vθ(θ) mide cuanto fluctua.

2La descomposicion (2) se obtiene escribiendo θ − θ en la forma (θ − Eθ[θ]) + (Eθ[θ] − θ). Desarrollando

cuadrados obtenemos (θ − θ)2 = (θ − Eθ[θ])2 + 2(θ − Eθ[θ])(Eθ[θ] − θ) +

Eθ[θ] − θ”2

. El resultado se obtiene

observando que la esperanza Eθ de los terminos cruzados (θ − Eθ[θ])(Eθ[θ] − θ) es igual a 0:

h

(θ − θ)2i

= Eθ

»

(θ − Eθ[θ])2 + 2(θ − Eθ[θ])(Eθ[θ] − θ) +

Eθ[θ] − θ”2

= Eθ

h

(θ − Eθ[θ])2i

+ 0 +“

Eθ[θ] − θ”2

= Vθ(θ) + B2θ(θ).

5

Page 231: espacios de probabilidad

Definicion 2.4 (Estimadores insesgados). Diremos que un estimador θ es insesgado para elparametro θ si

Eθ[θ] = θ.

para todo θ ∈ Θ, o sea Bθ(θ) ≡ 0. Si lımn→∞ Bθ[θ] = 0 para todo θ ∈ Θ, diremos que elestimador θ es asintoticamente insesgado para θ.

Nota Bene. En el caso en que θ es un estimador insesgado para θ, tenemos que

ECM(θ) = Vθ(θ),

o sea, el error cuadratico medio de θ se reduce a su varianza.

Nota Bene. Una consecuencia destacable de la descomposicion (2) para grandes muestras(n >> 1) es la siguiente: si a medida que se aumenta el volumen de la muestra, el sesgo y lavarianza del estimador θ tienden a cero, entonces, el estimador θ converge en media cuadraticaal verdadero valor del parametro θ.

Ejemplo 2.5 (Estimacion de media). Sea F = Fθ : θ ∈ Θ una familia de distribuciones.Para cada θ ∈ Θ designemos mediante µ(θ) y σ2(θ) la media y la varianza correspondientes ala distribucion Fθ, respectivamente. Sea X = (X1, . . . , Xn) una muestra aleatoria de algunadistribucion perteneciente a F . Denotemos mediante X el promedio de la muestra:

X =1

n

n∑

i=1

Xi.

En lo que sigue vamos a suponer que para cada θ ∈ Θ, µ(θ) ∈ R y σ2(θ) <∞. Si la muestraaleatoria proviene de la distribucion Fθ, tenemos que

[X]

= Eθ

[1

n

n∑

i=1

Xi

]=

1

n

n∑

i=1

Eθ[Xi] = µ(θ).

Por lo tanto X es un estimador insesgado para µ(θ) y su error cuadratico medio al estimarµ(θ) es

ECM(X) = Vθ

(X)

= Vθ

(1

n

n∑

i=1

Xi

)=

1

n2

n∑

i=1

Vθ[Xi] =1

nσ2(θ).

Ejemplo 2.6 (Estimacion de varianza). Sea F = Fθ : θ ∈ Θ una familia de distribuciones.Para cada θ ∈ Θ designemos mediante µ(θ) y σ2(θ) la media y la varianza correspondientesa la distribucion Fθ, respectivamente, a las que supondremos finitas. Sea X1, . . . , Xn unamuestra aleatoria de alguna distribucion perteneciente a F . Sean X y σ2 la media y lavarianza muestrales definidas en el Ejemplo 2.1:

X :=1

n

n∑

i=1

Xi y σ2 :=1

n

n∑

i=1

(Xi − X)2.

6

Page 232: espacios de probabilidad

Para analizar el sesgo de la varianza muestral conviene descomponerla de la siguiente manera:

σ2 =1

n

n∑

i=1

(Xi − µ(θ))2 − (X − µ(θ))2, (3)

cualquiera sea θ ∈ Θ. 3 Si la muestra aleatoria, X1, . . . , Xn, proviene de la distribucion Fθ, altomar esperanzas en ambos lados de (3) se obtiene

Eθ[σ2] =

1

n

n∑

i=1

[(Xi − µ(θ))2

]− Eθ

[(X − µ(θ))2

]

=1

n

n∑

i=1

Vθ(Xi) − Vθ(X). (4)

Segun el Ejemplo 2.5 X es un estimador insesgado para la media µ(θ) y su varianza valeVθ(X) = 1

nσ2(θ), en consecuencia,

Eθ[σ2] =

1

n

n∑

i=1

Vθ(Xi) − Vθ(X) = σ2(θ) − 1

nσ2(θ) =

n− 1

nσ2(θ). (5)

Esto demuestra que σ2 no es un estimador insesgado para la varianza σ2(θ). La identidadEθ[σ

2] = n−1n σ2(θ) significa que si tomamos repetidas muestras de tamano n y se promedian

las varianzas muestrales resultantes, el promedio no se aproximara a la verdadera varianza,sino que de modo sistematico el valor sera mas pequeno debido al factor (n−1)/n. Este factoradquiere importancia en las muestras pequenas. Si n → ∞, el factor (n − 1)/n → 1 lo quedemuestra que σ2 es un estimador asintoticamente insesgado para la varianza σ2(θ).

Para eliminar el sesgo en σ2, basta multiplicar σ2 por nn−1 . De (5) sigue que

S2 :=n

n− 1σ2 =

1

n− 1

n∑

i=1

(Xi − X)2 (6)

es un estimador insesgado para la varianza.

2.2. Comparacion de estimadores

El error cuadratico medio puede usarse para comparar estimadores. Diremos que θ1 esmejor que θ2 si

ECM(θ1) ≤ ECM(θ2), (7)

para todo θ, con desigualdad estricta para al menos un valor de θ. En tal caso, el estimador θ2se dice inadmisible. Si existe un estimador θ∗ tal que para todo estimador θ de θ con θ 6= θ∗

ECM(θ∗) ≤ ECM(θ), (8)

3La descomposicion (3) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi − X) en la forma(Xi − µ(θ)) − (X − µ(θ)). Desarrollando cuadrados obtenemos (Xi − X)2 = (Xi − µ(θ))2 + (X − µ(θ))2 −2(Xi − µ(θ))(X − µ(θ)). El resultado se obtiene observando que el promedio de los terminos cruzados (Xi −µ(θ))(X − µ(θ)) es igual a (X − µ(θ))2. (Hacer la cuenta y verificarlo! )

7

Page 233: espacios de probabilidad

para todo θ, con desigualdad estricta para al menos un valor de θ, entonces θ∗ se dice optimo.Cuando la comparacion se restringe a los estimadores son insesgados, el estimador optimo,

θ∗, se dice el estimador insesgado de varianza uniformemente mınima. Esta denominacionresulta de observar que estimadores insesgados la relacion (8) adopta la forma

Vθ(θ∗) ≤ Vθ(θ),

para todo θ, con desigualdad estricta para al menos un valor de θ.

Ejemplo 2.7. Sean X1, X2, X3 una muestra aleatoria de una variable aleatoria X tal queEθ[X] = θ y Vθ(X) = 1. Consideremos los estimadores

X =X1 +X2 +X3

3y θ =

1

2X1 +

1

4X2 +

1

4X3.

Segun el Ejemplo 2.5 Eθ[X] = θ y Vθ(X) = 13 . Tenemos tambien que

Eθ[θ] =1

2Eθ[X1] +

1

4Eθ[X2] +

1

4Eθ[X3] =

1

2θ +

1

4θ +

1

4θ = θ

y

Vθ(θ) =1

4Vθ(X1) +

1

16Vθ(X2) +

1

16Vθ(X3) =

1

4+

1

16+

1

16=

6

16.

Como X y θ son insesgados, resulta que X es mejor que θ, pues Vθ(X) < Vθ(θ) para todo θ.

Ejemplo 2.8. Sea X1, . . . , Xn una muestra aleatoria de una variable aleatoria X ∼ U(0, θ).Vamos a considerar θ1 = 2X y θ2 = X(n) como estimadores para θ y estudiaremos su com-portamiento. Como Eθ[X] = θ/2 y Vθ(X) = θ2/12, tenemos que

Eθ[θ1] = Eθ[2X] = θ y Vθ(θ1) =θ2

3n. (9)

Por lo tanto, θ1 es un estimador insesgado para θ. En consecuencia,

ECM(θ1) = Vθ(θ1) =θ2

3n. (10)

Por otro lado, la funcion densidad de X(n) esta dada por fθ(x) = nxn−1

θn 10 < x < θ, dedonde se deduce que

Eθ[X(n)] =n

n+ 1θ y Vθ(X(n)) =

nθ2

(n+ 1)2(n+ 2). (11)

Por lo tanto, θ2 es un estimador asintoticamente insesgado para θ. Combinando las identidades(11) en (2), obtenemos

ECM(θ2) = Vθ(θ2) + B2θ(θ2) =

nθ2

(n+ 1)2(n+ 2)+

(n

n+ 1θ − θ

)2

=nθ2

(n+ 1)2(n+ 2)+

θ2

(n+ 1)2=

2θ2

(n+ 1)(n+ 2). (12)

Es facil, pero tedioso, ver que ECM(θ2) < ECM(θ1) para todo θ y todo n. Por lo tanto, X(n)

es mejor que 2X para todo θ y todo n.

8

Page 234: espacios de probabilidad

2.3. Consistencia

Lo mınimo que se le puede exigir a un estimador puntual, θ(X1, . . . , Xn), es que, enalgun sentido, se aproxime al verdadero valor del parametro cuando el volumen de la muestraaumenta. En otras palabras, si θ ∈ Θ es tal que F = Fθ y X1, X2, . . . es una sucesionde variables aleatorias independientes cada una con distribucion F , en algun sentido, debeocurrir que

θ(X1, . . . , Xn) → θ,

cuando n→ ∞.Por ejemplo, es deseable que el estimador θ tenga la siguiente propiedad, llamada consis-

tencia debil : para cada ǫ > 0 debe cumplir que

lımn→∞

Pθ(|θ(X1, . . . , Xn) − θ| > ǫ) = 0. (13)

Mas exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:

(lım

n→∞θ(X1, . . . , Xn) = θ

)= 1. (14)

Normalidad asintotica. Tambien se le puede pedir una propiedad similar a la del teoremacentral lımite, llamada normalidad asintotica: existe σ = σ(θ) > 0 tal que

lımn→∞

(√n(θ(X1, . . . , Xn) − θ)

σ≤ x

)=

∫ x

−∞

1√2πe−t2/2dt (15)

Nota Bene. Los problemas de consistencia y normalidad asintotica estan relacionados conlas leyes de los grandes numeros y el teorema central de lımite. El siguiente ejemplo muestradicha relacion para el caso en que se quiere estimar la media de una distribucion.

Ejemplo 2.9 (Estimacion de media). Sea X = (X1, . . . , Xn) una muestra aleatoria de unavariable aleatoria cuya distribucion pertenece a una familia F = Fθ : θ ∈ Θ. Sean µ(θ) yσ2(θ) la media y la varianza correspondientes a la distribucion Fθ, respectivamente. Aplicandola desigualdad de Chebychev a X se obtiene que para cada ǫ > 0

(∣∣X − µ(θ)∣∣ > ǫ

)≤ Vθ(X)

ǫ2=

1

n

(σ2(θ)

ǫ2

)→ 0,

cuando n→ ∞.Hasta aquı, lo unico que hicimos es volver a demostrar la ley debil de los grandes numeros.

Lo que queremos subrayar es que en el contexto de la estimacion de parametros, la ley debil delos grandes numeros significa que el promedio de la muestra, X, es un estimador debilmenteconsistente para la la media de la distribucion, µ(θ).

La consistencia fuerte del promedio, como estimador para la media es equivalente a laLey fuerte de los grandes numeros que afirma que: Si X1, X2, . . . es una sucesion de variablesaleatorias independientes e identicamente distribuidas y si existe E[Xi] = µ, entonces

P

(lım

n→∞X = µ

)= 1.

La normalidad asintotica es equivalente al teorema central del lımite.

9

Page 235: espacios de probabilidad

Nota Bene. De todas las propiedades de convergencia la consistencia debil es la mas simple,en el sentido de que puede establecerse con unas pocas herramientas tecnicas. Para verificarla consistencia debil del promedio para estimar la media solamente usamos la desigualdadde Chebychev y las propiedades de la media y la varianza. El razonamiento utilizado en elEjemplo 2.9 se puede extender un poco mas alla.

Teorema 2.10. Sea θ un estimador de θ basado en una muestra aleatoria de volumen n. Si θes asintoticamente insesgado y su varianza tiende a cero, entonces θ es debilmente consistente.

Demostracion. El resultado se obtiene usando la desigualdad de Chebychev y la identidad(2):

(∣∣∣θ − θ∣∣∣ > ǫ

)≤ 1

ǫ2Eθ

[(θ − θ)2

]=

1

ǫ2

(Vθ(θ) + B

2θ(θ)

)→ 0.

3. Metodo de maxima verosimilitud

El metodo de maxima verosimilitud es un “metodo universal” para construir estimadorespuntuales. Su base intuitiva es la siguiente: si al realizar un experimento aleatorio se observaun resultado, este debe tener alta probabilidad de ocurrir.

Para hacer mas precisa esa base intuitiva consideremos una muestra aleatoria, X =(X1, . . . , Xn), de una variable aleatoria discreta X con funcion de probabilidad f(x|θ), θ ∈Θ, donde Θ es el espacio parametrico. La probabilidad de observar los resultados X1 =x1, . . . , Xn = xn se calcula del siguiente modo:

Pθ(X1 = x1, . . . , Xn = xn) =n∏

i=1

Pθ(Xi = xi) =n∏

i=1

f(xi|θ). (16)

Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos queX1 = x1, . . . , Xn = xn, entonces lo razonable serıa elegir entre todos los parametros posibles,θ ∈ Θ, aquel (o aquellos) que maximicen (16). En consecuencia, se podrıa estimar θ como elvalor (o los valores) de θ que hace maxima la probabilidad

∏ni=1 f(xi|θ).

3.1. Estimador de maxima verosimilitud (emv)

Definicion 3.1 (EMV). Sea X una variable aleatoria cuya distribucion pertenece a la familiaparametrica F = Fθ : θ ∈ Θ. Un estimador de maxima verosimilitud de θ, basado en losvalores x = (x1, . . . , xn) de una muestra aleatoria X = (X1, . . . , Xn), es un valor θmv ∈ Θ quemaximiza la funcion de verosimilitud

L(θ|x) :=n∏

i=1

f(xi|θ), (17)

donde, dependiendo de la naturaleza de las distribuciones de la familia F , f(x|θ) es la funcionde probabilidad o la funcion densidad de probabilidades de X.

10

Page 236: espacios de probabilidad

Sobre la notacion. Para destacar que el valor del estimador de maxima verosimilituddepende de los valores observados, x = (x1, . . . , xn), en lugar de θmv escribiremos θmv(x):

θmv = θmv(x) := arg maxθ∈Θ

L(θ|x). (18)

Ejemplo 3.2. Supongamos que tenemos una moneda que puede ser equilibrada o totalmentecargada para que salga cara. Lanzamos la moneda n veces y registramos la sucesion de carasy cecas. Con esa informacion queremos estimar que clase de moneda tenemos.

Cada lanzamiento de la moneda se modela con una variable aleatoria X con distribucionBernoulli(θ), donde θ es la probabilidad de que la moneda salga cara. El espacio parametricoes el conjunto Θ = 1/2, 1.

El estimador de maxima verosimilitud para θ, basado en los valores x = (x1, . . . , xn) deuna muestra aleatoria X = (X1, . . . , Xn) de la variableX, es el valor de θmv(x) ∈ Θ = 1/2, 1que maximiza la funcion de verosimilitud L(θ|x). Para encontrarlo comparamos los valoresde la funcion de verosimilitud L(1/2|x) y L(1|x):

L(1/2|x) =n∏

i=1

f(xi|1/2) = (1/2)n, L(1|x) = 1

n∑

i=1

xi = n

.

En consecuencia, el estimador de maxima verosimilitud para θ, basado en los valores x =(x1, . . . , xn) de una muestra aleatoria X = (X1, . . . , Xn) es

θmv(x) =1

21

n∑

i=1

xi < n

+ 1

n∑

i=1

xi = n

.

Por lo tanto, el estimador de maxima verosimilitud para θ basado en una muestra aleatoriaX = (X1, . . . , Xn) es

θmv(X) =1

21

n∑

i=1

Xi < n

+ 1

n∑

i=1

Xi = n

.

Por ejemplo, si en 10 lanzamientos de la moneda se observaron 10 caras, el estimador demaxima verosimilitud para θ es θmv = 1; en cambio si se observaron 8 caras y 2 cecas, elestimador de maxima verosimilitud es θmv = 1/2.

Ejemplo 3.3.

Sea X una variable aleatoria con funcion densidad dada por

f(x|θ) =1

2(1 + θx)1x ∈ [−1, 1], θ ∈ [−1, 1].

Supongamos que queremos hallar el estimador de maxima verosimilitud para θ basado en larealizacion de una muestra aleatoria tamano 1, X1. Si se observa el valor x1, la funcion deverosimilitud adopta la forma

L(θ|x1) =1

2(1 + θx1)

El grafico de L(θ|x1) es un segmento de recta de pendiente x1. Como se trata de una recta elmaximo se alcanza en alguno de los extremos del intervalo Θ = [−1, 1]:

1. si x1 < 0, el maximo se alcanza en θ = −1,

11

Page 237: espacios de probabilidad

2. si x1 = 0, el maximo se alcanza en cualquiera de los valores del intervalo Θ,

3. si x1 > 0, el maximo se alcanza en θ = 1.

Abusando de la notacion tenemos que

θmv(x1) = −1x1 < 0 + Θ1x1 = 0 + 1x1 > 0.

Por lo tanto,

θmv(X1) = −1X1 < 0 + Θ1X1 = 0 + 1X1 > 0.

Ejemplo 3.4.

Sea X una variable aleatoria con funcion densidad dada por

f(x|θ) =1

2(1 + θx)1x ∈ [−1, 1], θ ∈ [−1, 1].

Supongamos que una muestra aleatoria de tamano 2 arrojo los valores 1/2 y 1/4 y con esainformacion queremos hallar el estimador de maxima verosimilitud para θ. La funcion deverosimilitud adopta la forma

L(θ|1/2, 1/4) =1

4

(1 + θ

1

2

)(1 + θ

1

4

),

y su grafico es un segmento de parabola “concava” cuyas raıces son −4 y −2. Por lo tanto,θmv(1/2, 1/4) = 1.

Supongamos ahora que una muestra aleatoria de tamano 2 arrojo los valores 1/2 y −1/4 ycon esa informacion queremos hallar el estimador de maxima verosimilitud para θ. La funcionde verosimilitud adopta la forma

L(θ|1/2,−1/3) =1

4

(1 + θ

1

2

)(1 − θ

1

3

),

y su grafico es un segmento de parabola “convexa” cuyas raıces son −2 y 3. Por lo tanto,θmv(1/2,−1/3) = 0.5.

3.2. Calculo del emv para familias regulares

Sea F = Fθ : θ ∈ Θ una familia parametrica de distribuciones y sea f(x|θ) : θ ∈ Θla familia de funciones de densidad (o de probabilidad) asociada. Diremos que la familia Fes regular si satisface las siguientes condiciones:

1. El conjunto parametrico Θ ⊂ Rd es abierto.

2. El soporte de las funciones f(x|θ) no depende del parametro. Esto es, existe un conjuntoS tal que sopf(·|θ) := x ∈ R : f(x|θ) > 0 = S para todo θ ∈ Θ.

3. Para cada x ∈ S, la funcion f(x|θ) tiene derivadas parciales respecto de todas lascomponentes θj , j = 1, . . . , d.

12

Page 238: espacios de probabilidad

Supongamos ahora que X = (X1, . . . , Xn) es una muestra aleatoria de tamano n de unavariable aleatoria X con funcion de densidad (o de probabilidad) f(x|θ), θ ∈ Θ, pertenecientea una familia regular de distribuciones. Debido a que la familia es regular cada uno de losvalores observados pertenece al soporte comun de las funciones f(x|θ): x = (x1, . . . , xn) ∈ S

n.Por lo tanto, cualesquiera sean los valores observados, x = (x1, . . . , xn), vale que

L(θ|x) =n∏

i=1

f(xi|θ) > 0.

Esto habilita a tomar logaritmos y utilizar la propiedad “el logaritmo del producto es iguala la suma de los logaritmos”. En consecuencia, para cada x = (x1, . . . , xn) ∈ S

n, la funcionlogL(θ|x) esta bien definida y vale que

logL(θ|x) = logn∏

i=1

f(xi|θ) =n∑

i=1

log f(xi|θ). (19)

Como el logaritmo natural log(·) es una funcion monotona creciente, maximizar la funcionde verosimilitud L(θ|x) sera equivalente a maximizar logL(θ|x). La ventaja de maximizar ellogaritmo de la funcion de verosimilitud es que, bajo las condiciones de regularidad enunciadaspreviamente, los productos se convierten en sumas, aligerando considerablemente el trabajode computo del EMV ya que el EMV debe verificar el sistema de ecuaciones

∂ logL(θ|x)

∂θj= 0 j = 1, . . . , d. (20)

En vista de (19) el sistema de ecuaciones (20) se transforma en

n∑

i=1

∂ log f(xi|θ)∂θj

= 0, j = 1, . . . , d. (21)

Por este camino llegamos al siguiente resultado que provee la herramienta adecuada para elcalculo del EMV.

Lema 3.5. Sea X una variable aleatoria con funcion de densidad (o de probabilidad) f(x|θ),θ ∈ Θ ⊂ R

d, perteneciente a una familia regular de distribuciones. El estimador de maximaverosimilitud de θ, basado en los valores x = (x1, . . . , xn) de una muestra aleatoria X =(X1, . . . , Xn), es solucion del siguiente sistema de ecuaciones:

n∑

i=1

ψj(θ|xi) = 0 j = 1, . . . , d, (22)

donde, para cada x ∈ S, la funciones de θ, ψj(θ|x), j = 1, . . . , d, se definen por

ψj(θ|x) :=∂ log f(x|θ)

∂θj. (23)

Nota Bene. Por supuesto que las condiciones (22) son necesarias pero no suficientes paraque θ sea un maximo. Para asegurarse que θ es un maximo deberan verificarse las condi-ciones de segundo orden. Ademas debe verificarse que no se trata de un maximo relativo sinoabsoluto.

13

Page 239: espacios de probabilidad

Nota Bene. Si la funcion de densidad (o de probabilidad) f(x|θ) de la variable aleatoriaX pertenece a una familia regular uniparametrica de distribuciones, i.e., cuando el espacioparametrico Θ es un subconjunto de la recta real R, el sistema de ecuaciones (22) se reducea una sola ecuacion, denominada la ecuacion de verosimilitud,

n∑

i=1

ψ(θ|xi) = 0, (24)

donde, para cada x ∈ S, la funcion de θ, ψ(θ|x), se define por

ψ(θ|x) :=∂ log f(x|θ)

∂θ. (25)

Ejemplo 3.6 (Distribuciones de Bernoulli). Es facil ver que la familia de distribucionesBernoulli(θ), θ ∈ (0, 1), es una familia uniparametrica regular con funciones de probabilidadde la forma f(x|θ) = (1− θ)1−xθx, x = 0, 1. En consecuencia, para encontrar el estimador demaxima verosimilitud para θ basado en una muestra aleatoria X = (X1, . . . , Xn) podemosusar el resultado del Lema 3.5.

En primer lugar hallamos la expresion de la funcion ψ(θ|x) = ∂ log f(x|θ)∂θ . Observando que

log f(x|θ) = log(1 − θ)1−xθx = (1 − x) log(1 − θ) + x log θ,

y derivando respecto de θ obtenemos

ψ(θ|x) =1

1 − θ(x− 1) +

1

θx

Por lo tanto, la ecuacion de verosimilitud (24) adopta la forma

1

1 − θ

n∑

i=1

(xi − 1) +1

θ

n∑

i=1

xi = 0. (26)

Un poco de algebra muestra que para cada pareja a 6= b vale que:

1

1 − θa+

1

θb = 0 ⇔ θ =

b

b− a. (27)

Sigue de (27), poniendo a =∑n

i=1(xi − 1) =∑n

i=1 xi − n y b =∑n

i=1 xi, que la solucion de laecuacion (26) es

θ =1

n

n∑

i=1

xi.

Con un poco mas de trabajo, se puede verificar que dicha solucion maximiza el logaritmo dela verosimilitud.

En resumen, si x = (x1, . . . , xn) son los valores observados de una muestra aleatoriaX = (X1, . . . , Xn), el estimador de maxima verosimilitud para θ es el promedio (o media)muestral

θmv = θmv(x) =1

n

n∑

i=1

xi

14

Page 240: espacios de probabilidad

Por lo tanto, el estimador de maxima verosimilitud para θ, basado en una muestra aleatoriaX = (X1, . . . , Xn) de una variable con distribucion Bernoulli(θ), es el promedio muestral

θmv(X) =1

n

n∑

i=1

Xi. (28)

Nota Bene. El estimador de maxima verosimilitud para θ, basado en una muestra aleatoriaX = (X1, . . . , Xn), de una variable aleatoria con distribucion Bernoulli(θ),

X =1

n

n∑

i=1

Xi,

es una variable aleatoria. Subrayamos este hecho para que no se pierda de vista que losestimadores puntuales son funciones de la muestra aleatoria X = (X1, . . . , Xn) y por lo tantoson variables aleatorias. En el Ejemplo 3.6, el parametro θ es la media de la distribucion queproduce la muestra y el estimador de maxima verosimilitud para θ es el promedio muestral.Por lo tanto, θmv es un estimador insesgado, consistente y asintoticamente normal.

Nota Bene. Si la muestra aleatoria arrojo los valores 1, 1, . . . , 1, es facil ver que θmv = 1,en cambio si arrojo 0, 0, . . . , 0 resulta que θmv = 0. Estos resultados tambien coinciden conel promedio de los valores observados. Por lo tanto, el resultado obtenido en (28) se puedeextender al caso en que Θ = [0, 1].

Ejemplo 3.7 (Distribuciones de Bernoulli). Bajo el supuesto de que los valores de la secuencia

0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0. (29)

fueron arrojados por una muestra aleatoria de tamano 20 de una variable aleatoria X ∼Bernoulli(θ), el estimador de maxima verosimilitud arrojara como resultado la siguiente esti-macion para el parametro θ:

θmv(0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) =11

20= 0.55

Con esta estimacion podrıamos decir que la ley que produce esos valores es la distribucion deBernoulli (0.55). Por lo tanto, si queremos “reproducir” el generador de numeros aleatoriosque produjo esos resultados, debemos simular numeros aleatorios con distribucion de Bernoullide parametro 0.55.

Ejemplo 3.8 (Distribuciones normales con varianza conocida). Sea X = (X1, . . . , Xn) unamuestra aleatoria de una variable aleatoria X ∼ N (θ, σ2), con varianza σ2 > 0 conocida ymedia θ ∈ R. La familia de distribuciones normales N (θ, σ2), θ ∈ R, es una familia regularuniparametrica con densidades de la forma

f(x|θ) =1

σ√

2πe−

(x−θ)2

2σ2 .

15

Page 241: espacios de probabilidad

Usando el resultado del Lema 3.5 se puede ver que el estimador de maxima verosimilitud paraθ es

θmv(X) =1

n

n∑

i=1

Xi = X.

En efecto, como

ψ(θ|x) =∂ log f(x|θ)

∂θ=x− θ

σ2

la ecuacion de verosimilitud (24) equivale a

n∑

i=1

(xi − θ) = 0.

El resultado se obtiene despejando θ.

Ejemplo 3.9 (Distribuciones normales). La familia de distribuciones normales

N (µ, σ2) : µ ∈ R, σ2 > 0

es una familia regular con parametro bidimensional θ = (µ, σ2) ∈ Θ = R × (0,∞). Paraencontrar el estimador de maxima verosimilitud del parametro (µ, σ2) basado en una muestraaleatoria X = (X1, . . . , Xn) usaremos los resultados del Lema 3.5. La densidad de cadavariable X es

f(x|µ, σ2) = (2π)−12(σ2)− 1

2 exp

(−(x− µ)2

2σ2

)

con lo cual

log f(x|µ, σ2) = log(2π)−12 − 1

2log σ2 − (x− µ)2

2σ2.

En consecuencia,∂ log f(x|µ, σ2)

∂µ=x− µ

σ2

y∂ log f(x|µ, σ2)

∂σ2= − 1

2σ2+

(x− µ)2

2(σ2)2.

Luego el sistema de ecuaciones (22) se transforma en el sistema

1

σ2

(n∑

i=1

xi − nµ

)= 0,

1

2σ2

(−n+

1

σ2

n∑

i=1

(xi − µ)2

)= 0.

que tiene como solucion

µ =1

n

n∑

i=1

xi = x,

σ2 =1

n

n∑

i=1

(xi − x)2.

16

Page 242: espacios de probabilidad

Se puede comprobar que en ese punto de coordenadas (µ, σ2) se alcanza el maximo absolutode la funcion logL(µ, σ2|x).

Resumiendo, cuando la muestra aleatoria X = (X1, . . . , Xn) arroja los valores x =(x1, . . . , xn), el estimador de maxima verosimilitud para (µ, σ2) es el punto del conjun-to parametrico R × (0,∞) cuyas coordenadas son el promedio y la varianza muestrales:

µmv(x) = 1n

∑ni=1 xi = x y σ2

mv(x) = 1n

∑ni=1(xi − x)2.

Por lo tanto, el estimador de maxima verosimilitud para (µ, σ2), basado en una muestraaleatoria X = (X1, . . . , Xn) de variables normales, N (µ, σ2), es el punto en R × (0,∞) decoordenadas aleatorias

µmv(X) = X, σ2mv(X) =

1

n

n∑

i=1

(Xi − X)2. (30)

3.2.1. Familias exponenciales

Muchos modelos estadısticos pueden considerarse como casos particulares de una familiamas general de distribuciones.

Definicion 3.10 (Familias exponenciales). Decimos que la distribucion de una variablealeatoria X pertenece a una familia exponencial unidimensional de distribuciones, si podemosescribir su funcion de probabilidad o su funcion densidad como

f(x|θ) = ea(θ)T (x)+b(θ)+S(x), x ∈ S, (31)

donde, a y b son funciones de θ; T y S son funciones de x y S no depende de θ.

Nota Bene. Si las funciones a y b son derivables y el espacio parametrico Θ es abierto,las densidades (31) constituyen una familia regular uniparametrica y en consecuencia, paraencontrar el estimador de maxima verosimilitud de θ, basado en una muestra aleatoria X =(X1, . . . , Xn), se puede usar el resultado del Lema 3.5.

Debido a que el logaritmo de la densidad (31) es

log f(x|θ) = a(θ)T (x) + b(θ) + S(x)

tenemos que

ψ(θ|x) =∂ log f(x|θ)

∂θ= a′(θ)T (x) + b′(θ)

y en consecuencia, la ecuacion de verosimilitud (24) adopta la forma

a′(θ)n∑

i=1

T (xi) + nb′(θ) = 0.

Por lo tanto, el estimador de maxima verosimilitud para θ satisface la ecuacion

−b′(θ)a′(θ)

=1

n

n∑

i=1

T (xi). (32)

17

Page 243: espacios de probabilidad

Ejemplo 3.11 (Distribuciones exponenciales). Sea X una variable aleatoria con distribucionExponencial(λ), λ > 0. Podemos escribir

f(x|λ) = λe−λx = e−λx+log λ

Por lo tanto, la distribucion de X pertenece a una familia exponencial unidimensional cona(λ) = −λ, b(λ) = log λ, T (x) = x, S(x) = 0 y S = (0,∞). La ecuacion de verosimilitud (32)adopta la forma

1

λ=

1

n

n∑

i=1

xi = x (33)

cuya solucion es λ = 1/x. Se puede verificar que el valor de λ ası obtenido maximiza ellogaritmo de la verosimilitud.

Si la muestra aleatoria X = (X1, . . . , Xn) arrojo los valores x = (x1, . . . , xn), el estimadorde maxima verosimilitud para λ es

λmv(x) = (x)−1.

Por lo tanto, el estimador de maxima verosimilitud para λ, basado en una muestra aleatoriaX = (X1, . . . , Xn) de variables con distribucion Exponencial(λ), es

λmv(X) =

(1

n

n∑

i=1

Xi

)−1

.

Ejemplo 3.12 (Distribuciones normales con media conocida). Sea X una variable aleatoriacon distribucion normal N (µ, σ2), donde la media µ es conocida y la varianza σ2 > 0. Podemosescribir

f(x|σ2) =1√2πσ

e−(x−µ)2

2σ2 = e−1

2σ2 (x−µ)2− 12

log σ2−log√

Por lo tanto, la distribucion de X pertenece a una familia exponencial unidimensional cona(σ2) = − 1

2σ2 , b(σ2) = −12 log σ2, T (x) = (x − µ)2, S(x) = − log

√2π y S = R. La ecuacion

de verosimilitud (32) adopta la forma

1/2σ2

1/2(σ2)2=

1

n

n∑

i=1

(xi − µ)2 (34)

cuya solucion es σ2 = 1n

∑ni=1(xi − µ)2. Se puede verificar que el valor de σ2 ası obtenido

maximiza el logaritmo de la verosimilitud.Si la muestra aleatoria X = (X1, . . . , Xn) arrojo los valores x = (x1, . . . , xn), el estimador

de maxima verosimilitud para σ2 es

σ2mv(x) =

1

n

n∑

i=1

(xi − µ)2.

Por lo tanto, el estimador de maxima verosimilitud para σ2, basado en una muestra aleatoriaX = (X1, . . . , Xn) de variables con distribucion N (µ, σ2), es

σ2mv(X) =

1

n

n∑

i=1

(Xi − µ)2.

18

Page 244: espacios de probabilidad

3.2.2. Malas noticias!

“Esta calle es mas angosta de lo que pensas”.(Proverbio Zen)

Ejemplo 3.13 (Fiabilidad). Sea T1, . . . , Tn una muestra aleatoria del tiempo de duracion sinfallas de una maquina cuya funcion intensidad de fallas es λ(t) = βtβ−11t > 0, donde elparametro de “desgaste” β > 0 es desconocido. La densidad de cada tiempo T es

f(t|β) = βtβ−1e−tβ1t > 0 (35)

Observando que

log f(t|β) = log β + (β − 1) log t− tβ

y derivando respecto de β se obtiene

∂ log f(x|β)

∂β=

1

β+ log t− tβ log t.

Por lo tanto, la ecuacion de verosimilitud (24) adopta la forma

n

β+

n∑

i=1

log ti −n∑

i=1

tβi log ti = 0 (36)

La mala noticia es que la ecuacion (36) no tiene una solucion analıtica explıcita.

El ejemplo anterior muestra que en algunos casos la ecuacion de verosimilitud no presentasolucion analıtica explıcita. En tales casos, los estimadores de maxima verosimilitud puedenobtenerse mediante metodos numericos.

Metodo de Newton-Raphson. El metodo de Newton-Raphson es un procedimiento it-erativo para obtener una raız de una ecuacion

g(θ) = 0, (37)

donde g(·) es una funcion suave. La idea es la siguiente: supongamos que θ es una raız de laecuacion (37). Desarrollando g(·) en serie de Taylor en torno de un punto θ0, obtenemos que

g(θ) ≈ g(θ0) + (θ − θ0)g′(θ0).

En consecuencia, si θ0 esta cerca de una raız θ de la ecuacion (37), deberıa ocurrir lo siguiente

θ ≈ θ0 −g(θ0)

g′(θ0). (38)

De la ecuacion (38) obtenemos el procedimiento iterativo

θj+1 = θj −g(θj)

g′(θj)(39)

que se inicia con un valor θ0 y produce un nuevo valor θ1 a partir de (39) y ası siguiendo,hasta que el proceso se estabilice, o sea, hasta que |θj+1 − θj | < ǫ para un ǫ > 0 “pequeno” yprefijado.

19

Page 245: espacios de probabilidad

Ejemplo 3.14 (Continuacion del Ejemplo 3.13). Para resolver la ecuacion (36) usaremos elprocedimiento de Newton-Raphson aplicado a la funcion

g(β) =n

β+

n∑

i=1

log ti −n∑

i=1

tβi log ti.

Como

g′(β) = − n

β2−

n∑

i=1

tβi (log ti)2,

el procedimiento iterativo (39) adopta la forma

βj+1 = βj +

nβ +

∑ni=1 log ti −

∑ni=1 t

βi log ti

nβ2 +

∑ni=1 t

βi (log ti)2

. (40)

Generando una muestra aleatoria de tamano n = 20 de una variable aleatoria T condensidad dada por (35) con β = 2 e inicializando el procedimiento iterativo (40) con β1 = Tobtuvimos que βmv = 2.3674.

Generando una muestra aleatoria de tamano n = 10000 de una variable aleatoria T condensidad dada por (35) con β = 2 e inicializando el procedimiento iterativo (40) con β1 = Tobtuvimos que βmv = 1.9969.

3.3. Calculo del emv para familias no regulares

Venıa rapido, muy rapido y se le solto un patın ...

Ahora mostraremos algunos ejemplos correspondientes a familias no regulares. En estoscasos hay que analizar donde se realiza el maximo “a mano”.

Ejemplo 3.15 (Distribuciones de Bernoulli con parametros discretos). Supongamos que losvalores observados en la secuencia (29) que aparece en el Ejemplo 3.7 fueron arrojados por unamuestra aleatoria de tamano n = 20 de una variable aleatoria X con distribucion Bernoulli(p),donde p = 0.45 o p = 0.65. La familia de distribuciones no es regular debido a que el espacioparametrico 0.45, 0.65 no es abierto. En esta situacion no puede utilizarse la metodologıadel Lema 3.5 pues conduce a resultados totalmente disparatados. Lo unico que se puede haceres comparar los valores L(0.45|x), L(0.65|x) y quedarse con el valor de p ∈ 0.45, 0.65 quehaga maxima la probabilidad de observar el resultado x:

L(0.45|x) = (0.45)11(0.55)9 = (7.0567...)10−7

L(0.65|x) = (0.65)11(0.35)9 = (6.8969...)10−7.

Por lo tanto, el estimador de maxima verosimilitud, basado en las observaciones (29), sera

pmv(0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = 0.45.

20

Page 246: espacios de probabilidad

Ejemplo 3.16 (Distribucion uniforme). La familia U(0, θ) : θ > 0 de distribuciones uni-formes no es una familia regular debido a que el soporte de la densidad de la distribucionU(0, θ) es [0, θ] (y depende claramente del valor del parametro θ). En esta situacion tampocopuede utilizarse la metodologıa del Lema 3.5. En este caso Θ = (0,∞) y las funciones dedensidad son de la forma

f(x|θ) =1

θ10 ≤ x ≤ θ.

La funcion de verosimilitud es

L(θ|x) =n∏

i=1

1

θ10 ≤ xi ≤ θ =

1

θn

n∏

i=1

10 ≤ xi ≤ θ

=1

θn1

max

i=1,...,nxi ≤ θ

.

Si θ < maxi xi, entonces L(θ|x) = 0. Si θ ≥ maxi xi, entonces L(θ|x) = θ−n, una funciondecreciente en θ. En consecuencia, su maximo se alcanza en

θ = maxi=1,...,n

xi.

Por lo tanto, el estimador de maxima verosimilitud para θ, basado en una muestra aleatoriaX = (X1, . . . , Xn) de una variable aleatoria X ∼ U(0, θ), es el maximo de la muestra

θmv(X) = X(n) := maxi=1,...,n

Xi.

Ejemplo 3.17 (Distribucion uniforme). La familia U(θ − 1/2, θ + 1/2) : θ ∈ R de dis-tribuciones uniformes no es una familia regular debido a que el soporte de la densidad dela distribucion U(θ − 1/2, θ + 1/2) es [θ − 1/2, θ + 1/2] (y depende claramente del valor delparametro θ). En este caso Θ = R y las funciones de densidad son de la forma

f(x|θ) = 1θ − 1/2 ≤ x ≤ θ + 1/2.La funcion de verosimilitud es

L(θ|x) =n∏

i=1

1θ − 1/2 ≤ xi ≤ θ + 1/2

= 1

max

i=1,...,nxi − 1/2 ≤ θ ≤ mın

i=1,...,nxi + 1/2

= 1x(n) − 1/2 ≤ θ ≤ x(1) + 1/2

,

puesθ − 1/2 ≤ xi ≤ θ + 1/2, i = 1, . . . , n,

si y solamente si

θ ≤ xi + 1/2 y xi − 1/2 ≤ θ, i = 1, . . . , n,

Como L(θ|x) se anula para θ < x(n) y para θ > x(1) + 1/2 y es constantemente 1 en elintervalo [x(n)−1/2, x(1) +1/2], tenemos que cualquier punto de ese intervalo es un estimadorde maxima verosimilitud para θ. En particular,

θ(x) =x(1) + x(n)

2

es un estimador de maxima verosimilitud para θ. Etc...

21

Page 247: espacios de probabilidad

3.4. Principio de invariancia

En lo que sigue presentamos una propiedad bastante importante del metodo de maximaverosimilitud.

Teorema 3.18 (Principio de invariancia). Sea X1, . . . , Xn una muestra aleatoria de unavariable aleatoria X cuya distribucion pertenece a la familia parametrica F = Fθ : θ ∈ Θ.Sea g : Θ → Λ una funcion biunıvoca de Θ sobre Λ. Si θ es un estimador de maximaverosimilitud para θ, entonces g(θ) es un estimador de maxima verosimilitud para λ = g(θ).

Demostracion. Como λ = g(θ) es una funcion biunıvoca de Θ sobre Λ, la funcion deverosimilitud L(θ|x) se puede expresar en funcion de λ ya que θ = g−1(λ). Denominemos ala funcion de verosimilitud, como funcion de λ, por L∗(λ|x). Es claro que

L∗(λ|x) = L(g−1(λ)|x).

Sea θmv ∈ Θ un estimador de maxima verosimilitud para θ y sea λ := g(θmv) ∈ Λ su imagenpor g. Hay que mostrar que vale lo siguiente:

L∗(λ|x) = maxλ∈Λ

L∗(λ|x)

Pero esto es inmediato, debido a que

L∗(λ|x) = L(g−1(λ)|x) = L(θmv|x) = maxθ∈Θ

L(θ|x) = maxλ∈Λ

L(g−1(λ)|x)

= maxλ∈Λ

L∗(λ|x).

Por lo tanto,

g(θ)mv = g(θmv).

Ejemplo 3.19. Sea X1, . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ N (µ, 1).En el Ejemplo 3.8 vimos que µmv = X es el estimador de maxima verosimilitud para µ.Queremos estimar

g(µ) = Pµ(X ≤ 0) = Φ(−µ).

Por el principio de invariancia, tenemos que

g(µmv) = Φ(−X)

es el estimador de maxima verosimilitud para Pµ(X ≤ 0).

Nota Bene En general, si λ = g(θ), aunque g no sea biunıvoca, se define el estimador demaxima verosimilitud de λ por

λ = g(θmv).

22

Page 248: espacios de probabilidad

4. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bolfarine, H., Sandoval, M. C.: Introducao a Inferencia Estatıstica. SBM, Rio de Janeiro.(2001).

2. Borovkov, A. A.: Estadıstica matematica. Mir, Moscu. (1984).

3. Cramer, H.: Metodos matematicos de estadıstica. Aguilar, Madrid. (1970).

4. Hoel P. G.: Introduccion a la estadıstica matematica. Ariel, Barcelona. (1980).

5. Maronna R.: Probabilidad y Estadıstica Elementales para Estudiantes de Ciencias. Ed-itorial Exacta, La Plata. (1995).

23

Page 249: espacios de probabilidad

Estimacion por intervalo

(Borradores, Curso 23)

Sebastian Grynberg

27-29 de mayo de 2013

Si ves al futuro, dile que no venga.(Juan Jose Castelli)

1

Page 250: espacios de probabilidad

Indice

1. Estimacion por intervalo 3

1.1. El metodo del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.1.1. Pivotes decrecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.1.2. Pivotes crecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2. Muestras de Poblaciones Normales 10

2.1. Media y varianza desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.1. Teorema llave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.2. Cotas e intervalos de confianza para la varianza . . . . . . . . . . . . . 112.1.3. Cotas e intervalos de confianza para la media . . . . . . . . . . . . . . 122.1.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2. Media de la normal con varianza conocida . . . . . . . . . . . . . . . . . . . . 132.3. Varianza de la normal con media conocida . . . . . . . . . . . . . . . . . . . . 14

3. Intervalos aproximados para ensayos Bernoulli 15

4. Comparacion de dos muestras normales 17

4.1. Cotas e intervalos de confianza para la diferencia de medias . . . . . . . . . . 174.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.1.2. Varianzas desconocidas. . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.2. Cotas e intervalos de confianza para el cociente de varianzas. . . . . . . . . . 19

5. Comparacion de dos muestras 19

5.1. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.2. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . . 20

6. Apendice: Demostracion del Teorema llave 22

6.1. Preliminares de Analisis y Algebra . . . . . . . . . . . . . . . . . . . . . . . . 226.2. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.3. Demostracion del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

7. Bibliografıa consultada 24

2

Page 251: espacios de probabilidad

1. Estimacion por intervalo

En lo que sigue consideramos el problema de estimacion de parametros utilizando inter-valos de confianza. Consideramos una muestra aleatoria X = (X1, . . . , Xn) de la variablealeatoria X cuya funcion de distribucion F (x) := P(X ≤ x), pertenece a la familia parametri-ca de distribuciones (distinguibles) F = Fθ : θ ∈ Θ, Θ ⊂ R. La idea basica es la siguiente:aunque no podamos determinar exactamente el valor de θ podemos tratar de construir un in-tervalo aleatorio [θ−, θ+] tal que con una probabilidad bastante alta, sea capaz de “capturar”el valor desconocido θ.

Definicion 1.1 (Intervalo de confianza). Un intervalo de confianza para θ de nivel β es unintervalo aleatorio, I(X), que depende de la muestra aleatoria X, tal que

Pθ(θ ∈ I(X)) = β, (1)

para todo θ ∈ Θ.

Definicion 1.2 (Cotas de confianza). Una cota inferior de confianza para θ, de nivel β,basada en la muestra aleatoria X, es una variable aleatoria θ1(X) tal que

Pθ(θ1(X) ≤ θ) = β, (2)

para todo θ ∈ Θ.Una cota superior de confianza para θ, de nivel β, basada en la muestra aleatoria X, es

una variable aleatoria θ2(X) tal que

Pθ(θ ≤ θ2(X)) = β, (3)

para todo θ ∈ Θ.

Nota Bene. En el caso discreto no siempre se pueden obtener las igualdades (1), (2) o (3).Para evitar este tipo de problemas se suele definir un intervalo mediante la condicion maslaxa Pθ(θ ∈ I(X)) ≥ β, ∀ θ. En este caso el mınθ Pθ(θ ∈ I(X)) se llama nivel de confianza.

Observacion 1.3. Sean θ1(X) una cota inferior de confianza de nivel β1 > 1/2 y θ2(X) unacota superior de confianza de nivel β2 > 1/2, tales que Pθ(θ1(X) ≤ θ2(X)) = 1 para todoθ ∈ Θ. Entonces,

I(X) = [θ1(X), θ2(X)]

define un intervalo de confianza para θ de nivel β = β1 + β2 − 1. En efecto,

Pθ (θ ∈ I(X)) = 1 − Pθ (θ < θ1(X) o θ > θ2(X))

= 1 − Pθ (θ < θ1(X)) − Pθ (θ > θ2(X))

= 1 − (1 − β1) − (1 − β2) = β1 + β2 − 1. (4)

La identidad (4) muestra que la construccion de intervalos de confianza se reduce a laconstruccion de cotas inferiores y superiores. Mas precisamente, si se quiere construir unintervalo de confianza de nivel β, basta construir una cota inferior de nivel β1 = (1 + β)/2 yuna cota superior de nivel β2 = (1 + β)/2.

Las ideas principales para construir intervalos de confianza estan contenidas en el ejemplosiguiente.

3

Page 252: espacios de probabilidad

Ejemplo 1.4 (Media de la normal con varianza conocida). Sea X = (X1, . . . , Xn) una mues-tra aleatoria de una variable aleatoria X ∼ N (µ, σ2), con varianza σ2 conocida. Para obtenerun intervalo de confianza de nivel β para µ, consideramos el estimador de maxima verosimil-itud para µ

X =1

n

n∑

i=1

Xi.

La distribucion de X se obtiene utilizando los resultados conocidos sobre sumas de normalesindependientes y de cambio de escala:

X ∼ N(

µ,σ2

n

).

En consecuencia,

√n(X − µ

)

σ∼ N (0, 1) .

Por lo tanto, para cada µ ∈ R vale que

(−z(1+β)/2 ≤

√n(X − µ

)

σ≤ z(1+β)/2

)= β.

Despejando µ de las desigualdades dentro de la probabilidad, resulta que

(X − σ√

nz(1+β)/2 ≤ µ ≤ X +

σ√n

z(1+β)/2

)= β,

y por lo tanto el intervalo

I(X) =

[X − σ√

nz(1+β)/2, X +

σ√n

z(1+β)/2

]

es un intervalo de confianza para µ de nivel β.

Nota Bene. Las ideas principales para construir el intervalo de confianza contenidas en elejemplo anterior son las siguientes:

1. Obtener un estimador del parametro y caracterizar su distribucion.

2. Transformar el estimador de parametro hasta convertirlo en una variable aleatoria cuyadistribucion “conocida” que no dependa del parametro.

3. Poner cotas para el estimador transformado y despejar el parametro.

4

Page 253: espacios de probabilidad

1.1. El metodo del pivote

Cuando se quieren construir intervalos de confianza para θ lo mas natural es comenzar laconstruccion apoyandose en algun estimador puntual del parametro θ(X) (cuya distribuciondepende de θ). Una tecnica general para construir intervalos de confianza, llamada el metododel pivote, consiste en transformar el estimador θ(X) hasta convertirlo en una variable aleato-ria cuya distribucion sea “conocida” y no dependa de θ. Para que la transformacion sea utilno debe depender de ningun otro parametro desconocido.

Definicion 1.5 (Pivote). Una variable aleatoria de la forma Q(X, θ) se dice una cantidadpivotal o un pivote para el parametro θ si su distribucion no depende de θ (ni de ningunparametro desconocido, cuando hay varios parametros).

Nota Bene. Por definicion, la distribucion del pivote Q(X, θ) no depende de θ. Para cadaα ∈ (0, 1) notaremos mediante qα el cuantil-α del pivote. Si el pivote tiene distribucioncontinua y su funcion de distribucion es estrictamente creciente, qα es la unica solucion de laecuacion

Pθ(Q(X, θ) ≤ qα) = α.

Metodo. Si se consigue construir un pivote Q(X, θ) para el parametro θ, el problema de laconstruccion de intervalos de confianza, de nivel β, se descompone en dos partes:

1. Encontrar parejas de numeros reales a < b tales que Pθ(a ≤ Q(X; θ) ≤ b) = β. Porejemplo, a = q 1−β

2

y b = q 1+β2

.

2. Despejar el parametro θ de las desigualdades a ≤ Q (X, θ) ≤ b.

Si el pivote Q(X, θ) es una funcion monotona en θ se puede ver que existen θ1(X) y θ2(X)tales que

a ≤ Q(X; θ) ≤ b ⇔ θ1(X) ≤ θ ≤ θ2(X)

y entoncesPθ (θ1(X) ≤ θ ≤ θ2(X)) = β,

de modo que I(X) = [θ1(X), θ2(X)] es un intervalo de confianza para θ de nivel β.

1.1.1. Pivotes decrecientes

Sea Q(X, θ) un pivote para θ que goza de las siguientes propiedades:

(i) la funcion de distribucion de Q(X, θ) es continua y estrictamente creciente;

(ii) para cada x, la funcion Q(x, θ) es continua y monotona decreciente en la variable θ:

θ1 < θ2 =⇒ Q(x, θ1) > Q(x, θ2)

Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote Q(X, θ).Para cada x, sea θ(x, γ) la unica solucion de la ecuacion en θ

Q(x, θ) = qγ .

5

Page 254: espacios de probabilidad

θ

q

q = Q(x, θ)

θ(x, γ)

θ : Q(x, θ) ≤ qγ

Como el pivote Q(X, θ) es decreciente en θ tenemos que

Q(X, θ) ≤ qγ ⇐⇒ θ(X, γ) ≤ θ.

En consecuencia,

Pθ(θ(X, γ) ≤ θ) = Pθ(Q(X, θ) ≤ qγ) = γ, ∀ θ ∈ Θ.

Por lo tanto, θ(X, γ) es una cota inferior de confianza para θ de nivel γ y una cota superiorde nivel 1 − γ.

Metodo

Sea β ∈ (0, 1). Si se dispone de un pivote Q(X, θ) que satisface las propiedades (i) y (ii)enunciadas mas arriba, entonces

la variable aleatoria, θ1(X), que se obtiene resolviendo la ecuacion Q(X, θ) = qβ es unacota inferior de confianza para θ, de nivel β.

la variable aleatoria, θ2(X), que se obtiene resolviendo la ecuacion Q(X, θ) = q1−β esuna cota superior de confianza para θ, de nivel β.

el intervalo aleatorio I(X) = [θ1(X), θ2(X)] cuyos extremos son las soluciones respectivasde las ecuaciones Q(X, θ) = q 1+β

2

y Q(X, θ) = q 1−β2

, es un intervalo “bilateral” de

confianza para θ, de nivel β.

Ejemplo 1.6 (Extremo superior de la distribucion uniforme). Sea X = (X1, . . . , Xn) unamuestra aleatoria de una variable aleatoria X ∼ U(0, θ), θ > 0.

6

Page 255: espacios de probabilidad

El estimador de maxima verosimilitud para θ es X(n) = max(X1, . . . , Xn) y tiene densidadde la forma

f(x) =nxn−1

θn10 ≤ x ≤ θ.

Como la distribucion de X(n) depende de θ, X(n) no es un pivote para θ. Sin embargo, podemosliberarnos de θ utilizando un cambio de variables lineal de la forma Q = X(n)/θ:

fQ(q) = nqn−110 ≤ q ≤ 1.

Por lo tanto,

Q(X, θ) = X(n)/θ

es un pivote para θ.

0 0.2 0.4 0.6 0.8 10

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Figura 1: Forma tıpica del grafico de la densidad del pivote Q(X, θ).

Los cuantiles-γ para Q se obtienen observando que

γ = P(Q(X, θ) ≤ qγ) =

∫ qγ

0fQ(q)dq ⇐⇒ qγ = γ1/n.

Construyendo un intervalo de confianza. Dado el nivel de confianza β ∈ (0, 1), para con-struir un intervalo de confianza de nivel β notamos que

β = Pθ (q1−β ≤ Q(X, θ) ≤ 1) = Pθ

(q1−β ≤ X(n)/θ ≤ 1

)

Despejando θ de las desigualdades dentro de la probabilidad, resulta que

I(X) =

[X(n),

X(n)

q1−β

]=

[X(n),

X(n)

(1 − β)1/n

]

es un intervalo de confianza para θ de nivel β.

7

Page 256: espacios de probabilidad

1.1.2. Pivotes crecientes

Sea Q(X, θ) un pivote para θ que goza de las siguientes propiedades:

(i) la funcion de distribucion de Q(X, θ) es continua y estrictamente creciente;

(ii’) para cada x, la funcion Q(x, θ) es continua y monotona creciente en la variable θ:

θ1 < θ2 =⇒ Q(x, θ1) < Q(x, θ2)

θ

q

θ(x, γ)

q = Q(x, θ)

θ : Q(x, θ) ≤ qγ

Sea γ ∈ (0, 1), arbitrario pero fijo y sea qγ el cuantil-γ del pivote Q(X, θ).Para cada x, sea θ(x, γ) la unica solucion de la ecuacion en θ

Q(x, θ) = qγ .

Como el pivote Q(X, θ) es creciente en θ tenemos que

Q(X, θ) ≤ qγ ⇐⇒ θ ≤ θ(X, γ).

En consecuencia,

Pθ(θ ≤ θ(X, γ)) = Pθ(Q(X, θ) ≤ qγ) = γ, ∀ θ ∈ Θ.

Por lo tanto, θ(X, γ) es una cota superior de confianza para θ de nivel γ y una cota inferiorde nivel 1 − γ.

8

Page 257: espacios de probabilidad

Metodo

Sea β ∈ (0, 1). Si se dispone de un pivote Q(X, θ) que satisface las propiedades (i) y (ii’)enunciadas mas arriba, entonces

la variable aleatoria, θ1(X), que se obtiene resolviendo la ecuacion Q(X, θ) = q1−β esuna cota inferior de confianza para θ, de nivel β.

la variable aleatoria, θ2(X), que se obtiene resolviendo la ecuacion Q(X, θ) = qβ es unacota superior de confianza para θ, de nivel β.

el intervalo aleatorio I(X) = [θ1(X), θ2(X)], cuyos extremos son las soluciones respec-tivas de las ecuaciones Q(X, θ) = q 1−β

2

y Q(X, θ) = q 1+β2

, es un intervalo “bilateral” de

confianza para θ, de nivel β.

Ejemplo 1.7 (Intensidad de la distribucion exponencial). Sea X = (X1, . . . , Xn) una muestraaleatoria de una variable aleatoria X ∼ Exp(λ), λ > 0.

El estimador de maxima verosimilitud para λ es 1/X, donde X = 1n

∑ni=1 Xi. Sabemos

que la suma nX =∑n

i=1 Xi tiene distribucion Γ(n, λ).Como la distribucion de nX depende de λ, nX no es un pivote para λ. Sin embargo,

podemos liberarnos de λ utilizando un cambio de variables lineal de la forma Q = anX,donde a es positivo y elegido adecuadamente para nuestros propositos. Si a > 0 y Q = anX,entonces Q ∼ Γ

(n, λ

a

). Poniendo a = 2λ, resulta que Q = 2λnX ∼ Γ

(n, 1

2

)= χ2

2n. (Recordarque Γ

(n2 , 1

2

)= χ2

n.)Por lo tanto,

Q(X, λ) = 2λnX = 2λn∑

i=1

Xi ∼ χ22n

es un pivote para λ.Construyendo una cota superior de confianza. Dado β ∈ (0, 1), para construir una cota

superior de confianza para λ, de nivel β, primero observamos que el pivote Q(X, λ) = 2λnXes una funcion continua y decreciente en λ. Debido a que

2λnX = χ2β ⇐⇒ λ =

χ2β

2nX

resulta que

λ2(X) =χ2

β

2∑n

i=1 Xi

es una cota superior de confianza para λ de nivel β.

Ilustracion. Consideremos ahora las siguientes 10 observaciones

0.5380, 0.4470, 0.2398, 0.5365, 0.0061,

0.3165, 0.0086, 0.0064, 0.1995, 0.9008.

En tal caso tenemos∑10

i=1 = 3.1992. Tomando β = 0.975, tenemos de la tabla de la distribu-cion χ2

20 que χ220,0.975 = 34.17, entonces λ2(x) = 5.34 es una cota superior de confianza para

λ de nivel β = 0.975.

9

Page 258: espacios de probabilidad

2. Muestras de Poblaciones Normales

En esta seccion estudiaremos la distribucion de probabilidades de los estimadores de maxi-ma verosimilitud para la media y la varianza de poblaciones normales. La tecnica de analisisse basa en la construccion de pivotes para los parametros desconocidos. Usando esos pivotesmostraremos como construir intervalos de confianza en los distintos escenarios posibles quese pueden presentar.

Notacion. En todo lo que sigue usaremos la siguiente notacion: para cada γ ∈ (0, 1), zγ

sera el unico numero real tal que Φ(zγ) = γ. Graficamente, a izquierda del punto zγ el areabajo la campana de Gauss es igual a γ.

Nota Bene. De la simetrıa de la campana de Gauss, se deduce que para cada β ∈ (0, 1)vale que z(1−β)/2 = −z(1+β)/2. Por lo tanto, para Z ∼ N (0, 1) vale que

P(−z(1+β)/2 ≤ Z ≤ z(1+β)/2

)= Φ

(z(1+β)/2

)− Φ

(−z(1+β)/2

)=

1 + β

2− 1 − β

2= β.

2.1. Media y varianza desconocidas

Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ2), conmedia µ y varianza desconocidas. Los estimadores de maxima verosimilitud para la media yla varianza, basados en X, son, respectivamente,

µmv(X) = X, σ2mv(X) =

1

n

n∑

i=1

(Xi − X)2. (5)

2.1.1. Teorema llave

Teorema 2.1 (Llave). Sea X = (X1, . . . , Xn) una muestra aleatoria de una distribucionN (µ, σ2). Valen las siguientes afirmaciones:

(a) Z =√

n(X−µ)σ tiene distribucion N (0, 1).

(b) U = n−1σ2 S2 = 1

σ2

∑ni=1(Xi − X)2 tiene distribucion χ2

n−1.

(c) Z y U son variables aleatorias independientes.

Nota Bene. El calificativo de “llave” para el Teorema 2.1 esta puesto para destacar quesus resultados son la clave fundamental en la construccion de intervalos de confianza y dereglas de decision sobre hipotesis estadısticas para distribuciones normales. La prueba de esteTeorema puede verse en el Apendice.

Corolario 2.2 (Pivotes para la media y la varianza). Sea X = (X1, . . . , Xn) una muestraaleatoria de una distribucion N (µ, σ2). Sean X = 1

n

∑ni=1 Xi y S2 = 1

n−1

∑ni=1(Xi − X)2.

Vale que

(a)

Q(X, σ2) =(n − 1)

σ2S2 (6)

10

Page 259: espacios de probabilidad

es un pivote para la varianza σ2 y su distribucion es una chi cuadrado con n− 1 gradosde libertad (en sımbolos, Q(X, σ2) ∼ χ2

n−1).

(b)

Q(X, µ) =

√n(X − µ)

S(7)

es un pivote para la media µ y su distribucion es una t de Student con n− 1 grados delibertad (en sımbolos, Q(X, µ) ∼ tn−1).

Demostracion.

(a) Inmediato de la afirmacion (b) del Teorema 2.1.

(b) La afirmacion (a) del Teorema 2.1 indica que Z =√

n(X−µ)/σ ∼ N (0, 1). Pero como σ2

es un parametro desconocido, la transformacion√

n(X − µ)/σ es inutil por sı sola paraconstruir un pivote. Sin embargo, la afirmacion (c) del Teorema 2.1 muestra que esteproblema se puede resolver reemplazando la desconocida σ2 por su estimacion insesgadaS2. Concretamente, tenemos que

Q(X, µ) =

√n(X − µ)

S=

√n(X − µ)/σ

S/σ=

√n(X − µ)/σ√

S2/σ2=

Z√U/(n − 1)

,

donde Z =√

n(X − µ)/σ ∼ N (0, 1) y U = (n−1)σ2 S2 ∼ χ2

n−1 son variables aleatoriasindependientes. En consecuencia, Q(X, µ) ∼ tn−1.

2.1.2. Cotas e intervalos de confianza para la varianza

Notar que el pivote para la varianza Q(X, σ2) definido en (6) goza de las propiedadesenunciadas en la seccion 1.1.1 para pivotes decrecientes:

la funcion de distribucion de Q(X, σ2) es continua y estrictamente creciente;

para cada x, la funcion Q(x, σ2) es continua y monotona decreciente respecto de σ2.

En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construirusando el resolviendo la ecuacion Q(X, σ2) = χ2

n−1, γ , donde chi2n−1, γ designa el cuantil-γ dela distribucion chi cuadrado con n − 1 grados de libertad.

Observando que

Q(X, σ2) = χ2n−1, γ ⇐⇒ (n − 1)S2

σ2= χ2

n−1, γ ⇐⇒ σ2 =(n − 1)S2

χ2n−1, γ

, (8)

se deduce que, para cada β ∈ (0, 1),

1.

σ21(X) =

(n − 1)S2

χ2n−1, β

es una cota inferior de confianza de nivel β para σ2;

11

Page 260: espacios de probabilidad

2.

σ22(X) =

(n − 1)S2

χ2n−1, 1−β

es una cota superior de confianza de nivel β para σ2;

3.

I(X) =

[(n − 1)S2

χ2n−1, (1+β)/2

,(n − 1)S2

χ2n−1, (1−β)/2

]

es un intervalo de confianza de nivel β para σ2.

2.1.3. Cotas e intervalos de confianza para la media

Notar que el pivote para la media Q(X, µ) definido en (7) goza de las propiedades enun-ciadas en la seccion 1.1.1 para pivotes decrecientes:

la funcion de distribucion de Q(X, µ) es continua y estrictamente creciente;

para cada x, la funcion Q(x, µ) es continua y monotona decreciente respecto de µ.

En consecuencia, las cotas e intervalos de confianza para la varianza se pueden construirusando el resolviendo la ecuacion Q(X, µ) = tn−1, γ , donde tn−1, γ designa el cuantil-γ de ladistribucion t de Student con n − 1 grados de libertad.

Observando que

Q(X, µ) = tn−1, γ ⇐⇒√

n(X − µ)

S= tn−1, γ ⇐⇒ µ = X − S√

ntn−1, γ , (9)

y usando que que la densidad de la distribucion tn−1 es simetrica respecto del origen (i.e,tn−1, 1−γ = −tn−1, γ), tenemos que, para cada β ∈ (0.5, 1),

1.

µ1(X) = X − S√n

tn−1, β

es una cota inferior de confianza de nivel β para µ;

2.

µ2(X) = X − S√n

tn−1, 1−β = X +S√n

tn−1, β

es una cota superior de confianza de nivel β para µ;

3.

I(X) =

[X − S√

ntn−1, (1+β)/2, X +

S√n

tn−1, (1+β)/2

]

es un intervalo de confianza de nivel β para µ.

12

Page 261: espacios de probabilidad

2.1.4. Ejemplo

Para fijar ideas vamos a construir intervalos de confianza de nivel β = 0.95 para la mediay la varianza de una variable normal N (µ, σ2), basados en una muestra aleatoria de volumenn = 8 que arrojo los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.

El problema se resuelve recurriendo a las tablas de las distribuciones χ2 y t y haciendoalgunas cuentas.

Como n = 8 consultamos las tablas de χ27 y de t7. Para el nivel β = 0.95 tenemos que

(1+β)/2 = 0.975 y (1−β)/2 = 0.025. De acuerdo con las tablas χ27, 0.975 = 16.0127, χ2

7, 0.025 =

1.6898 y t7, 0.975 = 2.3646. Por otra parte, X = 11, S2 = 36/7 = 5.1428 y S = 2.2677.Algunas cuentas mas (y un poco de paciencia) permiten rematar este asunto. Salvo errores

de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la varianza,mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para la media.

2.2. Media de la normal con varianza conocida

Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ2), convarianza σ2 conocida. En el Ejemplo 1.4 mostramos que

Q(X, µ) =

√n(X − µ)

σ∼ N (0, 1)

es un pivote para la media µ.Como el pivote para la media goza de las propiedades enunciadas en la seccion 1.1.1 para

pivotes decrecientes,

la funcion de distribucion de Q(X, µ) es continua y estrictamente creciente,

para cada x, la funcion Q(x, µ) es continua y monotona decreciente respecto de µ,

las cotas e intervalos de confianza para la media se pueden construir resolviendo la ecuacionQ(X, µ) = zγ , donde zγ designa el cuantil-γ de la distribucion normal estandar N (0, 1).

Observando que

Q(X, µ) = zγ ⇐⇒√

n(X − µ)

σ= zγ ⇐⇒ µ = X − σ√

nzγ ,

y usando que que la densidad de la distribucion N (0, 1) es simetrica respecto del origen (i.e,z1−γ = −zγ), tenemos que, para cada β ∈ (0.5, 1),

1.µ1(X) = X − σ√

nzβ

es una cota inferior de confianza de nivel β para µ;

2.µ2(X) = X +

σ√n

es una cota superior de confianza de nivel β para µ;

3.

I(X) =

[X − σ√

nz(1+β)/2, X +

σ√n

z(1+β)/2

]

es un intervalo de confianza de nivel β para µ.

13

Page 262: espacios de probabilidad

2.3. Varianza de la normal con media conocida

Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable aleatoria X ∼ N (µ, σ2), conmedia µ conocida. El estimador de maxima verosimilitud para σ2 es

σ2mv(X) =

1

n

n∑

i=1

(Xi − µ)2.

Para construir un pivote para la varianza observamos que

n

σ2σ2

mv(X) =n∑

i=1

(Xi − µ

σ

)2

=n∑

i=1

Z2i ,

donde Zi = Xi−µσ son variables independientes cada una con distribucion normal estandar

N (0, 1). En otras palabras, la distribucion de la variable aleatoria nσ2 σ2

mv(X) coincide con ladistribucion de una suma de la forma

∑ni=1 Z2

i , donde las Zi son N (0, 1) independientes. Porlo tanto,

Q(X, σ2) =nσ2

mv(X)

σ2∼ χ2

n

es un pivote para σ2.Como el pivote para la varianza Q(X, σ2) goza de las propiedades enunciadas en la seccion

1.1.1 para pivotes decrecientes,

la funcion de distribucion de Q(X, σ2) es continua y estrictamente creciente,

para cada x, la funcion Q(x, σ2) es continua y monotona decreciente respecto de σ2,

las cotas e intervalos de confianza para la varianza se pueden construir resolviendo la ecuacionQ(X, σ2) = χ2

n, γ , donde χ2n, γ designa el cuantil-γ de la distribucion chi cuadrado con n grados

de libertad.Observando que

Q(X, σ2) = χ2n, γ ⇐⇒ nσ2

mv(X)

σ2= χ2

n, γ ⇐⇒ σ2 =nσ2

mv(X)

χ2n−1, γ

,

se deduce que, para cada β ∈ (0, 1),

1.

σ21(X) =

nσ2mv(X)

χ2n, β

es una cota inferior de confianza de nivel β para σ2;

2.

σ22(X) =

nσ2mv(X)

χ2n, 1−β

es una cota superior de confianza de nivel β para σ2;

3.

I(X) =

[nσ2

mv(X)

χ2n, (1+β)/2

,nσ2

mv(X)

χ2n, (1−β)/2

]

es un intervalo de confianza de nivel β para σ2.

14

Page 263: espacios de probabilidad

3. Intervalos aproximados para ensayos Bernoulli

Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable aleatoria X ∼ Bernoulli(p),donde n >> 1. El estimador de maxima verosimilitud para p es

X =1

n

n∑

i=1

Xi.

Para construir un pivote para la varianza observamos que de acuerdo con el Teorema cen-tral del lımite la distribucion aproximada de

∑ni=1 Xi es una normal N (np, np(1 − p)) y en

consecuencia

Q(X, p) =

√n(X − p)√p(1 − p)

∼ N (0, 1)

es un pivote asintotico para p.Usando metodos analıticos se puede mostrar que Q(X, p) es una funcion continua y de-

creciente en p ∈ (0, 1). Como el pivote asintotico para p goza de las propiedades enunciadasen la seccion 1.1.1 para pivotes decrecientes, las cotas e intervalos de confianza para p sepueden construir resolviendo la ecuacion Q(X, p) = zγ , donde zγ designa el cuantil-γ de ladistribucion normal estandar N (0, 1).

Para resolver la ecuacion Q(X, p) = z se elevan ambos miembros al cuadrado y se obtieneuna ecuacion cuadratica en p cuya solucion es

p =z2 + 2nX

2z2 + 2n± z

√z2 + 4nX(1 − X)

2z2 + 2n

Usando que la densidad de la distribucion N (0, 1) es simetrica respecto del origen tenemosque, para cada β ∈ (0.5, 1),

1.

p1(X) =z2β + 2nX

2z2β + 2n

−zβ

√z2β + 4nX(1 − X)

2z2β + 2n

es una cota inferior de confianza de nivel β para p;

2.

p2(X) =z2β + 2nX

2z2β + 2n

+zβ

√z2β + 4nX(1 − X)

2z2β + 2n

es una cota superior de confianza de nivel β para p;

3.

I(X) =

z2(1+β)/2 + 2nX

2z2(1+β)/2 + 2n

±z(1+β)/2

√z2(1+β)/2 + 4nX(1 − X)

2z2(1+β)/2 + 2n

(10)

donde [a ± b] = [a − b, a + b], es un intervalo de confianza de nivel β para p.

15

Page 264: espacios de probabilidad

1/2 1/2 sen αα

Ejemplo 3.1 (Las agujas de Buffon). Se arroja al azar una aguja de longitud 1 sobre unplano dividido por rectas paralelas separadas por una distancia igual a 2.

Si localizamos la aguja mediante la distancia ρ de su centro a la recta mas cercana y elangulo agudo α entre la recta y la aguja, el espacio muestral es el rectangulo 0 ≤ ρ ≤ 1y 0 ≤ α ≤ π/2. El evento “la aguja interesecta la recta” ocurre cuando ρ ≤ 1

2 sen α y suprobabilidad es

p =

∫ π/20

12 sen αdα

π/2=

1

π.

Con el objeto de estimar π se propone construir un intervalo de confianza de nivel β = 0.95para p, basado en los resultados de realizar el experimentos de Buffon con n = 100 agujas.

Poniendo en (10) n = 100 y z(1+β)/2 = z0.975 = 1.96 se obtiene que

I(X) =

[1.962 + 200X

2(1.96)2 + 200± 1.96

√1.962 + 400X(1 − X)

2(1.96)2 + 200

]

=

[3.8416 + 200X

207.6832± 1.96

√3.8416 + 400X(1 − X)

207.6832

]

Al realizar el experimento se observo que 28 de las 100 agujas intersectaron alguna recta.Con ese dato el estimador de maxima verosimilitud para p es X = 0.28 y en consecuencia seobtiene el siguiente intervalo de confianza para p

I(X) =

[3.8416 + 200(0.28)

207.6832± 1.96

√3.8416 + 400(0.28)(1 − 0.28)

207.6832

]

= [0.28814 ± 0.08674] = [0.20140, 0.37488].

De donde se obtiene la siguiente estimacion: 2.66 ≤ π ≤ 4.96.

Nota Bene. Notando que la longitud del intervalo de confianza de nivel β > 1/2 para p sepuede acotar de la siguiente forma

|I(X)| =z(1+β)/2

√z2(1+β)/2 + 4nX(1 − X)

z2(1+β)/2 + n

≤z(1+β)/2

√z2(1+β)/2 + n

z2(1+β)/2 + n

<z(1+β)/2√

n,

se puede mostrar que para garantizar que |I(X)| < ǫ, donde ǫ es positivo y “pequeno” basta

tomar n ≥(z(1+β)/2/ǫ

)2.

16

Page 265: espacios de probabilidad

Ejemplo 3.2 (Las agujas de Buffon (continuacion)). ¿Cuantas agujas deben arrojarse si sedesea estimar π utilizando un intervalo de confianza para p, de nivel 0.95, cuyo margen deerror sea 0.01? De acuerdo con la observacion anterior basta tomar n ≥ (1.96/0.01)2 = 38416.

Simulando 38416 veces el experimento de Buffon obtuvimos 12222 exitos. Con ese dato elestimador de maxima verosimilitud para p es 0.31814... y el intervalo para p es

I(X) = [0.31350, 0.32282] .

De donde se obtiene la siguiente estimacion: 3.09766 ≤ π ≤ 3.18969.

4. Comparacion de dos muestras normales

Supongamos que X = (X1, . . . , Xm) es una muestra aleatoria de tamano m de una dis-tribucion normal N (µX , σ2

X), y que Y = (Y1, . . . , Yn) es una muestra aleatoria de tamano nde una distribucion normal N (µY , σ2

Y ). Mas aun, supongamos que las muestras X e Y sonindependientes. Usualmente los parametros µX , µY , σ2

X y σ2Y son desconocidos.

4.1. Cotas e intervalos de confianza para la diferencia de medias

Queremos estimar ∆ = µX − µY .

4.1.1. Varianzas conocidas

Para construir un pivote para la diferencia de medias, ∆, cuando las varianzas σ2X y σ2

Y

son conocidas, observamos que el estimador de maxima verosimilitud para ∆ = µX − µY esX − Y y que

X − Y ∼ N(

∆,σ2

X

m+

σ2Y

n

)(11)

En consecuencia,

Q(X,Y, ∆) =X − Y − ∆√

σ2X

m +σ2

Y

n

∼ N (0, 1), (12)

es un pivote para la diferencia de medias ∆.Como el pivote para la diferencia de medias, Q(X,Y, ∆), goza de las propiedades enun-

ciadas en la seccion 1.1.1 las cotas e intervalos de confianza para ∆ se pueden construirresolviendo la ecuacion Q(X,Y, ∆) = zγ , donde zγ designa el cuantil-γ de la distribucionN (0, 1).

4.1.2. Varianzas desconocidas.

Supongamos ahora que las varianzas σ2X y σ2

Y son desconocidas. Hay dos posibilidades:las varianzas son iguales o las varianzas son distintas.

17

Page 266: espacios de probabilidad

Caso 1: Varianzas iguales. Supongamos que σ2X = σ2

Y = σ2. En tal caso

Z =X − Y − ∆√

σ2

m + σ2

n

=X − Y − ∆√

σ2√

1m + 1

n

∼ N (0, 1).

La varianza desconocida σ2 se puede estimar ponderando “adecuadamente” los estimadoresde varianza S2

X = 1m−1

∑(Xi − X)2 y S2

Y = 1n−1

∑(Yj − Y )2,

S2P :=

m − 1

m + n − 2S2

X +n − 1

m + n − 2S2

Y =(m − 1)S2

X + (n − 1)S2Y

m + n − 2.

Se puede mostrar que

U :=(n + m − 2)

σ2S2

P =(m − 1)S2

X + (n − 1)S2Y

σ2∼ χn+m−2.

Como las variables Z y U son independientes, se obtiene que

T =Z√

U/(m + n − 2)=

X − Y − ∆√S2

P

√1m + 1

n

∼ tm+n−2

Por lo tanto,

Q(X,Y, ∆) =X − Y − ∆√S2

P

√1m + 1

n

(13)

es un pivote para la diferencia de medias ∆. Debido a que el pivote goza de las propiedadesenunciadas en la seccion 1.1.1, las cotas e intervalos de confianza para ∆ se pueden construirresolviendo la ecuacion Q(X,Y, ∆) = tm+n−2, γ , donde tm+n−2 γ designa el cuantil-γ de ladistribucion t de Student con m + n − 2 grados de libertad.

Caso 2: Varianzas distintas. En varios manuales de Estadıstica (el de Walpole, porejemplo) se afirma que la distribucion de la variable

Q(X,Y, ∆) =X − Y − ∆√

S2X

m +S2

Y

n

es una t de Student con ν grados de libertad, donde

ν =

(S2

X

m +S2

Y

n

)2

„S2

Xm

«2

m−1 +

„S2

Yn

«2

n−1

Es de suponer que este “misterioso” valor de ν es el resultado de alguna controversia entreEstadısticos profesionales con suficiente experiencia para traducir semejante jeroglıfico. Sinembargo,ninguno de los manuales se ocupa de revelar este misterio.

18

Page 267: espacios de probabilidad

4.2. Cotas e intervalos de confianza para el cociente de varianzas.

Queremos estimar el cociente de las varianzas R = σ2X/σ2

Y .Si las medias µX y µY son desconocidas, las varianzas σ2

X y σ2Y se pueden estimar mediante

sus estimadores insesgados S2X = 1

m−1

∑mi=1(Xi − X)2 y S2

Y = 1n−1

∑nj=1(Yj − Y )2.

Debido a que las variables

U :=(m − 1)

σ2X

S2X ∼ χ2

m−1 y V :=(n − 1)

σ2Y

S2Y ∼ χ2

n−1

son independientes, tenemos que el cociente

U/(m − 1)

V/(n − 1)=

S2X/σ2

X

S2Y /σ2

Y

=1

R

(S2

X

S2Y

)

se distribuye como una F de Fisher con m − 1 y n − 1 grados de libertad.Por lo tanto,

Q(X,Y, R) =1

R

(S2

X

S2Y

)∼ Fm−1, n−1

es un pivote para el cociente de varianzas R = σ2X/σ2

Y . Debido a que el pivote goza delas propiedades enunciadas en la seccion 1.1.1, las cotas e intervalos de confianza para R sepueden construir resolviendo la ecuacion Q(X,Y, R) = Fm−1,n−1, γ , donde Fm−1,n−1 γ designael cuantil-γ de la distribucion F de Fisher con m − 1 y n − 1 grados de libertad.

5. Comparacion de dos muestras

5.1. Planteo general

Supongamos que tenemos dos muestras aleatorias independientes X = (X1, . . . , Xm) eY = (Y1, . . . , Yn) con distribuciones dependientes de los parametros ξ y η, respectivamente.Queremos estimar la diferencia

∆ = ξ − η.

En lo que sigue mostraremos que, bajo ciertas hipotesis, podemos construir cotas e intervalosde confianza (aproximados) basados en el comportamiento de la diferencia ξm − ηn, dondeξm = ξ(X) y ηn = η(Y) son estimadores de los parametros ξ y η, respectivamente.

En todo lo que sigue vamos a suponer que los estimadores ξm y ηn tienen la propiedad denormalidad asintotica. Esto es,

√m(ξm − ξ) → N (0, σ2) cuando m → ∞,

√n(ηn − η) → N (0, τ2) cuando n → ∞,

donde σ2 y τ2 pueden depender de ξ y η, respectivamente. Sea N = m+n y supongamos quepara algun 0 < ρ < 1,

m

N→ ρ,

n

M→ 1 − ρ cuando m y n → ∞,

19

Page 268: espacios de probabilidad

de modo que, cuando N → ∞ tenemos

√N(ξm − ξ) → N

(0,

σ2

ρ

)y

√N(ηn − η) → N

(0,

τ2

1 − ρ

).

Entonces, vale que

√N[(ξm − ξ) − (ηn − η)

]→ N

(0,

σ2

ρ+

τ2

1 − ρ

)

o, equivalentemente, que

(ξm − ηn) − ∆√σ2

m + τ2

n

→ N (0, 1) (14)

Si σ2 y τ2 son conocidas, de (14) resulta que

Q(X,Y, ∆) =(ξm − ηn) − ∆√

σ2

m + τ2

n

(15)

es un pivote (aproximado) para la diferencia ∆.

Si σ2 y τ2 son desconocidas y σ2 y τ2 son estimadores consistentes para σ2 y τ2, se puede

demostrar que la relacion (14) conserva su validez cuando σ2 y τ2 se reemplazan por σ2 y τ2,respectivamente y entonces

Q(X,Y, ∆) =(ξm − ηn) − ∆√

cσ2

m +cτ2

n

(16)

es un pivote (aproximado) para la diferencia ∆.Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of

Large-Sample Theory. Springer, New York.

Nota Bene. Notar que el argumento anterior proporciona un metodo general de naturalezaasintotica. En otras palabras, en la practica los resultados que se obtienen son aproximados.Dependiendo de los casos particulares existen diversos refinamientos que permiten mejoraresta primera aproximacion.

5.2. Problema de dos muestras binomiales

Sean X = (X1, . . . , Xm) e Y = (Y1, . . . , Yn) dos muestras aleatorias independientes de dosvariables aleatorias X e Y con distribucion Bernoulli de parametros pX y pY , respectivamente.Queremos estimar la diferencia

∆ = pX = pY

Para construir cotas e intervalos de confianza usaremos los estimadores de maxima verosimil-itud para las probabilidades pX y pY

pX = X =1

m

m∑

i=1

Xi, pY = Y =1

n

n∑

j=1

Yj ,

20

Page 269: espacios de probabilidad

Vamos a suponer que los volumenes de las muestras, m y n, son suficientemente grandes yque ninguna de las dos variables esta sobre representada (i.e. m y n son del mismo orden demagnitud).

Debido a que los estimadores X y Y son consistentes para las pX y pY , resulta que losestimadores X(1−X) y Y (1− Y ) son consistentes para las varianzas pX(1−pX) y pY (1−pY ),respectivamente. Por lo tanto,

Q(X,Y, ∆) =X − Y − ∆√

1mX(1 − X) + 1

n Y (1 − Y )(17)

es un pivote (aproximado) para ∆.

Ejemplo 5.1. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 estan desocu-pados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 estan desocupados.¿Hay evidencia suficiente para afirmar que la tasa de desocupacion de la poblacion Argentinaes superior a la del Uruguay?

Solucion. La poblacion desocupada de la Argentina puede modelarse con una variablealeatoria X ∼ Bernoulli(pX) y la del Uruguay con una variable aleatoria Y ∼ Bernoulli(pY ).

Para resolver el problema utilizaremos una cota inferior de nivel de significacion β = 0.95para la diferencia ∆ = pX − pY basada en dos muestras aleatorias independientes X e Y devolumenes m = 180 y n = 200, respectivamente.

En vista de que el pivote definido en (17) goza de las propiedades enunciadas en la seccion1.1.1, la cota inferior de nivel β = 0.95 para ∆ se obtiene resolviendo la ecuacion Q(X,Y, ∆) =z0.95.

Observando que

Q(X,Y, ∆) = z0.95 ⇐⇒ X − Y − ∆√1

180X(1 − X) + 1200 Y (1 − Y )

= 1.64

⇐⇒ ∆ = X − Y − 1.64

√1

180X(1 − X) +

1

200Y (1 − Y )

De cuerdo con los datos observados, X = 30180 = 1

6 y Y = 25200 = 1

8 . Por lo tanto, la cota inferiorpara ∆ adopta la forma

∆(x,y) =1

6− 1

8− 1.64

√1

180

(1

6

)(5

6

)+

1

200

(1

8

)(7

8

)= −0.0178...

De este modo se obtiene la siguiente estimacion pX − pY > −0.0178 y de allı no se puedeconcluir que pX > pY .

21

Page 270: espacios de probabilidad

6. Apendice: Demostracion del Teorema llave

6.1. Preliminares de Analisis y Algebra

En la prueba del Teorema 2.1 se usaran algunas nociones de Algebra Lıneal1 y el Teoremade cambio de variables para la integral multiple2.

Teorema 6.1 (Cambio de variables en la integral multiple). Sea f : Rn → R una funcion

integrable. Sea g : Rn → R

n, g = (g1, . . . , gn) una aplicacion biyectiva, cuyas componentestienen derivadas parciales de primer orden continuas. Esto es, para todo 1 ≤ i, j ≤ n, lasfunciones ∂

∂yjgi(y) son continuas. Si el Jacobiano de g es diferente de cero en casi todo

punto, entonces,

Af(x)dx =

g−1(A)f(g(y))|Jg(y)|dy,

para todo conjunto abierto A ⊂ Rn, donde Jg(y) = det

((∂gi(y)

∂yj

)

i,j

).

El siguiente resultado, que caracteriza la distribucion de un cambio de variables aleatorias,es una consecuencia inmediata del Teorema 6.1.

Corolario 6.2. Sea X un vector aleatorio n-dimensional con funcion densidad de probabilidadfX(x). Sea ϕ : R

n → Rn una aplicacion que satisface las hipotesis del Teorema 6.1. Entonces,

el vector aleatorio Y = ϕ(X) tiene funcion densidad de probabilidad fY(y) de la forma:

fY(y) = fX(ϕ−1(y))|Jϕ−1(y)|.

Demostracion. Cualquiera sea el conjunto abierto A se tiene que

P (Y ∈ A) = P (ϕ(X) ∈ A) = P(X ∈ ϕ−1(A)) =

ϕ−1(A)fX(x)dx.

Aplicando el Teorema 6.1 para g = ϕ−1 se obtiene

ϕ−1(A)fX(x)dx =

AfX(ϕ−1(y))|Jϕ−1(y)|dy.

Por ende

P (Y ∈ A) =

AfX(ϕ−1(y))|Jϕ−1(y)|dy.

Por lo tanto, el vector aleatorio Y tiene funcion densidad de probabilidad de la forma fY(y) =fX(ϕ−1(y))|Jϕ−1(y)|.

1La nocion de base ortonormal respecto del producto interno canonico en Rn y la nocion de matriz ortogonal.

Si lo desea, aunque no es del todo cierto, puede pensar que las matrices ortogonales corresponden a rotacionesespaciales.

2Sobre la nomenclatura: Los vectores de R

n se piensan como vectores columna y se notaran en negritax = [x1 . . . xn]T .

22

Page 271: espacios de probabilidad

6.2. Lema previo

Observacion 6.3. Sea X = (X1, . . . , Xn) una muestra aleatoria de una distribucion N (0, σ2).Por independencia, la distribucion conjunta de las variables X1, . . . , Xn tiene funcion densidadde probabilidad de la forma

f(x) =n∏

i1

1√2πσ

exp

(− 1

2σ2x2

i

)=

1

(2π)n/2σnexp

(− 1

2σ2

n∑

i=1

x2i

)

=1

(2π)n/2σnexp

(− 1

2σ2||x||22

).

De la observacion anterior es claro que la distribucion conjunta de las variables X1, . . . , Xn

es invariante por rotaciones. Mas concretamente vale el siguiente resultado:

Lema 6.4 (Isotropıa). Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable N (0, σ2)y sea B ∈ R

n×n una matriz ortogonal, i.e. BT B = BBT = In. Si X = [X1 . . . Xn]T , entoncesY = [Y1 . . . Yn]T = BX tiene la misma distribucion conjunta que X. En particular las vari-ables aleatorias Y1, . . . , Yn son independientes y son todas N (0, σ2).

Demostracion. Es consecuencia inmediata del Teorema de cambio de variables para y =g(x) = Bx. Debido a que B es una matriz ortogonal, g−1(y) = BTy y Jg−1(y) = det

(BT)

=±1

fY (y) = fX(BTy)|det(BT )| =1

(2π)n/2σnexp

(− 1

2σ2||BTy||22

)|det(BT )|

=1

(2π)n/2σnexp

(− 1

2σ2||y||22

).

En la ultima igualdad usamos que ||BTy||2 = ||y||2 debido a que las transformaciones ortog-onales preservan longitudes.

6.3. Demostracion del Teorema.

Sin perder generalidad se puede suponer que µ = 0. Sea B = b1, b2, . . . , bn una baseortonormal de R

n, donde b1 = 1√n[1 . . . 1]T . Sea B ∈ R

n×n la matriz ortogonal cuya i-esima

fila es bTi . De acuerdo con el Lema 6.4 el vector aleatorio Y = [Y1 . . . Yn]T = BX tiene la

misma distribucion que X.En primer lugar, observamos que

Y1 = bT1 X =

1√n

n∑

i=1

Xi =√

n(X).

En segundo lugar,

n∑

i=1

Y 2i = Y T Y = (BX)T BX = XT BT BX = XT X =

n∑

i=1

X2i .

23

Page 272: espacios de probabilidad

En consecuencia,

n∑

i=2

Y 2i =

n∑

i=1

X2i − Y 2

1 =n∑

i=1

X2i − nX2 =

n∑

i=1

(Xi − X

)2.

Las variables Y1, . . . , Yn son independientes. Como√

n(X) depende de Y1, mientras que∑ni=1

(Xi − X

)2depende de Y2, . . . , Yn, resulta que X y S2 son independientes (lo que prueba

la parte (c)). Ademas,√

n(X) = Y1 ∼ N (0, σ2), por lo tanto Z =√

n(X)σ ∼ N (0, 1) (lo que

prueba la parte (a)). La parte (b) se deduce de que

(n − 1)S2

σ2=

1

σ2

n∑

i=1

(Xi − X

)2=

n∑

i=2

(Yi

σ

)2

∼ χ2n−1,

pues las n − 1 variables Y2/σ, . . . , Yn/σ son independientes y con distribucion N (0, 1).

7. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bolfarine, H., Sandoval, M. C.: Introducao a Inferencia Estatıstica. SBM, Rio de Janeiro.(2001).

2. Borovkov, A. A.: Estadıstica matematica. Mir, Moscu. (1984).

3. Cramer, H.: Metodos matematicos de estadıstica. Aguilar, Madrid. (1970).

4. Hoel P. G.: Introduccion a la estadıstica matematica. Ariel, Barcelona. (1980).

5. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999)

6. Maronna R.: Probabilidad y Estadıstica Elementales para Estudiantes de Ciencias. Ed-itorial Exacta, La Plata. (1995).

7. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,Massachusetts. (1972).

8. Walpole, R. E.: Probabilidad y estadıstica para ingenieros, 6a. ed., Prentice Hall, Mexico.(1998)

24

Page 273: espacios de probabilidad

Test de hipotesis y Test de bondad de ajuste(Borradores, Curso 23)

Sebastian Grynberg

3-12 de junio de 2013

Que no se oiga ya que los ricos devoran a los pobres,y que la justicia es solo para los ricos.

(Manuel Belgrano)

1

Page 274: espacios de probabilidad

Indice

1. Planteo del problema 31.1. Test de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Funcion de potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3. Nivel de significacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4. Sobre la construccion de reglas de decision . . . . . . . . . . . . . . . . . . 7

2. Regiones de confianza y test de hipotesis 8

3. El metodo del pivote 93.1. Hipotesis fundamental simple contra alternativa bilateral . . . . . . . . . . 93.2. Hipotesis fundamental simple contra alternativa unilateral . . . . . . . . . 103.3. Hipotesis fundamental unilateral contra alternativa unilateral . . . . . . . . 103.4. Algunos pivotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4. Test para media de normales 134.1. Hipotesis sobre media con varianza conocida . . . . . . . . . . . . . . . . . 134.2. Variaciones sobre el mismo tema . . . . . . . . . . . . . . . . . . . . . . . . 184.3. Hipotesis sobre media con varianza desconocida . . . . . . . . . . . . . . . 20

5. Test para probabilidad de exito de distribuciones Bernoulli 225.1. Test para moneda honesta (de lo simple a lo complejo) . . . . . . . . . . . 235.2. Hipotesis fundamental simple . . . . . . . . . . . . . . . . . . . . . . . . . 295.3. Hipotesis fundamental compuesta . . . . . . . . . . . . . . . . . . . . . . . 32

6. Test para varianza de normales 346.1. Hipotesis sobre varianza con media conocida . . . . . . . . . . . . . . . . . 346.2. Hipotesis sobre varianza con media desconocida . . . . . . . . . . . . . . . 36

7. Comparacion de dos muestras 377.1. Test para medias de dos muestras normales. . . . . . . . . . . . . . . . . . 37

7.1.1. Varianzas conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 377.1.2. Varianzas desconocidas pero iguales. . . . . . . . . . . . . . . . . . 37

7.2. Test F para varianzas de normales. . . . . . . . . . . . . . . . . . . . . . . 387.3. Planteo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397.4. Problema de dos muestras binomiales . . . . . . . . . . . . . . . . . . . . . 40

8. Test de la χ2 para bondad de ajuste 428.1. Planteo del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428.2. Test de bondad de ajuste para hipotesis simples . . . . . . . . . . . . . . . 438.3. Ejemplos (1a parte) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458.4. Comentarios sobre el metodo . . . . . . . . . . . . . . . . . . . . . . . . . . 488.5. Test de bondad de ajuste para hipotesis compuestas . . . . . . . . . . . . . 51

2

Page 275: espacios de probabilidad

9. Bibliografıa consultada 52

1. Planteo del problema

1.1. Test de hipotesis

Hipotesis estadıstica. El punto de partida es una muestra aleatoria X = (X1, . . . , Xn)de una variable aleatoria X cuya funcion de distribucion FX(x) = P(X ≤ x) pertenece auna familia parametrica de distribuciones de probabilidad, F = Fθ : θ ∈ Θ.

En este contexto, una hipotesis estadıstica respecto de la distribucion de probabilidadesde la variable aleatoria X es una afirmacion de la forma siguiente:

“F = Fθ para algun θ ∈ Θ∗”, (1)

donde Θ∗ es alguna parte del conjunto parametrico Θ. Para simplificar la escritura, lashipotesis estadısticas (1) seran denotadas

H : θ ∈ Θ∗. (2)

El problema general consiste en lo siguiente: en base a los resultados arrojados por lamuestra aleatoria X se quiere decidir entre dos hipotesis estadısticas sobre la distribucionde probabilidades de la variable aleatoria X.

Test de hipotesis. Sean Θ0 y Θ1 dos subconjuntos del espacio parametrico tales queΘ0 ∩ Θ1 = ∅. El problema consiste en decidir entre las dos hipotesis

H0 : θ ∈ Θ0 contra H1 : θ ∈ Θ1,

basandose en el conocimiento de una muestra aleatoria, X = (X1, . . . , Xn).Como los valores de θ que no pertenecen a Θ0 ∪ Θ1 no se examinan, se puede suponer

que Θ = Θ0 ∪ Θ1, y que H1 es la hipotesis contraria de H0. En tal caso, la hipotesisH1 se puede escribir en la forma H1 : θ /∈ Θ0. La hipotesis H0 sera llamada hipotesisfundamental o hipotesis nula y las hipotesis de la forma H : θ = θ1, para θ1 ∈ Θ1, sellamaran alternativas.

Un test (o regla de decision) para decidir entre las dos hipotesis H0 contra H1 es unaaplicacion medible δ : R

n → 0, 1 que le asigna a cada posible realizacion de la muestraaleatoria x una y solo una de las hipotesis. Concretamente, δ(X) es una variable aleatoriaa valores en el 0, 1. Cuando δ(X) = 1 se rechazara la hipotesis H0 a favor de la hipotesisH1. En cambio, cuando, δ(X) = 0 se aceptara la hipotesis H0.

Region crıtica. Sea δ : Rn → 0, 1 un test para decidir entre las hipotesis H0 contra

H1. La region del espacio Rn en la que δ(x) = 1:

R := x ∈ Rn : δ(x) = 1 (3)

3

Page 276: espacios de probabilidad

se denomina region crıtica o region de rechazo de la hipotesis fundamental. La region crıtica,R, se identifica con la regla de decision δ debido a que

δ(x) = 1x ∈ R. (4)

Tipos de error. Todo test para decidir entre las hipotesis H0 contra H1 conduce adecisiones erroneas. Hay dos clases de decisiones erroneas.

Las llamadas errores de tipo I que consisten en RECHAZAR la hipotesis H0 cuandoesta es verdadera.

Las llamadas errores de tipo II que consisten en ACEPTAR la hipotesis H0 cuandoesta es falsa.

Nota Bene. Cuando θ ∈ Θ0, la probabilidad de cometer un error de tipo I sera

P(Rechazar H0|θ) = P(δ(X) = 1|θ) = P(X ∈ R|θ).

Cuando θ ∈ Θ1, la probabilidad de cometer un error de tipo II sera

P(Aceptar H0|θ) = P(δ(X) = 0|θ) = P(X 6∈ R|θ) = 1 − P(X ∈ R|θ).

Ejemplo 1.1. Sea X = (X1, . . . , Xn) una muestra aleatoria de una distribucion uniformesobre el intervalo (0, θ), θ > 0. Para decidir entre las dos hipotesis

H0 : θ ≥ 2 contra H1 : θ < 2

consideramos el test δ(x) = 1x(n) ≤ 3/2, donde x(n) = max(x1, . . . , xn) y queremosdeterminar, para cada θ > 0, la probabilidad de decidir erroneamente.

Solucion. Para calcular las probabilidades de decidir erroneamente estudiaremos la fun-cion β : (0,∞) → [0, 1] definida por

β(θ) = P(Rechazar H0|θ) = P(δ(X) = 1|θ) = Pθ

(X(n) ≤

3

2

), θ > 0. (5)

Sabemos que Q(X, θ) = X(n)/θ es un pivote para θ y que su distribucion tiene densidadde probabilidades fQ(q) = nqn−110 < q < 1. En consecuencia,

β(θ) = Pθ

(X(n) ≤

3

2

)= P

(X(n)

θ≤ 3

)=

∫ mın(1, 3

2θ )

0

nqn−1dq

= mın

(1,

3

)n

= 1

0 < θ ≤ 3

2

+

(3

)n

1

θ >

3

2

. (6)

Por lo tanto,

4

Page 277: espacios de probabilidad

0 1 2 3 4 5 60

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 1: Grafico de la funcion β(θ) para distintos volumenes de muestra: en lınea quebradapara volumen n = 3; en lınea solida para volumen n = 11. Notar que cuando n aumentadisminuyen las probabilidades de los errores de tipo I, pero aumentan las de los errores detipo II.

la probabilidad de que ocurra un error de tipo I cuando el verdadero valor delparametro θ satisface θ ≥ 2 es β(θ) =

(32θ

)n,

la probabilidad de que ocurra un error de tipo II cuando el verdadero valor delparametro θ satisface θ ∈ (0, 3/2] es 1 − β(θ) = 1 − 1 = 0,

la probabilidad de que ocurra un error de tipo II cuando el verdadero valor delparametro θ satisface θ ∈ (3/2, 2) es 1 − β(θ) = 1 −

(32θ

)n.

1.2. Funcion de potencia

La calidad de un test de hipotesis δ(·) se caracteriza por el conjunto de probabilidadesde decisiones erroneas (o riesgos de decision).

Las probabilidades de los errores de un test δ(·) se pueden representar en el grafico dela funcion β : Θ → [0, 1] definida por

β(θ) := P (Rechazar H0| θ) = P (δ(X) = 1| θ) = Pθ (X ∈ R) , (7)

llamada la funcion de potencia del test.1

1En control de calidad, a la funcion L(θ) = 1 − β(θ) se la llama caracterıstica operativa y su grafico sellama la curva caracterıstica operativa del test.

5

Page 278: espacios de probabilidad

En efecto, la probabilidad de que ocurra un error de tipo I cuando el verdadero valordel parametro es θ ∈ Θ0 sera el valor de la probabilidad β(θ) y la probabilidad de cometerun error de tipo II cuando el verdadero valor del parametro es θ ∈ Θ1 sera el valor de laprobabilidad 1 − β(θ).

Nota Bene. Una test puede considerarse “bueno” si los valores de su funcion de potenciaestan cerca del 0 en la region fundamental Θ0 y cerca del 1 en la region alternativa Θ1. Engeneral, establecido el volumen de la muestra, X = (X1, . . . , Xn), no es posible construirtest capaces de conciliar ambas exigencias.

1.3. Nivel de significacion

Sea δ un test para decidir entre las hipotesis H0 : θ ∈ Θ0 contra H1 : θ ∈ Θ1. Elnumero

α(δ) = maxθ∈Θ0

β(θ) (8)

se llama nivel de significacion del test. Dicho en palabras, el nivel de significacion de untest es la maxima probabilidad de rechazar la hipotesis fundamental H0 cuando ella esverdadera.

Ejemplo 1.2. Sea X = (X1, . . . , Xn) una muestra aleatoria de una distribucion U(0, θ)y sea δ el test definido en el Ejemplo 1.1 para decidir entre las dos hipotesis H0 : θ ≥ 2contra H1 : θ < 2.

Debido a que la funcion de potencia β(θ) es decreciente en θ, el nivel de significaciondel test es

α(δ) = maxθ≥2

β(θ) = β(2) =

(3

4

)n

.

Para que, por ejemplo, el nivel de significacion del test sea ≤ 0.05, debe tomarse un volumende muestra n tal que (3/4)n ≤ 0.05. Equivalentemente, n ≥ log(0.05)/ log(3/4) = 10.413.Para n = 11 el nivel del test resulta α(δ) = 0.042...

Comentario sobre el nivel de significacion. Utilizar un test de nivel de significacionα significa que, en una larga serie de experimentos, no nos equivocaremos al rechazar lahipotesis H0, siendo que ella es verdadera, mas que un 100α % de los casos. La elecciondel nivel de significacion del test es arbitraria. Habitualmente, en calidad de α se eligealguno de los valores estandar, tales como 0.005, 0.01, 0.05, 0.1. Esta estandarizacion tienela ventaja de que permite reducir el volumen de las tablas que se utilizan en el trabajoestadıstico.

Nota Bene. La actitud que se tenga hacia la hipotesis fundamental antes de realizar elexperimento es una circunstancia importante que puede influir en la eleccion del nivel designificacion. Si se cree firmemente en su veracidad se necesitaran pruebas convincentes

6

Page 279: espacios de probabilidad

en su contra para que se renuncie a ella. En tales condiciones hacen falta criterios denivel α muy pequenos. Entonces, si la hipotesis fundamental es verdadera, la realizacionde un valor de muestra perteneciente a la region crıtica R sera demasiado inverosımil. Laconcepcion en la que se basa todo el razonamiento es la siguiente: si la probabilidad ǫ decierto evento A es muy pequena, consideramos practicamente imposible el hecho de queeste evento ocurra al realizar una sola prueba. Si ocurre, significa que su probabilidad noera tan pequena.

Maxima potencia. Elegido el nivel de significacion α del test de hipotesis, hay queprestarle atencion a los valores de su funcion de potencia en la region alternativa Θ1. Sila potencia en Θ1 resulta demasiado pequena, los riesgos de cometer errores de tipo II sonmuy grandes y tal vez sea conveniente sustituir el nivel de significacion por uno mayor.Entre todos los test de nivel α se prefieren aquellos que tengan la potencia mas alta entoda la region alternativa Θ1.

1.4. Sobre la construccion de reglas de decision

En la practica, las reglas de decision se construyen basandose en una estadıstica de lamuestra aleatoria X = (X1, . . . , Xn), i.e., son de la forma

δ(X) = 1T (X) ∈ C, (9)

donde T : Rn → R es una funcion a valores reales y C es una region de la recta real

denominada la region crıtica o region de rechazo del test: si δ(X) = 1 rechazamos lahipotesis H0 y si δ(X) = 0 no la rechazamos.

Nota Bene. La estadıstica de la muestra, T (X), con la que se construye la regla dedecision (9) debe contener toda la informacion relevante que hay en la muestra X parareconstruir el parametro θ sobre el que recaen las hipotesis H0 y H1. Por ejemplo, si se hacenhipotesis sobre la media de la variable aleatoria X, es inutil observar simplemente todoslos datos contenidos en la muestra aleatoria X = (X1, . . . , Xn). Es intuitivamente claroque si se quiere tomar una decision entre dos hipotesis sobre la media de una distribucionhay que observar el promedio muestral X := 1

n

∑ni=1 Xi. Si la muestra es suficientemente

grande, este valor se no puede desviar demasiado del verdadero valor de la media. Si eldesvıo fuese desconocido, para tener una idea de su tamano bastara con observar el valorde la varianza muestral S2 := 1

n−1

∑ni=1(Xi − X)2. Esos dos datos deberıan ser suficientes

para tomar una decision sobre una hipotesis sobre la media.

Algunos problemas

1. Dado un test caracterizar su funcion de potencia, determinar su nivel y los distintostipos de riesgos estadısticos.

2. Construccion de test prefijando el nivel α y el volumen de la muestra aleatoria n.

7

Page 280: espacios de probabilidad

3. Construccion de test prefijando el nivel α y la potencia β en alguno de los parametrosalternativos.

Nota Bene. El objetivo de estas notas es presentar una introduccion para tratar algunosproblemas de caracter muy elemental y el modo de resolverlos mediante razonamientosintuitivos (lo mas rigurosos posibles dentro del marco de un curso elemental).2

2. Regiones de confianza y test de hipotesis

Supongamos que disponemos de regiones de confianza S(X) de nivel β para el parametroθ y queremos construir un test para decidir entre las hipotesis

H0 : θ = θ0 contra H1 : θ 6= θ0.

Debido a que la region de confianza se construye con el objeto de capturar al verdaderovalor del parametro (con alta probabilidad de lograrlo) parece claro que si se observa unresultado x tal que la region S(x) contenga a θ0 deberemos aceptar la hipotesis H0 yrechazar la contraria H1. El argumento permite construir el siguiente test

δ(X) = 1S(X) 6∋ θ0.

cuyo nivel de significacion es

α(δ) = P (RechazarH0|θ0) = Pθ0(S(X) 6∋ θ0) = 1 − Pθ0

(S(X) ∋ θ0) = 1 − β.

Usando argumentos similares se obtienen los siguientes resultados.

1. Si θ1(X) es una cota inferior de confianza de nivel 1 − α para θ, entonces

δ(X) = 1θ0 < θ1(X)

es un test de nivel α para decidir entre las hipotesis

H0 : θ ≤ θ0 contra H1 : θ > θ0.

2. Si θ2(X) es una cota superior de confianza de nivel 1 − α para θ, entonces

δ(X) = 1θ0 > θ2(X)

es un test de nivel α para decidir entre las hipotesis

H0 : θ ≥ θ0 contra H1 : θ < θ0.

2Dependiendo de las normas de calidad que se le impongan al test y de la naturaleza de las hipotesisa ser confrontadas, existen metodologıas generales para construir test optimos que pueden consultarseen cualquier libro de Estadıstica matematica. Una exposicion rigurosa puede encontrarse en el libro deBorovkov.

8

Page 281: espacios de probabilidad

3. Si [θ1(X), θ2(X)] es un intervalo de confianza de nivel 1 − α para θ. Entonces

δ(X) = 1[θ1(X), θ2(X)] 6∋ θ0es un test de nivel α para decidir entre las hipotesis

H0 : θ = θ0 contra H1 : θ 6= θ0.

Nota Bene. Notar que en cualquiera de los tres casos se rechaza la hipotesis H0 cuandoy solo cuando los intervalos de confianza estan contenidos en la hipotesis alternativa H1.

3. El metodo del pivote

Cuando se quieren construir test de hipotesis para el parametro desconocido θ lo masnatural es comenzar la construccion apoyandose en algun estimador puntual del parametroθ(X) (cuya distribucion depende de θ). El metodo del pivote consiste en transformar elestimador θ(X) en un pivote Q(θ(X), θ) y utilizarlo para construir el test deseado.

Nota Bene. Por definicion, la distribucion del pivote Q(θ(X), θ) no depende de θ. Paracada γ ∈ (0, 1) notaremos mediante qγ el cuantil-γ del pivote.

En todo lo que sigue vamos a suponer que Q(θ(X), θ) es un pivote que goza de lassiguientes propiedades:

1. La funcion de distribucion de Q(θ(X), θ) es continua y estrictamente creciente.

2. La funcion Q(t, θ) es monotona decreciente en θ:

θ1 < θ2 =⇒ Q(t, θ1) > Q(t, θ2). (10)

3.1. Hipotesis fundamental simple contra alternativa bilateral

Se desea un test de nivel α para decidir entre las hipotesis

H0 : θ = θ0 contra H1 : θ 6= θ0.

Proponemos un test de la forma

δ(X) = 1

Q(θ(X), θ0) < qγ1

+ 1

Q(θ(X), θ0) > qγ2

(11)

Como la hipotesis fundamental es de la forma θ = θ0 el nivel de significacion del test es

α(δ) = β(θ0) = P (Rechazar H0|θ0) = P(Q(θ(X), θ0) < qγ1) + P

(Q(θ(X), θ0) > qγ2

)

= P(Q(θ(X), θ0) ≤ qγ1) + 1 − P

(Q(θ(X), θ0) ≤ qγ2

)= γ1 + 1 − γ2.

Poniendo γ1 = α/2 y γ2 = 1 − α/2 obtenemos que α(δ) = α. Por lo tanto, el test dehipotesis deseado puede obtenerse de la siguiente manera:

δ(X) = 1

Q(θ(X), θ0) < qα/2

+ 1

Q(θ(X), θ0) > q1−α/2

. (12)

9

Page 282: espacios de probabilidad

3.2. Hipotesis fundamental simple contra alternativa unilateral

Se desea un test de nivel α para decidir entre las hipotesis

H0 : θ = θ0 contra H1 : θ > θ0.

Proponemos un test de la forma

δ(X) = 1

Q(θ(X), θ0) > qγ

(13)

Como la hipotesis fundamental es de la forma θ = θ0 el nivel de significacion del test es

α(δ) = β(θ0) = P (Rechazar H0|θ0) = P

(Q(θ(X), θ0) > qγ

)= 1 − γ.

Poniendo γ = 1−α obtenemos que α(δ) = α. Por lo tanto, el test deseado puede obtenersede la siguiente manera:

δ(X) = 1

Q(θ(X), θ0) > q1−α

. (14)

3.3. Hipotesis fundamental unilateral contra alternativa unilat-eral

1.- Como consecuencia de que la funcion Q(t, θ) es decreciente en θ, el test definido en(14) tambien se puede utilizar como test de nivel α para decidir entre las hipotesis

H0 : θ ≤ θ0 contra H1 : θ > θ0.

En efecto, si θ ≤ θ0, entonces Q(θ(X), θ) ≥ Q(θ(X), θ0) y en consecuencia

β(θ) = P (Rechazar H0|θ) = Pθ

(Q(θ(X), θ0) > q1−α

)≤ Pθ

(Q(θ(X), θ) > q1−α

)= α.

Por lo tanto,maxθ≤θ0

β(θ) ≤ α.

Pero como β(θ0) = Pθ0

(Q(θ(X), θ0) > q1−α

)= α, resulta que

maxθ≤θ0

β(θ) = α.

10

Page 283: espacios de probabilidad

2.- Si se desea un test de nivel α para decidir entre las hipotesis

H0 : θ ≥ θ0 contra H1 : θ < θ0

basta considerar

δ(X) = 1

Q(θ(X), θ0) < qα

. (15)

En efecto, si θ ≥ θ0, entonces Q(θ(X), θ) ≤ Q(θ(X), θ0) y en consecuencia

β(θ) = P (Rechazar H0|θ) = Pθ

(Q(θ(X), θ0) < qα

)≤ Pθ

(Q(θ(X), θ) < qα

)= α.

Por lo tanto,maxθ≥θ0

β(θ) ≤ α.

Pero como β(θ0) = Pθ0(Q(θ(X), θ0 < qα) = α, resulta que

maxθ≥θ0

β(θ) = α.

3.4. Algunos pivotes

1. Para media de normales con varianza conocida. Si X1, . . . , Xn es una m.a. deuna distribucion N (µ, σ2), con σ2 conocida, entonces

√n(X − µ)

σ∼ N (0, 1)

es un pivote para µ.

2. Para media de normales con varianza desconocida. Si X1, . . . , Xn es una m.a.de una distribucion N (µ, σ2), con σ2 desconocida, entonces

√n(X − µ)

S∼ tn−1

es un pivote para µ.

3. Para varianza de normales con media conocida. Si X1, . . . , Xn es una m.a. deuna distribucion N (µ, σ2), con µ conocida, entonces

n

σ2σ2

mv =1

σ2

n∑

i=1

(Xi − µ)2 ∼ χ2n

es un pivote para σ2.

11

Page 284: espacios de probabilidad

4. Para varianza de normales con media desconocida. Si X1, . . . , Xn es una m.a.de una distribucion N (µ, σ2), con µ desconocida, entonces

(n − 1)

σ2S2 =

1

σ2

n∑

i=1

(Xi − X)2 ∼ χ2n−1

es un pivote para σ2.

5. Para probabilidad de exito de distribuciones Bernoulli. Si X1, . . . , Xn es unam.a. de una distribucion Bernoulli(p) y n >> 1, entonces

√n(X − p)√p(1 − p)

∼ N (0, 1)

es un pivote aproximado para p.

6. Para intensidad de exponenciales. Si X1, . . . , Xn es una m.a. de una distribucionExponencial(λ), entonces

2λnX = λ

n∑

i=1

Xi ∼ χ22n

es un pivote para λ.

7. Para extremo derecho de uniformes. Si X1, . . . , Xn es una m.a. de una distribu-cion U(0, θ), entonces

X(n)

θ=

max(X1, . . . , Xn)

θes un pivote para θ cuya densidad es f(x) = nxn−110 ≤ x ≤ 1.

8. Para diferencia de medias de normales con varianzas conocidas. Si X1, . . . , Xm

e Y1, . . . , Yn son dos m.a. independientes de distribuciones N (µX , σ2X) y N (µY , σ2

Y ),con σ2

X y σ2Y conocidas, entonces

X − Y − ∆√σ2

X

m+

σ2

Y

n

∼ N (0, 1)

es un pivote para la diferencia de medias ∆ = µX − µY .

9. Para diferencia de medias de normales con varianzas desconocidas peroiguales. Si X1, . . . , Xm e Y1, . . . , Yn son dos m.a. independientes de distribucionesN (µX , σ2) y N (µY , σ2), con varianza comun σ2 desconocida, entonces3

X − Y − ∆√

S2P

√1m

+ 1n

∼ tm+n−2

3

S2

P:=

(m − 1)S2

X+ (n − 1)S2

Y

m + n − 2

12

Page 285: espacios de probabilidad

es un pivote para la diferencia de medias ∆ = µX − µY .

10. Para cociente de varianzas de normales con medias desconocidas. Si X1, . . . , Xm

e Y1, . . . , Yn son dos m.a. independientes de distribuciones N (µX , σ2X) y N (µY , σ2

Y ),con µX y µY desconocidas, entonces

1

R

(S2

X

S2Y

)∼ Fm−1, n−1

es un pivote para el cociente de las varianzas R = σ2X/σ2

Y .

11. Para diferencia de probabilidades de exito de Bernoulli. Si X1, . . . , Xm eY1, . . . , Yn son dos m.a. independientes de distribuciones Bernoulli(pX) y Bernoulli(pY ).Entonces,

X − Y − ∆√1m

X(1 − X) + 1nY (1 − Y )

∼ N (0, 1)

es un pivote aproximado para la diferencia ∆ = pX − pY .

4. Test para media de normales

En esta seccion usaremos el metodo del pivote para construir test de hipotesis sobre lamedia de distribuciones normales.

4.1. Hipotesis sobre media con varianza conocida

Basados en una muestra aleatoria X = (X1, . . . , Xn) de una distribucion normal N (µ, σ2)con varianza σ2 conocida queremos construir un test de nivel de significacion α para decidirentre las hipotesis

H0 : µ = µ0 contra H1 : µ 6= µ0,

donde µ0 es un algun valor determinado.

Test de hipotesis

Para distribuciones normales con varianza conocida sabemos que

Q(X, µ) =

√n(X − µ)

σ∼ N (0, 1)

es un pivote para µ basado en X = 1n

∑ni=1 Xi.

Es facil ver que el pivote satisface las dos condiciones enunciadas al principio de laSeccion 3. De acuerdo con los resultados expuestos en la seccion 3.1

δ(X) = 1

√n(X − µ0)

σ< zα/2

+ 1

√n(X − µ0)

σ> z1−α/2

, (16)

13

Page 286: espacios de probabilidad

es un test de nivel α para decidir entre las hipotesis H0 : µ = µ0 contra H1 : µ 6= µ0.

Dicho en palabras, el test consiste en rechazar H0 si√

n(X−µ0)σ

< zα/2 o√

n(X−µ0)σ

> z1−α/2

y aceptarla en otro caso.

Nota Bene. Construir un test es la primera fase para decidir entre dos hipotesis. Con-struido el test es “obligatorio” analizar los riesgos de tomar decisiones erroneas. En otraspalabras, el test debe acompanarse con su correspondiente funcion de potencia.

Funcion de potencia

Los riesgos de tomar decisiones erroneas utilizando el test de hipotesis definido en(16) pueden evaluarse caracterizando su correspondiente funcion de potencia: β(µ) :=P(Rechazar H0|µ). Se trata de obtener una expresion “analıtica”que nos permita carac-terizar cuantitativa y cualitativamente las propiedades de dicha funcion.

Vale que

β(µ) = Φ

(zα/2 +

√n(µ0 − µ)

σ

)+ Φ

(zα/2 +

√n(µ − µ0)

σ

). (17)

En efecto,

β(µ) = P(Rechazar H0|µ)

= Pµ

(√n(X − µ0)

σ< zα/2

)+ Pµ

(√n(X − µ0)

σ> z1−α/2

)

= Pµ

(√n(X − µ)

σ+

√n(µ − µ0)

σ< zα/2

)

+Pµ

(√n(X − µ)

σ+

√n(µ − µ0)

σ> z1−α/2

)

= Pµ

(√n(X − µ)

σ< zα/2 +

√n(µ0 − µ)

σ

)

+Pµ

(√n(X − µ)

σ> −zα/2 −

√n(µ − µ0)

σ

)

= Φ

(zα/2 +

√n(µ0 − µ)

σ

)+ Φ

(zα/2 +

√n(µ − µ0)

σ

).

Notar que la funcion de potencia dada en (17) satisface las siguientes propiedades

(a) β(µ) es simetrica con respecto a µ0: β(µ0 + m) = β(µ0 − m) para todo m > 0.

(b) β(µ) es creciente4 sobre la semi-recta (µ0,∞).

(c) β(µ0) = α.

4Derivar con respecto de µ la expresion (17) y hacer cuentas.

14

Page 287: espacios de probabilidad

(d) lımµ↑+∞ β(µ) = 1

Esto significa que a medida que nos alejamos de la hipotesis µ = µ0 disminuye el riesgode aceptar dicha hipotesis cuando es falsa. La forma tıpica del grafico de la funcion depotencia correspondiente al test de la forma (16) para decidir entre las hipotesis H0 : µ = µ0

contra H1 : µ 6= µ1 puede observarse en las Figuras 2 y 3.

Nota Bene. La funcion de potencia es util para determinar cuan grande debe ser lamuestra aleatoria para conseguir ciertas especificaciones relativas a los errores de tipo II.Por ejemplo, supongamos que queremos determinar el volumen de la muestra n necesariopara asegurar que la probabilidad de rechazar H0 : µ = µ0 cuando el verdadero valor de lamedia es µ1 sea aproximadamente β. Esto es, queremos determinar n tal que

β(µ1) ≈ β.

De la expresion (17), esto es equivalente a

Φ

(zα/2 +

√n(µ0 − µ)

σ

)+ Φ

(zα/2 +

√n(µ − µ0)

σ

)≈ β. (18)

Aunque la ecuacion (18) no se pueda resolver analıticamente, se puede conseguir unasolucion aproximada mediante la siguiente observacion.

1. Supongamos que µ1 > µ0. En tal caso, el primer termino del lado izquierdo de (18) esdespreciable, (es facil ver que esta acotado por α/2 ≈ 0) y por lo tanto, el problemase reduce a resolver la ecuacion aproximada

Φ

(zα/2 +

√n(µ1 − µ0)

σ

)≈ β.

En consecuencia, basta tomar n tal que zα/2 +√

n(µ1−µ0)σ

≈ zβ o lo que es equivalente

n ≈(

σ(zβ − zα/2)

µ1 − µ0

)2

. (19)

2. Supongamos que µ1 < µ0. En tal caso, el segundo termino del lado izquierdo de(18) es despreciable, y por lo tanto, el problema se reduce a resolver la ecuacionaproximada

Φ

(zα/2 +

√n(µ0 − µ1)

σ

)≈ β.

En consecuencia, basta tomar n tal que

n ≈(

σ(zβ − zα/2)

µ0 − µ1

)2

. (20)

15

Page 288: espacios de probabilidad

El resultado obtenido en (19) coincide con el resultado obtenido en (20) y es una aproxi-macion razonable para el volumen de muestra necesario para asegurar que el error de tipoII en el valor µ = µ1 es aproximadamente igual a 1 − β.

Ejemplo 4.1. Si se envıa una senal de valor µ desde un sitio A, el valor recibido en elsitio B se distribuye como una normal de media µ y desvıo estandar 2. Esto es, el ruidoque perturba la senal es una variable aleatoria N (0, 4). El receptor de la senal en el sitioB tiene suficientes motivos para sospechar que recibira una senal de valor µ = 8. Analizarla consistencia de dicha hipotesis suponiendo que la misma senal fue enviada en formaindependientemente 5 veces desde el sitio A y el promedio del valor recibido en el sitio Bes X = 9.5.

Solucion. Se trata de construir un test de hipotesis para decidir entre las hipotesis

H0 : µ = 8 contra H1 : µ 6= 8,

usando una muestra X = (X1, . . . , X5) de una distribucion N (µ, 4).

Test de hipotesis. Para un nivel de significacion del 5 % el test es de la forma

δ(X) = 1

∣∣∣∣∣

√5(X − 8)

2

∣∣∣∣∣ > 1.96

(21)

Decision basada en la muestra observada. Calculamos el valor∣∣∣∣

√n(X − µ0)

σ

∣∣∣∣ =

∣∣∣∣∣

√5(9.5 − 8)

2

∣∣∣∣∣ = 1.68

Como este valor es menor que z1−α/2 = z0.975 = 1.96, se acepta la hipotesis µ = 8. En otraspalabras, los datos no son inconsistentes con la hipotesis µ = 8.

Nota Bene. Notar que, si se relaja el nivel de significacion al 10 %, entonces la hipotesisµ = 8 debe rechazarse debido a que el valor z0.95 = 1.645 es menor que 1.68.

Funcion de potencia. La funcion de potencia es

β(µ) = Φ

(−1.96 +

√5(8 − µ)

2

)+ Φ

(−1.96 +

√5(µ − 8)

2

). (22)

Si se quiere determinar la probabilidad de cometer un error de tipo II cuando el valorreal enviado es 10 basta poner µ = 10 en la expresion (22) y calcular 1 − β(10):

1 − Φ(−1.96 −

√5)− Φ

(−1.96 +

√5)

= Φ (−0.276) − Φ(−4.196) = 0.392.

16

Page 289: espacios de probabilidad

2 4 6 8 10 12 140

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 2: Grafico de la funcion de potencia (22) correspondiente al test de hipotesis definidoen (21) para decidir entre H0 : µ = 8 contra H1 : µ 6= 8 con un nivel de significacion del5 % y basado en una muestra de volumen 5.

Ejemplo 4.2. Volvamos al problema del Ejemplo 4.1. Cuantas senales deberıan enviarsepara que el test de nivel de significacion α = 0.05 para H0 : µ = 8 contra H1 : µ 6= 8 tengaal menos una probabilidad igual a 0.75 de rechazar esa hipotesis cuando µ = 9.2?

Solucion. Como z0.025 = −1.96 y z0.75 = 0.67, de (19) resulta n ≈(

2(0.67+1.96)9.2−8

)2

= 19.21.

Para una muestra de volumen 20 el test adopta la forma

δ(X) = 1

∣∣∣∣∣

√20(X − 8)

2

∣∣∣∣∣ > 1.96

= 1

∣∣∣√

5(X − 8)∣∣∣ > 1.96

(23)

y su funcion de potencia adopta la expresion

β(µ) = Φ(−1.96 +

√5(8 − µ)

)+ Φ

(−1.96 +

√5(µ − 8)

). (24)

En consecuencia,

β(9.2) = Φ (−4.6433) + Φ (0.72328) = 0.76525.

Dicho en palabras, si el mensaje se envıa 20 veces, entonces hay un 76.52 % de posibilidadesde que la hipotesis nula µ = 8 sea rechazada cuando la media verdadera es 9.2.

17

Page 290: espacios de probabilidad

2 4 6 8 10 12 140

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 3: Grafico de la funcion de potencia (24) correspondiente al test definido en (23)para decidir entre las hipotesis H0 : µ = 8 contra H1 : µ 6= 8 con un nivel de significaciondel 5 % y basado en una muestra de volumen 20.

Nota Bene. Comparando las Figuras 2 y 3 se puede ver que, fijado el nivel de signifi-cacion del test, cuando se aumenta el volumen de la muestra disminuyen los errores de tipoII.

4.2. Variaciones sobre el mismo tema

Basados en una muestra X = (X1, . . . , Xn) de una distribucion normal N (µ, σ2) convarianza σ2 conocida se quiere construir un test de nivel de significacion α para decidirentre las hipotesis

H0 : µ = µ0 contra H1 : µ > µ0,

donde µ0 es un algun valor determinado.Usando los resultados expuestos en la seccion 3.2 tenemos que

δ(X) = 1

√n(X − µ0)

σ> z1−α

. (25)

es un test de nivel α para decidir entre H0 : µ = µ0 contra H1 : µ 6= µ0. Dicho en palabras,el test de hipotesis consiste en rechazar H0 si X > µ0 + σ√

nz1−α y aceptarla en otro caso.

18

Page 291: espacios de probabilidad

Funcion de potencia. La funcion de potencia correspondiente al test (25) es

β(µ) = P (RechazarH0|µ) = Pµ

(√n(X − µ0)

σ> z1−α

)

= Pµ

(√n(X − µ)

σ+

√n(µ − µ0)

σ> z1−α

)

= Pµ

(√n(X − µ)

σ> −zα −

√n(µ − µ0)

σ

)

= Φ

(zα +

√n(µ − µ0)

σ

). (26)

De las propiedades de la funcion Φ(·) y de la expresion (26) para la funcion de potencia sededuce que

(a) β(µ) creciente.

(b) β(µ0) = α

(c) lımµ↑+∞ β(µ) = 1 y lımµ↓−∞ β(µ) = 0.

Debido a que la funcion de potencia (26) es creciente, el test definido en (25) tambiense puede usar para decidir, con un nivel de significacion α, entre la hipotesis

H0 : µ ≤ µ0 contra H1 : µ > µ0.

Ejemplo 4.3. Volvamos al problema presentado en el Ejemplo 4.1 pero supongamos queesta vez estamos interesados en testear con nivel de significacion, α = 0.05, la hipotesisH0 : µ ≤ 8 contra la hipotesis alternativa H1 : µ > 8. (Recordar que disponemos de muestraaleatoria de volumen 5 de una poblacion normal N (µ, 4) cuyo promedio resulto ser X = 9.5)

En este caso, el test de hipotesis definido en (25) puede enunciarse de la siguientemanera:

Rechazar H0 cuando X > 8 +2√5z0.95 = 9.4712 y aceptarla en otro caso. (27)

Si se observo que X = 9.5, entonces debe rechazarse la hipotesis µ ≤ 8 a favor de laalternativa µ > 9. La funcion de potencia correspondiente al test de hipotesis (27) es

β(µ) = Φ

(−1.64 +

√5(µ − 8)

2

)(28)

Si se quiere determinar la probabilidad de aceptar la hipotesis µ ≤ 8 cuando el valorreal enviado es µ = 10 basta poner µ = 10 en la expresion (28) y calculamos:

1 − β(10) = 1 − Φ(−1.64 +

√5)

= 0.27... (29)

19

Page 292: espacios de probabilidad

2 4 6 8 10 12 140

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 4: Grafico de la funcion de potencia (28) correspondiente al test definido en (27)para decidir entre las hipotesis H0 : µ ≤ 8 contra H1 : µ > 8 con un nivel de significaciondel 5 % y basado en una muestra de volumen 5.

4.3. Hipotesis sobre media con varianza desconocida

Basados en una muestra aleatoria X = (X1, . . . , Xn) de una distribucion normal N (µ, σ2)queremos construir un test de nivel de significacion α para decidir entre las hipotesis

H0 : µ = µ0 contra H1 : µ 6= µ0,

donde µ0 es un algun valor determinado.

Test de hipotesis

Para distribuciones normales sabemos que

Q(X, µ) =

√n(X − µ)

S∼ tn−1

es un pivote para µ basado en X = 1n

∑ni=1 Xi y S2 = 1

n−1

∑ni=1(Xi − X)2.

Es facil ver que el pivote satisface las dos condiciones enunciadas al principio de laSeccion 3. De acuerdo con los resultados expuestos en la seccion 3.1

δ(X) = 1

√n(X − µ0)

S< tn−1, α/2

+ 1

√n(X − µ0)

S> tn−1, 1−α/2

, (30)

es un test de nivel α para decidir entre las hipotesis H0 : µ = µ0 contra H1 : µ 6= µ0.

Dicho en palabras, el test en rechazar H0 si√

n(X−µ0)S

< tn−1, α/2 o√

n(X−µ0)S

> tn−1, 1−α/2 yaceptarla en otro caso.

20

Page 293: espacios de probabilidad

Ejemplo

Ejemplo 4.4. En la siguiente tabla se muestran las mediciones, en segundos de grado,obtenidas por James Short (1761), de la paralaje solar (angulo bajo el que se ve el radioecuatorial de la tierra desde el centro del sol) .

8.50 8.50 7.33 8.64 9.27 9.06 9.25 9.09 8.50 8.068.43 8.44 8.14 7.68 10.34 8.07 8.36 9.71 8.65 8.358.71 8.31 8.36 8.58 7.80 7.71 8.30 9.71 8.50 8.289.87 8.86 5.76 8.44 8.23 8.50 8.80 8.40 8.82 9.02

10.57 9.11 8.66 8.34 8.60 7.99 8.58 8.34 9.64 8.348.55 9.54 9.07

Con esos datos tenemos que X = 8.6162 y S = 0.749. En la Figura 5 se muestra unhistograma de los datos.

5 6 7 8 9 10 11 120

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Figura 5: Histograma de las mediciones obtenidas por James Short. Parece razonableasumir que las mediciones de la paralaje solar tienen distribucion normal.

Asumiendo que las mediciones tienen distribucion N (µ, σ2) queremos decidir, con unnivel de significacion α = 0.05, entre las hipotesis

H0 : µ = 8.798 contra H1 : µ 6= 8.798

Como n = 53 y t52, 0.025 = −t52, 0.975 = −2.0066, el test de hipotesis (30) adopta la forma

δ(X) = 1

√53(X − 8.798)

S< −2.0066

+ 1

√53(X − 8.798)

S> 2.0066

.

21

Page 294: espacios de probabilidad

Usando los datos de las mediciones tenemos que

√53(X − 8.798)

S=

√53(8.6162 − 8.798)

0.749= −1.7667.

Por lo tanto, no hay evidencia suficiente para rechazar que la paralaje solar es µ = 8.798.Usando como paralaje solar el valor µ = 8.798

′′

y como radio ecuatorial de la tierra elvalor R = 6378 km., trigonometrıa mediante, se puede determinar la distancia D entre latierra y el sol:

tan

(8.798

3600× π

180

)=

6378

D⇐⇒ D = 1.4953 × 108.

Lo que significa que la distancia entre la tierra y el sol es 149.53 millones de km.

5. Test para probabilidad de exito de distribuciones

Bernoulli

Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable aleatoria con distribucionBernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria, X, queremos construir test paradecidir entre dos hipotesis sobre la probabilidad de exito p.

La cantidad de exitos en la muestra

N =n∑

i=1

Xi

tiene distribucion Binomial(n, p) y resume toda la informacion relevante sobre el parametrop contenida en la muestra aleatoria X. La media y la varianza de N son, respectivamente,Ep[N ] = np y Vp(N) = np(1 − p).

Lema 5.1 (Dominacion estocastica). Sean 0 < p1 < p2 < 1 arbitrarios pero fijos. Si N1 ∼Binomial(n, p1) y N2 ∼ Binomial(n, p2), entonces para cada x ∈ R vale que

P(N2 ≤ x) ≤ P(N1 ≤ x).

Demostracion Sean U1, . . . , Un variables aleatorias independientes cada una con dis-tribucion U(0, 1). Para cada i = 1, . . . , n construya las siguientes variables

X1,i := 1Ui ≤ p1, X2,i := 1Ui ≤ p2.

Por construccion valen las siguientes propiedades:

(a) las variables X1,1, . . . , X1,n son iid Bernoulli(p1);

(b) las variables X2,1, . . . , X2,n son iid Bernoulli(p2);

22

Page 295: espacios de probabilidad

(c) para cada i vale que X2,i ≥ X1,i.

En consecuencia, las variables

N1 :=n∑

i=1

X1,i ∼ Binomial(n, p1), N2 :=n∑

i=1

X2,i ∼ Binomial(n, p2)

verifican que N1 ≤ N2. Se deduce entonces que que N2 ≤ x ⊆ N1 ≤ x, para cualquierx ∈ R. Por lo tanto,

P(N2 ≤ x) = P

(N2 ≤ x

)≤ P

(N1 ≤ x

)= P (N1 ≤ x) .

Corolario 5.2. Sea N una variable aleatoria con distribucion Binomial(n, p), p ∈ (0, 1).Fijado un valor x ∈ R

+, la funcion polinomica de grado n, h : (0, 1) → [0, 1], definida por

h(p) = Pp(N ≤ x) =

[x]∑

k=0

(n

k

)pk(1 − p)n−k

es decreciente.

5.1. Test para moneda honesta (de lo simple a lo complejo)

Se quiere decidir si una moneda es honesta o no lo es. Formalmente, se trata de construirun test para decidir entre las hipotesis

H0 : p =1

2contra H1 : p 6= 1

2.

1.- Se quiere decidir tirando la moneda 6 veces. ¿Que hacer? Observamos la cantidad Nde caras obtenidas en los 6 tiros. Para cada p tenemos que N ∼ Binomial(6, p). Cuandola moneda es honesta, E1/2[N ] = 3. Teniendo en cuenta la existencia de fluctuacionesparece razonable aceptar que la moneda es honesta cuando observamos que 2 ≤ N ≤ 4.Proponemos entonces el siguiente test

δ(X) = 1 − 12 ≤ N ≤ 4 = 1N < 2 + 1N > 4,

cuya funcion de potencia des

β(p) = Pp(N ≤ 1) + Pp(N ≥ 5) = (1 − p)6 + 6p(1 − p)5 + 6p5(1 − p) + p6.

Dada una moneda honesta, ¿que riesgo se corre de rechazarla como falsa? Esta preguntase contesta calculando el nivel de significacion del test α = β(1/2) = 14

64= 0.21875.

23

Page 296: espacios de probabilidad

0 0.2 0.4 0.6 0.8 10.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 6: Grafico de la funcion de potencia del test δ(X) = 1N < 2 + 1N > 4.

2.- Se propone el siguiente test : lanzar la moneda 100 veces y contar la cantidad de carasobservadas N . Si 40 ≤ N ≤ 60 se decide que la moneda es honesta. En caso contrario, sedecide que no lo es.

Definido el test lo unico que queda por hacer es evaluar los riesgos de decisiones erroneas.Para ello calculamos la funcion de potencia

β(p) = P(RechazarH0| p) = Pp(N < 40) + Pp(N > 60).

Para cada p la cantidad de caras observadas en 100 lanzamientos se distribuye como unaBinomial: N ∼ Binomial(100, p). En consecuencia,

β(p) =39∑

k=0

(100

k

)pk(1 − p)100−k +

100∑

k=61

(100

k

)pk(1 − p)100−k. (31)

Sin una herramienta computacional a la mano es insensato calcular riesgos utilizandola expresion obtenida en (31). Como el volumen de la muestra es 100 usando el teoremacentral del lımite, N ∼ N (100p, 100p(1 − p), podemos obtener una buena aproximacionde la funcion de potencia, (al menos para valores de p contenidos en el intervalo abierto(0.12, 0.88))

β(p) ≈ Φ

(40 − 100p√100p(1 − p)

)+ 1 − Φ

(60 − 100p√100p(1 − p)

)

= Φ

(4 − 10p√p(1 − p)

)+ Φ

(10p − 6√p(1 − p)

)(32)

24

Page 297: espacios de probabilidad

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 7: Grafico de la funcion de potencia del test δ(X) = 1N < 40 + 1N > 60. Enlınea quebrada aproximacion usando el TCL.

Es mas o menos claro que la funcion de potencia es simetrica respecto de p = 1/2. Esto es,para cada q ∈ (0, 1/2)), vale que β(1/2 − q) = β(1/2 + q).

Riesgos:

1. El nivel de significacion del test es α = β(1/2). Calculamos β(1/2) utilizando laaproximacion obtenida en (32)

β(1/2) ≈ Φ

(4 − 5√

1/4

)+ Φ

(5 − 6√

1/4

)= Φ(−2) + Φ(−2) ≈ 0.0455

Esto significa que la probabilidad de rechazar que la moneda es honesta, cuando enverdad lo es, sera 0.0455. En palabras: de cada 100 monedas honestas sometidas averificacion (en promedio) seran rechazadas como falsas 4 o 5 de ellas.

2. ¿Que riesgo se corre de aceptar como honesta una moneda falsa, con carga 0.7 haciael lado de la cara? Para contestar esta pregunta tenemos que calcular el valor de1 − β(0.7). Usando (32) obtenemos

1 − β(0.7) ≈ 1 − Φ

(4 − 7√0.21

)− Φ

(7 − 6√0.21

)≈ 0.0146.

Grosso modo el resultado se interpreta de la siguiente manera: de cada 100 monedascargadas con 0.7 para el lado de cara sometidas a verificacion (en promedio) seranaceptadas como honestas 1 o 2 de ellas.

25

Page 298: espacios de probabilidad

3.- Queremos un test de nivel de significacion α = 0.05, basado en 64 lanzamientos de lamoneda. Parece razonable proponer un test de la forma

δ(X) = 1N < 32 − k + 1N > 32 + k.

El problema consiste en determinar el valor de k. El nivel de significacion del test es

β(1/2) = P1/2(N < 32 − k) + P1/2(N > 32 + k)

Para p = 1/2, N ∼ Binomial(64, 1/2) y usando el teorema central de lımite obtenemosque la distribucion de N es aproximadamente normal de media E1/2[N ] = (1/2)64 = 32 yvarianza V1/2(N) = (1/2)(1/2)64 = 16.

β(1/2) = P1/2(N < 32 − k) + P1/2(N > 32 + k)

≈ P1/2

(N − 32

4< −k

4

)+ P1/2

(N − 32

4>

k

4

)

= Φ

(−k

4

)+ Φ

(−k

4

)= 2Φ

(−k

4

)

En consecuencia,

β(1/2) = 0.05 ⇐⇒ Φ

(−k

4

)= 0.025 ⇐⇒ −k

4= z0.025 = −1.96 ⇐⇒ k = 7.84.

Por lo tanto, el test adopta la forma

δ(X) = 1N < 32 − 7.84 + 1N > 32 + 7.84 = 1N < 25 + 1N > 39.

En palabras, el test consiste en lo siguiente: lanzar la moneda 64 veces; si la cantidad decaras observadas es menor que 25 o mayor que 39, se decide que la moneda esta cargada;en caso contrario, se decide que la moneda es honesta.

¿Que riesgo se corre de aceptar como honesta una moneda con carga 0.7 hacia el ladode la cara? La respuesta se obtiene calculando 1 − β(0.7). Para p = 0.7 el TCL estableceque (N − 0.7(64))/

√(0.7)(0.3)64 ∼ N (0, 1), en consecuencia,

β(0.7) ≈ Φ

(25 − 0.7(64)√

(0.21)64

)+ Φ

(0.7(64) − 39√

(0.21)64

)≈ Φ(1.5821) = 0.94318.

Por lo tanto, 1 − β(0.7) = 0.0568...

4.- Queremos un test de nivel de significacion α = 0.05, cuya potencia cuando la cargadifiere de 0.5 en mas de 0.1 sea como mınimo 0.90. Parece razonable proponer una reglade la forma

δ(X) = 1N < n(1/2) − k + 1N > n(1/2) + k.

26

Page 299: espacios de probabilidad

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 8: Grafico de la funcion de potencia del test δ(X) = 1N < 25 + 1N > 39. Enlınea quebrada aproximacion usando el TCL.

El problema consiste en determinar el volumen de la muestra, n, y el valor de k. Lascondiciones impuestas al test pueden expresarse de la siguiente manera

α(δ) ≤ 0.05 y β(0.6) ≥ 0.90, (33)

donde α(δ) = β(1/2) es en nivel del test y β(0.6) es la potencia en p = 0.6.Ambos problemas se resuelven caracterizando la funcion de potencia del test

β(p) = Pp (N < n(1/2) − nǫ) + Pp (N > n(1/2) + nǫ)

De acuerdo con el el TCL tenemos que para cada p

Z =N − np√np(1 − p)

∼ N (0, 1),

en consecuencia,

β(p) ≈ Pp

(Z <

n(1/2 − p) − nǫ√np(1 − p)

)+ Pp

(Z >

n(1/2 − p) + nǫ√np(1 − p)

)

= Φ

(√n(1/2 − p − ǫ)√

p(1 − p)

)+ Φ

(√n(p − 1/2 − ǫ)√

p(1 − p)

)

Notar que para p > 1/2 el primer termino del lado derecho de la igualdad es despreciabley entonces

β(0.6) ≈ Φ

(√n(0.1 − ǫ)√

0.24

)

27

Page 300: espacios de probabilidad

Por otra parte,

β(1/2) ≈ 2Φ

(−√

nǫ√1/4

)= 2Φ

(−2

√nǫ)

En consecuencia, las desigualdades (33) son equivalentes a las siguientes:

2Φ(−2

√nǫ)≤ 0.05 y Φ

(√n(0.1 − ǫ)√

0.24

)≥ 0.90.

Por lo tanto, n y ǫ deben ser tales que

2ǫ√

n ≥ z0.975 y

√n(0.1 − ǫ)√

0.24≥ z0.90 (34)

Recurriendo a una tabla de la distribucion normal, usando una calculadora de almacenero(que tenga una tecla con el sımbolo

√·), y operando con las desigualdades (34) se puedenobtener soluciones particulares. Por ejemplo, n = 259 y ǫ = 0.061.

Tomando n = 259 y ǫ = 0.061 obtenemos la siguiente regla de decision:

δ(X) = 1N < 114 + 1N > 145.En palabras, el test establece que hay que lanzar la moneda 259 veces y contar la cantidadde caras observadas. Si la cantidad de caras observadas es menor que 114 o mayor que 145se decide que la moneda esta cargada. En caso contrario, se decide que es honesta.

Una cuenta. Para obtener el resultado particular n = 259 y ǫ = 0.061 hay que hacer losiguiente: En primer lugar, hay que observar que

√n(0.1 − ǫ)√

0.24≥ z0.90 ⇐⇒ √

n(0.1 − ǫ) ≥ z0.90

√0.24

⇐⇒ 0.1√

n − z0.90

√0.24 ≥ ǫ

√n

⇐⇒ 2(0.1

√n − z0.90

√0.24

)≥ 2ǫ

√n (35)

La ultima desigualdad de (35) combinada con la primera de (34) implican que n debesatisfacer las desigualdades

0.2√

n − 2z0.90

√0.24 ≥ z0.975 ⇐⇒ √

n ≥ 5(z0.975 + 2z0.90

√0.24

)

⇐⇒ n ≥ 25(z0.975 + 2z0.90

√0.24

)2

Tabla de la distribucion normal (z0.975 = 1.96, z0.90 = 1.28) y calculadora mediante, seobtiene que n ≥ 259. Poniendo n = 259 en la tercera desigualdad de (35) se puede ver queǫ debe ser tal que

ǫ ≤ 0.1 − z0.90

√0.24√259

≈ 0.061.

Podemos elegir ǫ = 0.061.

28

Page 301: espacios de probabilidad

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 9: Grafico de la funcion de potencia del test δ(X) = 1N < 114 + 1N > 145.En lınea quebrada aproximacion usando el TCL.

5.2. Hipotesis fundamental simple

Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable aleatoria con distribucionBernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria X queremos construir test paradecidir entre las hipotesis

H0 : p = p0 contra H1 : p 6= p0,

donde p0 ∈ (0, 1) es un valor arbitrario pero fijo.

Primera fase: disenar un test de hipotesis

Cuando la hipotesis H0 es verdadera, la cantidad de exitos N =∑n

i=1 Xi tiene distribu-

cion binomial de media np0 y desvıo√

np0(1 − p0). Parece razonable construir reglas dedecision de la forma

δ(X) = 1 N < np0 − nǫ + 1 N > np0 + nǫ , (36)

donde n ∈ N y ǫ > 0 son arbitrarios pero fijos.En castellano, el test de hipotesis definido en (36) establece el siguiente procedimiento

de decision:

1. Examinar una muestra de tamano n de la variable aleatoria Bernoulli, X = (X1, . . . , Xn)y contar la cantidad de exitos observados: N =

∑ni=1 Xi.

29

Page 302: espacios de probabilidad

2. Si la cantidad de exitos observados es menor que np0 − nǫ o mayor que np0 + nǫ serechaza la hipotesis p = p0 y se decide que p 6= p0. En caso contrario, se no se rechazala hipotesis p = p0.

Segunda fase: caracterizar la funcion de potencia

La segunda fase del programa consiste en “calcular” la funcion de potencia. Esta funcionpermite calcular los riesgos de tomar decisiones erroneas:

β(p) = P (Rechazar H0| p) = Pp(δ(X) = 1)

= Pp (N < np0 − nǫ) + Pp (N > np0 + nǫ)

=

[np0−nǫ]∑

k=0

(n

k

)pk(1 − p)n−k +

n∑

k=[np0−nǫ]+1

(n

k

)pk(1 − p)n−k. (37)

Notar que la funcion de potencia resulto ser un complicado polinomio de grado n y no esfacil capturar a simple vista su comportamiento cualitativo.

Nivel de significacion. Debido a que la hipotesis fundamental es de la forma p = p0,para cada n y ǫ, el nivel de significacion del test es

α(δ) = β(p0) =

[np0−nǫ]∑

k=0

(n

k

)pk

0(1 − p0)n−k +

n∑

k=[np0−nǫ]+1

(n

k

)pk

0(1 − p0)n−k. (38)

Nota Bene 1. Notar que los test (36) contienen un juego de dos parametros, n y ǫ.Estos parametros determinan la calidad de cada test y deben ajustarse de acuerdo conlas prescripciones impuestas al test sobre su nivel de significacion y su potencia en algunahipotesis alternativa.

Nota Bene 2. Notar que si la muestra tiene volumen prefijado n, por mas que se muevael valor de ǫ, el nivel de significacion del test α(δ) puede tomar a lo sumo n + 1 valoresdistintos. Por lo tanto, si se prescribe que el nivel de significacion del test δ(X) debe serα, casi seguramente la ecuacion α(δ) = α no tendra solucion.

Aproximacion por TCL para muestras “grandes”

La funcion de potencia (37) se puede aproximar utilizando el teorema central del lımite.Si la muestra es suficientemente grande, para cada valor de p, tenemos que

Z =N − np√np(1 − p)

∼ N (0, 1).

30

Page 303: espacios de probabilidad

Esto permite aproximar el valor de β(p) de la siguiente manera

β(p) = Pp

(Z <

n(p0 − p − ǫ)√np(1 − p)

)+ Pp

(Z >

n(p0 − p + ǫ)√np(1 − p)

)

≈ Φ

(√n(p0 − p − ǫ)√

p(1 − p)

)+ Φ

(√n(p − p0 − ǫ)√

p(1 − p)

). (39)

Aunque la aproximacion (39) pueda resultar “grosera” y no sea lo suficientemente buenapara todos los posibles valores de p, permite capturar el comportamiento cualitativo de lafuncion de potencia.

Nivel de significacion. Poniendo p = p0, la aproximacion (39) permite observar que

α(δ) = β(p0) = 2Φ

(−√

nǫ√p0(1 − p0)

). (40)

Esto indica que basta tomar n suficientemente grande para que β(p0) se ubique todo locerca del 0 que uno quiera. En otras palabras, el test puede construirse para garantizar quela probabilidad de rechazar la hipotesis p = p0 cuando ella es verdadera sea todo lo chicaque uno quiera.

La aproximacion (40) se puede utilizar para ajustar los valores de los parametros ny ǫ para que valga la desigualdad α(δ) ≤ α. Para ello basta observar que la desigualdadaproximada

(−√

nǫ√p0(1 − p0)

)≤ α ⇐⇒ −√

nǫ√p0(1 − p0)

≤ zα/2. (41)

Por lo tanto, las soluciones de la desigualdad (41) seran todos los valores de n ∈ N y todoslos valores de ǫ > 0 que satisfagan

√nǫ√

p0(1 − p0)≥ z1−α/2. (42)

Fijada una solucion particular de (42), una alta dosis de paciencia permite calcular a manoel valor exacto del nivel de significacion α(δ) obtenido en (38) y comprobar si efectivamentesatisface α(δ) ≤ α.

Test de hipotesis con nivel de significacion aproximado. Basados en los argu-mentos y razonamientos anteriores, podemos disenar test para decidir entre las hipotesisH0 : p = p0 contra H1 : p 6= p0 con nivel de significacion “aproximadamente” α. Usando eldiseno (36) para valores de n y ǫ que verifiquen la desigualdad (42) obtenemos

δ(X) = 1

N < np0 − z1−α/2

√np0(1 − p0)

+ 1

N > np0 + z1−α/2

√np0(1 − p0)

. (43)

31

Page 304: espacios de probabilidad

Potencia en una alternativa. El mismo problema se presenta cuando se prescribe unapotencia β para una alternativa p1. En esta situacion trataremos de resolver la desigualdadβ(p1) ≥ β. Nuevamente la aproximacion (39) permite resolver el problema:

Si p1 < p0 el segundo termino en (39) es despreciable respecto del primero y entoncesobtenemos la siguiente aproximacion:

β(p1) ≈ Φ

(√n(p0 − p1 − ǫ)√

p1(1 − p1)

). (44)

Si p1 > p0 el primer termino es despreciable respecto del segundo y entonces obten-emos la siguiente aproximacion:

β(p1) ≈ Φ

(√n(p1 − p0 − ǫ)√

p1(1 − p1)

). (45)

Para fijar ideas supongamos que p1 > p0. Razonando del mismo modo que antes seobtiene la siguiente solucion “aproximada” de la inecuacion β(p1) ≥ β:

√n(p1 − p0 − ǫ)√

p1(1 − p1)≥ zβ. (46)

El razonamiento anterior muestra que, prefijados dos valores α y β, se pueden disenar testde hipotesis de la forma (36) con prescripciones del siguiente tipo: nivel de significacionmenor o igual que α y/o potencia en una alternativa particular superior a β.

5.3. Hipotesis fundamental compuesta

Sea X = (X1, . . . , Xn) una muestra aleatoria de una variable aleatoria con distribucionBernoulli(p), p ∈ (0, 1). Basados en la muestra aleatoria X queremos construir test paradecidir entre las hipotesis

H0 : p ≤ p0 contra H1 : p > p0,

donde p0 ∈ (0, 1) es un valor arbitrario pero fijo.

Programa de actividades. Adaptaremos los argumentos y razonamientos desarrolladosen la seccion 5.2. La primera fase del programa consiste en construir test de hipotesisbasados en la cantidad de exitos de la muestra N =

∑ni=1 Xi. La segunda fase del programa

consiste en evaluar los riesgos de tomar decisiones erroneas con los test construidas: se tratade caracterizar analıticamente la funcion de potencia y estudiar sus propiedades cualitativasy cuantitativas: calculo del nivel de significacion y de la potencia en las hipotesis alternativassimples.

32

Page 305: espacios de probabilidad

Test de hipotesis. En este caso resulta intuitivamente claro proponer test de forma

δ(X) = 1N > np0 + nǫ, (47)

donde n y ǫ son parametros ajustables.

Funcion de potencia. Fijados n y ǫ la funcion de potencia del test es

β(p) = P (rechazarH0| p) = Pp(δ(X) = 1) = Pp(N > np0 + nǫ)

=n∑

k=[np0+nǫ]+1

(n

k

)pk(1 − p)n−k. (48)

De acuerdo con el Corolario 5.2 la funcion de potencia es creciente. Esto es intuitivamenteclaro si se piensa que cuando aumenta la probabilidad de cada exito, la cantidad de exitosdebe aumentar.

Aproximacion por TCL. Si el volumen de muestra es suficientemente grande, usandoel teorema central del lımite podemos obtener la siguiente expresion aproximada de lafuncion de potencia

β(p) = Pp

(N − np√np(1 − p)

>np0 + nǫ − np√

np(1 − p)

)≈ Φ

(√n(p − p0 − ǫ)√

p(1 − p)

). (49)

Nivel de significacion. Como la funcion de potencia es creciente, el nivel de significaciondel test se obtiene de la siguiente manera

α(δ) = maxp≤p0

β(p) = β(p0) =n∑

k=[np0+nǫ]+1

(n

k

)pk

0(1 − p0)n−k ≈ Φ

(−√

nǫ√p0(1 − p0)

). (50)

La aproximacion en (50) presupone que el volumen de muestra es suficientemente grande(por ejemplo, np0(1 − p0) > 10).

Prefijados un volumen de muestra suficientemente grande y un nivel de significacion αpara el test de hipotesis, la aproximacion (50) permite hallar el valor de ǫ

z1−α

√p0(1 − p0) =

√nǫ. (51)

Test de hipotesis con nivel de significacion aproximado. Usando el diseno (47)y el resultado obtenido en (51) se deduce que, para n suficientemente grande y fijo, laforma del test de hipotesis de nivel de significacion α para decidir entre H0 : p ≤ p0 contraH1 : p > p0 es

δ(X) = 1

N > np0 + z1−α

√np0(1 − p0)

. (52)

33

Page 306: espacios de probabilidad

Potencia en una alternativa. El analisis de la potencia en las hipotesis alternativassimples p = p1, con p1 > p0, se realiza siguiendo las mismas lıneas desarrolladas en laseccion anterior.

Ejemplo 5.3. Un productor de chips afirma que no mas del 2 % de los chips que produceson defectuosos. Una companıa electronica (impresionada por dicha afirmacion) le comprauna gran cantidad de chips. Para determinar si la afirmacion del productor se puede tomarliteralmente, la companıa decide testear una muestra de 300 de esos chips. Si se encuentraque 10 de los 300 chips son defectuosos, deberıa rechazarse la afirmacion del productor?

Solucion. Formalmente, el problema consiste en construir un test de hipotesis para de-cidir entre

H0 : p ≤ 0.02 contra H1 : p > 0.02.

sobre la base de una muestra de volumen 300.Fijado un nivel de significacion, por ejemplo α = 0.05, el test de hipotesis (52) adopta

la forma

δ(X) = 1

N > 300(0.02) + z0.95

√300(0.02)(0.98)

= 1N > 9.9886

= 1N ≥ 10. (53)

Dicho en palabras, al nivel del 5 % de significacion, un test para decidir entre lashipotesis H0 : p ≤ 0.02 contra H1 : p > 0.02, basado en una muestra de volumen 300,consiste en rechazar la hipotesis H0 siempre que se observen 10 o mas exitos.

Traducido al problema que estamos examinando, el criterio de decision puede enunciarsede la siguiente manera: “examinar 300 componentes. Si se observan 10 o mas defectuososdebe rechazarse la afirmacion del productor de que produce con una calidad de a lo sumoun 2 %, si se observan menos de 10 defectuosos no hay evidencia suficiente para rechazarsu afirmacion.”

En conclusion, como en la muestra examinada se observaron 10 chips defectuosos, alnivel del 5 % de significacion, la afirmacion del productor debe rechazarse.

6. Test para varianza de normales

El objetivo de esta seccion es ilustrar como se pueden obtener test de hipotesis usandointervalos de confianza.

6.1. Hipotesis sobre varianza con media conocida

Usando intervalos de confianza para la varianza de una distribucion normal N (µ, σ2)con media µ conocida vamos a construir test de hipotesis de nivel de significacion α paradecidir entre

H0 : σ2 = σ20 contra H1 : σ2 6= σ2

0,

34

Page 307: espacios de probabilidad

para algun valor σ20 determinado.

Dada una muestra aleatoria X = (X1, . . . , Xn) de la distribucion normal N (µ, σ2) conmedia µ conocida, sabemos que

I(X) =

[nσ2

mv

χ2n, (1+β)/2

,nσ2

mv

χ2n, (1−β)/2

],

donde nσ2mv =

∑ni=1(Xi − µ)2, es un intervalo de confianza para σ2 de nivel β. Poniendo

β = 1−α se obtiene el siguiente test de nivel α para decidir entre las hipotesis H0 : σ2 = σ20

contra H1 : σ2 6= σ20

δ(X) = 1I(X) 6∋ σ20

= 1

1

σ20

n∑

i=1

(Xi − µ)2 < χ2n, α/2

+ 1

1

σ20

n∑

i=1

(Xi − µ)2 > χ2n, 1−α/2

. (54)

Funcion de potencia. Para calcular y analizar el comportamiento de la funcion depotencia,

β(σ2) = P(RechazarH0|σ2),

debe recordarse que cuando el verdadero valor de la varianza es σ2, la variable aleatoria1σ2

∑ni=1(Xi−µ)2 tiene distribucion χ2

n = Γ(n/2, 1/2). Multiplicando porσ2

0

σ2 en las desigual-dades dentro de las llaves en la formula del test (54), y “calculando” las correspondientesprobabilidades, obtenemos la siguiente expresion

β(σ2) =

∫ a(σ2)

0

(1/2)n/2

Γ(n/2)x(n/2)−1e−

1

2xdx +

∫ ∞

b(σ2)

(1/2)n/2

Γ(n/2)x(n/2)−1e−

1

2xdx,

donde

a(σ2) =σ2

0

σ2χ2

n, α/2, b(σ2) =σ2

0

σ2χ2

n,1−α/2.

Ejemplo 6.1. Dada una muestra aleatoria de volumen 10 de una poblacion normal demedia 0 se quiere construir un test de nivel α = 0.05 para decidir entre las hipotesisH0 : σ2 = 1 contra H1 : σ2 6= 1.

Solucion. Como χ210, 0.025 = 3.247 y χ2

10, 0.975 = 20.483, el test de hipotesis (54) adopta laforma

δ(X) = 1

n∑

i=1

X2i < 3.247

+ 1

n∑

i=1

X2i > 20.483

. (55)

35

Page 308: espacios de probabilidad

0 1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 10: Grafico de la funcion de potencia del test (55).

6.2. Hipotesis sobre varianza con media desconocida

Usando intervalos de confianza para la varianza de una distribucion normal N (µ, σ2)vamos a construir test de hipotesis de nivel de significacion α para decidir entre

H0 : σ2 = σ20 contra H1 : σ2 6= σ2

0,

para algun valor σ20 determinado.

Dada una muestra aleatoria X = (X1, . . . , Xn) de la distribucion normal N (µ, σ2)sabemos que

I(X) =

[(n − 1)S2

χ2n−1, 1−α/2

,(n − 1)S2

χ2n−1, α/2

],

es un intervalo de confianza para σ2 de nivel β. Poniendo β = 1−α se obtiene el siguientetest de nivel α para decidir entre las hipotesis H0 : σ2 = σ2

0 contra H1 : σ2 6= σ20

δ(X) = 1I(X) 6∋ σ20

= 1

(n − 1)S2

σ20

< χ2n−1, α/2

+ 1

(n − 1)S2

σ20

> χ2n−1, 1−α/2

. (56)

Funcion de potencia. Notar que el analisis de funcion de potencia de test (56) escompletamente analogo al desarrollado para el caso en que suponıamos que la media µ esconocida.

Nota Bene. Notar que los test de hipotesis definidas en (54) y (56) son inmediatamenteutiles para tomar decisiones.

36

Page 309: espacios de probabilidad

Ejemplo 6.2. En la Seccion dedicada al estudio de intervalos de confianza mostramosque cuando una muestra aleatoria X (de volumen 8) de una poblacion normal N (µ, σ2)arroja los valores 9, 14, 10, 12, 7, 13, 11, 12, el intervalo Iσ2 = [2.248, 21.304] es un intervalode confianza de nivel β = 0.95 para la varianza σ2.

Si se quiere decidir al 5 % de significacion entre las hipotesis

H0 : σ2 = 4 contra H1 : σ2 6= 4.

el test de hipotesis (56) conduce a no rechazar la hipotesis σ2 = 4.

7. Comparacion de dos muestras

7.1. Test para medias de dos muestras normales.

Sean X = (X1, . . . , Xm) e Y = (Y1, . . . , Yn) dos muestras aleatorias independientesde distribuciones normales N (µX , σ2

X) y N (µY , σ2Y ), respectivamente. Sea ∆ = µX − µY .

Queremos un test para decidir entre las hipotesis

H0 : ∆ = 0 contra H1 : ∆ > 0.

7.1.1. Varianzas conocidas

Supongamos que las varianzas σ2X y σ2

Y son conocidas. Para construir el test de hipotesisusaremos los estimadores de media: X y Y . Puesto que

X − Y ∼ N(

∆,σ2

X

m+

σ2Y

n

)

el test de nivel α decidir entre H0 : ∆ = 0 contra H1 : ∆ > 0 es

δ(X,Y) = 1

X − Y√σ2

X

m+

σ2

Y

n

> z1−α

7.1.2. Varianzas desconocidas pero iguales.

Supongamos las varianzas σ2X = σ2

Y = σ2. En tal caso, bajo la hipotesis ∆ = 0 tenemosque

Z =X − Y

√σ2

√1m

+ 1n

∼ N (0, 1).

Para estimar la varianza σ2 ponderamos “adecuadamente” los estimadores de varianza S2X

y S2Y ,

S2P :=

m − 1

m + n − 2S2

X +n − 1

m + n − 2S2

Y =(m − 1)S2

X + (n − 1)S2Y

m + n − 2.

37

Page 310: espacios de probabilidad

Se puede mostrar que

U =(n + m − 2)

σ2S2

P =(m − 1)S2

X + (n − 1)S2Y

σ2∼ χn+m−2.

Debido a que las variables Z y U son independientes, tenemos que

T =Z√

U/(m + n − 2)=

X − Y√

S2P

√1m

+ 1n

∼ tm+n−2

Por lo tanto,

δ(X,Y) = 1

X − Y

√S2

P

√1m

+ 1n

> tm+n−2, 1−α

.

es un test de nivel de significacion α para decidir entre las hipotesis H0 : ∆ = 0 contraH1 : ∆ > 0.

7.2. Test F para varianzas de normales.

Sean X = (X1, . . . , Xm) e Y = (Y1, . . . , Yn) dos muestras aleatorias independientesde distribuciones normales N (µX , σ2

X) y N (µY , σ2Y ), respectivamente. Sea R = σ2

X/σ2Y .

Queremos un test para decidir entre las hipotesis

H0 : R = 1 contra H1 : R 6= 1.

Las varianzas σ2X y σ2

Y se pueden estimar mediante sus estimadores insesgados S2X y S2

Y .Las variables

U =(m − 1)

σ2X

S2X ∼ χ2

m−1 y V =(n − 1)

σ2Y

S2Y ∼ χ2

n−1

son independientes.

Test de hipotesis. Bajo la hipotesis H0 : R = 1, vale que

F =S2

X

S2Y

=S2

X/σ2X

S2Y /σ2

Y

∼ Fm−1, n−1.

Por lo tanto,

δ(X, Y) = 1 F /∈ [φ1, φ2] , (57)

donde φ1 y φ2 son tales que P(F < φ1) = P(F > φ2) = α/2, es un test de nivel α paradecidir entre las hipotesis H0 : R = 1 contra H1 : R 6= 1.

38

Page 311: espacios de probabilidad

Ejemplo 7.1. Queremos construir un test de nivel α = 0.05 para decidir entre H0 : R = 1contra H1 : R 6= 1 usando muestras X y Y de volumen m = n = 10.

Proponemos un test de la forma (57). El problema se reduce determinar valores φ1 yφ2 tales que

P(F9, 9 > φ2) = 0.025 y P(F9, 9 < φ1) = 0.025.

Usando las tablas de las distribuciones F resulta que φ2 = 4.5362 y que φ1 = 1/φ2 = 0.2204.Finalmente, se obtiene el test

δ(X, Y) = F /∈ [0.2204, 4.5362] .

7.3. Planteo general

Supongamos que tenemos dos muestras aleatorias independientes X = (X1, . . . , Xm) eY = (Y1, . . . , Yn) con distribuciones dependientes de los parametros ξ y η, respectivamente.Sea ∆ = ξ − η.

Se quiere decidir entre la hipotesis fundamental

H0 : ∆ = δ0

contra cualquiera de las hipotesis alternativas:

(a) H1 : ∆ > δ0;

(b) H1 : ∆ < δ0;

(c) H1 : ∆ 6= δ0.

Sabemos que si dos estimadores para ξ y η, ξm y ηn, tienen la propiedad de normalidadasintotica

√m(ξm − ξ) → N (0, σ2) cuando m → ∞,√n(ηn − η) → N (0, τ 2) cuando n → ∞,

donde σ2 y τ 2 pueden depender de ξ y η, respectivamente y ninguna de las variablesesta sobre-representada (i.e., m y n son del mismo orden de magnitud), entonces

(ξm − ηn) − (ξ − η)√σ2

m+ τ2

n

→ N (0, 1) (58)

39

Page 312: espacios de probabilidad

Si σ2 y τ 2 son conocidas, de (58) resulta que las regiones de rechazo:

(a)(ξm − ηn) − δ0√

σ2

m+ τ2

n

> z1−α;

(b)(ξm − ηn) − δ0√

σ2

m+ τ2

n

< zα;

(c)

∣∣∣∣∣∣(ξm − ηn) − δ0√

σ2

m+ τ2

n

∣∣∣∣∣∣> z1−α/2

producen un test para H0 contra H1 de nivel asintotico α, para cada uno de los casosconsiderados, respectivamente.

Si σ2 y τ 2 son desconocidas y σ2 y τ 2 son estimadores consistentes para σ2 y τ 2, se puededemostrar que las regiones de rechazo conservan su validez cuando σ2 y τ 2 se reemplazanpor σ2 y τ 2, respectivamente y entonces el test con region de rechazo

(a)(ξm − ηn) − δ0√

cσ2

m+

cτ2

n

> z1−α;

(b)(ξm − ηn) − δ0√

cσ2

m+

cτ2

n

< zα;

(c)

∣∣∣∣∣∣(ξm − ηn) − δ0√

cσ2

m+

cτ2

n

∣∣∣∣∣∣> z1−α/2

tambien tiene nivel asintotico α.Para mayores detalles se puede consultar el libro Lehmann, E. L. (1999) Elements of

Large-Sample Theory. Springer, New York.

Nota Bene. Notar que el argumento anterior proporciona un metodo general de nat-uraleza asintotica. En otras palabras, en la practica los resultados que se obtienen sonaproximados. Dependiendo de los casos particulares existen diversos refinamientos quepermiten mejorar esta primera aproximacion.

7.4. Problema de dos muestras binomiales

Sean X = (X1, . . . , Xm) e Y = (Y1, . . . , Yn) dos muestras aleatorias independientesde dos variables aleatorias X e Y con distribucion Bernoulli de parametros pX y pY ,respectivamente. Sea ∆ = pX − pY . Queremos un test para decidir entre las hipotesis

H0 : ∆ = 0 contra H1 : ∆ > 0

40

Page 313: espacios de probabilidad

Para construir el test usaremos los estimadores de maxima verosimilitud para las proba-bilidades px y pY , pX = X y pY = Y .

Vamos a suponer que los volumenes de las muestras, m y n, son suficientemente grandesy que ninguna de las dos variables esta sobre representada.

Puesto que X y Y son estimadores consistentes para las probabilidades pX y pY , resultaque los estimadores X(1− X) y Y

(1 − Y

)son consistentes de las varianzas pX(1− pX) y

pY (1 − pY ), respectivamente. Por lo tanto,

δ(X,Y) = 1

X − Y√

1m

X(1 − X

)+ 1

nY(1 − Y

) > z1−α

es un test, de nivel aproximado α, para decidir entre las hipotesis H0 : ∆ = 0 contraH1 : ∆ > 0.

Nota Bene. Observar que el nivel del test se calcula bajo la hipotesis pX = pY , en talcaso la desviacion estandar de la diferencia X − Y es de la forma

√pX(1 − pX)

m+

pY (1 − pY )

n=√

pX(1 − pX)

√1

m+

1

n

y podemos estimarla mediante√

mX + nY

m + n

(1 − mX + nY

m + n

)√1

m+

1

n.

Lo que produce el test

δ(X,Y) = 1

(X − Y

)√mn

√(mX + nY )

(1 − mX+nY

m+n

) > z1−α

(59)

Ejemplo 7.2. Se toma una muestra aleatoria de 180 argentinos y resulta que 30 estandesocupados. Se toma otra muestra aleatoria de 200 uruguayos y resulta que 25 estandesocupados. ¿Hay evidencia suficiente para afirmar que la tasa de desocupacion de lapoblacion Argentina es superior a la del Uruguay?

Solucion. La poblacion desocupada de la Argentina puede modelarse con una variablealeatoria X ∼ Bernoulli(pX) y la del Uruguay con una variable aleatoria Y ∼ Bernoulli(pY ).

Para resolver el problema utilizaremos un test de nivel de significacion α = 0.05 paradecidir entre las hipotesis

H0 : pX = pY contra H1 : pX > pY

41

Page 314: espacios de probabilidad

basada en dos muestras aleatorias independientes X e Y de volumenes m = 180 y n = 200,respectivamente.

El test de hipotesis dado en (59) adopta la forma

δ(X,Y) = 1

(X − Y

)√36000

√(180X + 200Y )

(1 − 180X+200Y

380

) > 1.64

(60)

De acuerdo con los datos observados X = 30/180 y Y = 25/200:

(30180

− 25200

)√36000

√55(1 − 55

380

) = 1.152 . . .

Debido a que 1.152 . . . < 1.64, no hay evidencia suficiente para rechazar la hipotesis pX =pY . Por lo tanto, con un 5 % de nivel de significacion, no hay evidencia suficiente paraafirmar que la tasa de desocupacion en la Argentina sea superior a la del Uruguay.

8. Test de la χ2 para bondad de ajuste

8.1. Planteo del problema

Los test de bondad de ajuste tienen por objeto decidir si los datos observados seajustan a una determinada distribucion de probabilidades. Mas precisamente, se formulauna hipotesis, H, que afirma que los datos observados constituyen una muestra aleatoriaX = (X1, . . . , Xn) de una distribucion F . La distribucion F puede estar completamenteespecificada (hipotesis simple) o puede pertenecer a una familia parametrica (hipotesiscompuesta).

Algunos ejemplos (para fijar ideas):

Ejemplo 8.1 (Moneda honesta). En una sucesion de 100 lanzamientos independientes deuna moneda se observaron 55 caras y 45 cecas ¿Estos datos son compatibles con la hipotesisde que la moneda es honesta?

Ejemplo 8.2 (Multinomial). Para identificar las obras de su serie titulada Los paisajesbinarios el artista digital Nelo las firma con una imagen aleatoria de 10 × 10 pixels: porcada pixel lanza un dado equilibrado: si sale 1, 2 o 3 lo pinta de rojo; si sale 4 o 5 lo pinta deverde y si sale 6 lo pinta de azul. Se somete a examen la firma de una obra digital tituladaCordillera binaria y se obtienen los siguientes resultados: 46 pixels rojos, 37 verdes y 17azules. ¿La obra Cordillera binaria pertenece a la serie Los paisajes binarios?

42

Page 315: espacios de probabilidad

Ejemplo 8.3 (Numeros aleatorios). Se producen 10000 numeros con un generador de“numeros aleatorios”. Para economizar espacio se registra la cantidad de numeros de laforma 0. d..., donde d = 0, 1, . . . , 9. Se obtuvieron los resultados siguientes:

d 0 1 2 3 4 5 6 7 8 9#0. d... 1008 1043 1014 1027 952 976 973 1021 998 988

(61)

¿Los datos se ajustan a una distribucion uniforme U[0, 1]?

Ejemplo 8.4 (Poisson). Una partıcula de polen suspendida en agua es bombardeada pormoleculas en movimiento termico. Se la observa durante una hora y se registra la cantidadde impactos que recibe por segundo. Sea X la variable aleatoria que cuenta la cantidad deimpactos por segundo recibidos por la partıcula. Se obtuvieron los siguientes datos

X 0 1 2 3 4 5 6# de s. con X impactos 1364 1296 642 225 55 15 3

(62)

Se quiere decidir si los datos provienen de una distribucion de Poisson.

Ejemplo 8.5 (Velocidad de la luz). En la siguiente tabla se muestran las mediciones dela velocidad de la luz realizadas por el fısico Albert Michelson entre el 5 de junio y el 5 dejulio de 1879. Los valores dados + 299.000 son las mediciones de Michelson en km/s.

850 740 900 1070 930 850 950 980 980 8801000 980 930 650 760 810 1000 1000 960 960960 940 960 940 880 800 850 880 900 840830 790 810 880 880 830 800 790 760 800880 880 880 860 720 720 620 860 970 950880 910 850 870 840 840 850 840 840 840890 810 810 820 800 770 760 740 750 760910 920 890 860 880 720 840 850 850 780890 840 780 810 760 810 790 810 820 850870 870 810 740 810 940 950 800 810 870

(63)

Las mediciones de la velocidad de la luz de Michelson, ¿se ajustan a una distribucionnormal?

8.2. Test de bondad de ajuste para hipotesis simples

La hipotesis nula afirma queH0 : FX = F,

donde F es una distribucion de probabilidades completamente determinada.Si la hipotesis H0 es verdadera, la funcion de distribucion empırica, Fn de los n valores

observados debe ser parecida a la funcion de distribucion F . Lo que sugiere introducir

43

Page 316: espacios de probabilidad

alguna medida de la discrepancia entre ambas distribuciones y basar el test de hipotesis enlas propiedades de la distribucion de dicha medida.

Hay varias formas de construir esas medidas. La que sigue fue introducida por KarlPearson.

Se divide el rango de la variable aleatoria X en una cantidad finita k de partes disjuntasdos a dos, C1, . . . , Ck, llamadas clases5 tales que las probabilidades pi = P(X ∈ Ci|H0) > 0.Las k clases, Ci, seran los k conjuntos en los que agruparemos los datos para tabularlos.Se consideran n1, . . . , nk las frecuencias de aparicion de las clases C1, . . . , Cn en la muestraaleatoria X = (X1, . . . , Xn),

ni =n∑

j=1

1Xj ∈ Ci yk∑

i=1

ni = n.

Bajo la distribucion hipotetica la cantidad de valores muestrales ni pertenecientes a laclase Ci se distribuye como una Binomial(n, pi), y en consecuencia, para valores grandesde n, las frecuencias relativas ni

ndeben tener valores muy proximos a las probabilidades pi.

La dispersion entre las frecuencias relativas ni

ny las probabilidades pi se puede medir del

siguiente modo

D2 =k∑

i=1

wi

(ni

n− pi

)2

=k∑

i=1

wi(ni − npi)

2

n2, (64)

donde los coeficientes wi > 0 se pueden elegir de manera mas o menos arbitraria. Cuandola hipotesis H0 es verdadera los valores de la medida de dispersion D2 deben ser pequenos,lo que sugiere disenar un test de hipotesis que decida rechazar la hipotesis H0 cuando ysolo cuando se observa que D2 > M , donde M es una constante arbitraria pero fija.

Karl Pearson demostro que cuando n es grande y la hipotesis H0 es verdadera, poniendowi = n

pi

en (64), la distribucion de la medida de dispersion

D2 =k∑

i=1

(ni − npi)2

npi

, (65)

es aproximadamente igual a una chi cuadrado con k − 1 grados de libertad. (Una de-mostracion de este resultado puede consultarse en: Cramer, H.: Metodos matematicos deestadıstica. Aguilar, Madrid. (1970).)

Test de bondad de ajuste χ2. Para decidir si la muestra aleatoria X = (X1, . . . , Xn)proviene de la distribucion F se puede adoptar el siguiente criterio:

δ(X) = 1D2 > χ2k−1, 1−α, (66)

donde α ∈ (0, 1). Dicho en palabras, rechazar que FX = F cuando y solo cuando la medidade dispersion D2 definida en (65) supera al cuantil 1 − α de la distribucion chi cuadradocon k − 1 grados de libertad. En tal caso, la probabilidad de rechazar H0 cuando H0 esverdadera es aproximadamente α.

5Los valores de la variable aleatoria X pertenecen a una y solo a una de las clases C1, . . . , Ck.

44

Page 317: espacios de probabilidad

8.3. Ejemplos (1a parte)

El siguiente ejemplo tiene la virtud de mostrar, en un caso particular, una lınea dedemostracion del resultado de Pearson sobre la distribucion asintotica de D2.

Ejemplo 8.6 (Bernoulli). Sea X = (X1, . . . , Xn) una muestra aleatoria de una distribucionBernoulli con probabilidad de exito p. Queremos testear la hipotesis H0 : p = p0 contraH1 : p 6= p0, donde p0 ∈ (0, 1) es un valor determinado.

La medida de dispersion definida en (65) entre las frecuencias observadas

n1 =n∑

i=1

Xi y n2 = n − n1

y las frecuencias esperadasnp0 y n(1 − p0)

tiene la siguiente expresion

D2 =(n1 − np0)

2

np0

+(n − n1 − n(1 − p0))

2

n(1 − p0).

Observando que

(n1 − np0)2

np0

+(n − n1 − n(1 − p0))

2

n(1 − p0)=

(n1 − np0)2

np0

+(np0 − n1)

2

n(1 − p0)

=(1 − p0)(n1 − np0)

2 + p0(n1 − np0)2

np0(1 − p0)

=(n1 − np0)

2

np0(1 − p0),

se obtiene que

D2 =

(n1 − np0√np0(1 − p0)

)2

(67)

Cuando la hipotesis H0 es verdadera, n1 ∼ Binomial (n, p0), y de acuerdo con el teoremacentral del lımite la distribucion de la variable aleatoria

n1 − np0√np0(1 − p0)

es asintoticamente normal N (0, 1). Por lo tanto, para valores grandes de n, D2 tiene unadistribucion aproximadamente igual a χ2

1.

45

Page 318: espacios de probabilidad

Ejemplo 8.1. (Continuacion) Se trata de un caso particular del esquema anterior,donde p0 = 1/2 y n = 100. En consecuencia, la medida de dispersion (67) es

D2 =

(n1 − 50

5

)2

,

y para un nivel de significacion α el test de hipotesis (66) adopta la forma

δ(X) = 1

(n1 − 50

5

)2

> χ21, 1−α

.

0 0.5 1 1.5 2 2.5 3 3.5 40

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

Figura 11: La densidad χ21.

Consultado la tabla de cuantiles de la distribucion χ21 vemos que χ2

1, 0.95 = 3.841.

De acuerdo con los datos observados n1 = 55, de donde sigue que como D2 =(

55−505

)2=

1. En vista de que 1 < χ21, 0.95, a un nivel de significacion del 5 % el test no rechaza la

hipotesis de que se la moneda sea honesta.

Ejemplo 8.2. (Continuacion) El color en cada pixel se modela con una variable aleato-ria X a valores r, g, b cuya distribucion esta completamente determinada por los valoresde las probabilidades P(X = r) = pr, P(X = g) = pg y P(X = b) = pb. Queremos decidirsi los datos obtenidos son compatibles (o no) con la hipotesis

H0 : pr = 3/6, pg = 2/6, pb = 1/6.

Para ello construimos un test de bondad de ajuste basado en una muestra aleatoria,X = (X1, . . . , Xn) de volumen n = 10 × 10 = 100. Prescrito el nivel de significacion αy clasificando los datos de acuerdo con el color observado obtenemos un test de la forma

δ(X) = 1D2 > χ22, 1−α,

46

Page 319: espacios de probabilidad

donde

D2 =(nr − 100(3/6))2

100(3/6)+

(ng − 100(2/6))2

100(2/6)+

(nb − 100(1/6))2

100(1/6).

Por ejemplo, si se prescribe un nivel de significacion del 1 % (i.e., α = 0.01) tenemos queχ2

2, 1−α = χ22, 0.99 = 9.2103 y el test adopta la forma

δ(X) = 1

(nr − 50)2

50+

(ng − 33.33...)2

33.33...+

(nb − 16.66...)2

16.66...> 9.2103

,

0 2 4 6 8 10 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

Figura 12: La densidad χ22.

De acuerdo con los datos observados: nr = 46, ng = 37 y nb = 17 y la medida dedispersion de Pearson vale

D2 =(46 − 50)2

50+

(37 − 33.33...)2

33.33...+

(17 − 16.66...)2

16.66...= 0.73

Motivo por el cual, no hay evidencia que permita rechazar que la obra Cordillera binariapertenece a la serie Los paisajes binarios del artista Nelo.

Notar que para rechazar que la obra citada pertenece al artista se necesitaba un test dela forma δ(X) = D2 ≥ 0.73. Bajo la hipotesis H0, D2 ∼ χ2

2 y p = P(D2 ≥ 0.73) = 0.694...y en ese caso, la probabilidad de equivocarse al rechazar que la obra pertenece a Nelo esdel orden del 69 %.

Ejemplo 8.3. (Continuacion) En este caso las clases Ci son los intervalos de la forma[i−110

, i10

), i = 1, . . . , 10. Si la variable aleatoria X tuviese distribucion U[0, 1], pi = P(X ∈

Ci) = 1/10. El volumen de la muestra es n = 10000. Las frecuencias observadas, ni, son losvalores que se muestran en la tabla (61). Las frecuencias esperadas, npi, son todas igualesy valen 1000. Por lo tanto, la medida de dispersion de Pearson vale

D2 =1

1000

(82 + 432 + 142 + 272 + 482 + 242 + 272 + 212 + 22 + 122

)= 7.036

47

Page 320: espacios de probabilidad

0 5 10 15 20 25 300

0.02

0.04

0.06

0.08

0.1

0.12

Figura 13: La densidad χ29. El area bajo la curva a la derecha del valor 7.036 es 0.6336....

Bajo la hipotesis X ∼ U[0, 1], la medida de dispersion D2 se distribuye como una chicuadrado con 9 grados de libertad. Si se observa la Figura 13 se puede ver que un valor de7.036 para D2 no es inusual, lo que indica que no hay evidencia suficiente para rechazarla hipotesis X ∼ U[0, 1]. Para rechazar dicha hipotesis se necesita un test de la formaδ(X) = D2 ≥ 7.036. Bajo la hipotesis X ∼ U[0, 1], p = P(D2 ≥ 7.036) = 0.6336...y en tal caso, la probabilidad de equivocarse al rechazar que los datos provienen de unadistribucion uniforme es del orden del 63 %.

8.4. Comentarios sobre el metodo

En la seccion 8.2 presentamos el test de bondad de ajuste χ2 de Pearson. En la seccion8.3 ilustramos su implementacion en algunos ejemplos muy simples. Esos ejemplos com-parten una caracterıstica en comun: las clases en que dividimos el rango de la variable Xestaban condicionadas por el modo en que estaban tabulados los datos observados.

Esos ejemplos podrıan oscurecer el siguiente hecho que no puede pasar desapercibido:el procedimiento de construccion de las clases C1, . . . , Ck en que se divide el rango de lavariable es (mas o menos) arbitrario. En la descripcion del metodo presentada en la seccion8.2 no se indica cuantas clases deben considerarse ni se indica como deben ser esas clases.

Sobre la cantidad de clases (1).

Un lector desprevenido podrıa pensar que paraimplementar el metodo basta dividir el rango de la variable en dos clases. Ese modo deproceder no es recomendable. ¿Usando las clases, C1 = [−1, 0] y C2 = (0, 1], podrıandistinguirse la distribucion uniforme sobre el [-1,1] de la distribucion triangular con elmismo soporte? Evidentemente no. Sin embargo, en cuanto aumentamos la cantidad declases, a 4 por ejemplo, la diferencia se podrıa percibir.

Cuando agrupamos los datos en clases y conservamos solamente la frecuencia con que

48

Page 321: espacios de probabilidad

se observa cada clase destruimos informacion sobre la variable muestreada. Si la cantidadde partes es muy chica, se pierde mucha informacion y la resolucion del test es bastantemala.

Sobre la cantidad y la forma de las clases (2).

Se podrıa pensar que al aumentarla cantidad de clases en que se divide el rango de la variable mejora la resolucion del test,esto es parcialmente correcto. Si nos excedemos en la cantidad de clases la distribucion dela medida de dispersion D2 deja de parecerse a la χ2.

Debido a su naturaleza asintotica, el test de bondad de ajuste χ2 funciona bien sola-mente cuando las frecuencias esperadas en todas las clases es relativamente grande. En laBibliografıa consultada no se comenta ningun metodo “optimo” para determinar la can-tidad de clases en que debe dividirse el rango de la variable aleatoria. Aunque sobre esteasunto parece no existir acuerdo entre los especialistas, todos coinciden en que la cantidadde clases esta limitada por una condicion del siguiente tipo:

npi ≥ 5 para i = 1, . . . , k (Fisher);

npi ≥ 10 para i = 1, . . . , k (Cramer);

npi ≥ 8 para i = 1, . . . , k (Borovkov).

DeGroot indica que la condicion de Fisher es suficiente para que la distribucion χ2 sea unabuena aproximacion de la distribucion de D2. Incluso afirma que, poniendo npi > 1.5 laaproximacion continua siendo satisfactoria.

En todo lo que sigue adoptaremos la condicion de Cramer sobre la cantidad y forma delas clases: npi ≥ 10 para i = 1, . . . , k. De este modo, si para algun i ocurriese que npi < 10redefinimos la particion C1, . . . , Ck del rango de la variable. Por ejemplo, uniendo Ci conCi+1. Esta condicion implica que si el volumen de la muestra no es muy grande, la particiondel rango de la variable no puede ser muy fina.

Ejemplo 8.7 (Exponencial). Se dispone de los siguientes datos sobre la duracion en horasde 100 baterıas:

3.9662191 0.5819433 0.1842986 0.5977917 1.9781844

0.6048519 0.7259459 1.5896094 0.2411217 2.4502631

1.6993148 0.9884268 0.4281823 2.0079459 0.0022114

0.0422904 1.6384416 0.2214073 0.4350003 0.1934794

0.3548681 0.7775309 0.1052627 0.6497803 0.7227835

3.0542040 3.4097021 0.3577800 1.4532404 2.2825177

1.4903543 0.6062705 0.9444304 0.1119637 1.2789623

0.3598502 0.8901427 0.1282656 0.3331565 1.6096607

1.3348741 3.1158026 0.4525998 0.4554032 0.8698826

0.0215405 0.7115861 0.4859616 1.3781469 0.0979241

0.8608390 0.1999889 0.6616866 0.6960469 1.4041375

1.6087253 0.2149426 0.4833662 2.3159498 1.0346222

49

Page 322: espacios de probabilidad

0.2056717 0.5228204 1.8704697 0.2166610 0.9409121

3.4983549 0.3543629 1.5233421 0.1877053 0.3911424

0.1840173 1.1453108 0.0161651 1.7702696 1.0397349

0.0772446 0.0421012 0.4814322 2.5107661 1.6500077

1.2448903 0.1030540 0.4572152 0.6299386 0.1021735

0.2197928 1.1234052 0.0936486 1.6546837 3.1267264

1.4791009 0.3132625 1.0092715 1.2217523 3.2381804

0.1215625 0.7677260 0.2124635 2.2532736 0.7156024

¿Puede afirmarse a un nivel del 1 % que la duracion de las baterıas se ajusta a una dis-tribucion exponencial de media 2 horas?

Solucion.1. Construyendo una particion. Lo primero que tenemos que hacer es determinar la cantidady la forma de las clases en que agruparemos los datos.

Con la indicacion de Cramer (npi ≥ 10, para i = 1, . . . , k) la maxima cantidad declases que podemos elegir es 10. Para simplificar un poco las cuentas elegiremos una par-ticion en 7 clases, C1, . . . , C7, que sean equiprobables bajo la distribucion hipotetica: X ∼Exponencial(1/2).6

Cuando la funcion de distribucion de una variable aleatoria es continua la construccionde la particion en k clases equiprobables se resuelve utilizando los cuantiles. La clase Ci

sera el intervalo[x i−1

k

, x i

k

), donde x i

k

es el cuantil- ik

de la distribucion hipotetica.

La funcion de distribucion de la exponencial de media 2 es F (x) = (1− e−x/2)1x ≥ 0y su cuantil-γ es la unica solucion de la ecuacion F (xγ) = γ. En consecuencia, xγ =−2 log(1 − γ). En consecuencia, para obtener 7 clases equiprobables basta poner

Ci =

[−2 log

(1 − i − 1

7

),−2 log

(1 − i

7

)), i = 1, . . . , 7,

lo que produce: C1 = [0, 0.3083), C2 = [0.3083, 0.6729), C3 = [0.6729, 1.1192), C4 =[1.1192, 1.6946), C5 = [1.6946, 2.5055), C6 = [2.5055, 3.8918) y C7 = [3.8918,∞).

2. Agrupando los datos. Determinadas las clases agrupamos los datos. En la siguiente tablase muestran las frecuencias observadas y la cantidad que aporta cada clase a la medida dedispersion D2:

ni 26 23 16 18 9 7 1(ni − npi)

2/npi 9.60571 5.31571 0.20571 0.96571 1.95571 3.71571 12.35571

3. Decision al 1 %. Finalmente comparamos el valor obtenido para D2 = 34.12 con el cuantil0.99 de la distribucion χ2

6,0.99 = 16.812. Como D2 > χ26,0.99 concluimos que la duracion de

las pilas no se ajusta a la distribucion exponencial de media 2 horas.

6Notar que al elegir el criterio de las clases “equiprobables” para construir la particion, garantizamosde entrada que no habra partes sub o sobre dimensionadas y no vamos a encontrarnos con el problema detener que unir dos clases porque quedaron muy “flacas”.

50

Page 323: espacios de probabilidad

Nota Bene. No siempre se puede dividir el rango de la variable en clases de igual prob-abilidad. Las variables discretas no lo permiten. En tal caso habra que conformarse conalgunas partes suficientemente “gorditas” como para que valga la condicion npi ≥ 10

8.5. Test de bondad de ajuste para hipotesis compuestas

La hipotesis nula afirma que

H0 : FX = Fθ1, ..., θr,

donde Fθ1, ..., θres una distribucion de probabilidades perteneciente a una familia parametri-

ca completamente determinada y los valores de los parametros θ1, . . . , θr son desconocidos.En este caso los r parametros desconocidos se estiman usando el metodo de maxima

verosimilitud. Los valores de las r estimaciones se “enchufan” en la distribucion parametricacomo si fuesen los verdaderos valores de los parametros y se aplica el test χ2 desarrollado enla seccion 8.2. Solo que ahora se perdera un grado de libertad por cada parametro estimado.Si para construir la medida de dispersion D2 se recurrio a una particion del rango de lavariable X en k clases, la distribucion de D2 sera aproximadamente una χ2

k−1−r.

Ejemplo 8.4. (Continuacion) La hipotesis H0 afirma que la cantidad de impactos porsegundo recibidos por la partıcula de polen sigue una distribucion de Poisson, pero noindica cual es su media (el parametro λ).

El estimador de maxima verosimilitud para la media de una distribucion de Poisson esλmv = X. Usando los datos que aparecen en la tabla (62) obtenemos

λmv =0(1364) + 1(1296) + 2(642) + 3(225) + 4(55) + 5(15) + 6(3)

3600=

3568

3600= 0.9911 ≈ 1.

Las clases Ci se pueden construir usando como criterio que 3600P(X ∈ Ci) ≥ 10. Sisuponemos que X ∼ Poisson(1), su funcion de probabilidades sera P(X = n) = e−1/n!,n = 0, 1, . . . .

Usaremos como particion las siguientes clases: C1 = 0, C2 = 1, C3 = 2, C4 =3, 4, 5, . . . , cuyas probabilidades son p1 = p2 = 0.3678, p3 = 0.1839 y p4 = 0.0805.Obtenemos que

D2 =(1364 − 3600p1)

2

3600p1

+(1296 − 3600p2)

2

3600p2

+(642 − 3600p3)

2

3600p3

+(298 − 3600p4)

2

3600p4

=1593.6064

1324.08+

788.4864

1324.08+

401.6016

662.04+

67.24

289.8= 2.6376

Si se observa la Figura 12 se puede ver que un valor de 2.6376 para D2 no es inusual parauna distribucion χ2

2, lo que indica que la cantidad de impactos recibidos por la partıculade polen se puede considerar como una variable aleatoria con distribucion Poisson.

51

Page 324: espacios de probabilidad

Ejemplo 8.5. (Continuacion) La hipotesis nula es de la forma H0 : X ∼ N (µ, σ2).Informalmente, se puede ver usando un histograma que los datos “obedecen” a una dis-tribucion normal.

645 695 745 795 845 895 945 995 10450

1

2

3

4

5

6x 10

−3

Figura 14: Histograma de los mediciones de Michelson y grafico de la densidad de ladistribucion de media X = 852.4 y varianza S2 = 79.0105.

Usando los cuantiles de la distribucion normal de media 852.4 y varianza 79.0105,construimos 9 clases equiprobables delimitadas por los valores: 756, 792, 818, 841, 863, 886,913 y 949. Las frecuencias observadas en cada una de las 9 clases son, respectivamente,9, 11, 15, 12, 11, 14, 7, 6 y 15. Con esos datos, la medida de dispersion resulta D2 = 7.82 <χ2

6, 0.90...

9. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bolfarine, H., Sandoval, M. C.: Introducao a Inferencia Estatıstica. SBM, Rio deJaneiro. (2001).

2. Borovkov, A. A.: Estadıstica matematica. Mir, Moscu. (1984).

3. Cramer, H.: Metodos matematicos de estadıstica. Aguilar, Madrid. (1970).

4. DeGroot, M. H.: Probability and Statistics. Addion-Wesley, Massachusetts. (1986).

5. Fisher, R. A.: Statistical methods for research workers. Hafner, New York (1954).

6. Hoel P. G.: Introduccion a la estadıstica matematica. Ariel, Barcelona. (1980).

7. Lehmann, E. L.: Elements of Large-Sample Theory. Springer, New York. (1999)

52

Page 325: espacios de probabilidad

8. Maronna R.: Probabilidad y Estadıstica Elementales para Estudiantes de Ciencias.Editorial Exacta, La Plata. (1995).

9. Meyer, P. L.: Introductory Probability and Statistical Applications. Addison-Wesley,Massachusetts. (1972).

10. Rice, J. A.: Mathematical Statistics and Data Analysis. Duxbury Press, Belmont.(1995).

11. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.Elsevier Academic Press, San Diego. (2004)

12. Walpole, R. E.: Probabilidad y estadıstica para ingenieros, 6a. ed., Prentice Hall,Mexico. (1998)

53

Page 326: espacios de probabilidad

Analisis Bayesiano

(Borradores, Curso 23)

Sebastian Grynberg

17-19 de junio de 2013

Aquı no valen Dotores,Solo vale la esperiencia,

Aquı verıan su inocenciaEsos que todo lo saben;

Por que esto tiene otra llaveY el gaucho tiene su ciencia.

(Martın Fierro)

1

Page 327: espacios de probabilidad

Indice

1. Analisis Bayesiano 2

1.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . . . . . . . . . . . . 21.2. Distribuciones predictivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3. Estimadores Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4. Estimacion por intervalo para parametro continuo . . . . . . . . . . . . . . . 61.5. Sobre la distribucion a priori uniforme. . . . . . . . . . . . . . . . . . . . . . . 7

2. Ejemplos 8

2.1. Las distribuciones β y el problema del “control de calidad” . . . . . . . . . . 82.2. Normales de varianza conocida y media normal . . . . . . . . . . . . . . . . . 132.3. Distribuciones Poisson con a priori Gamma . . . . . . . . . . . . . . . . . . . 16

3. Bibliografıa consultada 19

1. Analisis Bayesiano

Si se lo compara con el modelado probabilıstico, el proposito del analisis estadıstico es fun-damentalmente un proposito de inversion, ya que se propone inferir las causas (los parametrosdel mecanismo aleatorio) a partir de los efectos (las observaciones). En otras palabras, cuandoobservamos un fenomeno aleatorio regulado por un parametro θ, los metodos estadısticos nospermiten deducir de las observaciones una inferencia (esto es, un resumen, una caracteri-zacion) sobre θ, mientras que el modelado probabilıstico caracteriza el comportamiento de lasobservaciones futuras condicionales a θ. Este aspecto de la estadıstica es obvio en la nocionde funcion de verosimilitud, puesto que, formalmente, es la densidad conjunta de la muestrareescrita en el orden propio

L(θ|x) = f(x|θ), (1)

i.e., como una funcion de θ, que es desconocida, que depende de los valores observados x.La regla de Bayes es una descripcion general de la inversion de probabilidades: si A y E

son eventos de probabilidad positiva, P(A|E) y P(E |A) estan relacionados por

P(A|E) =P(E |A)P(A)

P(E)=

P(E |A)P(A)

P(E |A)P(A) + P(E |Ac)P(Ac).

En su version continua, la regla de Bayes establece que dadas dos variables aleatorias Xe Y , con distribucion condicional fX|Y =y(x) y distribucion marginal fY (y), la distribucioncondicional de Y dado que X = x es

fY |X=x(y) =fX|Y =y(x)fY (y)

fX|Y =y(x)fY (y)dy.

1.1. Distribuciones a priori y a posteriori

Desde el punto de vista probabilıstico el teorema de inversion es bastante natural. Bayesy Laplace fueron mas alla y consideraron que la incerteza sobre el parametro desconocido de

2

Page 328: espacios de probabilidad

un modelo parametrico puede modelarse mediante una distribucion de probabilidad sobre elespacio parametrico.

La esencia del enfoque Bayesiano consiste en que el parametro desconocido, θ, se consideracomo variable aleatoria con cierta funcion densidad de probabilidades

πθ(t), t ∈ Θ.

La densidad πθ(t) se llama densidad a priori, o sea, dada antes del experimento. El enfoqueBayesiano supone que el parametro desconocido θ se ha escogido aleatoriamente de la dis-tribucion cuya densidad es πθ(t).

Definicion 1.1. Un modelo estadıstico Bayesiano esta hecho de un modelo parametricoF = f(x|t) : t ∈ Θ para las observaciones y una distribucion de probabilidad a priori πθ(t)sobre el espacio parametrico Θ.

Nota Bene. En un modelo Bayesiano, la “densidad” muestral f(x|t), t ∈ Θ, es la “densi-dad” condicional de la variable aleatoria X dado que θ = t.

Dado un modelo Bayesiano podemos construir varias distribuciones, a saber:

1. La distribucion conjunta del parametro θ y la muestra aleatoria X = (X1, . . . , Xn):

fθ,X(t,x) = f(x|t)πθ(t) =

(

n∏

i=1

f(xi|t))

πθ(t). (2)

2. La distribucion marginal de la muestra aleatoria X = (X1, . . . Xn):

fX(x) =

Θfθ,X(t,x)dt =

Θf(x|t)πθ(t)dt. (3)

3. La distribucion a posteriori (o sea, despues del experimento) de la variable aleatoria θ,obtenida mediante la formula de Bayes:

π(t|x) =fθ,X(t,x)

Θ fθ,X(t,x)dt=

f(x|t)πθ(t)∫

Θ f(x|t)πθ(t)dt. (4)

Nota Bene. Si el parametro θ es una variable aleatoria discreta, la “densidad” a prioriπθ(t) debe interpretarse como la funcion de probabilidades y las expresiones del tipo

dtdeben reemplazarse por expresiones del tipo

t.

Ejemplo 1.2 (Bayes (1764)). Se echa a rodar una bola de billar B1 sobre una lınea delongitud 1, con probabilidad uniforme de que se detenga en cualquier lugar. Se detiene en θ.Una segunda bola B2 se echa a rodar 5 veces bajo las mismas condiciones que la primera yX denota la cantidad de veces que la bola B2 se detuvo a la izquierda de donde lo hizo B1.Dado que X = x, ¿que se puede inferir sobre θ?

El problema consiste en hallar la distribucion a posteriori de θ dado que X = x, cuandola distribucion a priori de θ es uniforme sobre (0, 1) y X ∼ Binomial(5, θ). Puesto que

f(x|t) =

(

5

x

)

tx(1 − t)5−x y πθ(t) = 1t ∈ (0, 1),

3

Page 329: espacios de probabilidad

la distribucion conjunta del parametro θ y la variable aleatoria X es

fθ,X(t, x) =

(

5

x

)

tx(1 − t)5−x1t ∈ (0, 1)

y la distribucion marginal de la variable X es

fX(x) =

∫ 1

0

(

5

x

)

tx(1 − t)5−xdt =

(

5

x

)∫ 1

0tx(1 − t)5−xdt =

(

5

x

)

Γ(x+ 1)Γ(6 − x)

Γ(7)

=5!

x!(5 − x)!

x!(5 − x!)

6!=

1

6, x = 0, 1, . . . , 5

(En palabras, los 6 posibles valores de X son igualmente probables.)De lo anterior se deduce que la distribucion a posteriori de θ dado que X = x

π(t|x) = 6

(

5

x

)

tx(1 − t)5−x1t ∈ (0, 1),

i.e., la distribucion de θ condicional a que X = x es la distribucion β(x+ 1, 6 − x).

Ejemplo 1.3 (Laplace (1773)). En una urna hay 12 bolas blancas y negras. Si la primer bolaextraıda es blanca, ¿cual es la probabilidad de que la proporcion θ de bolas blancas sea 2/3?Asumiendo a priori que las cantidades 2 a 11 de bolas blancas son igualmente probables, i.e.,que θ es equiprobable sobre 2/12, . . . , 11/12. La distribucion a posteriori de θ se deduceusando el teorema de Bayes:

π(2/3|datos) =(2/3)(1/10)

∑11/12p=2/12 p(1/10)

=(2/3)

∑11n=2 n/12

=8

(11 × 12)/2 − 1=

8

65.

Principio de verosimilitud. La formula de Bayes (4) puede leerse del siguiente modo:observado que la muestra aleatoria X arrojo los valores x, la distribucion a posteriori de θ esproporcional a la funcion de verosimilitud L(t|x) = f(x|t) multiplicada por la distribucion apriori de θ. En sımbolos

π(t|x) ∝ L(t|x)πθ(t).

Esto significa que la informacion sobre la variable θ que viene en una muestra x esta comple-tamente contenida en la funcion de verosimilitud L(t|x). Mas aun, cuando x1 y x2 son dosobservaciones que dependen del mismo parametro θ y existe una constante c que satisface

L1(t|x1) = cL2(t|x2)

para cada t ∈ Θ, entonces x1 y x2 tienen la misma informacion sobre θ y deben conducira inferencias identicas. Esto es ası porque el analisis Bayesiano se basa completamente en ladistribucion a posteriori π(t|x) que depende de x solo a traves de L(t|x).

Ejemplo 1.4. Trabajando sobre el ranking de una serie televisiva un investigador encontro 9espectadores que la miran y 3 que no la miran. Si no se dispone de mas informacion sobre elexperimento, se pueden proponer al menos dos modelos. Si θ ∈ (0, 1) representa la proporcionde los espectadores que mira la serie:

4

Page 330: espacios de probabilidad

(1) El investigador encuesto a 12 personas y por lo tanto observo X ∼ Binomial(12, θ)con X = 9.

(2) El investigador encuesto Y personas hasta que encontro 3 que no miraban la serie ypor lo tanto observo Y ∼ Pascal(3, 1 − θ) con Y = 12.

El punto importante es que, en cualquiera de los dos modelos, la verosimilitud es propor-cional a

θ3(1 − θ)9.

Por lo tanto, el principio de verosimilitud implica que la inferencia sobre θ debe ser identicapara ambos modelos.

1.2. Distribuciones predictivas

Sea X = (X1, . . . , Xn) una muestra aleatoria de una distribucion indexada por θ. Seobserva que X = x y se quiere predecir una el comportamiento de una nueva observacionY ∼ g(y|θ), donde Y es una variable aleatoria que depende del mismo parametro θ. En elcontexto probabilıstico predecir significa contestar preguntas del tipo: ¿con que probabilidadse observaran valores en un intervalo dado? En otras palabras ¿cual sera la distribucion de lanueva observacion Y ?

Este problema se puede resolver usando la formula de probabilidad total. Dado que seobservo X = x, la funcion densidad predictiva (o incondicional) de la nueva observacion Ysera

g(y|x) =

g(y|t)π(t|x)dt. (5)

El primer factor del integrando que aparece en (5) corresponde a las densidades de la variablealeatoria Y condicionadas al conocimiento de que θ = t. El segundo factor corresponde a ladensidad a posteriori del parametro aleatorio θ.

Si tuviesemos la capacidad de observar que valor arrojo la variable θ y observaramosque θ = t, la prediccion de Y quedarıa determinada por la densidad condicional g(y|t).Sin embargo, la hipotesis fundamental de este enfoque es que el parametro θ no puede serobservado y lo unico que podemos observar es la muestra aleatoria X. El calificativo deincondicional que se le otorga a la densidad g(y|x) obtenida en (5) esta puesto para destacarque su construccion no utiliza observaciones del parametro θ.

Ejemplo 1.5 (Bayes (1764) Continuacion.). Supongamos ahora que la bola B2 se detuvoexactamente 3 veces a la izquierda de donde lo hizo la bola B1, ¿cual es la probabilidad p deque al echar a rodar una tercera bola de billar B3 tambien se detenga a la izquierda de dondese detuvo B1?

Sea Y ∼ Bernoulli(θ) la variable aleatoria que vale 1 si la bola B3 se detiene a la izquierdade donde se detuvo B1 y 0 en caso contrario. Para calcular p usamos la distribucion predictiva:

p = P(Y = 1|X = 3) =

∫ 1

0P(Y = 1|t)π(t|3)dt =

∫ 1

0tπ(t|3) = E[θ|X = 3].

Como θ|X = 3 ∼ β(4, 2), resulta que p = 4/6.

5

Page 331: espacios de probabilidad

1.3. Estimadores Bayesianos

1. Estimacion bayesiana por esperanza condicional. En el contexto Bayesiano θ esuna variable aleatoria. Entre todas las funciones (de la muestra aleatoria X) θ = ϕ(X)la mejor estimacion para θ (desde el punto de vista de minimizar el error cuadraticomedio E[(θ − ϕ(X))2]) es la esperanza condicional E[θ|X]:

θ(X) = E[θ|X] =

tπ(t|X)dt. (6)

2. Estimacion bayesiana por maximo a posteriori. Otro estimador, de uso frecuente,es el llamado maximo a posteriori (o moda) definido por

θmap(X) := arg maxt∈Θ

π(t|X). (7)

Ejemplo 1.6 (Bayes (1764) Continuacion.). Supongamos ahora que la bola B2 se detuvoexactamente 3 veces a la izquierda de donde lo hizo la bola B1. En tal caso

θ(3) = E[θ|X = 3] =4

6

y

θmap(3) = arg maxt∈(0,1)

6

(

5

3

)

t3(1 − t)2 = arg maxt∈(0,1)

t3(1 − t)2.

Como el logaritmo es una funcion creciente, el argumento que maximiza a la funcion t3(1−t)2coincide con el argumento maximizador de la funcion ψ(t) = log(t3(1 − t)2) = 3 log(t) +2 log(1 − t). Observando que

0 =d

dtψ(t) =

3

t− 2

1 − t⇐⇒ 3(1 − t) − 2t = 0 ⇐⇒ t =

3

5,

se puede deducir que

θmap(3) =3

5.

1.4. Estimacion por intervalo para parametro continuo

Dada la muestra aleatoria X se desea construir intervalos (acotados) que capturen casitoda la variabilidad del parametro aleatorio θ. Si el intervalo [a, b] es tal que

P(θ ∈ [a, b]|X) = 1 − α, (8)

sera llamado intervalo estimador de nivel 1−α. En la practica, los valores de α son pequenos:0.1 o 0.05 o 0.01. En general, los valores de a y b dependeran de los valores de la muestraaleatoria x. Dado que X = x, los intervalos estimadores de nivel 1−α se obtienen resolviendola siguiente ecuacion de las variables a y b:

∫ b

aπ(t|x)dt = 1 − α. (9)

6

Page 332: espacios de probabilidad

De todas las soluciones posibles de la ecuacion (9) se prefieren aquellas que producen intervalosde longitud lo mas pequena posible.

Una solucion particular de la ecuacion (9) puede obtenerse mediante el siguiente razon-amiento: como la distribucion a posteriori del parametro θ esta centrada alrededor de suesperanza, θ(x) := E[θ|X = x], y no puede desviarse demasiado de allı, los intervalos que lacontengan deben ser relativamente pequenos. Esto sugiere la siguiente construccion: dividira la mitad el nivel y tratar de capturar cada una de las mitades a izquierda y a derecha deθ(x). En otras palabras, se trata de resolver las siguientes ecuaciones:

∫ θ(x)

aπ(t|x)dt =

1 − α

2,

∫ b

θ(x)π(t|x)dt =

1 − α

2. (10)

Ejemplo 1.7. Se considera el siguiente modelo Bayesiano: X ∼ N (θ, 1) con distribucion apriori θ ∼ N (0, 10). Sobre la base de una muestra de tamano 1 de X se quiere determinar unintervalo de nivel 1 − α para la variable θ.

Dado que X = x tenemos que

π(t|x) ∝ L(θ|x)πθ(t) ∝ exp

(

−(x− t)2

2− t2

20

)

∝ exp

(

−11

20

(

t− 10x

11

)2)

y por lo tanto θ|X = x ∼ N(

10x11 ,

1011

)

. Como la variable

Z =(θ|X = x) − (10x/11)

10/11∼ N (0, 1)

tenemos que P(

|Z| < z1−α/2

)

= 1 − α y de allı se deduce dado que X = x el intervalo[

10x

11− z1−α/2

10

11,

10x

11+ z1−α/2

10

11

]

es un intervalo estimador de nivel 1 − α.

1.5. Sobre la distribucion a priori uniforme.

Cuando el parametro θ tiene distribucion a priori U[a, b], esto es πθ(t) = 1b−a1t ∈ [a, b]

el enfoque Bayesiano se simplifica abruptamente.La formula de Bayes para la distribucion a posteriori (4) adopta la forma

π(t|x) =L(t|x) 1

b−a1t ∈ [a, b]∫

L(t|x) 1b−a1t ∈ [a, b]dt =

L(t|x)1t ∈ [a, b]∫ ba L(t|x)dt

. (11)

En palabras, si la distribucion a priori del parametro es uniforme, la densidad de su distribu-cion a posteriori es proporcional a la funcion de verosimilitud: π(t|x) ∝ L(t|x).

Nota Bene. En cierto sentido, que puede precisarse, la distribucion U[a, b] es la menosinformativa entre todas las distribuciones continuas a valores en [a, b].

En teorıa de la informacion la indeterminacion de una variable aleatoria X se mide conla entropıa definida por H(X) := E[− log f(X)], donde f(x) es la densidad de probabilidadesde la variable aleatoria X. En otros terminos

H(X) := −∫

f(x) log f(x)dx. (12)

7

Page 333: espacios de probabilidad

Teorema 1.8. Entre todas las variables aleatorias continuas a valores en [a, b] la que maxi-miza la entropıa es la U[a, b].

Demostracion. No se pierde generalidad si se supone que [a, b] = [0, 1]. Si X ∼ U[0, 1],entonces

H(X) = −∫ 1

01 log(1)dx = 0.

El resultado se obtiene mostrando que si X es una variable aleatoria continua a valores en el[0, 1], entonces H(X) ≤ 0.

Es facil ver que para todo x > 0 vale la desigualdad

log(x) ≤ x− 1 (13)

Poniendo x = 1u , u > 0, en la desigualdad (13) se obtiene

− log u = log

(

1

u

)

≤ 1

u− 1 (14)

La desigualdad (14) se usa para obtener

H(X) = −∫ 1

0f(x) log f(x)dx ≤

∫ 1

0f(x)

(

1

f(x)− 1

)

dx =

∫ 1

01dx−

∫ 1

0f(x)dx = 0.

Comentario Bibliografico. Una exposicion elemental de la nocion de entropıa y de lasdistribuciones menos informativas puede leerse en Pugachev, V.S., (1973). Introduccion a laTeorıa de Probabilidades, Mir, Moscu.

Enfoque Bayesiano generalizado. Si la funcion de verosimilitud L(t|x) es integrable,i.e., 0 <

∫∞−∞ L(t|x)dt <∞, la expresion

π(t|x) :=L(t|x)

∫∞−∞ L(t|x)dt

(15)

define una densidad de probabilidades en R. Por abuso del lenguaje, algunos autores suelenllamarla la densidad a posteriori correspondiente a la distribucion a priori “uniforme sobre larecta”1 No hay ningun problema en utilizar este enfoque siempre que no se pierda de vistaque no existe ninguna distribucion uniforme sobre regiones de longitud infinita. El enfoqueque postula una densidad a posteriori de la forma (15) sera llamado Bayesiano generalizado.

2. Ejemplos

2.1. Las distribuciones β y el problema del “control de calidad”

Control de calidad. La calidad de un proceso de produccion puede medirse por el por-centaje, 100 θ%, de artıculos defectuosos producidos. Cada artıculo producido tiene asociada

1Nota historica: la denominacion para esta a priori impropia se debe a Laplace.

8

Page 334: espacios de probabilidad

una variable aleatoria de Bernoulli, X ∼ Bernoulli(θ), cuyo parametro θ denota la probabili-dad de que el artıculo sea defectuoso.

El punto de partida del enfoque Bayesiano es la distribucion a priori del parametro.Supongamos que, a priori, θ ∼ U(0, 1). Se observa una muestra aleatoria X = (X1, . . . , Xn) yusando la formula de Bayes (4) se obtiene la densidad, π(t|x), de la distribucion a posterioride θ dado que X = x. Cuando la densidad a priori es uniforme la densidad a posteriori esproporcional a la verosimilitud. Por lo tanto,

π(t|x) ∝ L(t|x) = tk(x)(1 − t)n−k(x)1t ∈ (0, 1), (16)

donde k(x) =∑n

i=1 xi. De la identidad (16) se concluye que θ|X = x tiene una distribucionbeta de parametros k(x)+1 y n−k(x)+1. En consecuencia la constante de proporcionalidadsera

Γ(n+ 2)

Γ(k(x) + 1)Γ(n− k(x) + 1)=

(n+ 1)!

k(x)!(n− k(x))!= (n+ 1)

(

n

k(x)

)

. (17)

Conclusion. Sea X = (X1, . . . , Xn) una muestra aleatoria de volumen n correspondientea una variable aleatoria X ∼ Bernoulli(θ). Si la distribucion a priori del parametro θ esuniforme sobre el intervalo (0, 1) y se observa que X = x, entonces la distribucion a posteriori(del parametro θ) es una β(k+ 1, n− k+ 1), donde k es la cantidad de exitos observados. Enotras palabras, la densidad de θ|X = x es

π(t|x) = (n+ 1)

(

n

k

)

tk(1 − t)n−k1t ∈ (0, 1), (18)

donde k =∑n

i=1 xi.

Funcion de probabilidad marginal. Cual es la probabilidad de que en una muestrade volumen n se observen exactamente k artıculos defectuosos. La cantidad de artıculosdefectuosos sera N =

∑ni=1Xi. Dado que θ = t, las variablesX1, . . . , Xn seran independientes,

cada una con distribucion de Bernoulli(t) y en tal caso N ∼ Binomial(n, t)

P(N = k|t) =

(

n

k

)

tk(1 − t)n−k, k = 0, 1, . . . , n (19)

Por lo tanto, condicionando sobre θ = t y usando la formula de probabilidad total, obtenemosque

P(N = k) =

∫ 1

0P(N = k|t)πθ(t)dt =

∫ 1

0

(

n

k

)

tk(1 − t)n−kdt

=

(

n

k

)∫ 1

0tk(1 − t)n−kdt =

(

n

k

)

k!(n− k)!

(n+ 1)!

=1

n+ 1k = 0, 1, . . . , n (20)

En otras palabras, los n+ 1 valores posibles de N son igualmente probables.

9

Page 335: espacios de probabilidad

Funcion de probabilidad predictiva Supongamos ahora que en una muestra de volumenn se observaron exactamente k artıculos defectuosos. Cual es la probabilidad p de que un nuevoartıculo resulte defectuoso?

Para calcular p usamos la funcion de probabilidad predictiva obtenida en (5):

p = f(1|x) =

∫ 1

0f(1|t)π(t|x)dt =

∫ 1

0tπ(t|x)dx = E[θ|X = x] =

k + 1

n+ 2. (21)

Esto es, si los primeros n artıculos resultaron en k defectuosos, entonces el proximo artıculosera defectuoso con probabilidad (k + 1)/(n+ 2).

De la ecuacion (21) resulta una descripcion alternativa del proceso de produccion exam-inado: Hay una urna que inicialmente contiene una bola blanca y una bola negra. En cadapaso se extrae al azar una bola de la urna y se la repone junto con otra del mismo color.Despues de cada extraccion la cantidad de bolas del color extraıdo aumenta una unidad y lacantidad de bolas del color opuesto se mantiene constante. Si de las primeras n bolas elegi-das, k fueron blancas, entonces en la urna al momento de la n+ 1-esima extraccion hay k+ 1blancas y n − k + 1 negras, y por lo tanto la siguiente bola sera blanca con probabilidad(k + 1)/(n + 2). Identificando la extraccion de una bola blanca con un artıculo defectuoso,tenemos una descripcion alternativa del modelo original. Este ultimo se llama modelo de urnade Polya.

Estimadores Bayesianos

1. Utilizando la esperanza condicional de θ|X = x obtenemos la siguiente estimacion

θ(x) = E[θ|X = x] =1

n+ 2

(

1 +n∑

i=1

xi

)

. (22)

2. El estimador maximo a posteriori se obtiene observando que

θmap(x) = arg maxt∈(0,1)

(n+ 1)

(

n

k

)

tk(1 − t)n−k = arg maxt∈(0,1)

tk(1 − t)n−k

= arg maxt∈(0,1)

log tk(1 − t)n−k = arg maxt∈(0,1)

(k log t+ (n− k) log(1 − t))

=k

n,

donde k =∑n

i=1 xi. Por lo tanto,

θmap(x) = x. (23)

Nota Bene. Notar que

θ(x) =n

n+ 2x+

1

n+ 2=

n

n+ 2x+

2

n+ 2E[U(0, 1)],

donde x = 1n

∑ni=1 xi.

10

Page 336: espacios de probabilidad

Estimacion por intervalo Se quiere construir un intervalo estimador (de nivel 1−α) paraθ sabiendo que en una muestra de volumen n se observaron k artıculos defectuosos.

En este caso la ecuacion (9) adopta la forma

1 − α =

∫ b

a

(n+ 1)!

k!(n− k)!tk(1 − t)n−kdt. (24)

El problema equivale a encontrar las raıces de un polinomio de grado n + 1 en las variablesa y b y no hay metodos generales para encontrarlas. El problema se puede resolver mediantealguna tecnica de calculo numerico para aproximar raıces de polinomios implementada en uncomputador. Para 3 ≤ n + 1 ≤ 4 pueden utilizarse las formulas de Tartaglia para resolverecuaciones de tercer y cuarto grado. Estas formulas pueden consultarse en el Tomo 1 delAnalisis matematico de Rey Pastor.

Cuando k = 0 o k = n la ecuacion (24) se puede resolver “a mano”: si k = 0 la ecuacion(24) adopta la forma

1 − α =

∫ b

a(n+ 1)(1 − t)ndt = (n+ 1)

(

−(1 − t)n+1

n+ 1

b

a

)

= (n+ 1)

(

(1 − a)n+1

n+ 1− (1 − b)n+1

n+ 1

)

= (1 − a)n+1 − (1 − b)n+1.

Fijado un valor “razonable” de a se puede despejar el valor de b

b = 1 − n+1√

(1 − a)n+1 − (1 − α), 0 ≤ a ≤ 1 − n+1√

1 − α (25)

Hemos visto que, para k = 0 el maximo a posteriori es 0, poniendo a = 0 se obtiene b =1 − n+1

√α. Por lo tanto, el intervalo

[

0, 1 − n+1√α]

es un intervalo estimador de nivel 1 − α.

Ejemplo 2.1. Sea X una variable aleatoria Bernoulli de parametro θ. A priori se suponeque la distribucion de θ es uniforme sobre el intervalo [0, 1]. Supongamos que una muestraaleatoria de volumen n = 20 arroja los siguientes resultados:

x = (0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1)

Distribucion a posteriori. Como la cantidad de exitos observados es k = 11, tenemosque θ|X = x ∼ β(12, 10). En otras palabras, la densidad a posteriori es de la forma

π(t|x) =21!

11!9!t11(1 − t)91t ∈ [0, 1]. (26)

En la Figura 1 se muestran los graficos de la distribucion a priori de θ y de la distribucion aposteriori de θ vista la muestra.

11

Page 337: espacios de probabilidad

0 0.2 0.4 0.6 0.8 10

0.5

1

1.5

2

2.5

3

3.5

4

Figura 1: Graficos de las densidades a priori y a posteriori: en verde el grafico de la densidadde la distribucion U[0, 1] y en azul el de la distribucion β(12, 10).

Prediccion. ¿Cual es la probabilidad de que en una nueva muestra de volumen 5 resultenexactamente 2 exitos?

En primer lugar hay que observar que dado que θ = t la cantidad de exitos N en unamuestra de volumen 5 tiene distribucion Binomial(5, t). Por lo tanto,

P(N = 2|t) =

(

5

2

)

t2(1 − t)3 = 10t2(1 − t)3.

Como la densidad a posteriori de θ resulto ser

π(t|x) =21!

11!9!t11(1 − t)91t ∈ [0, 1],

de la formula de probabilidad total se deduce que

P(N = 2|x) =

∫ 1

0P(N = 2|t)f(t|x)dt =

∫ 1

010t2(1 − t)3

21!

11!9!t11(1 − t)9dt

= 1021!

11!9!

∫ 1

0t13(1 − t)12dt = 10

21!

11!9!

13!12!

26!=

6

23= 0.26 . . .

Estimadores Bayesianos

1. Esperanza condicional:

θ = E[θ|X = x] =12

22=

6

11= 0.5454 . . . .

2. Maximo a posteriori:

θmap = x =11

20= 0.55.

12

Page 338: espacios de probabilidad

Estimacion por intervalo Para construir un intervalo [a, b], de nivel 0.95, para θ podemosresolver las siguientes ecuaciones

∫ a

0

21!

11!9!t11(1 − t)9dt = 0.025,

∫ b

0

21!

11!9!t11(1 − t)9dt = 0.975.

Utilizando una herramienta de calculo obtenemos que a = 0.3402 y b = 0.7429.

2.2. Normales de varianza conocida y media normal

Sea X = (X1, . . . , Xn) una muestra aleatoria de una familia normal N (θ, σ2), con σ2

conocido. Supongamos que la distribucion a priori del parametro θ es una normal N (µ, ρ2)

Distribucion a posteriori. Por definicion, ver (4), la densidad a posteriori de θ, dado queX = x, queda caracterizada por la relacion de proporcionalidad π(t|x) ∝ L(t|x)πθ(t), dondeL(t|x) es la funcion de verosimilitud y πθ(t) la densidad a priori de θ.

Primero calculamos la funcion de verosimilitud. De las igualdades

L(µ, σ2|x) =n∏

i=1

f(xi|µ, σ2) =n∏

i=1

1√2πσ

exp

(

−(xi − µ)2

2σ2

)

=

(

1√2πσ

)n

exp

(

− 1

2σ2

n∑

i=1

(xi − µ)2

)

=

(

1√2πσ

)n

exp

(

−∑n

i=1(xi − x)2

2σ2

)

exp

(

−n(x− µ)2

2σ2

)

, (27)

donde x = 1n

∑ni=1 xi,

2 se deduce que

L(t|x) ∝ exp

(

−n(x− t)2

2σ2

)

. (28)

Por hipotesis, θ ∼ N (µ, ρ2). En consecuencia,

πθ(t) ∝ exp

(

−(t− µ)2

2ρ2

)

(29)

De (28) y (29), la densidad a posteriori satisface

π(t|x) ∝ exp

(

−[

n(x− t)2

2σ2+

(t− µ)2

2ρ2

])

. (30)

Completando cuadrados respecto de t se obtiene

n(x− t)2

2σ2+

(t− µ)2

2ρ2=nρ2 + σ2

2σ2ρ2

(

t− nρ2x+ σ2µ

nρ2 + σ2

)2

+ otras cosas (31)

2La ultima igualdad de (27) se obtiene observando que

nX

i=1

(xi − µ)2 =

nX

i=1

(xi − x)2 + n(x − µ)2.

13

Page 339: espacios de probabilidad

donde “otras cosas” son expresiones que no dependen de t. En consecuencia,

π(t|x) ∝ exp

(

−nρ2 + σ2

2σ2ρ2

(

t− nρ2x+ σ2µ

nρ2 + σ2

)2)

. (32)

Por lo tanto, la distribucion a posteriori de θ dado que X = x es una normal

N(

nρ2x+ σ2µ

nρ2 + σ2,

σ2ρ2

nρ2 + σ2

)

. (33)

Funcion densidad predictiva. Comenzamos calculando el producto de la densidad condi-cional de X dado que θ = t por la densidad a posteriori de θ dado que X = x:

f(x|t)π(t|x) =1√2πσ

exp

(

−(x− t)2

2σ2

)

1√2πρ∗

exp

(

−(t− µ∗)2

2ρ2∗

)

=1√2π

1√2πρ∗σ

exp

(

−[

(x− t)2

2σ2+

(t− µ∗)2

2ρ2∗

])

, (34)

donde µ∗ y ρ2∗ son la media y la varianza de la distribucion a posteriori de θ dado que X = x

µ∗ =nρ2x+ σ2µ

nρ2 + σ2y ρ2

∗ =σ2ρ2

nρ2 + σ2(35)

Con un poco de paciencia, puede verse que

(x− t)2

2σ2+

(t− µ∗)2

2ρ2∗=

ρ2∗ + σ2

2σ2ρ2∗

(

t− ρ2∗x+ σ2µ∗ρ2∗ + σ2

)2

+(x− µ∗)

2

2(ρ2∗ + σ2)(36)

En consecuencia,

f(x|t)π(t|x)

=1√2πσ

1√2πρ∗

exp

(

−[

ρ2∗ + σ2

2σ2ρ2∗

(

t− ρ2∗x+ σ2µ∗ρ2∗ + σ2

)2

+(x− µ∗)

2

2(ρ2∗ + σ2)

])

=1

2π(ρ2∗ + σ2)exp

(

− (x− µ∗)2

2(ρ2∗ + σ2)

)

× 1√

2π ρ2∗σ2

ρ2∗+σ2

exp

(

−ρ2∗ + σ2

2σ2ρ2∗

(

t− ρ2∗x+ σ2µ∗ρ2∗ + σ2

)2)

. (37)

Integrando respecto de t, ambos lados de identidad (37), obtenemos la expresion de la densidadpredictiva

f(x|x) =

f(x|t)π(t|x)dt =1

2π(ρ2∗ + σ2)exp

(

− (x− µ∗)2

2(ρ2∗ + σ2)

)

. (38)

En otras palabras, la distribucion de la variable aleatoria X dado que X = x, es una nor-mal de media µ∗ y varianza σ2 + ρ2

∗. El resultado obtenido nos permite calcular todas lasprobabilidades de la forma P(X ∈ A|X = x).

14

Page 340: espacios de probabilidad

Estimadores Bayesianos. En este caso, como el maximo de la normal se alcanza en lamedia ambos estimadores coinciden:

θ =nρ2x+ σ2µ

nρ2 + σ2. (39)

Nota Bene. Note que

θ =nρ2

nρ2 + σ2x+

σ2

nρ2 + σ2µ =

nρ2

nρ2 + σ2x+

σ2

nρ2 + σ2E[N (µ, ρ2)] (40)

Estimacion por intervalo. En lo que sigue construiremos un intervalo estimador de nivel1 − α para θ sabiendo que X = x. Sabemos que θ|X = x se distribuye como una normal demedia µ∗ y varianza ρ2

∗. Proponiendo un intervalo centrado en la media µ∗ de la forma

[µ∗ − ǫ, µ∗ + ǫ] (41)

y usando la simetrıa de la normal con respecto a su media, el problema se reduce a encontrarel valor de ǫ que resuelve la ecuacion siguiente

1 − α

2= P (θ ≤ µ∗ + ǫ|X = x) = P

(

θ − µ∗ρ∗

≤ ǫ

ρ∗

X = x

)

= Φ

(

ǫ

ρ∗

)

. (42)

En consecuencia,

ǫ = ρ∗Φ−1(

1 − α

2

)

=

σ2ρ2

nρ2 + σ2Φ−1

(

1 − α

2

)

=σρ

nρ2 + σ2Φ−1

(

1 − α

2

)

(43)

Por lo tanto, el intervalo

[

nρ2x+ σ2µ

nρ2 + σ2− σρ√

nρ2 + σ2Φ−1

(

1 − α

2

)

,nρ2x+ σ2µ

nρ2 + σ2+

σρ√

nρ2 + σ2Φ−1

(

1 − α

2

)

]

(44)

es un intervalo estimador de nivel 1−α para θ sabiendo que X = x. Note que la longitud delintervalo no depende los valores arrojados por la muestra y es del orden de 1√

n.

Curva peligrosa. Para una muestra de una N (θ, σ2) con distribucion a priori para θ de laforma N (µ, ρ2) obtuvimos que la distribucion a posteriori satisface

f(t|x) ∝ exp

(

−nρ2 + σ2

2σ2ρ2

(

t− nρ2x+ σ2µ

nρ2 + σ2

)2)

. (45)

A medida que aumentamos el valor de ρ2 la informacion contenida en la distribucion a priorise va “destruyendo” y la densidad a posteriori se va aproximando a la densidad de una normalde media x y varianza σ2/n:

lımρ2→∞

f(t|x) ∝ exp

(

−n (t− x)2

2σ2

)

∝ Lt(x). (46)

15

Page 341: espacios de probabilidad

En palabras informales y poco rigurosas, si se destruye la informacion contenida en la distribu-cion a priori N (µ, ρ2) mediante el procedimiento de hacer ρ2 → ∞ se obtiene una densidadde probabilidades proporcional a la verosimilitud. Vale decir, en el caso lımite se obtiene elenfoque Bayesiano generalizado. Desde esta perspectiva, el enfoque Bayesiano generalizadopuede interpretarse como una metodologıa orientada a destruir toda la informacion contenidaen las distribuciones a priori del parametro.

Ejemplo 2.2. Se tiene la siguiente muestra aleatoria de volumen n = 10 de una poblacionN (θ, 1)

2.0135 0.9233 0.0935 0.0907 0.3909

0.3781 -1.9313 -0.8401 3.4864 -0.6258

Si, a priori, suponemos que θ ∼ N (0, 1), entonces la distribucion a posteriori de θ es unanormal, ver (33), N

(

10x11 ,

111

)

. Observando la muestra se obtiene que x = 0.3979. Por lo tanto,la distribucion a posteriori del parametro es una normal N (3.979

11 , 111).

−3 −2 −1 0 1 2 30

0.2

0.4

0.6

0.8

1

1.2

1.4

Figura 2: Graficos de las densidades a priori (en verde) y a posteriori (en azul).

Como la moda y la media de la distribucion normal coinciden, el estimador puntualBayesiano resulta ser θ = 3.979/11 = 0.3617 . . . .

Utilizando la tabla de la normal estandar puede verse que I = [−0.22920.9527] es unintervalo de nivel 0.95.

Etcetera...

2.3. Distribuciones Poisson con a priori Gamma

Sea X = (X1, . . . , Xn) una muestra aleatoria de una distribucion Poisson de parametro θ,θ > 0. Supongamos que la distribucion a priori del parametro θ es una Gamma de parametrosν y λ. Esto es, la densidad a priori del parametro es de la forma

πθ(t) ∝ tν−1e−λt1t > 0 (47)

.

16

Page 342: espacios de probabilidad

Distribucion a posteriori. La densidad a posteriori de θ, dado que X = x, queda carac-terizada por la relacion de proporcionalidad π(t|x) ∝ L(t|x)πθ(t), donde L(t|x) es la funcionde verosimilitud y πθ(t) es la densidad a priori de θ. En este caso la funcion de verosimilitudes de la forma

L(t|x) ∝ e−nttP

n

i=1xi . (48)

De (47) y (48) se deduce que la densidad a posteriori de θ dado que X = x satisface

π(t|x) ∝ e−nttP

n

i=1xitν−1e−λt1t > 0 = t

P

n

i=1xi+ν−1e−(n+λ)t1t > 0. (49)

Por lo tanto, la distribucion a posteriori de θ dado que X = x es una Gamma

Γ

(

n∑

i=1

xi + ν, n+ λ

)

.

Estimadores Bayesianos.

1. Utilizando la esperanza condicional de θ|X = x obtenemos la siguiente estimacion.

θ = E[θ|X = x] =

∑ni=1 xi + ν

n+ λ(50)

2. La estimacion por maximo a posteriori se obtiene observando que

arg maxt>0

tae−bt = arg maxt>0

log tae−bt = arg maxt>0

(a log t− bt) =b

a.

Por lo tanto,

θmap =

∑ni=1 xi + ν − 1

n+ λ. (51)

Nota Bene. Notar que

θ =

∑ni=1 xi + ν

n+ λ=

n

n+ λ

(∑ni=1 xi

n

)

n+ λ

λ

)

=n

n+ λx+

λ

n+ λE[Γ(ν, λ)]. (52)

Funcion de probabilidad predictiva. El producto de la probabilidad condicional de Xdado que θ = t por la densidad a posteriori de θ dado que X = x:

f(x|t)π(t|x) = e−t tx

x!

(n+ λ)ν(x)

Γ(ν(x))tν(x)−1e−(n+λ)t1t > 0

=(n+ λ)ν(x)

x!Γ(ν(x))tν(x)+x−1e−(n+λ+1)t1t > 0, (53)

17

Page 343: espacios de probabilidad

donde ν(x) =∑n

i=1 xi + ν. Integrando respecto de t ambos lados de la identidad (53), obten-emos la expresion de la funcion de probabilidad incondicional (o predictiva)

f(x|x) =(n+ λ)ν(x)

x!Γ(ν(x))

∫ ∞

0tν(x)+x−1e−(n+λ+1)tdt

=(n+ λ)ν(x)

x!Γ(ν(x))

Γ(ν(x) + x)

(n+ λ+ 1)ν(x)+x

=Γ(ν(x) + x)

Γ(ν(x))x!

(n+ λ)ν(x)

(n+ λ+ 1)ν(x)+x

=Γ(ν(x) + x)

Γ(ν(x))x!

(

1

n+ λ+ 1

)x( n+ λ

n+ λ+ 1

)ν(x)

. (54)

Una expresion que con un poco de paciencia (o una computadora a la mano) se puede calcularpara cada valor de x.

Caso ν ∈ N. En este caso la expresion para la funcion de probabilidad incondicional (54)adopta la forma

f(x|x) =(ν(x) + x− 1)!

(ν(x) − 1)!x!

(

1

n+ λ+ 1

)x( n+ λ

n+ λ+ 1

)ν(x)

=

(

ν(x) + x− 1

ν(x) − 1

)(

1

n+ λ+ 1

)x( n+ λ

n+ λ+ 1

)ν(x)

. (55)

La expresion (55) para la funcion de probabilidad condicional f(x|x) admite la siguienteinterpretacion probabilıstica: Dado que X = x, la probabilidad incondicional de que la variablePoisson asuma el valor x es igual a la probabilidad de que en una sucesion de ensayos Bernoulliindependientes de parametro n+λ

n+λ+1 el ν(x)-esimo exito ocurra en el (ν(x)+x)-esimo ensayo.

Estimacion por intervalo. Dado que X = x, podemos construir un intervalo estimadorde nivel 1 − α para θ observando que

2(n+ λ)θ ∼ Γ

(

2ν(x)

2,1

2

)

.

Si ademas ν ∈ N, entonces2(n+ λ)θ ∼ χ2

2ν(x).

En tal caso,

P

(

2(n+ λ)θ ∈[

χ22ν(x),α/2, χ

22ν(x),1−α/2

])

= 1 − α.

Por lo tanto, si ν ∈ N y sabiendo que X = x el intervalo

[

χ22ν(x),α/2

2(n+ λ),χ2

2ν(x),1−α/2

2(n+ λ)

]

,

donde ν(x) =∑n

i=1 xi + ν, es un intervalo estimador de nivel 1 − α para θ.

18

Page 344: espacios de probabilidad

Ejemplo 2.3. La cantidad de errores de tipeo por hoja que comete una secretaria profesionalpuede modelarse con una distribucion de Poisson de parametro θ (¿Por que?). A priori, sesupone que el parametro θ sigue una distribucion exponencial de intensidad 1 (Esta hipotesissobre la distribucion de θ es la menos informativa si se supone que la media de la distribuciones 1). Se analizan 10 hojas tipeadas por la mencionada secretaria y resulta que la cantidadde errores por pagina es

1 3 3 3 4 6 3 2 2 2

Si la secretaria tipea una nueva hoja, cual es la probabilidad de que cometa como maximo unerror?

Solucion. Para resolver este problema utilizaremos la funcion de probabilidad predictiva.De acuerdo con (54), como la distribucion a priori de θ es una Exp(1) = Γ(1, 1), dicha funciones de la forma

f(x|x) =

(

ν(x) + x− 1

ν(x) − 1

)(

1

n+ λ+ 1

)x( n+ λ

n+ λ+ 1

)ν(x)

=

(

29 + x

29

)(

1

12

)x(11

12

)30

,

debido a que n = 10, ν(x) =∑n

i=1 xi + 1 = 30 y λ = 1. Por lo tanto, la probabilidad de quela secretaria cometa como maximo un error al tipear una nueva hoja sera

f(0|x) + f(1|x) =

(

29

29

)(

1

12

)0(11

12

)30

+

(

30

29

)(

1

12

)1(11

12

)30

=

(

11

12

)30(

1 + 30

(

1

12

))

=

(

11

12

)30(7

2

)

= 0.257 . . .

3. Bibliografıa consultada

Para redactar estas notas se consultaron los siguientes libros:

1. Bolfarine, H., Sandoval, M. C.: Introducao a Inferencia Estatıstica. SBM, Rio de Janeiro.(2001)

2. Borovkov, A. A.: Estadıstica matematica. Mir, Moscu. (1984)

3. Hoel P. G.: Introduccion a la estadıstica matematica. Ariel, Barcelona. (1980)

4. Pugachev, V. S.: Introduccion a la Teorıa de Probabilidades. Mir, Moscu. (1973)

5. Robert, C. P.: The Bayesian Choice. Springer, New York. (2007)

6. Ross, S. M.: Introduction to Probability and Statistics for Engieneers and Scientists.Elsevier Academic Press, San Diego. (2004)

19