168
Capítulo 2 Variables aleatorias 2.1. Introducción En un espacio de probabilidades (, A,P ) los elementos del espacio mues- tral no tienen por qué ser números. En la tirada de una moneda al aire, los sucesos elementales, cara y cruz, no son valores numéricos. No obstante, siem- pre podemos hacer corresponder el número 1 a la cara, y el 0 a la cruz. Esta asignación de valores numéricos a los sucesos elementales de un espacio de prob- abilidades es la base para denir el concepto de variable aleatoria. En efecto, una variable aleatoria será una aplicación X denida sobre el espacio muestral tal que a cada suceso elemental ω le hace corresponder un valor numérico X(ω). Este número puede ser real o complejo, e incluso un vector cuando las variables aleatorias son n-dimensionales. No obstante, aquí sólo estudiaremos el caso real, tratando con detalle las variables aleatorias unidimensionales y bidimensionales y dejando al lector la generalización al caso n-dimensional. Sin embargo, para estudiar las variables aleatorias no sólo hay que conocer los valores que puede tomar sino que también es necesario conocer la probabilidad con que toma estos valores. Por ejemplo, si la variable aleatoria X fuera el 49

Demostraciones probabilidad

Embed Size (px)

Citation preview

Page 1: Demostraciones probabilidad

Capítulo 2

Variables aleatorias

2.1. Introducción

En un espacio de probabilidades (Ω,A, P ) los elementos del espacio mues-tral Ω no tienen por qué ser números. En la tirada de una moneda al aire, lossucesos elementales, cara y cruz, no son valores numéricos. No obstante, siem-pre podemos hacer corresponder el número 1 a la cara, y el 0 a la cruz. Estaasignación de valores numéricos a los sucesos elementales de un espacio de prob-abilidades es la base para definir el concepto de variable aleatoria. En efecto,una variable aleatoria será una aplicaciónX definida sobre el espacio muestral Ωtal que a cada suceso elemental ω le hace corresponder un valor numérico X(ω).Este número puede ser real o complejo, e incluso un vector cuando las variablesaleatorias son n-dimensionales. No obstante, aquí sólo estudiaremos el caso real,tratando con detalle las variables aleatorias unidimensionales y bidimensionalesy dejando al lector la generalización al caso n-dimensional.

Sin embargo, para estudiar las variables aleatorias no sólo hay que conocer losvalores que puede tomar sino que también es necesario conocer la probabilidadcon que toma estos valores. Por ejemplo, si la variable aleatoria X fuera el

49

Page 2: Demostraciones probabilidad

50 CAPÍTULO 2. VARIABLES ALEATORIAS

número de éxitos en n pruebas de Bernoulli, será preciso conocer la probabilidadde que la variable aleatoria sea menor, igual o mayor que un determinado númerok; si la variable aleatoria X fuera la intensidad de corriente que pasa por uncircuito eléctrico, sabiendo que fluctúa entre 1 y 2 amperios, habrá que conocerprobabilidades tales como la de que la intensidad esté comprendida entre 1 y1.2 amperios.Por definición de probabilidad, sólo los sucesos de la σ-álgebra A tienen asig-

nada probabilidad. Esto significa que para calcular la probabilidad de que unavariable aleatoria X tome valores de un cierto intervalo real [x1, x2] habrá quetraducir esta información en términos de sucesos de A. Para ello, introducimosla siguiente notación: designaremos por [x1 ≤ X ≤ x2] el suceso formado portodos los ω ∈ Ω que hacen que X(ω) tome un valor real del intervalo [x1, x2], esdecir,

[x1 ≤ X ≤ x2] = ω ∈ Ω : x1 ≤ X(ω) ≤ x2Del mismo modo, tenemos

[X = x] = ω ∈ Ω : X(ω) = x

[X ≤ x] = ω ∈ Ω : X(ω) ≤ xy, en general, si M es un subconjunto de la recta real, entonces

[X ∈M ] = ω ∈ Ω : X(ω) ∈M

Para poder asignar probabilidades a todos estos sucesos debemos primero asegu-rarnos de que son sucesos de la σ-álgebra A. Si el espacio muestral Ω es discretoy A = P(Ω), entonces cualquier suceso es un suceso de la σ-álgebra y, por tan-to, todos estos subconjuntos de Ω tendrán probabilidades bien asignadas. Sinembargo, si el espacio muestral es continuo, no podemos asegurar que sucesostales como [X ∈M ] sean sucesos de A, y, en consecuencia, no podemos asegurarque tengan asignada una probabilidad. Sin embargo, se puede demostrar que siimponemos la condición de que

[X ≤ x] = ω ∈ Ω : X(ω) ≤ x ∈ A (2.1)

para todo x ∈ R, entonces todos los sucesos de la forma [X ∈ M ] tienen prob-abilidad bien asignada. Es evidente que la condición (5.1) hace que no todaaplicación de Ω en R pueda considerarse automáticamente como una variablealeatoria. No obstante, cuando Ω sea finito o numerable y se tome A = P(Ω),entonces toda aplicación X : Ω → R cumplirá la condición (5.1). Por tanto,es este caso particular, cualquier función real definida sobre Ω es una variablealeatoria.

Observación 10 Dado un espacio de probabilidades (Ω,A, P ) y una variablealeatoria X, ésta induce sobre el espacio probabilizable (R,B), formado por larecta real y la σ-álgebra de Borel sobre R, una probabilidad PX mediante la

Page 3: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 51

cual (R,B, PX) es un espacio de probabilidades. Entonces, se llama función dedistribución de la variable aleatoria X a la función FX : R → R definida por

FX(x) = PX((−∞, x])

= P (X−1(−∞, x])

= P (ω ∈ Ω : X(ω) ≤ x)= P ([X ≤ x])

De este modo, podríamos definir una variable aleatoria como una función realX definida sobre Ω tal que para todo número real x está definida la probabilidadP ([X ≤ x]) y, por tanto, su función de distribución. Es aquí cuando necesitamosque [X ≤ x] ∈ A para todo x ∈ R, o sea la condición (5.1). Además, de laspropiedades de los borelianos sobre R se deduce el hecho de que esta condiciónsea la única a imponer para que podamos calcular las probabilidades de otrossucesos tales como [x1 ≤ X ≤ x2] , [X = x], o [X ∈ Q].

2.2. Definición de variable aleatoriaSea (Ω,A, P ) un espacio de probabilidades, se dice que una aplicación

X : Ω → R

es una variable aleatoria (real) si para todo x ∈ R se cumpleω ∈ Ω : X(ω) ≤ x ∈ A

En tal caso, como ya hemos visto en la introducción, este suceso se escribeabreviadamente como [X ≤ x]. Obsérvese que designamos por letras mayús-culas X,Y,Z, ... las variables aleatorias, y por letras minúsculas x, y, z, ... suscorrespondientes valores.

Ejemplo 32 1. En el lanzamiento de una moneda al aire tenemos Ω =c,+, en donde hemos simbolizado cara por c y cruz por +, y tomamosA = P(Ω). Entonces la aplicación X "número de veces que sale cara"esuna variable aleatoria. En efecto, es claro que X(c) = 1 y X(+) = 0, yademás se cumple

[X ≤ x] = ω ∈ Ω : X(ω) ≤ x = ∅ ∈ A si x < 0+ ∈ A si 0 ≤ x < 1Ω ∈ A si x ≥ 1

2. El tipo más simple de variable aleatoria es el que sirve para indicar si serealizó un suceso. Sea (Ω,A, P ) un espacio de probabilidades y considere-mos un suceso A ∈ A, entonces la aplicación

IA(ω) =

½1 si ω ∈ A0 si ω /∈ A

Page 4: Demostraciones probabilidad

52 CAPÍTULO 2. VARIABLES ALEATORIAS

es una variable aleatoria que se llama indicador del suceso A. En efecto,se cumple

[X ≤ x] = ω ∈ Ω : X(ω) ≤ x =∅ ∈ A si x < 0A ∈ A si 0 ≤ x < 1Ω ∈ A si x ≥ 1

3. Sea Ω el conjunto de resultados en la tirada de un dado y A = ∅, 2, 4, 6, 1, 3, 5,Ωel álgebra de sucesos. Definimos sobre (Ω, A) las siguientes aplicaciones:

X1(i) =

½1 si i ∈ 1, 2, 32 si i ∈ 4, 5, 6 y X2(i) =

½1 si i es par2 si i es impar

Entonces, la aplicación X1 no es una variable aleatoria, pues

[X1 ≤ x] = ω ∈ Ω : X1(ω) ≤ x = ∅ ∈ A si x < 11, 2, 3 /∈ A si 1 ≤ x < 2Ω ∈ A si x ≥ 2

mientras que X2 es una variable aleatoria, pues

[X2 ≤ x] = ω ∈ Ω : X2(ω) ≤ x = ∅ ∈ A si x < 12, 4, 6 ∈ A si 1 ≤ x < 2Ω ∈ A si x ≥ 2

Ejemplo 33 Consideremos el experimento aleatorio de lanzar dos dados al aire.Expresar su espacio muestral. Definimos la aplicación X "suma de los puntosobtenidos en los dos dados", ¿es X una variable aleatoria? ¿Cuáles son lossucesos [X = 7], [X ≤ 1], [X > 12] y [2 < X ≤ 7]?Solución: Es claro que

Ω = (1, 1), (1, 2), ...(1, 6), ..., (6, 1), (6, 2), ..., (6, 6)Definimos

X : Ω −→ R(i, j) 7−→ i+ j

Si sobre Ω consideramos la σ-álgebra dada por A = P (Ω), es fácil comprobarque para todo x ∈ R se cumple

(i, j) ∈ Ω : X(i, j) = i+ j ≤ x ∈ ATenemos

[X = 7] = (i, j) ∈ Ω : i+ j = 7= (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)

[X ≤ 1] = (i, j) ∈ Ω : i+ j ≤ 1 = ∅[X > 12] = (i, j) ∈ Ω : i+ j > 12 = Ω

Page 5: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 53

[2 < X ≤ 7] = (i, j) ∈ Ω : 2 < i+ j ≤ 7= (1, 2), (2, 1), (1, 3), (2, 2), (3, 1), (1, 4), (2, 3), (3, 2),

(4, 1), (1, 5), (2, 4), (3, 3), (4, 2), (5, 1), (1, 6), (2, 5),

(3, 4), (4, 3), (5, 2), (6, 1)

Ejemplo 34 Consideremos el experimento que consiste en tirar dos monedas alaire. Representamos los sucesos ”sale cara” y ”sale cruz” mediante c y x, respec-tivamente. Expresar su espacio muestral. Definimos la aplicación X "númerode caras obtenidas en el lanzamiento", ¿es X una variable aleatoria? ¿Cuálesson los sucesos [X = 1,5], [X ≤ 1], [X > 1] y [0,5 < X < 1,5]?Solución: Es claro que

Ω = cc, cx, xc, xxy que X(xx) = 0, X(cx) = X(xc) = 1 y X(cc) = 2. Además, si tomamosA = P(Ω), se cumple

ω ∈ Ω : X(ω) ≤ x =

∅ ∈ A si x < 0xx ∈ A si 0 ≤ x < 1xx, cx, xc ∈ A si 1 ≤ x < 2Ω ∈ A si x ≥ 2

y, por tanto, X es una variable aleatoria. Entonces, tenemos

[X = 1,5] = ω ∈ Ω : X(ω) = 1,5 = ∅[X ≤ 1] = ω ∈ Ω : X(ω) ≤ 1 = xx, cx, xc

[X > 1] = [X ≤ 1] = cc[0,5 < X < 1,5] = ω ∈ Ω : 0,5 < X(ω) < 1,5 = cx, xc

2.2.1. Operaciones con variables aleatorias

El propósito de esta sección es definir las operaciones algebraicas entre vari-ables aleatorias y demostrar que las nuevas aplicaciones formadas son tambiénvariables aleatorias.

Suma de variables aleatorias

La suma de dos variables aleatorias X,Y definidas sobre un mismo espaciode probabilidades (Ω,A, P ) es otra aplicación, denotada por X+Y , que cumple

(X + Y )(ω) = X(ω) + Y (ω)

para cada ω ∈ Ω.

Page 6: Demostraciones probabilidad

54 CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 9 Si X,Y son variables aleatorias sobre un espacio de probabilidades(Ω,A, P ), X + Y también lo es.Demostración: Sea x ∈ R y consideremos el conjunto

A =[r∈Q

([X ≤ r] ∩ [Y < x− r])

Como Q es numerable, A ∈ A. Es claro queA ⊂ [X + Y < x]

Sea ω ∈ [X + Y < x], entonces

X(ω) + Y (ω) < x

Consideremos cualquier número racional r0 tal que

X(ω) < r0 < x− Y (ω)

EntoncesX(ω) < r0 y Y (ω) < x− r0

y, por tanto, ω ∈ [X ≤ r0] ∩ [Y < x− r0] ⊂ A. Como consecuencia, tenemos

A = [X + Y < x] ∈ A

para todo x ∈ R. De aquí, ·X + Y < x+

1

2n

¸∈ A

y, en consecuencia,

∞\n=1

·X + Y < x+

1

2n

¸= [X + Y ≤ x] ∈ A

Producto de un número real por una variable aleatoria

El producto de un número real k por una variable aleatoria X definidasobre un espacio de probabilidades (Ω,A, P ) es otra aplicación, denotada porkX, que satisface

(kX)(ω) = k ·X(ω)para cada ω ∈ Ω.Teorema 10 Si k ∈ R y X es una variable aleatoria sobre un espacio de prob-abilidades (Ω,A, P ), kX también lo es.Demostración: Consideremos tres casos:

Page 7: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 55

Caso 1 k = 0En este caso, evidentemente tenemos

[kX ≤ x] =

½∅ si x < 0Ω si x ≥ 0

Caso 2 k > 0En este caso, para todo x ∈ R tenemos

[kX ≤ x] =hX ≤ x

k

i∈ A

Caso 3 k < 0En este caso, para todo x ∈ R tenemos

[kX ≤ x] =hX ≥ x

k

i=hX <

x

k

i∈ A

ya que hX <

x

k

i=∞[n=1

·X ≤ x

k− 1

2n

¸∈ A

pues, ·X ≤ x

k− 1

2n

¸∈ A (n = 1, 2, 3, ...)

La demostración de estos tres casos completa la prueba del teorema.

Producto de variables aleatorias

La producto de dos variables aleatorias X,Y definidas sobre un mismoespacio de probabilidades (Ω,A, P ) es otra aplicación, denotada por XY , quecumple

(XY )(ω) = X(ω) · Y (ω)para cada ω ∈ Ω.Teorema 11 Si X es una variable aleatoria sobre (Ω,A, P ), también lo es X2.Demostración: Es claro que si x < 0, entonces£

X2 ≤ x¤= ∅ ∈ A

Supongamos ahora que x ≥ 0, entonces tenemos£X2 ≤ x

¤=£−√x ≤ X ≤ √x¤ = £X ≤ √x¤ ∩ £X ≥ −√x¤ ∈ A

pues £X ≥ −√x¤ = £X < −√x¤ ∈ A

y £X < −√x¤ = ∞[

n=1

·X ≤ −√x− 1

2n

¸∈ A

Page 8: Demostraciones probabilidad

56 CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 12 Si X,Y son variables aleatorias sobre un espacio de probabili-dades (Ω,A, P ), XY también lo es.Demostración: Aplicando el teorema 1, deducimos que X − Y y X + Y sonvariables aleatorias. Por el teorema 3, deducimos que (X + Y )2 y (X − Y )2

también lo son. Por último, por los teoremas 1 y 2

(X + Y )2 − (X − Y )2

4= XY

es también una variable aleatoria.

Cociente de variables aleatorias

El cociente de dos variables aleatorias X,Y definidas sobre un mismo espa-cio de probabilidades (Ω,A, P ) es otra aplicación, denotada por X

Y , que satisface

(X

Y)(ω) =

X(ω)

Y (ω)

para todo ω ∈ Ω, supuesto que Y (ω) 6= 0; obsérvese que Dom¡XY

¢= [Y 6= 0].

Teorema 13 Si X,Y son variables aleatorias sobre un espacio de probabili-dades (Ω,A, P ) y [Y = 0] = ∅, entonces X

Y también lo es.Demostración: Podemos escribir·

X

Y≤ x

¸=

µ·X

Y≤ x

¸∩ [Y < 0]

¶∪µ·

X

Y≤ x

¸∩ [Y > 0]

¶= ([X ≥ xY ] ∩ [Y < 0]) ∪ ([X ≤ xY ] ∩ [Y > 0])

= ([X − xY ≥ 0] ∩ [Y < 0]) ∪ ([X − xY ≤ 0] ∩ [Y > 0])

Cada una de estas cuatro últimas clases de sucesos son también sucesos comopuede comprobarse enseguida utilizando la técnica usada en las demostracionesde los teoremas 1, 2 o 3.

Máximo y mínimo de variables aleatorias

Dadas dos variables aleatorias X,Y definidas sobre un espacio de prob-abilidades (Ω,A, P ), definimos la función máximo de X,Y , denotada pormaxX,Y , mediante

maxX,Y (ω) = maxX(ω), Y (ω)

para todo ω ∈ Ω. Del mismo modo, se define la función mínimo de X,Y ,denotada por mınX,Y , mediante

mınX,Y (ω) = mınX(ω), Y (ω)

para todo ω ∈ Ω.

Page 9: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 57

Teorema 14 Si X,Y son variables aleatorias sobre un espacio de probabili-dades (Ω,A, P ), entonces maxX,Y y mınX,Y son también variables aleato-rias.Demostración: El teorema se sigue de los dos hechos siguientes

[maxX,Y ≤ x] = [X ≤ x] ∩ [Y ≤ x] ∈ A

y[mınX,Y ≤ x] = [X ≤ x] ∪ [Y ≤ x] ∈ A

Puede también probarse que

mınX,Y = −max−X,−Y

y de aquí, demostrar que mın es una variable aleatoria.

2.2.2. Funciones de distribución. Propiedades

Si X es una variable aleatoria sobre un espacio de probabilidades (Ω,A, P ),se llama función de distribución de X a la función real de variable real FXdefinida por

FX(x) = P ([X ≤ x])

para todo x ∈ R.Esta función se introduce para conocer cómo se reparte la probabilidad de

los valores que toma la variable aleatoria. Obsérvese que si [X ≤ x] no fuera unsuceso de A, FX(x) no estaría definida (ver la observación 1). Escribiremos Fen lugar de FX cuando no haya confusión posible, y también P (X ≤ x) en lugarde P ([X ≤ x]).

Observación 11 Es importante saber distinguir los conceptos de variable aleato-ria y de función de distribución. Dada una variable aleatoria, tenemos los valoresreales asignados a cada uno de los elementos del espacio muestral, o como tam-bién se dice a menudo, tenemos una variabilidad del espacio de probabilidades.Mientras que, dada una función de distribución, tenemos únicamente cuálesson estos valores reales y cómo se reparten, o sea, tenemos la distribución deestos valores. Al pasar de una variable aleatoria a su distribución se pierde lainformación relacionada con los objetos que dan lugar a estos valores reales yque se recoge en el espacio de probabilidades. Es importante observar que dosvariables aleatorias distintas pueden tener la misma función de distribución. Enestos casos, decimos que las variables aleatorias son equivalentes (ver ejemplo4, apartado 1).

Ejemplo 35 1. Dado un espacio de probabilidades (Ω,A, P ) de manera queΩ = ω1, ω2, A = P(Ω) y P viene dada por

P (ω1) = P (ω2) =1

2

Page 10: Demostraciones probabilidad

58 CAPÍTULO 2. VARIABLES ALEATORIAS

Consideremos dos variables aleatorias X,Y definidas por

X(ω) =

½0 si ω = ω11 si ω = ω2

y Y (ω) =

½1 si ω = ω10 si ω = ω2

Es claro que X 6= Y , pues

X(ω) 6= Y (ω)

para todo ω ∈ Ω. Se cumple

[X ≤ x] =

∅ si x < 0ω1 si 0 ≤ x < 1Ω si x ≥ 1

y [Y ≤ y] =

∅ si y < 0ω2 si 0 ≤ y < 1Ω si y ≥ 1

y, por tanto,

FX(x) = P (X ≤ x) =

0 si x < 012 si 0 ≤ x < 11 si x ≥ 1

y

FY (y) = P (Y ≤ y) =

0 si y < 012 si 0 ≤ y < 11 si y ≥ 1

es decir, las dos variables aleatorias tienen la misma función distribución.

2. Consideremos el experimento que consiste en tirar tres veces una monedaal aire. En este caso, Ω consta de 8 sucesos elementales

Ω = ccc, ccx, cxx, xxx, xxc, xcc, xcx, cxc

donde por ejemplo cxc significa "salir cara, cruz y cara en las tres tiradas".Indicamos por X "número de caras obtenidas en las tres tiradas". Es claroque X es una variable aleatoria cuando A = P(Ω) y se cumple

X(ccc) = 3X(ccx) = X(xcc) = X(cxc) = 2X(cxx) = X(xxc) = X(xcx) = 1X(xxx) = 0

y

[X ≤ x] =

∅ si x < 0xxx si 0 ≤ x < 1xxx, cxx, xxc, xcx si 1 ≤ x < 2xxx, cxx, ..., xcc, cxc si 2 ≤ x < 3Ω si 3 ≤ x

Page 11: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 59

Entonces la función de distribución de X viene dada por

FX(x) = P (X ≤ x) =

0 si −∞ < x < 01/8 si 0 ≤ x < 11/2 si 1 ≤ x < 27/8 si 2 ≤ x < 31 si 3 ≤ x < +∞

La gráfica de esta función aparece en la siguiente figura

Propiedades

A continuación vamos a demostrar algunas propiedades de las funcionesdistribución en general.

Teorema 15 Si F es la función distribución de una variable aleatoria X sobreun espacio de probabilidades (Ω,A, P ), entonces se cumplen:

1. 0 ≤ F (x) ≤ 1 para todo x ∈ R2. F es monótona no decreciente:

x1 < x2 =⇒ F (x1) ≤ F (x2)

para todo x1, x2 ∈ R3. F (−∞) = 0 y F (+∞) = 14. P (a < X ≤ b) = F (b)− F (a) para todo a, b ∈ R con a ≤ b

Page 12: Demostraciones probabilidad

60 CAPÍTULO 2. VARIABLES ALEATORIAS

5. F es continua por la derecha en cada punto de R

Demostración: (1) Es evidente ya que F (x) = P (X ≤ x) y 0 ≤ P (X ≤ x) ≤ 1.(2) Si x1 < x2, podemos escribir

[X ≤ x2] = [X ≤ x1] ∪ [x1 < X ≤ x2]

y entonces, tomando probabilidades en los dos miembros de la ecuación, obten-emos

P (X ≤ x2) = P (X ≤ x1) + P (x1 < X ≤ x2) ≥ P (X ≤ x1)

y por definición, deducimos

F (x2) ≥ F (x1)

(3) De la definición obtenemos

F (+∞) = P (X ≤ +∞)

Ahora bien [X ≤ +∞] es el suceso seguro, ya que

X(ω) < +∞

para todo ω ∈ Ω, y por tanto, F (+∞) = 1. Como se cumple x < +∞ para todox ∈ R, del apartado (2) deducimos

F (x) ≤ F (+∞) = 1

Por otro lado, como queX(ω) > −∞

para todo ω ∈ Ω, se tiene que [X > −∞] es el suceso seguro. Por definición

F (−∞) = P (X ≤ −∞) = 1− P (X > −∞) = 0

Finalmente, como se verifica −∞ < x para todo x ∈ R, del apartado (2) deduci-mos

0 = F (−∞) ≤ F (x)

(4) Si a = b, la fórmula es evidente. Supongamos que a < b, entoncespodemos escribir

[X ≤ b] = [X ≤ a] ∪ [a < X ≤ b]

y entonces, tomando probabilidades en los miembros de la ecuación, obtenemos

P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)

y, por definición, deducimos lo que queríamos

P (a < X ≤ b) = F (b)− F (a)

Page 13: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 61

(5) Sea a cualquier número real. Para ver que F es continua por la derechaen a debemos demostrar que se cumple

lımx→a+

F (x) = F (a)

o de forma equivalente,

lımn→∞F (a+

1

n) = F (a)

Definimos los siguientes sucesos

An =

·a < X ≤ a+

1

n

¸Es claro que (An) es una sucesión decreciente de sucesos y su límite viene dadopor

lımn→∞An =

∞\n=1

·a < X ≤ a+

1

n

¸= ∅

Entonces, del apartado (4) deducimos

P (An) = F (a+1

n)− F (a)

y pasando al límite, obtenemos

lımn→∞P (An) = lım

n→∞F (a+1

n)− F (a)

y por la propiedad de continuidad de la probabilidad, tenemos

lımn→∞P (An) = P (∅) = 0

Como consecuencia, se tiene

lımn→∞F (a+

1

n) = F (a)

Observación 12 La función de distribución F puede ser discontinua por laizquierda. En efecto, si fuera continua por la izquierda en a debería cumplirse

lımn→∞F (a− 1

n) = F (a)

Ahora bien, consideremos la siguiente sucesión de sucesos (Bn) definida medi-ante

Bn =

·a− 1

n< X ≤ a

¸

Page 14: Demostraciones probabilidad

62 CAPÍTULO 2. VARIABLES ALEATORIAS

Es claro que es una sucesión decreciente y su límite viene dado por

lımn→∞Bn =

∞\n=1

·a− 1

n< X ≤ a

¸= [X = a]

Entonces, del apartado (4) del teorema deducimos

P (Bn) = F (a)− F (a− 1n)

y pasando al límite, obtenemos

lımn→∞P (Bn) = F (a)− lım

n→∞F (a− 1n)

y por la propiedad de continuidad de la probabilidad, tenemos

lımn→∞P (Bn) = P (X = a)

Por tanto, tenemos

F (a)− lımn→∞F (a− 1

n) = P (X = a)

y, como consecuencia, siP (X = a) 6= 0

entonces la función de distribución es discontinua por la derecha.

2.2.3. Variables aleatorias y distribuciones discretas

Se dice que una variable aleatoria X es discreta, y asimismo se llama disc-reta a su función de distribución F , si el conjunto de valores que toma conprobabilidad no nula es finito o numerable. Esto significa que existe una suce-sión de números reales x1, x2, ..., xn, ... tales que

P (X = xi) = pi 6= 0 y P (X 6= xi) = 0 (i = 1, 2, 3, ...)

Para una variable aleatoria discreta la función de distribución viene dadapor

F (x) =Xxi≤x

P (X = xi)

en donde la suma se realiza sobre todos aquellos valores de i para los que xi ≤ x.Asociada a una variable aleatoria discreta, o a su correspondiente distribu-

ción discreta, aparece una función a la que se le llama función de densidadde probabilidad, o simplemente función de densidad, que denotamos por fXo por f cuando no haya confusión, y se define por

f(x) =

½P (X = xi) si x = xi0 si x 6= xi para todo i = 1, 2, 3, ...

Como consecuencias inmediatas de la definición y de los axiomas de probabili-dad, tenemos las siguientes propiedades de la función de densidad

Page 15: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 63

1. 0 ≤ f(x) ≤ 12.

∞Xi=1

f(xi) = 1

3.F (x) =

Xxi≤x

f(xi)

Debe observarse que cualquier variable aleatoria discreta puede representarsemediante indicadores. Si In es el indicador del suceso [X = xn], entonces Xpuede escribirse en la siguiente forma

X =Xn

xnIn

En efecto, si ω ∈ [X = xk] (k = 1, 2, 3, ...), entonces

In(ω) =

½1 si n = k0 si n 6= k

y, por tanto, obtenemos

X(ω) =Xn

xnIn(ω) = xk

que es lo que tenía que salir.

Ejemplo 36 1. Sea X la variable aleatoria que da el número de éxitos en npruebas de Bernoulli. Es claro que X es una variable aleatoria discreta,pues sólo puede tomar los valores enteros que van de 0 a n. Además, secumple

P (X = k) =

µn

k

¶pk(1− p)n−k (k = 0, 1, 2, ..., n)

siendo p la probabilidad de éxito. Entonces, la función de distribución es

F (x) =Xk≤x

µn

k

¶pk(1− p)n−k

=

[x]Xk=0

µn

k

¶pk(1− p)n−k

siendo [x] la parte entera del número real x (es decir, el mayor númeroentero menor que x). Esta distribución se llama distribución binomialde parámetros n y p.

Page 16: Demostraciones probabilidad

64 CAPÍTULO 2. VARIABLES ALEATORIAS

2. Sea X una variable aleatoria discreta que puede tomar cualquier valorentero no negativo. Entonces X tiene una distribución de Poisson deparámetro λ > 0 si

P (X = k) =λk

k!e−λ (k = 0, 1, 2, ...)

La función de distribución viene dada por

F (x) =

[x]Xk=0

λk

k!e−λ

3. Sea X una variable aleatoria discreta que sólo puede tomar un númerofinito de valores x1, x2, ..., xn. Entonces X tiene una distribución uni-forme (discreta) si

P (X = xk) =1

n(k = 1, 2, ..., n)

La distribución uniforme es

F (x) =Xxk≤x

P (X = xk) =nxn

donde nx es el número de valores xk que son menores o iguales que x. Enla siguiente figura se muestra la distribución uniforme para n = 6

Page 17: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 65

Ejemplo 37 Se sabe que X es una variable aleatoria discreta que puede tomarcualquier valor entero no negativo. Además, se sabe que existe un número real0 < α < 1 para el que se cumple

P (X = k) = α · P (X = k − 1)(1) Encontrar la función de densidad de probabilidad de X. (2) Determinar laprobabilidad de que X tome valores impares.Solución: (1) Aplicando sucesivamente la relación dada entre las probabil-

idades, se tiene

P (X = k) = α · P (X = k − 1)= α2 · P (x = k − 2)= · · ·= αk · P (X = 0)

Sabemos que∞Xk=0

P (X = k) = 1

Page 18: Demostraciones probabilidad

66 CAPÍTULO 2. VARIABLES ALEATORIAS

luego,

1 =∞Xk=0

αk · P (X = 0)

= P (X = 0) ·∞Xk=0

αk

= P (X = 0) · 1

1− α

y, por tanto,P (X = 0) = 1− α

y, como consecuencia,

P (X = k) = αk(1− α) (k = 0, 1, 2, ...)

(2) SeaA = [X = 1] ∪ [X = 3] ∪ · · · ∪ [X = 2n− 1] ∪ · · ·

entonces la probabilidad pedida es P (A). Tenemos

P (A) =∞Xn=1

P (X = 2n− 1)

=∞Xn=1

α2n−1(1− α)

=1− α

α

∞Xn=1

α2n

=1− α

α

α2

1− α2

1 + α

2.2.4. Variables aleatorias y distribuciones absolutamentecontinuas

Una variable aleatoria se llama continua si su función de distribución notiene discontinuidades y, por tanto, el conjunto de valores que toma con prob-abilidad no nula es no numerable. Entre ellas, las más fáciles de estudiar sonlas absolutamente continuas. Una variable aleatoria se llama absolutamentecontinua si existe una función no negativa e integrable f , denominada funciónde densidad de probabilidad, tal que su función de distribución puede ponerseen la forma

F (x) =

Z x

−∞f(t) dt (2.2)

Page 19: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 67

para todo x ∈ R. Como consecuencia, es claro que la función de densidad ha decumplir también la siguiente condiciónZ +∞

−∞f(x) dx = 1

Es importante observar que la continuidad de F no implica la existencia de unarepresentación de la forma (5.3).

Observación 13 La clasificación de las variables aleatorias en discretas y con-tinuas no implica que toda distribución de probabilidad haya de ser discreta obien continua. Las distribuciones discretas y las distribuciones continuas sondos pequeñas clases disjuntas de distribuciones; son las más fáciles de estudiar,sobretodo si no se está familiarizado con la teoría de la medida y de la integralde Lebesgue. Es importante observar que hay muchas funciones de distribuciónque no son discretas ni tampoco son continuas.

Teorema 16 Si f es la función de densidad de una variable aleatoria absolu-tamente continua X y F es su función de distribución

F (x) =

Z x

−∞f(t) dt

entonces se cumplen

1. f(x) ≥ 0 para todo x ∈ R2. F es continua

3. P (X = a) = 0 para todo a ∈ R4. F 0(a) = f(a), si f es continua en a ∈ R5.

P (a < X ≤ b) =

Z b

a

f(x) dx

Demostración: (1) Por los apartados (3) y (4) del teorema 7, es inmediatocomprobar que f(x) ≥ 0 para todo x ∈ R.(2) Por el apartado (5) del teorema 7, F es continua por la derecha en cada

a ∈ R. Veamos ahora que F es continua por la izquierda. En efecto, sea > 0,entonces

F (a)− F (a− ) =

Z a

−∞f(x) dx−

Z a−

−∞f(x) dx

=

Z a

a−f(x) dx

= f(θ)

Page 20: Demostraciones probabilidad

68 CAPÍTULO 2. VARIABLES ALEATORIAS

en donde θ ∈ [a− , a]. Luego

lım→0+

[F (a)− F (a− )] = 0 · f(θ) = 0

de donde se deduce que F es continua por la izquierda en a.(3) Es consecuencia de la continuidad de F . En efecto, en la observación 3

hemos obtenidoF (a)− lım

n→∞F (a− 1n) = P (X = a)

Ahora bien, al ser F continua se cumple

lımn→∞F (a− 1

n) = F (a)

Por tanto,P (X = a) = 0

para todo a ∈ R.(4) Por el teorema fundamental del cálculo, para todo valor de x en el cual

f es continua, F es derivable y se cumple F 0(x) = f(x).(5) Por el apartado (4) del teorema 7, tenemos

P (a < X ≤ b) = F (b)− F (a)

=

Z b

a

f(x) dx

ya que f tiene a lo sumo un número finito de discontinuidades evitables o desalto finito. Obsérvese que por el apartado (3), se tiene

lımh→0

·F (x+ h)− F (x)

h− f(x)

¸= 0

de donde,

lımh→0

·P (x < X ≤ x+ h)

h− f(x)

¸= 0

y, en consecuencia,P (x < X ≤ x+ dx) = f(x) dx

es decir, f(x) dx se interpreta como la probabilidad infinitesimal de que la vari-able X tome valores dentro del intervalo (x, x+ dx].

Observación 14 1. Como consecuencia del apartado (4), la probabilidad esigual al área bajo la gráfica de la función densidad f en el intervalo [a, b].Además, como

[a, b] = a ∪ (a, b]de los apartados (3) y (4) se deduce

P (a ≤ X ≤ b) = P (X = a) + P (a < X ≤ b) = F (b)− F (a)

Page 21: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 69

Del mismo modo, tenemos

P (a ≤ X < b) = P (a < X < b) = F (b)− F (a)

Este hecho es diferente a la situación encontrada en el caso de una dis-tribución discreta.

2. En general, si la variable aleatoria X no es continua (y por tanto F noes continua por la izquierda), no se cumplen (3), (4) y las consecuenciasanteriores. En efecto, para estas variables se tiene

P (X = a) = F (a)− lımx→a−

F (x)

P (X < a) = P (X ≤ a)− P (X = a) = lımx→a−

F (x)

P (a < X < b) = lımx→b−

F (x)− F (a)

P (a < X ≤ b) = P (a < X < b) + P (X = b) = F (b)− F (a)

P (a ≤ X < b) = P (X = a) + P (a < X < b) = lımx→b−

F (x)− lımx→a−

F (x)

P (a ≤ X ≤ b) = F (b)− lımx→a−

F (x)

Obsérvese que todos los límites se toman por la izquierda.

Ejemplo 38 1. Una variable aleatoria absolutamente continua tiene unadistribución uniforme en un intervalo [a, b] si su función de densidadviene dada por

f(x) =

½1

b−a si x ∈ [a, b]0 si x /∈ [a, b]

La función de distribución vendrá dada por

F (x) =

Z x

−∞f(t) dt

Si x < a, entonces F (x) = 0 ya que f(x) = 0. Si a ≤ x < b, entonces

F (x) =

Z x

−∞f(t) dt

=

Z a

−∞f(t) dt+

Z x

a

f(t) dt

=

Z x

a

1

b− adt =

x− a

b− a

Finalmente, si x ≥ b, entonces

F (x) =

Z x

−∞f(t) dt

=

Z a

−∞f(t) dt+

Z b

a

f(t) dt+

Z x

b

f(t) dt

=

Z b

a

1

b− adt = 1

Page 22: Demostraciones probabilidad

70 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,

F (x) =

0 si x < ax−ab−a si a ≤ x < b

1 si x ≥ b

En la siguiente figura se muestra la distribución uniforme en el intervalo[2, 4]

2. Sea X una variable aleatoria absolutamente continua cuyo recorrido estoda la recta real. Se dice que X tiene una distribución exponencial deparámetro λ > 0 si su función de densidad viene dada por

f(x) =

½λe−λx si x ≥ 00 si x < 0

Si x < 0, la función de distribución F (x) = 0 ya que f(x) = 0. Si x ≥ 0,

Page 23: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 71

entonces

F (x) =

Z x

−∞f(t) dt

=

Z 0

−∞f(t) dt+

Z x

0

f(t) dt

=

Z x

0

λe−λt dt

= 1− e−λx

Luego

F (x) =

½1− e−λx si x ≥ 00 si x < 0

En la figura siguiente se muestra la distribución exponencial de parámetroλ = 2

3. Una variable aleatoria absolutamente continua tiene una distribución

Page 24: Demostraciones probabilidad

72 CAPÍTULO 2. VARIABLES ALEATORIAS

normal o de Gauss si la función de densidad es

f(x) =1

σ√2π

e−(x−µ)2/2σ2

donde µ y σ > 0 son parámetros de la distribución. La gráfica de f es laconocida campana de Gauss con un máximo situado en el punto x = µy dos inflexiones en los puntos x = µ ± σ. Para calcular su función dedistribución procedemos de la siguiente manera:

F (x) =1

σ√2π

Z x

−∞e−(t−µ)

2/2σ2 dt

haciendo el cambio siguiente

u =t− µ

σ

tenemos

F (x) =1√2π

Z 0

−∞e−u

2/2 du+1√2π

Z x−µσ

0

e−u2/2 du

Ahora bien, al ser e−u2/2 una función par, tenemos

1√2π

Z 0

−∞e−u

2/2 du =1√2π

Z +∞

0

e−u2/2 du

y sabemos que Z +∞

0

u2p−1e−au2

=Γ(p)

2ap

siendo

Γ(p) =

Z +∞

0

xp−1e−x dx

Luego Z +∞

0

e−u2/2 du =

Γ(1/2)

2p1/2

=

√2π

2

Por tanto, tenemos

F (x) =1√2π

√2π

2+

1√2π

Z x−µσ

0

e−u2/2 du

=1

2+Φ

µx− µ

σ

Page 25: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 73

donde

Φ(x) =1√2π

Z x

0

e−t2/2 dt

se llama la integral de probabilidad. En la siguiente figura se muestra ladistribución normal con parámetros µ = 0 y σ = 2

Ejemplo 39 Sea X una variable aleatoria absolutamente continua cuya funciónde densidad es

f(x) =

½k(1 + x2) si x ∈ (0, 3)

0 si x /∈ (0, 3)Se pide: (1) hallar la constante k y la función de distribución de X; (2) deter-minar la probabilidad de que X esté comprendido entre 1 y 2; y (3) hallar laprobabilidad de que X sea menor que 1.Solución: (1) Al ser f una función de densidad de una variable absoluta-

mente continua debe cumplirse queZ +∞

−∞f(x) dx = 1

Page 26: Demostraciones probabilidad

74 CAPÍTULO 2. VARIABLES ALEATORIAS

Luego, Z +∞

−∞f(x) dx =

Z 0

−∞f(x) dx+

Z 3

0

f(x) dx+

Z +∞

3

f(x) dx

= k

Z 3

0

(1 + x2) dx

= k

·x+

x3

3

¸30

= 12k

Por tanto, k = 1/12. Para hallar la función de distribución sabemos que

F (x) =

Z x

−∞f(t) dt

Luego, si x < 0, entonces F (x) = 0 ya que f(x) = 0. Si 0 < x < 3, entonces

F (x) =

Z x

−∞f(t) dt

=

Z 0

−∞f(t) dt+

Z x

0

f(t) dt

=

Z x

0

1 + t2

12dt

=1

12

·t+

t3

3

¸x0

=1

12

µx+

x3

3

¶Por tanto, obtenemos

F (x) =

0 si x ≤ 0112

³x+ x3

3

´si 0 < x < 3

1 si x ≥ 3(2) Se pide la probabilidad del suceso [1 ≤ X ≤ 2]. Entonces,

P (1 ≤ X ≤ 2) =Z 2

1

f(x) dx

=

Z 2

1

1

12(1 + x2) dx

=1

12

·x+

x3

3

¸21

=5

18

(3) Se pide la probabilidad del suceso [X < 1]. Entonces

P (X < 1) = F (1) =1

12(1 +

1

3) =

1

9

Page 27: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 75

2.2.5. Transformación de variables aleatorias

Sea X una variable aleatoria sobre un espacios probabilidades (Ω,A, P ) ysea g una función de la variable real x. Entonces, Y = g(X) es una nueva funciónreal definida sobre Ω tal que

Y (ω) = g(X(ω))

Si queremos que Y sea una variable aleatoria debemos imponer la condición deque

ω ∈ Ω : Y (ω) ≤ y ∈ A (2.3)

para todo y ∈ R. En lo sucesivo haremos la suposición de que las funciones gson tales que (2.3) se satisface.

En esta situación el problema que se nos plantea es el de encontrar las funcionesde densidad y de distribución de Y a partir de las de X. En el caso de vari-ables aleatorias discretas la solución a este problema viene dada por el siguienteteorema.

Teorema 17 Sea X una variable aleatoria discreta y Y una variable aleatoriadefinida por

Y = g(X)

Entonces la función de distribución de Y viene dada por

FY (y) =X

g(x)≤yP (X = x)

Demostración: Observamos que Y es una variable aleatoria discreta, ya que

P (Y = y) =X

g(x)=y

P (X = x)

Page 28: Demostraciones probabilidad

76 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,

FY (y) = P (Y ≤ y)

=X

g(x)≤yP (X = x)

Ejemplo 40 Dada la variable aleatoria discreta X definida por la siguientetabla

xi 0 2 5 7pi 0,3 0,2 0,4 0,1

Se pide determinar la distribución de la variable Y = 3X + 2.Solución: Observamos que

xi 0 2 5 7yi 2 8 17 23

Entonces,yi 2 8 17 23pi 0,3 0,2 0,4 0,1

La función de distribución de Y viene dada por

F (y) =X

3xi+2≤yP (X = xi)

Por tanto

F (y) =

0 si x < 20,3 si 2 ≤ y < 80,5 si 8 ≤ y < 170,9 si 17 ≤ y < 231 si y ≥ 23

En el caso de que las variables sean absolutamente continuas, hay dos pro-cedimientos. Uno consiste en calcular primero la función de distribución FYde Y = g(X) a partir de la de X y, después, si FY es derivable, determinarla función de densidad fY mediante fY (y) = F 0Y (y). La justificación de esteprocedimiento se encuentra en el teorema siguiente.

Teorema 18 Sea X una variable aleatoria absolutamente continua con funciónde densidad fX y sea Y la variable aleatoria definida por Y = g(X). Entonces,la función de distribución de Y es

FY (y) =

ZD

fX(x) dx

donde D es el subconjunto de la recta real definido por g(x) ≤ y.

Page 29: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 77

Demostración: Por definición, tenemos

FY (y) = P (Y ≤ y)

= P (g(X) ≤ y)

= P (X ∈ D)

ya que de la condicióng(X(ω)) ≤ y

se deduce X(ω) ∈ D. Por tanto,

P (X ∈ D) =

ZD

fX(x) dx

y, como consecuencia, tenemos

FY (y) =

ZD

fX(x) dx

que es lo que queríamos demostrar.

Ejemplo 41 Dada la variable aleatoria absolutamente continua X cuya funciónde densidad viene dada por

f(x) =

½2x si x ∈ (0, 1)0 si x /∈ (0, 1)

Consideramos las siguientes transformaciones: (1) Y = 3X + 5; (2) Y = X2;(3) Y = 2X2 + 5. En cada una, calcular las funciones de distribución y dedensidad.Solución: La función de distribución de X es

F (x) =

0 si x < 0x2 si 0 ≤ x < 11 si x ≥ 1

(1) Consideremos la transformación Y = 3X + 5. Tenemos

FY (y) = P (Y ≤ y)

= P (3X + 5 ≤ y)

= P (X ≤ y − 53)

= F (y − 53)

Ahora bien,0 < y−5

3 < 1 ⇐⇒ 5 < y < 8

Page 30: Demostraciones probabilidad

78 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,

FY (y) =

0 si y < 519(y − 5)2 si 5 ≤ y < 81 si y ≥ 8

Es claro que FY es derivable en (5, 8) y, por tanto, la función de densidad de Yviene dada por

fY (y) =

½29(y − 5) si y ∈ (5, 8)0 si y /∈ (5, 8)

(2) Consideremos la transformación Y = X2. En este caso, tenemos

FY (y) = P (Y ≤ y)

= P (X2 ≤ y)

= P (−√y ≤ X ≤ √y)= F (

√y)− F (−√y)

= F (√y)

Ahora bien0 <√y < 1 ⇐⇒ 0 < y < 1

Por tanto,

FY (y) =

0 si y < 0y si 0 ≤ y < 11 si y ≥ 1

Es claro que FY es derivable en (0, 1) y, por tanto, la función de densidad de Yviene dada por

fY (y) =

½1 si y ∈ (0, 1)0 si y /∈ (0, 1)

(3) Consideremos la transformación Y = 2X2 + 5. Entonces

FY (y) = P (Y ≤ y)

= P (2X2 + 5 ≤ y)

= P

Ã−r

y − 52≤ X ≤

ry − 52

!

= F

Ãry − 52

!− F

Ã−r

y − 52

!

= F

Ãry − 52

!

Ahora bien,

0 <q

y−52 < 1 ⇐⇒ 5 < y < 7

Page 31: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 79

Por tanto,

FY (y) =

0 si y < 5y−52 si 5 ≤ y < 71 si y ≥ 7

Es claro que FY es derivable en (5, 7) y, por tanto, la función de densidad de Yviene dada por

fY (y) =

½12 si y ∈ (5, 7)0 si y /∈ (5, 7)

Otro procedimiento consiste en determinar primero la función de densidadfY de Y = g(X) a partir de la de X y, después, por integración, calcular la fun-ción de distribución. Este procedimiento es más limitado que el anterior porquese han de comprobar previamente algunas condiciones como, por ejemplo, quela función g sea monótona y derivable. La justificación de este procedimiento sehalla en el siguiente teorema.

Teorema 19 Sea X una variable aleatoria absolutamente continua cuya fun-ción de densidad es una función fX continua. Sea g : R → R una funciónmonótona y derivable, entonces Y = g(X) es una variable aleatoria del mismotipo cuya función de densidad viene dada por

fY (y) = fX(x) · 1

|g0(x)|para todo y ∈ R, siendo y = g(x). Además, la función de distribución de Y es

FY (y) = FX(x)

si g es creciente, yFY (y) = 1− FX(x)

si g es decreciente.Demostración: Supongamos que g es creciente y derivable. Por el teorema dela inversa derivable, g es biyectiva sobre su recorrido, g−1 es derivable en sudominio y se cumple

(g−1)0(y) =1

g0(x)en donde g(x) = y. Entonces, puesto que

[g(X) ≤ y] =£X ≤ g−1(y)

¤se tiene

FY (y) = P (Y ≤ y)

= P (g(X) ≤ y)

= P (X ≤ g−1(y))= FX(g

−1(y))= FX(x)

Page 32: Demostraciones probabilidad

80 CAPÍTULO 2. VARIABLES ALEATORIAS

ya que g(x) = y equivale a x = g−1(y). Como fX es continua, según el apartado(4) del teorema 8, se tiene

fX(x) = F 0X(x)= (FY g)0(x)= F 0Y (g(x)) · g0(x)= F 0Y (y) · g0(x)

Al ser g una función creciente, se tiene

g0(x) > 0

para todo x ∈ R. Por tanto,|g0(x)| = g0(x)

y, en consecuencia, obtenemos

F 0Y (y) = fX(x) · 1

|g0(x)|Por consiguiente, si la función de densidad de Y es continua, deducimos que

fY (y) = fX(x) · 1

|g0(x)|Supongamos ahora que g es decreciente, entonces£

X ≥ g−1(y)¤= [g(X) ≤ y]

y, por tanto,

FY (y) = P (Y ≤ y)

= P (g(X) ≤ y)

= P (X ≥ g−1(y))= 1− P (X ≤ x)

= 1− FX(x)

Por otro lado, tenemos

fX(x) = F 0X(x)= (1− FY g)0(x)= −F 0Y (g(x)) · g0(x)= −F 0Y (y) · g0(x)

Ahora bien, como g es decreciente tenemos g0(x) < 0 para todo x ∈ R. Portanto,

|g0(x)| = −g0(x)

Page 33: Demostraciones probabilidad

2.2. DEFINICIÓN DE VARIABLE ALEATORIA 81

y, en consecuencia, obtenemos

F 0Y (y) = fX(x) · 1

|g0(x)|Por consiguiente, si la función de densidad de Y es continua, deducimos que

fY (y) = fX(x) · 1

|g0(x)|En conclusión, si g es monótona, entonces

fY (y) = fX(x) · 1

|g0(x)|

Ejemplo 42 Sea X una variable aleatoria absolutamente continua de la cualsabemos que su densidad viene dada por la siguiente función

f(x) =

½1− 1

2x si x ∈ (0, 2)0 si x /∈ (0, 2)

Se pide calcular las funciones de densidad y de distribución de las variables (1)Y = eX y (2) Y = e−X .Solución: La función de distribución de X es

F (x) =

0 si x < 0

x− x2

4 si 0 ≤ x < 21 si x ≥ 2

(1) Consideremos la transformación Y = eX . En este caso g(x) = ex es unafunción creciente y derivable. Por tanto, según el teorema 11, tenemos

FY (y) = FX(x)

y

fY (y) = f(x) · 1

|g0(x)|De este modo, como x = ln y, obtenemos

FY (y) = FX(ln y) =

0 si y < 1ln y − ln2 y

4 si 1 ≤ y < e2

1 si x ≥ e2

y

fY (y) =1− 1

2 ln y

y=2− ln y2y

si 1 < y < e2.

Page 34: Demostraciones probabilidad

82 CAPÍTULO 2. VARIABLES ALEATORIAS

(2) Consideremos la transformación Y = e−X . En este caso g(x) = e−x esuna función decreciente y derivable. Por tanto, según el teorema 11, tenemos

FY (y) = 1− FX(x)

y

fY (y) = f(x) · 1

|g0(x)|De este modo, como x = − ln y, obtenemos

FY (y) = 1− Fx(− ln y) =0 si y > 01 + ln y + ln2 y

4 si 1 ≥ y > e−2

1 si y ≤ e−2

y

fY (y) =1 + 1

2 ln y

y=2 + ln y

2y

si 1 > y > e−2.

2.3. Variables aleatorias bidimensionales

2.3.1. Introducción

Supongamos que tenemos dos variables aleatorias X,Y sobre el mismo es-pacio de probabilidades (Ω,A, P ). De este modo, para cada suceso elementalω ∈ Ω tenemos dos números reales X(ω) y Y (ω). Entonces, hay dos posiblesinterpretaciones: (1) Considerar los números X(ω) y Y (ω) de forma separada,como se ha hecho al considerar las operaciones con variables aleatorias, o bien(2) podemos considerar este par de números como las componentes de un vector(X(ω), Y (ω)) de R2 (o las coordenadas de un punto del plano). Es esta segundainterpretación la que conduce al concepto de variable aleatoria bidimension-al y, por extensión, al de variable aleatoria n-dimensional.

Page 35: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 83

Al ser X,Y variables aleatorias, tenemos que

[X ≤ x] = ω ∈ Ω : X(ω) ≤ x ∈ A y [Y ≤ y] = ω ∈ Ω : Y (ω) ≤ y ∈ Apara todo x, y ∈ R. Por tanto,

[X ≤ x] ∩ [Y ≤ y] ∈ Ay, como consecuencia, estos sucesos tienen asignadas probabilidades.

Así, podemos introducir la función F definida por

FX(x, y) = P ([X ≤ x] ∩ [Y ≤ y])

para todo (x, y) ∈ R2; F es una función real de dos variables que se llamafunción de distribución conjunta o función de distribución de la variablealeatoria bidimensional X = (X,Y ).En general, una variable aleatoria n-dimensional o vector aleatorio será un

n-tuplaX = (X1,X2, ...,Xn) formada por variables aleatorias Xi (i = 1, 2, ..., n)sobre un mismo espacio de probabilidades (Ω,A, P ). El vector aleatorio X =(X1,X2, ...,Xn) definirá una aplicación de Ω en Rn que hace corresponder acada suceso elemental ω un vector (x1, x2, ..., xn) de Rn, siendo xi = Xi(ω)(i = 1, 2, ..., n). Para facilitar la escritura, en esta sección sólo trataremos elcaso n = 2. La generalización al caso n-dimensional de todos los resultadosque obtendremos no supone ninguna dificultad y podrá realizarla el lector comoejercicio.

Observación 15 Para abreviar, en toda esta sección escribiremos [X ≤ x, Y ≤ y]en lugar de [X ≤ x]∩[Y ≤ y], y también P (X ≤ x, Y ≤ y) en lugar de P ([X ≤ x] ∩ [Y ≤ y]).

2.3.2. Definición de variable aleatoria bidimensional

Una variable aleatoria bidimensional es cualquier par X = (X,Y ) for-mada por variables aleatorias sobre el mismo espacio de probabilidades (Ω,A, P ).

Page 36: Demostraciones probabilidad

84 CAPÍTULO 2. VARIABLES ALEATORIAS

2.3.3. Definición de función de distribución conjunta

Dada una variable aleatoria bidimensional X = (X,Y ) sobre (Ω,A, P ), sellama función de distribución conjunta a la función real de dos variablesdefinida por

FX(x, y) = P (X ≤ x, Y ≤ y)

en donde[X ≤ x, Y ≤ y] = [X ≤ x] ∩ [Y ≤ y]

Propiedades

Teorema 20 La función de distribución conjunta FX de una variable aleatoriabidimensional X = (X,Y ) satisface las siguientes propiedades:

1. 0 ≤ FX(x, y) ≤ 1 para todo (x, y) ∈ R2

2. FX es monótona no decreciente para cada argumento

x1 < x2 =⇒ FX(x1, y) ≤ FX(x2, y)

y1 < y2 =⇒ FX(x, y1) ≤ FX(x, y2)

3. FX(+∞,+∞) = 1 y FX(−∞, y) = FX(x,−∞) = 04. P (a < X ≤ b, c < Y ≤ d) = FX(b, d)− FX(a, d)− FX(b, c) + FX(a, c)

5. FX es continua por la derecha para cada argumento

Demostración: (1) Es evidente, ya que FX(x, y) = P (X ≤ x, Y ≤ y) y 0 ≤P (X ≤ x, Y ≤ y) ≤ 1.(2) Si x1 < x2, podemos escribir

[X ≤ x1] ∩ [Y ≤ y] ⊂ [X ≤ x2] ∩ [Y ≤ y]

y, por tanto,

FX(x1, y) = P ([X ≤ x1] ∩ [Y ≤ y]) ≤ P ([X ≤ x2] ∩ [Y ≤ y]) = FX(x2, y)

Del mismo modo se prueba que FX es no decreciente respecto al segundo argu-mento.(3) Observamos que

[X ≤ +∞, Y ≤ +∞] = [X ≤ +∞] ∩ [Y ≤ +∞]= Ω ∩ Ω = Ω

Por tanto,

FX(+∞,+∞) = P (X ≤ +∞, Y ≤ +∞) = P (Ω) = 1

Page 37: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 85

Observamos también que

[X ≤ −∞, Y ≤ y] = [X ≤ −∞] ∩ [Y ≤ y]

= ∅ ∩ [Y ≤ y]

= ∅

Por tanto,FX(−∞, y) = P (X ≤ −∞, Y ≤ y) = P (∅) = 0

Análogamente, se prueba que FX(x,−∞) = 0.(4) Definimos los siguientes sucesos

A = [a < X ≤ b, Y ≤ d]B = [a < X ≤ b, Y ≤ c]C = [a < X ≤ b, c < Y ≤ d]

Es claro que B y C son incompatibles y se cumple A = B ∪ C. Por tanto,P (A) = P (B) + P (C) (2.4)

Además, es claro también que

A = [X ≤ b, Y ≤ d]− [X ≤ a, Y ≤ d]B = [X ≤ b, Y ≤ c]− [X ≤ a, Y ≤ c]

luegoP (A) = FX(b, d)− FX(a, d)P (B) = FX(b, c)− FX(a, c)

Sustituyendo estas dos expresiones en (5.2), obtenemos

P (C) = P (a < X ≤ b, c < Y ≤ d)

= FX(b, d)− FX(a, d)− FX(b, c) + FX(a, c)

(5) Definimos los siguientes sucesos

An =£a < X ≤ a+ 1

n , Y ≤ y¤

B = [X ≤ a, Y ≤ y]Cn =

£X ≤ a+ 1

n , Y ≤ y¤

Page 38: Demostraciones probabilidad

86 CAPÍTULO 2. VARIABLES ALEATORIAS

entoncesCn = B ∪An

siendo B y An dos sucesos incompatibles para todo n ∈ N. Por tanto,P (Cn) = P (B) + P (An) (2.5)

Es claro que (An) es una sucesión decreciente de sucesos y su límite viene dadopor

lımn→∞An =

∞\n=1

µ·a < X ≤ a+

1

n

¸∩ [Y ≤ y]

=

à ∞\n=1

·a < X ≤ a+

1

n

¸!∩ [Y ≤ y]

= ∅ ∩ [Y ≤ y]

= ∅

Entonces, como

P (Cn) = FX(a+1

n, y) y P (B) = FX(a, y)

de (5.4), obtenemos

FX(a+1

n, y) = FX(a, y) + P (An)

y pasando al límite, deducimos

lımn→∞FX(a+

1

n, y) = FX(a, y) + lım

n→∞P (An)

y por la propiedad de continuidad de la probabilidad, tenemos

lımn→∞P (An) = P (∅) = 0

Como consecuencia,

lımn→∞FX(a+

1

n, y) = FX(a, y)

Del mismo modo, se demuestra que FX es continua por la derecha respecto alsegundo argumento.

Distribuciones marginales

Teorema 21 Sea FX la función de distribución conjunta de una variable aleato-ria bidimensional X = (X,Y ). Entonces

lımy→+∞FX(x, y) = FX(x) y lım

x→+∞FX(x, y) = FY (y)

Page 39: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 87

donde FX y FY son las funciones de distribución de las variables X e Y porseparado, respectivamente. A estas dos funciones se les llama entonces dis-tribuciones marginales de X = (X,Y ).Demostración: Puesto que

[X ≤ x, Y ≤ +∞] = [X ≤ x] ∩ [Y ≤ +∞]= [X ≤ x] ∩Ω= [X ≤ x]

por definición, obtenemos

FX(x,+∞) = FX(x)

Análogamente se prueba FX(+∞, y) = FY (y).

2.3.4. Variables aleatorias bidimensionales discretas

Una variable aleatoria bidimensional X = (X,Y ) definida en el espacio deprobabilidades (Ω,A, P ) se llama discreta si X e Y son variables aleatoriasdiscretas. Supongamos que X e Y toman los valores xi e yj (i, j = 1, 2, 3, ...)con probabilidades P (X = xi) y P (Y = yj), respectivamente. Definimos lafunción de densidad de probabilidad conjunta de la variable aleatoriabidimensional discreta X = (X,Y ) por

f(x, y) =

½P (X = xi, Y = yj) si x = xi y y = yj0 si x 6= xi o y 6= yj para todo i, j = 1, 2, 3, ...

en donde

P (X = xi, Y = yj) = P ([X = xi] ∩ [Y = yj ]) (i, j = 1, 2, 3, ...)

y su función de distribución conjunta viene dada entonces por

F (x, y) = P (X ≤ x, Y ≤ y) =Xxi≤x

Xyj≤y

P (X = xi, Y = yj)

Como consecuencias inmediatas de la definición y de los axiomas de probabili-dad, tenemos las siguientes propiedades de la función de densidad conjunta

1. 0 ≤ f(xi, yj) ≤ 1, para todo i, j = 1, 2, 3, ...2. X

i

Xj

f(xi, yj) = 1

3.F (x, y) =

Xxi≤x

Xyj≤y

f(xi, yj)

Page 40: Demostraciones probabilidad

88 CAPÍTULO 2. VARIABLES ALEATORIAS

Observamos que

lımy→+∞F (x, y) =

Xxi≤x

Xyj≤+∞

P (X = xi, Y = yj) =Xxi≤x

Xyj

P (X = xi, Y = yj)

(2.6)Ahora bien, por el teorema 13, sabemos que la distribución marginal viene dadapor

lımy→+∞F (x, y) = FX(x) =

Xxi≤x

P (X = xi) (2.7)

Comparando (5.5) y (5.6), obtenemos la función de densidad de X

fX(x) = P (X = xi) =Xyj

P (X = xi, Y = yj)

que no es más que la suma de la densidad conjunta para todos los valores quetoma la variable Y . Del mismo modo se obtiene

fY (y) = P (Y = yj) =Xxi

P (X = xi, Y = yj)

Expresadas de este modo, las funciones fX y fY se llaman funciones de den-sidad marginales de X = (X,Y ).

Ejemplo 43 Si tiran dos dados a la vez. Sea X la variable aleatoria "númerode puntos obtenidos por el primer dado", e Y la variable aleatoria "el númeromayor de los puntos obtenidos con los dos dados". Se pide la función de den-sidad de la variable aleatoria bidimensional (X,Y ) y las funciones de densidadmarginales de (X,Y ).Solución: Se trata de una variable aleatoria bidimensional discreta. Si f es

la función de densidad conjunta, entonces

f(1, 1) = P (X = 1, Y = 1) = 1/36

Además,

f(k, 1) = P (X = k, Y = 1) = 0

con k > 1, pues [X = k]∩ [Y = 1] es el suceso imposible. Tenemos también que

f(2, 2) = P (X = 2, Y = 2) = 2/36

ya que [X = 2] ∩ [Y = 2] = (2, 1), (2, 2). Y así sucesivamente, los valores dela función de densidad se encuentran en la tabla siguiente

Page 41: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 89

La función de densidad marginal de X se obtendrá sumando, para cada val-or de X, los valores de la densidad conjunta; en otras palabras, sumando porcolumnas las probabilidades de la tabla. Así, tenemos

xi 1 2 3 4 5 6fX(xi) 1/6 1/6 1/6 1/6 1/6 1/6

Análogamente, la función de densidad marginal para Y se obtendrá sumandopor filas las probabilidades de la tabla. Así, tenemos

yj 1 2 3 4 5 6fY (yj) 1/36 1/12 5/36 7/36 1/4 11/36

2.3.5. Variables aleatorias bidimensionales absolutamentecontinuas

Se dice que una variable aleatoria bidimensional X = (X,Y ) es absolu-tamente continua si existe una función real integrable de dos variables f ,denominada función de densidad de probabilidad conjunta, tal que lafunción de distribución conjunta de X puede expresarse en la forma siguiente

F (x, y) =

Z x

−∞

Z y

−∞f(u, v) du dv

Page 42: Demostraciones probabilidad

90 CAPÍTULO 2. VARIABLES ALEATORIAS

para todo (x, y) ∈ R2. Como consecuencia, es claro que la función de densidadconjunta ha de cumplir también la siguiente condiciónZ +∞

−∞

Z +∞

−∞f(x, y) dx dy = 1

Teorema 22 Si f es la función de densidad conjunta de una variable aleatoriaabsolutamente continua X = (X,Y ) y F es su función de distribución conjunta

F (x, y) =

Z x

−∞

Z y

−∞f(u, v) du dv

entonces se cumplen

1. Si f es continua, entonces

∂2F (x, y)

∂y∂x= f(x, y)

2. f(x, y) ≥ 0 para todo (x, y) ∈ R2

3. La probabilidad de que X tome valores dentro de un recinto D del planoviene dada por

P ((X,Y ) ∈ D) =

Z ZD

f(x, y) dx dy

P (a < X ≤ b, c < Y ≤ d) =

Z b

a

Z d

c

f(x, y) dx dy

Demostración: (1) Consideremos A = (−∞, x) y B = (−∞, y). Para cadau ∈ A, definimos la función gu : B → R por

gu(v) = f(u, v)

Puesto que f es continua, gu es continua y, por tanto, por el teorema funda-mental del cálculo, Z y

−∞gu(v) dv

es derivable y se cumple

∂y

Z y

−∞gu(v) dv = gu(y)

En particular,

h(u) =

Z y

−∞gu(v) dv

Page 43: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 91

es continua en A. De nuevo, por el teorema fundamental del cálculoZ x

−∞h(u) du

es derivable y se cumple

∂x

Z x

−∞h(u) du = h(x) =

Z y

−∞gx(v) dv

o sea∂

∂x

Z x

−∞

µZ y

−∞gu(v) dv

¶du =

Z y

−∞gx(v) dv

De aquí, derivando respecto de y, obtenemos

∂2

∂y∂x

µZ x

−∞

µZ y

−∞f(u, v) dv

¶du

¶=

∂y

Z y

−∞gx(v) dv = f(x, y)

luego∂2F (x, y)

∂y∂x= f(x, y) (2.8)

(2) Vamos a interpretar (2.8). Esta ecuación puede escribirse de formaequivalente como

lımh→0k→0

·F (x+ h, y + k)− F (x+ h, y)− F (x, y + k) + F (x, y)

hk− f(x, y)

¸= 0

Ahora bien, según el apartado (4) del teorema 7, tenemos

P (x < X ≤ x+h, y < Y ≤ y+k) = F (x+h, y+k)−F (x+h, y)−F (x, y+k)+F (x, y)

Por tanto,

lımh→0k→0

·P (x < X ≤ x+ h, y < Y ≤ y + k)

hk− f(x, y)

¸= 0 (2.9)

de donde

P (x < X ≤ x+ dx, y < Y ≤ y + dy) = f(x, y) dx dy (2.10)

es decir, que f(x, y) dx dy se interpreta como la probabilidad infinitesimal deque el punto (X,Y ) del plano se encuentre dentro del rectángulo

(x, x+ dx]× (y, y + dy]

Por otro parte, como

P (x < X ≤ x+ h, y < Y ≤ y + k) ≥ 0

Page 44: Demostraciones probabilidad

92 CAPÍTULO 2. VARIABLES ALEATORIAS

de la ecuación (2.9) se deduce que f es necesariamente una función no negativa

f(x, y) ≥ 0para todo (x, y) ∈ R2.(3) Como

[(X,Y ) ∈ D] = ω ∈ Ω : (X(ω), Y (ω)) ∈ Dse tiene

P ((X,Y ) ∈ D) =

Z ZP (x < X ≤ x+ dx, y < Y ≤ y + dy)

y por (2.10), deducimos

P ((X,Y ) ∈ D) =

Z ZD

f(x, y) dx dy

En particular, si D = [a, b]× [c, d] y f es continua en D, se tiene

P (a < X ≤ b, c < Y ≤ d) =

Z b

a

Z d

c

f(x, y) dx dy

Sabemos queX es una variable aleatoria absolutamente continua con funciónde densidad fX . Esto quiere decir que la función de distribución de X es

FX(x) =

Z x

−∞fX(t) dt (2.11)

Por otro lado, según el teorema 13, las distribuciones marginales de X = (X,Y )son

lımy→+∞FX(x, y) = FX(x) y lım

x→+∞FX(x, y) = FY (y)

En particular,

FX(x) = FX(x,+∞) =Z x

−∞

µZ +∞

−∞f(u, v) dv

¶du

Comparando esta ecuación con (2.11), obtenemos que la función de densidad deX viene dada por

fX(x) =

Z +∞

−∞f(x, y) dy

Del mismo modo, deducimos que la función de densidad de Y viene dada por

fY (y) =

Z +∞

−∞f(x, y) dx

Page 45: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 93

Ejemplo 44 La función de densidad conjunta de dos variables aleatorias condistribución absolutamente continua es

f(x, y) =

½k(x2 + y2) si x ∈ (0, 1) e y ∈ (0, 1)0 en otro caso

(1) Determinar el valor de k. (2) Obtener la función de distribución conjunta.(3) Calcular las funciones de densidad marginales.Solución: (1) Si f es una función de densidad conjunta de una distribución

absolutamente continua, entonces se ha de cumplir queZ +∞

−∞

Z +∞

−∞f(x, y) dx dy = 1

Puesto que fuera de la región (0, 1)× (0, 1) se anula f , entoncesZ +∞

−∞

Z +∞

−∞f(x, y) dx dy = k

Z 1

0

Z 1

0

(x2 + y2) dx dy

= k

Z 1

0

·x2y +

y3

3

¸10

dx

= k

Z 1

0

(x2 +1

3) dx

= k

·x3

3+

x

3

¸10

=2k

3

Por tanto, k = 3/2.(2) Para obtener la función de distribución conjunta debemos distinguir las

siguientes regiones numeradas, siendo la parte rayada la única en la que no seanula la función de densidad conjunta.

En la región 1, definida por x ≤ 0 e y ≥ 1, la función de distribución es cero,pues la función de densidad se anula. Lo mismo ocurre en las regiones 2,3,6 y9. En las cuatro restantes, la función de distribución no se anula.

Page 46: Demostraciones probabilidad

94 CAPÍTULO 2. VARIABLES ALEATORIAS

En la región 4, definida por 0 < x ≤ 1 e y ≥ 1, sólo nos interesa la parteen la que no se anula la función de densidad, es decir, la parte rayada de lasiguiente figura

Entonces, tenemos

F (x, y) =

Z x

−∞

Z y

−∞f(u, v) du dv

=

Z 0

−∞

Z 0

−∞0 du dv +

Z x

0

Z 1

0

3

2(u2 + v2) du dv +

Z x

0

Z y

1

0 du dv

=3

2

Z x

0

·u2v +

v3

3

¸10

du

=3

2

Z x

0

µu2 +

1

3

¶du

=3

2

·u3

3+

u

3

¸x0

=x3 + x

2

En la región 5, definida por 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1,

Page 47: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 95

tenemos

F (x, y) =

Z x

−∞

Z y

−∞f(u, v) du dv

=

Z 0

−∞

Z 0

−∞0 du dv +

Z x

0

Z y

0

3

2(u2 + v2) du dv

=3

2

Z x

0

·u2v +

v3

3

¸y0

du

=3

2

Z x

0

µu2y +

y3

3

¶du

=3

2

·u3y

3+

y3u

3

¸x0

=x3y + y3x

2

En la región 7, definida por x ≥ 1 e y ≥ 1,

tenemos

F (x, y) =

Z x

−∞

Z y

−∞f(u, v) du dv

=

Z 0

−∞

Z 0

−∞0 du dv +

Z 1

0

Z 1

0

3

2(u2 + v2) du dv +

Z x

1

Z y

1

0 du dv

=

Z 1

0

Z 1

0

3

2(u2 + v2) du dv = 1

Finalmente, en la región 8, definida por x ≥ 1 e 0 ≤ y < 1,

Page 48: Demostraciones probabilidad

96 CAPÍTULO 2. VARIABLES ALEATORIAS

tenemos

F (x, y) =

Z x

−∞

Z y

−∞f(u, v) du dv

=

Z 0

−∞

Z 0

−∞0 du dv +

Z 1

0

Z y

0

3

2(u2 + v2) du dv +

Z x

1

Z y

0

0 du dv

=3

2

Z 1

0

·u2v +

v3

3

¸y0

du

=3

2

Z 1

0

µu2y +

y3

3

¶du

=3

2

·u3y

3+

y3u

3

¸10

=y + y3

2

En resumen, la función de distribución conjunta viene dada por la siguientefunción

F (x, y) =

0 si x ≤ 0 e y ≤ 0x3y+y3x

2 si 0 ≤ x < 1 y 0 ≤ y < 1x3+x2 si 0 ≤ x < 1 e y ≥ 1

y+y3

2 si x ≥ 1 y 0 ≤ y < 11 si x ≥ 1 e y ≥ 1

(3) La función de densidad marginal de X es

Page 49: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 97

fX(x) =

Z +∞

−∞f(x, y) dy

=

Z 1

0

3

2(x2 + y2) dy

=3

2

·x2y +

y3

3

¸10

=3

2

µx2 +

1

3

Por tanto,

fX(x) =

½32

¡x2 + 1

3

¢si x ∈ (0, 1)

0 si x /∈ (0, 1)

Análogamente, para la función de densidad marginal de Y , tenemos

Page 50: Demostraciones probabilidad

98 CAPÍTULO 2. VARIABLES ALEATORIAS

fY (y) =

Z +∞

−∞f(x, y) dx

=

Z 1

0

3

2(x2 + y2) dx

=3

2

·x3

3+ y2x

¸10

=3

2

µ1

3+ y2

¶Por tanto,

fY (y) =

½32

¡13 + y2

¢si y ∈ (0, 1)

0 si y /∈ (0, 1)

2.3.6. Transformaciones de variables aleatorias bidimen-sionales

Sea X = (X1,X2) una variable aleatoria bidimensional sobre el espacio deprobabilidades (Ω,A, P ). Sea Y = (Y1, Y2) la variable aleatoria bidimensionaldefinida por

Y1 = g1(X1,X2) y Y2 = g2(X1,X2)

Las funciones g1, g2 son tales que

ω ∈ Ω : Y1(ω) = g1(X1(ω),X2(ω)) ≤ y1∩ω ∈ Ω : Y2(ω) = g2(X1(ω),X2(ω)) ≤ y2 ∈ AEn esta situación el problema que se nos plantea es el de encontrar la función dedistribución conjunta de Y a partir de la de X. En el caso de variables aleatoriasbidimensionales discretas la solución a este problema viene dada por el siguienteteorema.

Teorema 23 Sea X = (X1,X2) una variable aleatoria bidimensional discretay Y = (Y1, Y2) una variable aleatoria bidimensional definida por

Y1 = g1(X1,X2)Y2 = g2(X1,X2)

Entonces la función de distribución de Y viene dada por

FY(y1, y2) =X

g1(x1,x2)≤y1g2(x1,x2)≤y2

P (X = x1,X = x2)

Demostración: Observamos que Y es una variable aleatoria bidimensionaldiscreta, ya que

P (Y1 = y1, Y2 = y2) =X

g1(x1,x2)=y1g2(x1,x2)=y2

P (X = x1,X = x2)

Page 51: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 99

Por tanto,

FY(y1, y2) = P (Y1 ≤ y1, Y2 ≤ y2)

=X

g1(x1,x2)≤y1g2(x1,x2)≤y2

P (X = x1,X = x2)

Ejemplo 45 Sean X e Y dos variables aleatorias discretas con la siguientefunción de probabilidad conjunta

X\Y 1 2 31 0,1 0,1 0,22 0,2 0,3 0,1

Se definen las variables U = X + Y y V = X − Y . Calcular: (1) la función deprobabilidad conjunta de (U,V ); (2) las funciones de probabilidad marginales deU y V .Solución: Encontremos en primer lugar los recorridos de las nuevas vari-

ables. Es claro que U puede tomar los valores 2, 3, 4 y 5, mientras que V puedetomar los valores −2,−1, 0 y 1

U = X + Y :X\Y 1 2 31 1 3 42 3 4 5

y V = X − Y :X\Y 1 2 31 0 −1 −22 1 0 −1

Para calcular las probabilidades conjuntas, hacemos lo siguiente:

P (U = 2, V = −2) =X

x+y=2x−y=−2

P (X = x, Y = y) = 0

ya que ½x+ y = 2x− y = −2

si x = 0 e y = 2, pero P (X = 0, Y = 2) = 0 ya que X no toma el valor 0.Análogamente,

P (U = 2, V = 0) =X

x+y=2x−y=0

P (X = x, Y = y)

= P (X = 1, Y = 1) = 0,1

Y así sucesivamente, para obtener al final

U\V −2 −1 0 12 0 0 0,1 03 0 0,1 0 0,24 0,2 0 0,3 05 0 0,1 0 0

Page 52: Demostraciones probabilidad

100 CAPÍTULO 2. VARIABLES ALEATORIAS

(2) De aquí obtenemos las funciones de probabilidad marginales de U y V ,sumando filas y columnas, respectivamente. Así, tenemos

ui 2 3 4 5pi 0,1 0,3 0,5 0,1

yvj −2 −1 0 1pj 0,2 0,2 0,4 0,2

En el caso de las variables aleatorias bidimensionales absolutamente con-tinuas, hay dos procedimientos. Uno consiste en calcular primero la función dedistribución conjunta de Y a partir de la de X y, después, si FY es diferenciable,calcular la función de densidad conjunta fY mediante

∂2FY(y1, y2)

∂y2∂y1= fY(y1, y2)

La justificación de este procedimiento se encuentra en el teorema siguiente.

Teorema 24 Sean X1,X2 dos variables aleatorias absolutamente continuas confunción de densidad conjunta fX y sean Y1, Y2 dos variables aleatorias definidaspor Yi = gi(X1,X2) (i = 1, 2). Entonces, la función de distribución conjunta deY = (Y1, Y2) es

FY(y1, y2) =

Z ZD

fX(x1, x2) dx1 dx2

donde D es el recinto plano de integración definido por gi(x1, x2) ≤ yi (i = 1, 2).Demostración: Por definición, tenemos

FY(y1, y2) = P (Y1 ≤ y1, Y2 ≤ y2)

= P (g1(X1,X2) ≤ y1, g2(X1,X2) ≤ y2)

= P ((X1,X2) ∈ D)

ya que de la condición

gi (X1(ω),X2(ω)) ≤ yi (i = 1, 2)

se deduce (X1(ω),X2(ω)) ∈ D. Por tanto,

P ((X1,X2) ∈ D) =

Z ZD

fX(x1, x2) dx1 dx2

y, como consecuencia, tenemos

FY(y1, y2) =

Z ZD

fX(x1, x2) dx1 dx2

que es lo que queríamos demostrar.

Page 53: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 101

Ejemplo 46 Dada la siguiente función de densidad conjunta

f(x, y) =

½k(x+ y) si 0 < x < 1 y 0 < y < 2− 2x0 en otro caso

(1) Calcular el valor de k. (2) Definimos las variables U, V mediante U = X+Yy V = X − Y . Calcular P (U > 0,5, V < −0,5).Solución: (1) Si f es una función de densidad conjunta de una variable

aleatoria bidimensional, entonces

Z +∞

−∞

Z +∞

−∞f(x, y) dx dy = 1

En nuestro caso, tenemos

Z +∞

−∞

Z +∞

−∞f(x, y) dx dy =

Z 0

−∞

Z 0

−∞0 dx dy +

Z 1

0

µZ 2−2x

0

k(x+ y) dy

¶dx

= k

Z 1

0

·xy +

y2

2

¸2−2x0

dx

= k

Z 1

0

µx(2− 2x) + (2− 2x)

2

2

¶dx

= k

Z 1

0

(2− 2x) dx= k

y, por tanto, k = 1.

(2) El recinto R es la parte de la región D, definida por las desigualdades

x+ y > 0,5x− y < −0,5

en la que no se anula la función de densidad conjunta; la densidad conjunta nose anula en la región limitada por las líneas rojas de la siguiente figura.

Page 54: Demostraciones probabilidad

102 CAPÍTULO 2. VARIABLES ALEATORIAS

Es claro que

P (U > 0,5, V < −0,5) = P (X + Y > 0,5,X − Y < −0,5) = P ((X,Y ) ∈ D)

Además,

P ((X,Y ) ∈ D) =

Z 0,5

0

µZ 2−2x

0,5+x

(x+ y) dy

¶dx

=

Z 0,5

0

·xy +

y2

2

¸2−2x0,5+x

dx

=

Z 0,5

0

(−3x− 32x2 +

15

8) dx

=

·−32x2 − 1

2x3 +

15

8x

¸0,50

=1

2

Otro procedimiento consiste en determinar primero la función de densidadfY deY = g(X) a partir de la deX y, después, por integración doble, determinarla función de distribución. Este procedimiento es más limitado que el anteriorporque se han de comprobar previamente que se cumplen las condiciones delteorema del cambio de variables para integrales dobles. La justificación de esteprocedimiento se halla en el siguiente teorema.

Teorema 25 Sea X = (X1,X2) una variable aleatoria absolutamente continuacon función de densidad conjunta fX y sea Yi = gi(X1,X2) (i = 1, 2), de maneraque g = (g1, g2) sea una aplicación de R2 en sí mismo de clase C1 e inyectivaen el conjunto A en que fX no se anula. Entonces, sobre el recorrido g(A) está

Page 55: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 103

definida la transformación inversa g−1 = (g−11 , g−12 ) por Xi = g−1i (Y1, Y2) (i =1, 2). Supongamos también que g−1 es continua y que su jacobiano Jg−1 no seanula en g−1(A). En estas condiciones, Y = (Y1, Y2) es una variable aleatoriaabsolutamente continua y

fY(y1, y2) = fX(g−11 (y1, y2), g

−12 (y1, y2)) ·

¯Jg−1

¯Demostración: Tenemos

Jg−1 =

¯¯ ∂x1

∂y1∂x1∂y2

∂x2∂y1

∂x2∂y2

¯¯

y las condiciones impuestas son suficientes para poder aplicar el teorema delcambio de variables para integrales dobles. Entonces

P ((Y1, Y2) ∈ g−1(A)) = P ((X1,X2) ∈ A)

=

Z ZA

fX(x1, x2) dx1 dx2

=

Z Zg−1(A)

fX(g−11 (y1, y2), g

−12 (y1, y2)) ·

¯Jg−1

¯dy1 dy2

de donde se deduce que la función de densidad conjunta de Y viene dada por

fY(y1, y2) = fX(g−11 (y1, y2), g

−12 (y1, y2)) ·

¯Jg−1

¯

Ejemplo 47 La función de densidad conjunta de dos variables aleatorias condistribución absolutamente continua es

f(x, y) =

½2 si 0 < y < x < 10 en otro caso

Calcular: (1) la función de densidad conjunta de las variables U, V , definidaspor U = X +Y y V = X −Y ; (2) P (U < 1,5, V < 0,75); (3) P (U < 1,5), y (4)P (V < 0,75).Solución: Consideremos la siguiente transformación o cambio de variables

x+ y = ux− y = v

¾La transformación inversa es ½

x = 12(u+ v)

y = 12 (u− v)

y su jacobiano es

J =

¯12

12

12 −12

¯= −1

2

Page 56: Demostraciones probabilidad

104 CAPÍTULO 2. VARIABLES ALEATORIAS

luego |J | = 1/2 y, según el teorema 17, la función de densidad conjunta de(U, V ) es

g(u, v) = f(u+ v

2,u− v

2) · 12= 1

en la imagen del recinto por la transformación. El recinto A, definido en el planoxy por 0 < y < x < 1, se transforma en el recinto B en el plano uv.

Como consecuencia, tenemos que la función de densidad conjunta de U y V es

g(u, v) =

½1 si 0 < v < u y u+ v < 20 en otro caso

(2) La región sombreada de la siguiente figura representa la parte del suceso[U < 1,5, V < 0,75] en la que la función de densidad conjunta no se anula.

Por tanto,

P (U < 1,5, V < 0,75) =

Z 0,75

0

µZ u

0

1 dv

¶du+

Z 1,25

0,75

µZ 0,75

0

1 dv

+

Z 1,5

1,25

µZ 2−u

0

1 dv

¶dv = 0,812 5

(3) Para calcular P (U < 1,5), antes determinaremos la función de densidadmarginal de U .

Page 57: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 105

Por definición, si 0 < u < 1, entonces

gU (u) =

Z u

0

1 dv = u

y si 1 ≤ u < 2, entonces

gU (u) =

Z 2−u

0

1 dv = 2− u

Por tanto,

gU (u) =

u si 0 < u < 12− u si 1 ≤ u < 20 en otro caso

Como consecuencia,

P (U < 1,5) =

Z 1

0

u du+

Z 1,5

1

(2− u) du = 0,875

(4) Del mismo modo, para calcular P (V < 0,75) necesitamos la función dedensidad marginal de V .

Por definición, si 0 < v < 1, entonces

gV (v) =

Z 2−v

v

1 du = 2− 2v

Page 58: Demostraciones probabilidad

106 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,

gV (v) =

½2− 2v si 0 < v < 10 en otro caso

Como consecuencia,

P (V < 0,75) =

Z 0,75

0

(2− 2v) dv = 0,937 5

2.3.7. Independencia de variables aleatorias. Distribucionescondicionades

Supongamos que A y B son dos subconjuntos arbitrarios de la recta real,entonces decimos que las variables aleatorias absolutamente continuas X e Ysobre el mismo espacio de probabilidades (Ω,A, P ) son independientes si lossucesos

[X ∈ A] = ω ∈ Ω : X(ω) ∈ A[Y ∈ B] = ω ∈ Ω : Y (ω) ∈ B

son independientes, o dicho de otro modo, si

P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B) (2.12)

En particular, si tomamos A = (−∞, x] y B = (−∞, y], donde x, y son dosnúmeros reales cualesquiera, entonces

[X ∈ A] = [X ≤ x] y [Y ∈ B] = [Y ≤ y]

y la condición (2.12) se escribe en la forma siguiente

FX(x, y) = FX(x) · FY (y) (2.13)

en donde FX es la función de distribución conjunta de X = (X,Y ) y FX , FYson las distribuciones marginales de X e Y respectivamente. Recíprocamente,si (2.13) se cumple también se satisface (2.12). En efecto, si se cumple

FX(x, y) = FX(x) · FY (y)y las variables son absolutamente continuas, se tieneZ x

−∞

Z y

−∞f(u, v) du dv =

Z x

−∞fX(u) du ·

Z y

−∞fY (v) dv

y, en consecuencia,f(x, y) = fX(x) · fY (y)

Ahora bien, sabemos que

P (X ∈ A) =

ZA

fX(x) dx y P (Y ∈ B) =

ZB

fY (y) dy

Page 59: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 107

y, por tanto,

P (X ∈ A, Y ∈ B) =

Z ZA×B

f(x, y) dx dy

=

Z ZA×B

fX(x) · fY (y) dx dy

=

ZA

fX(x) dx

ZB

fY (y) dy

= P (X ∈ A) · P (Y ∈ B)

El caso que acabamos de estudiar justifica la siguiente definición.

Independencia de variables aleatorias

Definición 5 Dos variables aleatorias X e Y son independientes si su funciónde distribución conjunta factoriza en producto de funciones de distribución in-dividuales

F (x, y) = FX(x) · FY (y)Observación 16 Como hemos visto, la condición de independencia para dosvariables aleatorias X,Y absolutamente continuas es equivalente a

f(x, y) = fX(x) · fY (y)y, si son discretas, es inmediato comprobar que la condición es equivalente a

P (X = x, Y = y) = P (X = x) · P (Y = y)

Ejemplo 48 La función de densidad conjunta de dos variables aleatorias X,Ycon distribución absolutamente continua es

f(x, y) =

½6x si 0 < x < y < 10 en otro caso

Calcular: (1) las funciones de densidad marginales, y (2) averiguar si X e Yson o no independientes.Solución: El recinto de definición viene dado por

A partir de él, determinaremos las funciones de densidad marginales.

Page 60: Demostraciones probabilidad

108 CAPÍTULO 2. VARIABLES ALEATORIAS

(1) Si 0 < x < 1, tenemos

fX(x) =

Z 1

x

6x dy = 6x(1− x)

y, por tanto,

fX(x) =

½6x(1− x) si 0 < x < 10 en otro caso

Por otro lado, si 0 < y < 1, tenemos

fY (y) =

Z y

0

6x dx = 3y2

y, por tanto,

fY (y) =

½3y2 si 0 < y < 10 en otro caso

(2) Puesto que,

fX(x) · fY (y) = 18xy2(1− x) 6= 6x = f(x, y)

en 0 < x < y < 1, las variables aleatorias X e Y no son independientes.

Ejemplo 49 Consideremos las variables aleatorias discretas consideradas en elejercicio 12. Se trata de averiguar si son o no independientes.

Page 61: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 109

Solución: Para que las variables X e Y fueran independientes tendría queverificarse

P (X = i, Y = j) = P (X = i) · P (Y = j)

para todo i, j = 1, 2, ..., 6. Sin embargo, ésto no sucede, ya que, por ejemplo

P (X = 1, Y = 2) =1

366= 1

6· 112= P (X = 1) · P (Y = 2)

Por lo tanto, las variables no son independientes.

El siguiente teorema nos dice que las funciones de variables aleatorias inde-pendientes son independientes. Así, si X e Y son independientes, entonces lasvariables g(X) = X2 y h(Y ) = sinY también lo son.

Teorema 26 Si X e Y son dos variables aleatorias independientes sobre elespacio de probabilidades (Ω,A, P ), entonces las variables aleatorias U = g(X)y V = h(Y ) son también independientes.Demostración: Por definición, tenemos

FUV (u, v) = P (U ≤ u, V ≤ v)

= P (g(X) ≤ u, h(Y ) ≤ v)

Consideremos los subconjuntos siguientes de la recta real

A = x ∈ R : g(x) ≤ uB = y ∈ R : h(y) ≤ v

Entonces,[g(X) ≤ u, h(Y ) ≤ v] = [X ∈ A,Y ∈ B]

Ahora bien, como X e Y son independientes, deducimos

FUV (u, v) = P (X ∈ A,Y ∈ B)

= P (X ∈ A) · P (Y ∈ B)

= P (g(X) ≤ u) · P (h(Y ) ≤ v)

= P (U ≤ u) · P (V ≤ v)

= FU (u) · FV (v)

Distribuciones condicionadas

Sea X una variable aleatoria definida sobre un espacio de probabilidades(Ω,A, P ) y sea B ∈ A con P (B) > 0. Se llama función de distribucióncondicionada de la variable X a B, denotada por F ( |B), a la función definidapor

F (x|B) = P (X ≤ x|B) = P (X ≤ x,B)

P (B)

Page 62: Demostraciones probabilidad

110 CAPÍTULO 2. VARIABLES ALEATORIAS

Como la función de distribución condicionada se define en términos de la prob-abilidad condicionada y sabemos que ésta es una probabilidad sobre (Ω,A) aligual que P , dicha función posee las mismas propiedades que cualquier funciónde distribución de una variable aleatoria sobre (Ω,A, P ) . Por consiguiente, secumple:

1. 0 ≤ F (x|B) ≤ 1 para todo x ∈ R2. F ( |B) es monótona no decreciente:

x1 < x2 =⇒ F (x1|B) ≤ F (x2|B)

para todo x1, x2 ∈ R3. F (−∞|B) = 0 y F (+∞|B) = 14. P (a < X ≤ b|B) = F (b|B)− F (a|B) para todo a, b ∈ R con a ≤ b

5. F ( |B) es continua por la derecha en cada punto de R

Por ejemplo, en el caso de que X sea una variable aleatoria absolutamentecontinua, la función de densidad condicionada, denotada por f( |B), sedefine mediante

F (x|B) =Z x

−∞f(t|B) dt

Esta función cumple propiedades análogas a las de las funciones de densidad devariables aleatorias absolutamente continuas, es decir,

1. Z +∞

−∞f(x|B) dx = 1

2. f(x|B) ≥ 0 para todo x ∈ R3. Si f( |B) es continua, entonces

f(x|B) = F 0(x|B)

4.

P (a < X ≤ b) =

Z b

a

f(x) dx

En la definición de distribución condicionada, B es un suceso arbitrario su-jeto a la única condición de que P (B) > 0. Consideraremos ahora dos casosimportantes de condicionamiento: Sea X una variable aleatoria absolutamentecontinua sobre (Ω,A, P ).

Caso 4 Y es una variable aleatoria absolutamente continua sobre el mismoespacio de probabilidades que X y B = [Y ≤ y], con P (B) > 0

Page 63: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 111

Entonces, por definición, tenemos

F (x|Y ≤ y) =P (X ≤ x, Y ≤ y)

P (Y ≤ y)

=F (x, y)

FY (y)(FY (y) > 0)

Si, además, f es continua, entonces obtenemos que la función de densidad condi-cionada viene dada por

f(x|Y ≤ y) =∂

∂x

µF (x, y)

FY (y)

¶=

1

FY (y)

∂F (x, y)

∂x

Caso 5 Y es una variable aleatoria absolutamente continua sobre el mismoespacio de probabilidades que X y B = [Y = y]

En este caso, al ser Y una variable aleatoria absolutamente continua, secumple

P (B) = P (Y = y) = 0

y no podemos aplicar la definición de función de distribución condicionada. Ensu lugar, procederemos de la siguiente manera: consideremos el suceso

Bh = [y < Y ≤ y + h]

con h ≥ 0. Es claro que P (Bh) 6= 0 y

lımh→0+

Bh = lımh→0+

[y < Y ≤ y + h] = [Y = y] = B

De este modo, tenemos

F (x|y < Y ≤ y + h) =P (X ≤ x, y < Y ≤ y + h)

P (y < Y ≤ y + h)

=P (X ≤ x, Y ≤ y + h)− P (X ≤ x, Y ≤ y)

P (y < Y ≤ y + h)

=F (x, y + h)− F (x, y)

FY (y + h)− FY (y)

de donde, pasando al límite, obtenemos

lımh→0+

F (x|y < Y ≤ y + h) = lımh→0+

F (x,y+h)−F (x,y)h

FY (y+h)−FY (y)h

=1

F 0Y (y)∂F (x, y)

∂y

Page 64: Demostraciones probabilidad

112 CAPÍTULO 2. VARIABLES ALEATORIAS

es decir,

F (x|Y = y) =1

F 0Y (y)∂F (x, y)

∂y

Si fY es continua y fY (y) > 0, entonces F 0Y (y) = fY (y), y, como consecuencia,obtenemos

F (x|Y = y) =1

fY (y)

∂F (x, y)

∂y(2.14)

Si f( |Y = y) es también continua, entonces

f(x|Y = y) =∂F (x|Y = y)

∂x

y, por tanto, derivando (2.14) respecto a x, obtenemos

f(x|Y = y) =1

fY (y)

∂2F (x, y)

∂x∂y

=f(x, y)

fY (y)

ya que si f es continua, entonces

∂2F (x, y)

∂y∂x= f(x, y)

Del mismo modo, se obtiene

f(y|X = x) =f(x, y)

fX(x)

En resumen, las funciones de densidad condicionadas son

f(x|Y = y) =

(f(x,y)fY (y)

si fY (y) > 00 en otro caso

y

f(y|X = x) =

(f(x,y)fX(x)

si fX(x) > 00 en otro caso

Finalmente, si X e Y son independientes, entonces

f(x, y) = fX(x) · fY (y)

y, como consecuencia, obtenemos que

f(x|Y = y) = fX(x) y f(y|X = x) = fY (y)

es decir, todas las densidades condicionadas coinciden con las marginales.

Page 65: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 113

Observación 17 En el caso discreto, se deducen fórmulas análogas. Así, porejemplo, tenemos

P (X = xi|Y = yj) =p(X = xi, Y = yj)

p(Y = yj)

siendoP (Y = yj) =

Xxi

P (X = xi, Y = yj) 6= 0

Ejemplo 50 Se considera la siguiente función de probabilidad conjunta de unavariable aleatoria bidimensional discreta (X,Y )

xi\yj 1 21 0,1 0,22 0,2 0,33 0,1 0,1

Calcular: (1) las funciones de probabilidad marginales; (2) las funciones de prob-abilidad condicionadas de X a Y ; y (3) las funciones de probabilidad condi-cionadas de Y a X.Solución: (1) Las funciones de probabilidad marginales se definen, para X,

comoP (X = xi) =

Xyj

P (X = xi, Y = yj)

y para Y , como

P (Y = yj) =Xxi

P (X = xi, Y = yj)

Por tanto, tenemos

xi P (X = xi)1 P (X = 1, Y = 1) + P (X = 1, Y = 2) = 0,32 P (X = 2, Y = 1) + P (X = 2, Y = 2) = 0,53 P (X = 3, Y = 1) + P (X = 3, Y = 2) = 0,2

y

yj P (Y = yj)1 P (X = 1, Y = 1) + P (X = 2, Y = 1) + P (X = 3, Y = 1) = 0,42 P (X = 1, Y = 2) + P (X = 2, Y = 2) + P (X = 3, Y = 2) = 0,6

(2) Las probabilidades condicionadas de X a Y se definen como

P (X = xi|Y = yj) =P (X = xi, Y = yj)

P (Y = yj)

Page 66: Demostraciones probabilidad

114 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto, tenemos

X|Y = 1 P (X|Y = 1)1 1/42 2/43 1/4

y

X|Y = 2 P (X|Y = 2)1 2/62 3/63 1/6

(3) Las probabilidades condicionadas de Y a X se definen como

P (Y = yj |X = xi) =P (X = xi, Y = yj)

P (Y = xi)

Por tanto, tenemos

Y |X = 1 P (Y |X = 1)1 1/32 2/3

yY |X = 2 P (Y |X = 2)

1 2/52 3/5

yY |X = 3 P (Y |X = 3)

1 1/22 1/2

Ejemplo 51 Una variable aleatoria bidimensional (X,Y ) tiene una distribu-ción uniforme en el recinto definido por las rectas y = x, y = −x y x = 1.Calcular (1) las funciones de densidad marginales; (2) las funciones de densi-dad condicionadas; y (3) P (Y > 1/4|X = 1/2) y P (X < 3/4|Y = 1/2).Solución: Si (X,Y ) tiene una función de distribución uniforme quiere decir

que f(x, y) = k sobre el recinto de definición.

Entonces se ha de cumplir queZ +∞

−∞

Z +∞

−∞f(x, y) dx dy = 1

Page 67: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 115

Por tanto, Z +∞

−∞

Z +∞

−∞f(x, y) dx dy =

Z 1

0

µZ x

−xk dy

¶dx

= 2k

Z 1

0

x dx

= 2k

·x2

2

¸10

= k

luego, k = 1.(1) La función de densidad marginal de X para 0 < x < 1 es

fX(x) =

Z x

−x1 dy = 2x

Luego,

fX(x) =

½2x si 0 < x < 10 en otro caso

Por otro lado, la función de densidad marginal de Y para −1 < y < 0 es

fY (y) =

Z 1

−y1 dx = 1 + y

y para 0 ≤ y < 1,

fY (y) =

Z 1

y

1 dx = 1− y

Luego,

fY (y) =

1 + y si − 1 < y < 01− y si 0 ≤ y < 10 en otro caso

Page 68: Demostraciones probabilidad

116 CAPÍTULO 2. VARIABLES ALEATORIAS

Figura 2.1:

(2) La función de densidad condicionada de X a Y se define como

f(x|y) = f(x, y)

fY (y)(fY (y) 6= 0)

y la de Y a X, como

f(y|x) = f(x, y)

fX(x)(fX(x) 6= 0)

Por tanto, para −1 < y < 0 tenemos −y < x < 1 y

f(x|y) = 1

1 + y

y, para 0 ≤ y < 1 tenemos y < x < 1 y

f(x|y) = 1

1− y

Por tanto, la función de densidad condicionada de X a Y viene dada por

f(x|y) =

11+y si − y < x < 111−y si y ≤ x < 1

0 en otro caso

Interpretamos este resultado como sigue: por ejemplo, si Y = −1/2, entoncesobservamos que en el recinto de definición la variable X toma valores entre 1/2y 1. En consecuencia,

f(x|Y = −1/2) = 1

1− 1/2 = 2

Page 69: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 117

es decir, X|Y = −1/2 tiene una distribución uniforme en el intervalo (1/2, 1).Del mismo modo, para 0 < x < 1 tenemos −x < y < x y

f(y|x) = 1

2x

Por ejemplo, si tomamos x = 1/2, se observa que Y toma los valores en(−1/2, 1/2) y para este campo de valores la función de densidad condiciona-da de Y a X = 1/2 viene dada por

f(y|X = 1/2) =1

2 · 1/2 = 1

es decir, Y |X = 1/2 tiene una distribución uniforme en el intervalo (−1/2, 1/2).(3) Hemos visto que Y |X = 1/2 tiene distribución uniforme en el intervalo

(−1/2, 1/2) yf(y|X = 1/2) = 1

Luego

P (Y > 1/4|X = 1/2) =

Z 1/2

1/4

1 dy =1

4

Análogamente, para Y = 1/2, tenemos que X toma valores en (1/2, 1) y

f(x|Y = 1/2) =1

1− 1/2 = 2

y, por tanto,

P (X < 3/4|Y = 1/2) =Z 1

3/4

2 dx =1

2

Fórmulas de la probabilidad total y de Bayes

Sabemos que las fórmulas de la probabilidad total y de Bayes son consecuen-cia inmediata de la definición de probabilidad condicionada. El siguiente teore-ma da las fórmulas equivalentes para el caso de distribuciones condicionadas devariables aleatorias absolutamente continuas.

Teorema 27 Sea X e Y dos variables aleatorias absolutamente continuas sobre(Ω,A, P ) con densidades fX y fY y con densidades condicionadas f( |y) y f( |x),respectivamente. Entonces, se cumple la fórmula de la probabilidad total

fX(x) =

Z +∞

−∞f(x|y) · fY (y) dy

y la fórmula de Bayes

f(y|x) = f(x|y) · fY (y)fX(x)

Page 70: Demostraciones probabilidad

118 CAPÍTULO 2. VARIABLES ALEATORIAS

en donde hemos abreviado f(x|Y = y) por f(x|y).Demostración: Sabemos que

f(x, y) = f(x|y) · fY (y) (2.15)

y

fX(x) =

Z +∞

−∞f(x, y) dy

Como consecuencia, resulta la fórmula de la probabilidad total

fX(x) =

Z +∞

−∞f(x|y) · fY (y) dy

Sabemos quef(x, y) = f(y|x) · fX(x) (2.16)

Entonces, de (2.15) y (2.16), deducimos

f(x|y) · fY (y) = f(y|x) · fX(x)y, de aquí se obtiene la fórmula de Bayes para variables aleatorias

f(y|x) = f(x|y) · fY (y)fX(x)

Observación 18 1. En el caso discreto, tenemos fórmulas análogas. Así,por ejemplo, tenemos

P (X = xi) =Xyj

P (X = xi|Y = yj) · P (Y = yj)

y

P (Y = yj |X = xi) =P (X = xi|Y = yj) · P (Y = yj)

P (X = xi)

2. Estas dos fórmulas pueden generalizarse de la siguiente manera:

P (A) =

Z +∞

−∞f(A|x) · fX(x) dx

y

f(x|A) = f(A|x) · fX(x)P (A)

en donde A es un suceso cualquiera, X es una variable aleatoria absolu-tamente continua con densidad fX y

f(A|x) = lımh→0+

P (A, x < X ≤ x+ h)

P (x < X ≤ x+ h)

siempre que el límite exista.

Page 71: Demostraciones probabilidad

2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 119

Ejemplo 52 El número de productos defectuosos fabricados al día por una em-presa es una variable aleatoria X con función de densidad de probabilidad

P (X = x) = e−33x

x!(x = 0, 1, 2, ...)

Si un día se obtienen x productos defectuosos, el número de minutos que setarda en revisarlos y recomponerlos a no defectuosos es una variable aleatoriaY de forma que

P (Y = y|X = x) = e−x−1(x+ 1)y

y!(y = 0, 1, 2, ...)

Se pide: (1) obtener la función de densidad conjunta de (X,Y ); (2) ¿son X eY independientes?, y (3) calcular la expresión de la probabilidad de que X seconcrete en 2 defectuosos, supuesto que se tardó 3 minutos en convertirlos enno defectuosos.Solución: (1) Por la definición de probabilidad condicionada se deduce

P (X = x, Y = y) = P (Y = y|X = x) · P (X = x)

= e−x−43x(x+ 1)y

x!y!(x, y = 0, 1, 2, ...)

(2) Es evidente que X e Y no son independientes, ya que P (Y = y|X = x)depende de x y, como consecuencia, se tendrá

P (Y = y|X = x) 6= P (Y = y)

(3) Según la fórmula de Bayes, tenemos

P (X = 2|Y = 3) = P (Y = 3|X = 2) · P (X = 2)

P (Y = 3)

Ahora bien, sabemos por el enunciado que

P (X = 2) =9

2e−3

y

P (Y = 3|X = 2) =27

6e−3

y, además, por la fórmula de la probabilidad total, obtenemos

P (Y = 3) =∞X

X=0

P (Y = 3|X = x) · P (X = x)

=∞Xx=0

e−x−43x(x+ 1)3

x!3!

1

6

∞Xx=0

e−x−43x(x+ 1)3

x!

Page 72: Demostraciones probabilidad

120 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,

P (X = 2|Y = 3) =814 e−6

16

∞Xx=0

e−x−4 3x(x+1)3

x!

=1

2

1∞Xx=0

e−x+2 3x−5(x+1)3

x!

2.4. Valores esperados, momentos y funcionescaracterísticas

2.4.1. Concepto de esperanza matemática

Dada una variable aleatoria X definida sobre un espacio muestral Ω numer-able, su esperanza matemática es el número E(X) dado por la fórmula

E(X) =Xω∈Ω

X(ω) · p(ω) (2.17)

siempre y cuando esta serie sea absolutamente convergente, es decir, siempreque X

ω∈Ω|X(ω)| · P (ω) (2.18)

sea convergente. Se dice entonces que existe la esperanza matemática de lavariable X.Cuando se habla de "esperanza matemática"es corriente omitir el adjetivo. Se

utilizan también otros términos, como "valor esperado", "media.o "valor medio".En cualquier caso, no se espera encontrar el valor de E(X) al ir observando losvalores de X. Por ejemplo, si se lanza una moneda insesgada, y se gana 1 C=cuando sale cara y nada cuando sale cruz, nunca se obtendrá el valor esperadode 0.5 C=. Sin embargo, lanzando la moneda un gran número n de veces, sí sepuede esperar conseguir alrededor de n/2 C= con buena probabilidad. Así sededuce de la ley de los grandes números, que se estudiará en otra sección.Evidentemente, cuando Ω sea un espacio finito la condición (2.18) se cumple

automáticamente, pero cuando Ω sea infinito numerable la condición es esencial,porque permite calcular la esperanza por cualquier procedimiento de reorde-nación y asociación de sumandos de la serie (2.17) sin temor a que se obtenganresultados contradictorios. Dicho de otra forma, las series absolutamente con-vergentes tienen una suma definida de manera única, que para nada depende decomo se vayan eligiendo y sumando sus términos.La esperanza matemática es una generalización del concepto de media arit-

mética. Dada una muestra de valores observados x1, x2, ..., xn de una variable Xcon sus respectivas frecuencias f1, f2, ..., fn. Sabemos que la media de la muestraes

x =1

N

nXi=1

xi · fi =nXi=1

xi · fiN

Page 73: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS121

en donde

N =nXi=1

fi

Las frecuencias relativas fi/N se pueden considerar como las probabilidades quetienen los valores xi de presentarse en la muestra total de tamaño N . Poniendoentonces

P (X = xi) =fiN

(i = 1, 2, ..., n)

tenemos

x =nXi=1

xi · P (X = xi)

o sea, resulta (2.17) en el caso de que Ω sea un espacio muestral finito.

Observación 19 Al pensar que el concepto de esperanza está estrechamentevinculado a los juegos de azar y, por tanto, con la misma definición de proba-bilidad, quizá sorprenda al lector que suprimiendo la condición de convergenciaabsoluta (2.18) puedan producirse sorpresas. El siguiente ejemplo pone de man-ifiesto este hecho.Supongamos que queremos jugar al siguiente juego: lanzamos una moneda

al aire hasta que sale cara. Si sale cara en la primera tirada, la banca paga aljugador 2 C=. Si sale cara en la segunda tirada el jugador recibe 22 C=. Si salecara por primera vez en la tirada n-ésima el jugador gana 2n C=. Es claro quela cantidad de euros que el jugador puede ganar en este juego es una variablealeatoria X. ¿Cuál es el valor esperado de X? ¿Estaríamos dispuestos a pagareste valor por avanzado para participar en este juego?Los valores que puede tomar X son x1, x2, ..., xn, ... , con xn = 2

n. Además,la probabilidad del valor xn correspondiente a la probabilidad del suceso de queen n tiradas independientes salga cara por primera vez en el último lanzamientoes

P (X = xn) =

µ1

2

¶nPor tanto, la esperanza de X viene dada por

E(X) =∞Xn=1

xn · P (X = xn)

=∞Xn=1

2n · 12n

= 1 + 1 + · · ·+ 1 + · · · =∞

De este modo hemos encontrado una variable aleatoria para la que no existe laesperanza matemática o que su valor esperado es infinito.

Page 74: Demostraciones probabilidad

122 CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.2. Valores esperados de variables aleatorias discretas

Si X es una variable aleatoria discreta de función de densidad f(xi) =P (X = xi), se define la esperanza o valor esperado de X por

E(X) =Xi

xi · f(xi)

Si la suma es una serie numérica, se exige que sea absolutamente convergente.

Ejemplo 53 En el juego de la ruleta se hace girar una bola encima de unarueda circular dividida en 37 arcos de la misma longitud, numerados del 0 al 36.Suponemos que la probabilidad de que ocurra un arco es la misma para todos y,por tanto, la bola puede caer en cualquier número del 0 al 36 con una probabilidadde 1/37. Supongamos ahora que jugamos a números impares y que la apuestase hace a dos por uno, es decir, si apostamos 1 C= y sale impar, recibimos 2 C=(incluida la apuesta), y no cobramos nada si sale par. ¿Qué esperamos a ganarsi apostamos continuamente a números impares?Solución: Sea X la variable aleatoria que indica la cantidad que uno puede

ganar o perder al apostar 1 C= a un número impar. Es claro que X puede tomardos valores: X = 1 si sale impar, y X = −1 si sale par o cero (hay que recordarque la banca se queda con la apuesta si sale cero). Además,

P (X = 1) =18

37y P (X = −1) = 19

37

Como consecuencia, tenemos

E(X) = 1 · P (X = 1) + (−1) · P (X = −1) = − 137= −0,027

La esperanza de X representa en este caso la ganancia o pérdida media porapuesta. Si hacemos n apuestas de 1 C= a número impar, la ganancia o pérdidamedia será

X1 +X2 + · · ·+Xn

n

y el valor esperado de X será este valor cuando n tienda al infinito (Veremosmás adelante que la ley de los grandes números asegura este hecho). Así, alapostar 1 C= a un número impar en la ruleta es un juego injusto para el jugador,ya que por cada 1000 apuestas se espera que el judador pierda 27 C=.

Ejemplo 54 Calcular la esperanza del indicador IA de un suceso A de un es-pacio de probabilidades (Ω,A, P ).Solución: Sabemos que IA es una variable aleatoria discreta, definida como

sigue

IA(ω) =

½1 ω ∈ A0 ω /∈ A

Además, se tieneP (IA = 1) = P (ω ∈ A) = P (A)

Page 75: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS123

yP (IA = 0) = P (ω /∈ A) = P (A) = 1− P (A)

Por tanto,

E(IA) = 1 · P (IA = 1) + (−1) · P (IA = 0) = P (A)

Como consecuencia, la probabilidad de un suceso es el valor esperado de suindicador.

Valores esperados de las funciones de variables aleatorias discretas

Sea g una función real de variable real y sea X una variable aleatoria sobre(Ω,A, P ). No vamos a suponer que g sea una función arbitraria, sino que sesupondrá que g(X) es, a su vez, una variable aleatoria. Recordemos que g(X) esuna función definida sobre Ω que asigna a cada ω ∈ Ω el número real g(X(ω)),y la condición de que g(X) sea una variable aleatoria significa que para todonúmero real r, el conjunto

[g(X) ≤ r] = ω ∈ Ω : g(X(ω)) ≤ r ∈ A

Teorema 28 Si X es una variable aleatoria discreta que toma los valores x1, x2, ..., xn, ...con función de densidad f(xi) = P (X = xi) (i = 1, 2, ...) y g es una funciónreal de variable real tal que g(X) es una variable aleatoria, entonces

E(g(X)) =Xn

g(xn) · f(xn)

siempre y cuando la serie converga absolutamente.Demostración: Como X es discreta también lo será g(X). Consideremos elconjunto T de todos los números reales de la forma g(xn). Es claro que T seráun conjunto finito o infinito numerable. Entonces, por definición de esperanzatenemos

E(g(X)) =Xt∈T

t ·X

xn:g(xn)=tf(xn)

=Xt∈T

xn:g(xn)=t

t · f(xn)

=Xn

g(xn) · f(xn)

Observación 20 Este teorema puede generalizarse al caso de una función den-varias variables aleatorias discretas. Por ejemplo, si X,Y son dos variablesaleatorias discretas sobre (Ω,A, P ) con función de densidad conjunta f y g es

Page 76: Demostraciones probabilidad

124 CAPÍTULO 2. VARIABLES ALEATORIAS

una función real de dos argumentos reales tal que g(X,Y ) sea una variablealeatoria sobre (Ω,A, P ), es decir,

[g(X,Y ) ≤ r] = ω ∈ Ω : g (X(ω), Y (ω)) ≤ r ∈ Apara todo número real r. Entonces, se cumple que

E (g(X,Y )) =Xi

Xj

g(xi, yj) · f(xi, yj)

siempre y cuando la serie doble sea absolutamente convergente.

Ejemplo 55 Sea X una variable aleatoria con distribución de Poisson de parámetroλ, es decir, tal que

P (X = n) =∞Xn=0

λn

n!e−λ

Calcular la esperanza de Y = e−X .Solución: Tenemos

E(Y ) = E(e−X)

=∞Xn=0

e−n · P (X = n)

= e−λ∞Xn=0

(λ/e)n

n!

= e−λ(1−1e )

ya que∞Xn=0

(λ/e)n

n!= eλ/e

Ejemplo 56 Una variable aleatoria bidimensional discreta tiene la seguientedistribución de probabilidad conjunta

Y \X 1 2 3 41 0,10 0,10 0,20 0,102 0,05 0,05 0,05 0,033 0,07 0,03 0,10 0,12

Calcular E(3X2 − 7Y 3 + 5).Solución: Consideremos la función g(X,Y ) = 3X2 − 7Y 3 + 5, entonces

según la observación 11 tenemos

E(3X2 − 7Y 3 + 5) =4X

i=1

3Xj=1

h(xi, yj) f(xi, yj) = −44,79

Page 77: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS125

Propiedades de la esperanza de variables aleatorias discretas

Teorema 29 Sean X,Y dos variables aleatorias discretas para las que existenE(X), E(Y ), entonces se cumplen las siguientes propiedades:

1. E(1) = 1, siendo 1 la variable aleatoria discreta constante igual a 1

2. E(aX) = aE(X) , para todo a ∈ R3. |E(X)| ≤ E(|X|)4. E(X + Y ) = E(X) +E(Y )

5. Si Y ≤ X, entonces E(Y ) ≤ E(X); en particular, si X ≥ 0, entoncesE(X) ≥ 0

6. Si X,Y son variables aleatorias independientes, entonces E(X · Y ) =E(X) ·E(Y )

Demostración: (1) Es evidente a partir de la definición de esperanza.(2) Sea g(X) = aX, entonces por el teorema 20 tenemos

E(aX) =Xn

axn · P (X = xn)

= aXn

xn · P (X = xn)

= aE(X)

(3) Por definición tenemos

|E(X)| =

¯¯Xn

xn · P (X = xn)

¯¯

≤Xn

|xn · P (X = xn)|

=Xn

|xn| · P (X = xn)

= E(|X|)

(4) Sea g(X,Y ) = X + Y , entonces por la observación 11 tenemos

E(X + Y ) =Xn,m

(xn + ym) · P (X = xn, Y = ym)

=Xn

xnXm

P (X = xn, Y = ym) +Xm

ymXn

P (X = xn, Y = ym)

pero Xm

P (X = xn, Y = ym) = P (X = xn)

Page 78: Demostraciones probabilidad

126 CAPÍTULO 2. VARIABLES ALEATORIAS

y Xn

P (X = xn, Y = ym) = P (Y = ym)

son las densidades marginales de X,Y respectivamente. Por tanto, obtenemos

E(X + Y ) =Xn

xnP (X = xn) +Xm

ymP (Y = ym)

= E(X) +E(Y )

(5) Sea g(X,Y ) = X − Y , entonces por la observación 11 tenemos

E(X − Y ) =Xn,m

(xn − ym) · P (X = xn, Y = ym)

pero si Y ≤ X, entonces ym ≤ xn para todos los n,m y, por tanto,

E(X − Y ) ≥ 0Por otra parte, los apartados (2) y (4) permiten escribir

E(X − Y ) = E (X + (−Y ))= E(X) +E(−Y )= E(X)−E(Y )

y, en consecuencia, obtenemos

E(X)−E(Y ) ≥ 0es decir, E(X) ≥ E(Y ). En particular, si Y = 0, entonces E(Y ) = 0 y, portanto, X ≥ 0 implica E(X) ≥ 0.(6) Sea g(X,Y ) = X · Y . Entonces, por la observación 11 tenemos

E(X · Y ) =Xn,m

xn · ym · P (X = xn, Y = ym)

pero, al ser X,Y independientes, se cumple

P (X = xn, Y = ym) = P (X = xn) · P (Y = ym)

para todos los n,m. En consecuencia, tenemos

E(X · Y ) =Xn,m

xn · ym · P (X = xn) · P (Y = ym)

=Xn

xn · P (X = xn)Xm

ym · P (Y = ym)

= E(X) ·E(Y )

Page 79: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS127

Observación 21 La afirmación recíproca de la propiedad (6) no es cierta: siE(X ·Y ) = E(X) ·E(Y ), entonces no necesariamente X,Y son independientes.El ejemplo 26 demuestra este hecho.

Ejemplo 57 Sea X una variable aleatoria con tres valores −1, 0, 1 y

P (X = −1) = P (X = 0) = P (X = 1) =1

3

Sea Y la variable aleatoria definida por

Y =

½0 si X = 01 si X 6= 0

Probar que X,Y no son independientes y se cumple E(X · Y ) = E(X) ·E(Y ).Solución: Es claro que

P (Y = 0) = P (X = 0) =1

3

y

P (Y = 1) = P (X = −1) + P (X = 1) =2

3

Por tanto, tenemos

E(X) = (−1) · P (X = −1) + 0 · P (X = 0) + 1 · P (X = 1) = 0

y

E(Y ) = 0 · P (Y = 0) + 1 · P (Y = 1) = 2

3

Además, tenemosP (X = 0, Y = 1) = P (∅) = 0

y

P (X = 0) · P (Y = 1) =2

9

y, como consecuencia, X,Y no son independientes.Es inmediato comprobar las probabilidades de la siguiente tabla correspondi-

ente a la función de densidad conjunta

Y \X −1 0 10 0 1/3 01 1/3 0 1/3

Por tanto,

E(X · Y ) = (−1) · 13+ 0 · 1

3+ 1 · 1

3= 0

y, en consecuencia, se cumple

E(X · Y ) = E(X) ·E(Y )

Page 80: Demostraciones probabilidad

128 CAPÍTULO 2. VARIABLES ALEATORIAS

Ejemplo 58 El número total de puntos obtenidos en n tiradas de un dado sedesigna por X. Hallar E(X).Solución: Podríamos resolver este problema hallando la función de densidad

de la variable aleatoria X, pero es más sencillo tener en cuenta que X es sumade n variables aleatorias

X = X1 +X2 + · · ·+Xn

siendo Xi el número de puntos obtenidos en la i-ésima tirada del dado. Es claroque

E(Xi) =1

6

6Xn=1

n =21

6=7

2

Puesto que

E(X) = E(X1) +E(X2) + · · ·+E(Xn)

entonces

E(X) =7n

2

2.4.3. Valores esperados de variables aleatorias absoluta-mente continuas

Si X es una variable aleatoria absolutamente continua con función de den-sidad f , se define la esperanza o valor esperado de X por

E(X) =

Z +∞

−∞x · f(x) dx

siempre y cuando la integral impropia sea absolutamente convergente, es decir,Z +∞

−∞|x| · f(x) dx

sea convergente.

Observación 22 1. Como en el caso discreto (ver observación 10), tambiénexisten variables aleatorias absolutamente continuas para las que no existesu esperanza. Supongamos que X es una variable aleatoria con distribu-ción de Cauchy, es decir, tal que su función de densidad viene dadapor

f(x) =1

π(1 + x2)

Page 81: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS129

Entonces,

E(X) =

Z +∞

−∞

x

π(1 + x2)dx

= lımk→+∞l→+∞

Z l

−k

x

π(1 + x2)dx

=1

2πlım

k→+∞l→+∞

ln

µ1 + l2

1 + k2

¶y el valor de E(X) depende de la forma en que k y l tienden a +∞. Siprimero k tiende a +∞ y luego l tiende a +∞, entonces E(X) tiende a−∞, mientras que si el límite se toma en orden inverso, entonces E(X)tiende a +∞. En el caso de que k = l, E(X) = 0. Vemos, pues, que ladistribución de Cauchy no tiene un valor esperado.

2. En general, dada una variable aleatoria X con función de distribución F ,la esperanza de X se define utilizando la integral de Riemann-Stieljes:

E(X) =

Z +∞

−∞x dF (x)

Esta definición coincide con la dada para el caso discreto y absolutamentecontinuo. Para una variable aleatoria con distribución mixta tal que

F (x) = α

Z +∞

−∞f1(t) dt+ (1− α)

Xxi≤x

f2(x)

la esperanza se define como sigue

E(X) = α

Z +∞

−∞xf1(x) dx+ (1− α)

Xi

xif2(xi)

Ejemplo 59 Sea X una variable aleatoria absolutamente continua que se dis-tribuye uniformemente en el intervalo (a, b). Calcular la esperanza de X.Solución: Al tratarse de una distribución uniforme en (a, b) se tiene

f(x) =

½1

b−a si x ∈ (a, b)0 si x /∈ (a, b)

Entonces, por definición tenemos

E(X) =

Z +∞

−∞x · f(x) dx

=1

b− a

Z b

a

x dx

=1

2(a+ b)

Page 82: Demostraciones probabilidad

130 CAPÍTULO 2. VARIABLES ALEATORIAS

Valores esperados de las funciones de variables aleatorias absoluta-mente continuas

Teorema 30 Si X es una variable aleatoria absolutamente continua y g es unafunción derivable, entonces

E (g(X)) =

Z +∞

−∞g(x) · f(x) dx

siempre que la integral sea absolutamente convergente.Demostración: Para no complicar excesivamente las cosas, haremos la demostraciónpara funciones crecientes, aunque el teorema es válido también para funcionesdecrecientes y, en general, para funciones no monótonas.Por definición, tenemos

E(Y ) =

Z +∞

−∞y · fY (y) dy

mediante el cambio y = g(x), obtenemos

E (g(X)) =

Z +∞

−∞g(x) · fY (g(x)) · g0(x) dx

Según el teorema 11, se cumple

fY (y) = f(x) · 1

g0(x)

Entonces, obtenemos

E (g(X)) =

Z +∞

−∞g(x) · f(x) dx

Observación 23 1. En general, dada una variable aleatoria X con funciónde distribución F , la esperanza de una función g de X se define utilizandola integral de Riemann-Stieljes:

E (g(X)) =

Z +∞

−∞g(x) dF (x)

Esta definición coincide con la dada para el caso discreto y absolutamentecontinuo. Para una variable aleatoria con distribución mixta tal que

F (x) = α

Z +∞

−∞f1(t) dt+ (1− α)

Xxi≤x

f2(x)

la esperanza se define como sigue

E(g(X)) = α

Z +∞

−∞g(x) · f1(x) dx+ (1− α)

Xi

g(xi) · f2(xi)

Page 83: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS131

2. Este teorema puede generalizarse al caso de una función de n-varias vari-ables aleatorias absolutamente continuas. Por ejemplo, si X,Y son dosvariables aleatorias absolutamente continuas con función de densidad con-junta f , entonces se cumple que

E (g(X,Y )) =

Z +∞

−∞

Z +∞

−∞g(x, y) · f(x, y) dx dy

siempre y cuando la integral doble sea absolutamente convergente.

Ejemplo 60 Una variable aleatoria X tiene como función de densidad

f(x) =

½23x si x ∈ (1, 2)0 en otro caso

Calcular el valor esperado de g(X) = 3X +X2.Solución: Aplicando el teorema 22, tenemos

E (g(X)) =

Z 2

1

(3x+ x2)2x

3dx

=

Z 2

1

µ2x2 +

2

3x3¶

dx

=

·2x3

3+

x4

6

¸21

=43

6

Ejemplo 61 La función de densidad conjunta de dos variables X,Y con dis-tribución absolutamente continua es

f(x, y) =

½x+ y si x, y ∈ (0, 1)0 en otro caso

Calcular la esperanza de Z = XY 2 + 2X.Solución: Consideremos la función g(X,Y ) = X ·Y 2+2X. Entonces, según

la observación 14, tenemos

E¡XY 2 + 2X

¢=

Z 1

0

Z 1

0

(xy2 + 2x)(x+ y) dx dy

=

Z 1

0

µZ 1

0

(x2y2 + 2x2 + xy3 + 2xy) dx

¶dy

=

Z 1

0

·x3

3y2 +

2x3

3+

x2

2y3 + x2y

¸10

dy

=

Z 1

0

µ1

3y2 +

2

3+1

2y3 + y

¶dy

=101

72

Page 84: Demostraciones probabilidad

132 CAPÍTULO 2. VARIABLES ALEATORIAS

Propiedades de la esperanza de variables aleatorias absolutamentecontinuas

Teorema 31 Sean X,Y dos variables aleatorias absolutamente continuas paralas que existen E(X), E(Y ), entonces se cumplen las siguientes propiedades:

1. E(1) = 1, siendo 1 la variable aleatoria absolutamente continua constanteigual a 1

2. Linealidad:

E (ag(X) + bh(X)) = aE (g(X)) + bE (h(X))

siendo a, b números reales arbitrarios y g, h funciones reales de variablereal

3. Si X tiene una función de densidad simétrica respecto de un punto c,entonces E(X) = c

4. |E (g(X))| ≤ E (|g(X)|)

5. Si 0 ≤ g(x) ≤ h(x) para todo x ∈ R, entonces 0 ≤ E (g(X)) ≤ E (h(X))

6. Si m ≤ g(x) ≤M para todo x ∈ R, entonces m ≤ E (g(X)) ≤M

7. Si X,Y son independientes, entonces E (X · Y ) = E(X) ·E(Y )

Demostración: (1) Por definición tenemos

E(1) =

Z +∞

−∞1 · f(x) dx = 1

(2) Sea k(X) = ag(X) + bh(X), entonces

E (k(X)) =

Z +∞

−∞k(x) · f(x) dx

=

Z +∞

−∞[ag(x) + bh(x)] · f(x) dx

= a

Z +∞

−∞g(x) · f(x) dx+ b

Z +∞

−∞h(x) · f(x) dx

= aE (g(X)) + bE (h(X))

(3) Si f es simétrica respecto de un punto c = 0, es decir, f es par, se cumple

f(x) = f(−x)

Page 85: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS133

Entonces

E(X) =

Z +∞

−∞x · f(x) dx

=

Z 0

−∞x · f(x) dx+

Z +∞

0

x · f(x) dx

= −Z −∞0

x · f(x) dx+Z +∞

0

x · f(x) dx

= −Z +∞

0

x · f(x) dx+Z +∞

0

x · f(x) dx= 0

Ahora bien, si f es simétrica respecto del punto c, entonces

f(c− x) = f(c+ x)

y, en consecuencia, la variable aleatoria X − c será simétrica respecto de ceroy, por tanto,

0 = E(X − c) = E(X)− c

luego,E(X) = c

(4) Tenemos

|E (g(X))| =

¯Z +∞

−∞g(x) · f(x) dx

¯≤

Z +∞

−∞|g(x)| · f(x) dx

= E (|g(X)|)

(5) Puesto que f(x) ≥ 0, entonces

0 ≤ g(x) · f(x) ≤ h(x) · f(x)

y, como consecuencia, tenemos

0 ≤Z +∞

−∞g(x) · f(x) dx ≤

Z +∞

−∞h(x) · f(x) dx

es decir,0 ≤ E (g(X)) ≤ E (h(X))

(6) Puesto que f(x) ≥ 0, entonces

m · f(x) ≤ g(x) · f(x) ≤M · f(x)

Page 86: Demostraciones probabilidad

134 CAPÍTULO 2. VARIABLES ALEATORIAS

para todo x ∈ R. Puesto que0 ≤ g(x) · f(x)−m · f(x)

entonces

0 ≤Z +∞

−∞(g(x) · f(x)−m · f(x)) dx

=

Z +∞

−∞g(x) · f(x) dx−m

Z +∞

−∞f(x) dx

=

Z +∞

−∞g(x) · f(x) dx−m · 1

luegom ≤ E (g(X))

Análogamente, se deduceE (g(X)) ≤M

(7) Sea g(X,Y ) = X · Y , entonces por la observación 14 tenemos

E (g(X,Y )) =

Z +∞

−∞

Z +∞

−∞xy · f(x, y) dx dy

=

Z +∞

−∞

Z +∞

−∞xy · fX(x) · fY (y) dx dy

=

Z +∞

−∞x · fX(x) dx

Z +∞

−∞y · fY (y) dy

= E(X) ·E(Y )

Ejemplo 62 Si X,Y son dos variables aleatorias con función de densidad con-junta

f(x, y) =

½kx2ye−x−y si x ≥ 0 e y ≥ 00 en otro caso

(1) Averiguar si X e Y son o no independientes y (2) calcular E(3XY ).Solución: Al tratarse de una función de densidad, se cumpleZ +∞

−∞

Z +∞

−∞f(x, y) dx dy = 1

Por tanto,

1 = k

Z +∞

0

Z +∞

0

x2ye−x−y dx dy

= k

Z +∞

0

x2e−x dx

Z +∞

0

ye−y dy

= k · 2 · 1= 2k

Page 87: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS135

de donde k = 1/2.(1) Calculemos ahora las funciones de densidad marginales. Tenemos, por

un lado

fX(x) =

Z +∞

−∞f(x, y) dy

=

Z +∞

0

1

2x2ye−x−y dy

=1

2x2e−x

Z +∞

0

ye−y dy

=1

2x2e−x

y, por tanto,

fX(x) =

½12x

2e−x si x ≥ 00 en otro caso

y, por otro, tenemos

fY (x) =

Z +∞

−∞f(x, y) dx

=

Z +∞

0

1

2x2ye−x−y dx

=1

2ye−y

Z +∞

0

x2e−x dx

= ye−y

y, por tanto,

fY (y) =

½ye−y si y ≥ 00 en otro caso

Observamos quef(x, y) = fX(x) · fY (y)

y, en consecuencia, X e Y son independientes.(2) Al ser X e Y independientes, se cumple

E(3XY ) = 3E(XY ) = 3E(X)E(Y )

Por tanto, calcularemos E(X) y E(Y ). Tenemos

E(X) =

Z +∞

−∞x fX(x) dx

=1

2

Z +∞

0

x3e−x dx

= 3

Page 88: Demostraciones probabilidad

136 CAPÍTULO 2. VARIABLES ALEATORIAS

y

E(Y ) =

Z +∞

−∞y fY (y) dy

=

Z +∞

0

y2e−y dy

= 2

y, en consecuencia,E(3XY ) = 3 · 3 · 2 = 18

2.4.4. Concepto de esperanza condicionada

La distribución condicionada de Y |X = x describe las probabilidades asoci-adas a los posibles valores de Y cuando la variable aleatoria X ha tomado uncierto valor x. Por tanto, es natural preguntarse por la esperanza o valor mediocondicionado de Y |X = x. En el caso discreto, definimos

E (Y |X = x) =Xj

yj · f(yj |X = x)

y en el caso absolutamente continuo, definimos

E (Y |X = x) =

Z +∞

−∞y · f(y|X = x) dy

y, en general, tenemos

E (g(Y )|X = x) =Xj

g(yj) · f(yj |X = x)

en el caso discreto, y

E (g(Y )|X = x) =

Z +∞

−∞g(y) · f(y|X = x) dy

Análogamente se define el valor medio de X condicionado por Y = y.

Observación 24 Obsérvese que también podemos calcular la esperanza condi-cionada por las siguientes fórmulas:

E (Y |X = x) =Xj

yj · f(x, yj)fX(x)

=1

fX(x)

Xj

yj · f(x, yj)

Page 89: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS137

en el caso discreto, y

E (Y |X = x) =

Z +∞

−∞y · f(x, y)

fX(x)dy

=1

fX(x)

Z +∞

−∞y · f(x, y) dy

en el caso continuo.

La esperanza condicionada como variable aleatoria

Al variar el valor de x puede variar f(Y |X = x) y, por tanto, E(Y |X = x)puede tomar diferentes valores y, en consecuencia, es una función de x. Entonces,mediante la función h(x) = E(Y |X = x) podemos construir una nueva variablealeatoria que designamos por E(Y |X)

ΩX−→ R E(Y |X)−→ R

ω 7−→ X(ω) 7−→ E(Y |X = X(ω)

Como E(Y |X) es una variable aleatoria podemos plantearnos calcular el valorde su esperanza. Así tenemos

E (E(Y |X)) =

Z +∞

−∞E(Y |X = x) · fX(x) dx

=

Z +∞

−∞

µ1

fX(x)

Z +∞

−∞y · f(x, y) dy

¶fX(x) dx

=

Z +∞

−∞

Z +∞

−∞y · f(x, y) dx dy

=

Z +∞

−∞y dy

Z +∞

−∞f(x, y) dx

=

Z +∞

−∞y · fy(y) dy (ya que fy(y) =

Z +∞

−∞f(x, y) dx)

= E(Y )

Del mismo modo se demuestra que E (E(X|Y )) = E(X).

Observación 25 Una de las aplicaciones más importantes de la esparanzacondicionada es la regresión. Más adelante trataremos este punto.

Ejemplo 63 Consideremos la variable aleatoria discreta con la siguiente dis-tribución de probabilidad conjunta

Y \X 10 11 12 13 141 0,02 0,03 0,07 0,02 0,042 0,01 0,02 0,08 0,15 0,043 0,05 0,04 0,09 0,10 0,034 0,08 0,06 0,01 0,05 0,01

Page 90: Demostraciones probabilidad

138 CAPÍTULO 2. VARIABLES ALEATORIAS

Calcular: (1) E(X) y E(Y ); (2) E(Y |X = 15); (3) E(X|Y < 3) y (4) E(Y 2|11 <X ≤ 13).Solución: (1) Para calcular E(X) y E(Y ), primero necesitamos las dis-

tribuciones de probabilidad marginales de X e Y . Así, tenemos

xi 10 11 12 13 14P (X = xi) 0,16 0,15 0,25 0,32 0,12

yyj 1 2 3 4

P (Y = yj) 0,18 0,30 0,31 0,21

Por tanto,

E(X) =5Xi=1

xiP (X = xi) = 12,09

y

E(Y ) =4X

j=1

yjP (Y = yj) = 2,55

(2) Por definición, tenemos

E (Y |X = 15) =4X

j=1

yj · P (Y = yj |X = 15)

=1

P (X = 15)

4Xj=1

yj · P (X = 15, Y = yj)

=1

0,15(1 · 0,03 + 2 · 0,02 + 3 · 0,04 + 4 · 0,06)

=0,43

0,15= 2,87

(3) Por definición, tenemos

E (X|Y < 3) =5Xi=1

xi · P (X = xi|Y < 3)

=1

P (Y < 3)

5Xi=1

xi · P (X = xi, Y < 3)

pero,P (Y < 3) = P (Y = 1) + P (Y = 2) = 0,48

y

5Xi=1

xi · P (X = xi, Y < 3) =5X

i=1

xi · [P (X = xi, Y = 1) + P (X = xi, Y = 2)]

= 10 · 0,03 + 11 · 0,05 + 12 · 0,15 + 13 · 0,17 + 14 · 0,08 = 5,98

Page 91: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS139

Por tanto,

E (X|Y < 3) =5,98

0,48= 12,458

(4) Por definición, tenemos

E(Y 2|11 < X ≤ 13) =4X

j=1

y2j · P (Y = yj |11 < X ≤ 13)

=1

P (11 < X ≤ 13)4X

j=1

y2j · P (Y = yj , 11 < X ≤ 13)

peroP (11 < X ≤ 13) = P (X = 12) + P (X = 13) = 0,57

y

4Xj=1

y2j · P (Y = yj , 11 < X ≤ 13) =4X

j=1

y2j · [P (Y = yj ,X = 12) + P (Y = yj ,X = 13)]

= 1 · 0,09 + 4 · 0,23 + 9 · 0,19 + 16 · 0,06 = 3,68

Por tanto,

E(Y 2|11 < X ≤ 13) = 3,68

0,57= 6,4561

Ejemplo 64 Dadas dos variables aleatorias absolutamente continuas X,Y confunción de densidad conjunta

f(x, y) =

½12 si 0 < 2x ≤ 3y < 10 en otro caso

Calcular las esperanzas condicionadas.Solución: Primero calcularemos las funciones de densidad marginales. Así,

para 0 < x < 1/2 tenemos

fX(x) =

Z +∞

−∞f(x, y) dy

= 12

Z 1/3

2x/3

dy

= 4− 8x

y, por tanto,

fX(x) =

½4− 8x si 0 < x < 1/20 en otro caso

Page 92: Demostraciones probabilidad

140 CAPÍTULO 2. VARIABLES ALEATORIAS

Por otro lado, para 0 < y < 1/3 tenemos

fY (y) =

Z +∞

−∞f(x, y) dx

= 12

Z 3y/2

0

dx

= 18y

y, por tanto,

fY (y) =

½18y si 0 < y < 1/30 en otro caso

En segundo lugar, calcularemos las funciones de densidad condicionadas. Así,para 0 < x < 1/2 tenemos

f(y|X = x) =f(x, y)

fX(x)

=12

4− 8x =3

1− 2x

siempre que 2x/3 ≤ y < 1/3; en cualquier otro caso, la función se anula. Porotro lado, para 0 < y < 1/3 tenemos

f(x|Y = y) =f(x, y)

fY (y)

=12

18y=2

3y

siempre que 0 < x < 3y/2; en cualquier otro caso, la función se anula. Final-mente, podemos ahora calcular las esperanzas condicionadas. Así, tenemos

E (Y |X = x) =

Z +∞

−∞y · f(y|X = x) dy

=

Z 1/3

2x/3

y · 3

1− 2x dy

=3

1− 2x·y2

2

¸1/32x/3

=1 + 2x

6

Page 93: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS141

y

E(X|Y = y) =

Z +∞

−∞x · f(x|Y = y) dx

=

Z 3y/2

0

x · 23y

dx

=2

3y

·x2

2

¸3y/20

=3y

4

2.4.5. Momentos de variables aleatorias

Bajo ciertas condiciones, los momentos caracterizan la distribución de unavariable aleatoria, en el sentido de que si existen todos, existe una sola distribu-ción con tales momentos.

Momentos simples

Dada una variable aleatoria X, se llama momento de orden k (respectoal origen) al valor medio, si existe, de la variable Xk

mk = E(Xk)

y, en general, se llama momento de orden k respecto a un punto c al valorE£(X − c)k

¤. Los momentos respecto al valor medio se llamanmomentos cen-

trales de orden kµk = E

h(X −E(X))

ki

En ambos casos, k puede ser cualquier número real no necesariamente entero.En particular, si X es una variable aleatoria discreta, entonces

mk =Xi

xki · P (X = xi) y µk =Xi

(xi −E(X))k · P (X = xi)

y, si X es una variable aleatoria absolutamente continua, entonces

mk =

Z +∞

−∞xk · f(x) dx y µk =

Z +∞

−∞(x−E(X))

k · f(x) dx

Observación 26 De los momentos hay dos que merecen especial atención. Elmomento de orden 1, m1 = E(X) = µ, media de la distribución, describedonde está centrada la distribución de probabilidad de la variable aleatoria Xy, por tanto, es un valor que caracteriza a dicha distribución de probabilidad.El otro momento es el momento central de orden 2, µ2 = E

£(X − µ)2

¤= σ2,

Page 94: Demostraciones probabilidad

142 CAPÍTULO 2. VARIABLES ALEATORIAS

varianza de la distribución, describe la forma de la distribución, es decir, laforma en que se dispersan los valores de la variable aleatoria X respecto del valoresperado µ = E(X); es también un valor que caracteriza a dicha distribución.Además de la media y la varianza, como medidas de centralización y dis-

persión, el conocimiento de momentos de orden superior proporcionan mayorinformación sobre la forma de la distribución de la variable aleatoria. Cono-ciendo los momentos centrales de orden 3 y de orden 4 se puede obtener elcoeficiente de asimetría

γ1 =µ3

µ3/22

=µ3σ3

y el coeficiente de curtosis o apuntamiento

γ2 =µ4µ22=

µ4σ4

Estos coeficientes se interpretan de la siguiente manera. Si la distribución essimétrica, entonces γ1 = 0 y, además, si la distribución es asimétrica por laderecha (izquierda), entonces γ1 > 0 (γ1 < 0). El coeficiente de curtosis tomacomo referencia la función de densidad de una distribución normal de parámet-ros µ y σ para la que γ2 = 3. Entonces, si γ2 > 3, la distribución es másapuntada que la normal, y si γ2 < 3, la distribución es menos apuntada.

Momentos mixtos

Las definiciones de los momentos simples se generalizan para variables aleato-rias n-dimensionales. Sin embargo, para facilitar la escritura aquí sólo consid-eraremos el caso de variables aleatorias bidimensionales. Dadas dos variablesaleatorias X,Y se llama momento mixto de orden k+h (respecto al origen)al valor medio, si existe, de la variable XkY h

mkh = E(XkY h)

y se llama momento mixto central de orden k + h al valor

µkh = Eh(X − E(X))

k(Y −E(Y ))

hi

De nuevo, en ambos casos, k y h son números reales cualesquiera no necesaria-mente enteros. En particular, si (X,Y ) es una variable aleatoria bidimensionaldiscreta, entonces

mr =Xi

Xj

xki yhj · P (X = xi, Y = yj)

yµr =

Xi

Xj

(xi −E(X))k(yj −E(Y ))

h · P (X = xi, Y = yj)

Page 95: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS143

y, si (X,Y ) es una variable aleatoria bidimensional absolutamente continua,entonces

mr =

Z +∞

−∞xkyh · f(x, y) dx dy

y

µr =

Z +∞

−∞(x−E(X))

k(y −E(Y ))

h · f(x, y) dx dy

Observación 27 Es claro que los momentos mixtos de orden 1 son las mediasde X y de Y

m10 = E(X) = µX y m01 = E(Y ) = µY

Si k = 2 y h = 0 se obtiene la varianza de X

µ20 = E£(X − µX)

2¤= σ2X

por lo que se denomina varianza marginal de X. Análogamente,

µ02 = E£(Y − µY )

2¤= σ2Y

se llama varianza marginal de Y . Es claro que los momentos mixtos centralesde orden 1 son nulos. Es especialmente importante el momento mixto central deorden 1 + 1, que recibe el nombre de covarianza de X,Y

µ11 = E [(X − µX) (Y − µY )] = σXY

La covarianza nos permitirá dar una medida de la dependencia lineal entre lasvariables aleatorias X e Y .

Es inmediato comprobar que

µ20 = m20 −m210

µ02 = m02 −m201

µ11 = m11 −m10m01

En efecto, tenemos

µ20 = E£(X −m10)

2¤= E

¡X2 − 2m10X +m2

10

¢= E(X2)− 2m10E(X) +m2

10

= m20 −m210

La segunda fórmula se obtiene del mismo modo y, la última, se obtiene comosigue

µ11 = E [(X −m10) (Y −m01)]

= E(XY −m01X −m10Y +m10m01)

= E(XY )−m01E(X)−m10E(Y ) +m10m01

= m11 −m10m01

Page 96: Demostraciones probabilidad

144 CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.6. Concepto de varianza y sus propiedades

La esperanza o valor esperado de una variable aleatoria describe donde estácentrada su distribución de probabilidad y, por tanto, es un valor que caracterizaa dicha distribución de probabilidad. Sin embargo, la esperanza por sí sola noda una descripción adecuada de la forma de la distribución, es necesario sabercómo se dispersan los valores de la variable aleatoria respecto del valor esperado.La medida de dispersión más utilizada en Estadística es la varianza, y ahora segeneraliza para variables aleatorias.Dada una muestra de valores observados x1, x2, ..., xn de una variable X con

sus respectivas frecuencias f1, f2, ..., fn, la dispersión de un valor xi respecto ala media x se puede medir por

(xi − x)2

y la media de esta dispersión viene dada por

s2 =nXi=1

(xi − x)2 · fiN

en donde

N =nXi=1

fi

Las frecuencias relativas fi/N se pueden considerar como las probabilidades quetienen los valores xi de presentarse en la muestra total de tamaño N . Poniendoentonces

P (X = xi) =fiN

(i = 1, 2, ..., n)

tenemos

s2 =nXi=1

(xi − x)2 · P (X = xi) (2.19)

que se llama varianza de la muestra. Vamos a extender esta idea al caso de unavariable aleatoria.Se llama varianza de una variable aleatoriaX y se denota por σ2X o V ar(X),

o simplemente σ2 cuando no hay confución posible, al valor del momento centralde orden 2

σ2 = V ar(X) = Eh(X −E(X))

2i

si existe. Así, tenemosσ2 =

Xi

(xi − µ)2 · f(xi)

en el caso discreto (obsérvese la analogía entre esta fórmula y (2.19)), y

σ2 =

Z +∞

−∞(x− µ)

2 · f(x) dx

Page 97: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS145

en el caso absolutamente continuo, siendo µ = E(X).Como ya hemos dicho, la varianza de una variable aleatoria X será una

medida de dispersión de X respecto de su valor medio µ, en el sentido deque si X toma valores muy alejados de µ, entonces |X − µ| será una variablealeatoria que muy probablemente tomará valores grandes y, en consecuencia,σ2 = E

£(X − µ)2

¤será grande, mientras que si X toma valores cercanos a µ,

entonces la variable aleatoria |X − µ| tomará muy probablemente valores pe-queños y, por tanto, σ2 será pequeña.Se llama desviación típica o estándar a la raíz cuadrada positiva de la

varianza. Es una medida de dispersión de la misma dimensión física que lavariable aleatoria y se indica por σ

σ =pV ar(X) =

rEh(X −E(X))

2i

Propiedades de la varianza

Teorema 32 Sean X,Y dos variables aleatorias que tienen una distribuciónconjunta discreta o absolutamente continua y ambas tienen momento de segundoorden finito, entonces

1. V ar(X) = E(X2)− (E(X))2

2. V ar(a) = 0, con a ∈ R

3. V ar(aX) = a2V ar(X), con a ∈ R

4. V ar(aX + b) = a2V ar(X)

5. Si X,Y son independientes, entonces V ar(X + Y ) = V ar(X) + V ar(Y )

Demostración: (1) Es inmediato, pues, tenemos

V ar(X) = Eh(X −E(X))2

i= E

hX2 − 2XE(X) + (E(X))

2i

= E(X2)− 2 (E(X))2 + (E(X))2= E(X2)− (E(X))2

(2) Es también inmediato, pues,

V ar(a) = Eh(a−E(a))2

i= E(0) = 0

Page 98: Demostraciones probabilidad

146 CAPÍTULO 2. VARIABLES ALEATORIAS

(3) Aplicando el apartado (1), tenemos

V ar(aX) = E(a2X2)− (E(aX))2= a2E(X2)− a2 (E(X))2

= a2hE(X2)− (E(X))2

i= a2V ar(X)

(4) Aplicando de nuevo el apartado (1), tenemos

V ar(aX + b) = E£(aX + b)2

¤− (E(aX + b))2

= E(a2X2 + 2abX + b2)− (aE(X) + b)2

= a2E(X2) + 2abE(X) + b2 − a2 (E(X))2 − 2abE(X)− b2

= a2hE(X2)− (E(X))2

i= a2V ar(X)

(5) Si X,Y son independientes, entonces E(XY ) = E(X) ·E(Y ). Aplicandoahora el apartado (1), tenemos

V ar(X + Y ) = E£(X + Y )2

¤− (E(X + Y ))2

= E(X2 + 2XY + Y 2)− (E(X) +E(Y ))2

= E(X2) + 2E(X)E(Y ) +E(Y 2)− (E(X))2 − 2E(X)E(Y )− (E(Y ))2= V ar(X) + V ar(Y )

Ejemplo 65 Calcular la varianza del número de puntos obtenidos en la tiradade un dado ordinario.Solución: La variable aleatoria X "número de puntos en la tirada de un

dado"es discreta y toma los valores 1, 2, ..., 6 con probabilidad 1/6. Por tanto,

E(X) =1

6(1 + 2 + · · ·+ 6) = 21

6=7

2

y, además, se cumple

E(X2) =1

6(12 + 22 + · · ·+ 62) = 91

6

Entonces,

V ar(X) = E(X2)− (E(X))2

=91

6−µ7

2

¶2=35

12

Page 99: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS147

Ejemplo 66 Calcular la varianza de la variable aleatoria absolutamente con-tinua con función de densidad

f(x) =

½ 12√x

si x ∈ (0, 1)0 en otro caso

Solución: Tenemos

E(X) =

Z +∞

−∞x f(x) dx

=

Z 1

0

x

2√xdx

=1

2

·x3/2

3/2

¸10

=1

3

y también

E(X2) =

Z +∞

−∞x2 f(x) dx

=

Z 1

0

x2

2√xdx

=1

2

·x5/2

5/2

¸10

=1

5

Como consecuencia, obtenemos

V ar(X) = E(X2)− (E(X))2

=1

5−µ1

3

¶2=4

45

Ejemplo 67 Sean X e Y variables aleatorias independientes con varianzas fini-tas tales que E(X) = E(Y ). (1) Demostrar que E

£(X − Y )2

¤= V ar(X) +

V ar(Y ); (2) Si V ar(X) = V ar(Y ) = 3, determinar los valores de V ar(X − Y )y V ar(2X − 3Y + 1).Solución: (1) Tenemos

E£(X − Y )2

¤= E(X2 − 2XY + Y 2)

= E(X2)− 2E(X)E(Y ) +E(Y 2)

= E(X2)− (E(X))2 − (E(Y ))2 +E(Y 2)

= V ar(X) + V ar(Y )

(2) Al ser X,Y independientes, también lo son X e −Y . Entonces tenemosV ar(X − Y ) = V ar(X) + V ar(−Y )

= V ar(X) + (−1)2V ar(Y )= V ar(X) + V ar(Y ) = 6

Page 100: Demostraciones probabilidad

148 CAPÍTULO 2. VARIABLES ALEATORIAS

Del mismo modo, 2X y −3Y + 1 son independientes y, por tanto, tenemos

V ar(2X − 3Y + 1) = V ar(2X) + V ar(−3Y + 1)= 4V ar(X) + 9V ar(Y )

= 12 + 27 = 39

2.4.7. Teoremas de Markov y Tchebychev

Los siguientes resultados establecen cotas para las probabilidades en térmi-nos de los momentos de una variable aleatoria X.

Teorema 33 (Teorema de Tchebychev) Sea X una variable aleatoria (disc-reta o absolutamente continua) tal que, para un cierto k > 0 (no necesariamenteentero), el momento de orden k de |X| existe, entonces para cada > 0 se cumple

P (|X| ≥ ) ≤E³|X|k

´k

Demostración: Haremos la demostración para el caso en que la variable aleato-ria X sea absolutamente continua, con función de densidad f . Por definicióntenemos

E³|X|k

´=

Z +∞

−∞|x|k f(x) dx

Dado > 0, entonces podemos escribir

E³|X|k

´=

Z −−∞

|x|k f(x) dx+

Z−|x|k f(x) dx+

Z +∞|x|k f(x) dx

Ahora bien, Z−|x|k f(x) dx =

Z|x|<

|x|k f(x) dx

y Z −−∞

|x|k f(x) dx+

Z +∞|x|k f(x) dx =

Z|x|≥

|x|k f(x) dx

Por tanto,

E³|X|k

´=

Z|x|<

|x|k f(x) dx+

Z|x|≥

|x|k f(x) dx

Puesto que f es una función no negativa, las dos integrales anteriores son pos-itivas y, por tanto, podemos escribir

E³|X|k

´≥Z|x|≥

|x|k f(x) dx ≥ k

Z|x|≥

f(x) dx

Page 101: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS149

Ahora bien, Z|x|≥

f(x) dx = P (|x| ≥ )

y, en consecuencia, obtenemos

E³|X|k

´≥ k · P (|x| ≥ )

es decir,

P (|x| ≥ ) ≤E³|X|k

´k

Observación 28 Este resultado nos dice que es improbable que una variablealeatoria (con al menos algún momento finito) tome valores excesivamente grandes,pues, si es grande 1/ k, con k > 0, será pequeño y la probabilidad de que|X| ≤ será también pequeña.De este teorema se deducen dos desigualdades importantes en términos de

los momentos. Para k = 1, tenemos la desigualdad de Markov

P (|X| ≥ ) ≤ E (|X|)

y, para k = 2, tenemos la desigualdad de Tchebychev

P (|X| ≥ ) ≤ E¡X2¢

2

Teorema 34 (Teorema de Markov) Sea X una variable aleatoria (discretao absolutamente continua), g una función de la variable real x, no negativa ytal que E (g(X)) existe, entonces para cada > 0 se cumple

P (g(X) ≥ ) ≤ E (g(X))

Demostración: Haremos la demostración para el caso en que la variable aleato-ria X sea absolutamente continua, con función de densidad f . Dada > 0,consideremos el conjunto

A = ω ∈ Ω : g (X(ω)) ≥ Entonces, se cumple

E (g(X)) =

Z +∞

−∞g(x) f(x) dx

≥ZA

g(x) f(x) dx

≥ZA

f(x) dx

= · P (g(X) ≥ )

Page 102: Demostraciones probabilidad

150 CAPÍTULO 2. VARIABLES ALEATORIAS

luego,

P (g(X) ≥ ) ≤ E (g(X))

Corolario 1 (Desigualdad de Tchebychev) Sea X una variable aleatoria(discreta o absolutamente continua) con valor medio µ = E(X) y varianza σ2

finitas. Entonces para cada k > 0 se cumple

P (|X − µ| ≥ kσ) ≤ 1

k2

Demostración: Tomando en el teorema de Markov g(x) = (x−µ)2 y = k2σ2,deducimos

P¡(X − µ)2 ≥ k2σ2

¢ ≤ E£(X − µ)2

¤k2σ2

=σ2

k2σ2=1

k2

Ahora bien, se cumple

P¡(X − µ)2 ≥ k2σ2

¢= P (|X − µ| ≥ kσ)

y, por tanto, obtenemos

P (|X − µ| ≥ kσ) ≤ 1

k2

Observación 29 Otra expresión de esta desigualdad es

P (µ− kσ < X < µ+ kσ) ≥ 1− 1

k2

y se obtiene calculando la probabilidad del suceso contrario en la desigualdad deTchebychev. En efecto, tenemos

1− P (|X − µ| < kσ) ≤ 1

k2

es decir,

P (|X − µ| < kσ) ≥ 1− 1

k2

luego,

P (µ− kσ < X < µ+ kσ) ≥ 1− 1

k2

Esta desigualdad se interpreta diciendo que la probabilidad de que una variablealeatoria X tome un valor que dista del valor medio en menos de k veces sudesviación típica es por lo menos 1− 1/k2. Se pone así de manifiesto la impor-tancia del valor medio y de la desviación típica como medidas fundamentalespara caracterizar la distribución de una variable aleatoria.

Page 103: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS151

Ejemplo 68 El número de pasajeros que en un día toman el tren entre dosciudades es una variable aleatoria X con valor medio 200 y varianza 100. Sicada vagón de pasajeros tiene una capacidad para 40 viajeros, calcular el númerode vagones necesarios para asegurar con una probabilidad de al menos 0.95 quese cubra en ese día la demanda de los pasajeros entre ambas ciudades.Solución: Aplicando la desigualdad de Tchebychev en la forma dada en la

observación 20, tenemos

P (|X − 200| < k · 10) ≥ 1− 1

k2

Haciendo1− 1

k2 = 0,95 y k > 0 ⇐⇒ k = 4. 472 1

tenemos

P (X − 200 < 44,721) ≥ P (|X − 200| < 44,721) ≥ 0,95es decir,

P (X < 244,721) ≥ 0,95Este último resultado significa que como máximo pueden viajar 244 pasajeroscon una probabilidad de al menos 0.95. Como los vagones tienen 40 plazas,necesitamos 7 vagones ya que

244

40= 6,1

Ejemplo 69 Una máquina produce ejes cuyo diámetro medio es de 22 mm conuna desviación típica de 0.3 mm. Se aceptan como buenos los ejes que tienenun diámetro comprendido entre 20 y 24 mm. Obtener una cota del porcentajede ejes defectuosos que fabrica la máquina.Solución: Indicamos por X la variable aleatoria "diámetro de los ejes que

produce la máquina". El suceso ün eje no es defectuoso"es [20 ≤ X ≤ 24] y, portanto, el suceso contrario ün eje defectuoso"es

[20 > X > 24] = [|X − 22| > 2]Mediante la desigualdad de Tchebychev

P (|X − µ| ≥ kσ) ≤ 1

k2(k > 0)

podemos obtener una cota superior de la probabilidad de que un eje sea defectu-oso. En efecto, haciendo

k · σ = k · 0,3 = 2 =⇒ k =2

0,3=20

3

tenemos

P (|X − 22| ≥ 2) ≤µ3

20

¶2=

9

400= 0,0225

luego, el porcentaje de ejes defectuosos fabricados por la máquina es menor que2.25%.

Page 104: Demostraciones probabilidad

152 CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.8. Otras medidas de posición y dispersión

Aunque el valor medio es la medida de posición más utilizada, en algunoscasos no existe y en otros puede ser afectada por valores extremos de la variable.Se llama mediana de una variable aleatoria X con función de distribución

F a cualquier valor x de X tal que

F (x) ≤ 12

y 1− F (x) <1

2

es decir, la mediana es un punto que divide la "masa"de probabilidad en dospartes iguales. Para las distribuciones absolutamente continuas la mediana esúnica.La moda se define solamente en el caso discreto o absolutamente continuo.

En el primer caso, se define como cualquier valor xi de X tal que

f(xi−1) ≤ f(xi) y f(xi) ≥ f(xi+1)

En el segundo caso, se define como cualquier valor x de X que se correspondacon un máximo relativo de la función de densidad. Una distribución se llamaunimodal, bimodal, etc., según que tenga una sola moda, dos modas, etc.Se llama desviación media de una variable aleatoria X al primer momento

respecto de una mediana xm en valor absoluto

E(|X − xm|)Es fácil demostrar que E(|X − c|) es mínima cuando c = xm. De este modo,la desviación media constituye una buena medida de dispersión de la variablealeatoria respecto de la mediana.

Ejemplo 70 La función de densidad de una variable aleatoria X con distribu-ción absolutamente continua es

f(x) =

½2xe−x

2

si x > 00 en otro caso

Encontrar la moda, la mediana y la desviación media.Solución: Sabemos que la moda es un máximo relativo de f . Por tanto,

f 0(x) = (2− 4x2)e−x2 = 0 ⇐⇒ x = ±1/√2

Puesto que f 00(1/√2) > 0 y f 00(−1/√2) < 0, en x = 1/

√2 hay un máximo

relativo y, por tanto, hay una única moda

x = 1/√2

y la distribución de X es unimodal. Es claro que la función de distribución deX es

F (x) =

Z x

0

2te−t2

dt = 1− e−x2

Page 105: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS153

si x > 0. Como la mediana es el valor xm de X para el cual F (xm) = 1/2,tenemos

1− e−x2m = 1/2 ⇐⇒ xm =

√ln 2

Por último, la desviación media es por definición

E(|X − xm|) = E(¯X −

√ln 2¯)

=

Z +∞

0

¯x−√ln 2¯· 2xe−x2 dx

=

Z √ln 20

(−x+√ln 2) · 2xe−x2 dx+

Z +∞√ln 2

(x−√ln 2) · 2xe−x2 dx

= −Z √ln 20

2x2e−x2

dx+√ln 2

Z √ln 20

2xe−x2

dx

+

Z +∞√ln 2

2x2e−x2

dx−√ln 2

Z +∞√ln 2

2xe−x2

dx

= −Z √ln 20

2x2e−x2

dx+

Z +∞√ln 2

2x2e−x2

dx

Ahora bien, integrando por partes, obtenemosZ2x2e−x

2

dx = −xe−x2 +Z

e−x2

dx

y, por tanto,

E(¯X −

√ln 2¯) = −

Z √ln 20

2x2e−x2

dx+

Z +∞√ln 2

2x2e−x2

dx

=hxe−x

2i√ln 20

−Z √ln 20

e−x2

dx+h−xe−x2

i+∞√ln 2+

Z +∞√ln 2

e−x2

dx

= 2√ln 2e− ln 2 +

Z +∞√ln 2

e−x2

dx−Z √ln 20

e−x2

dx

El valor numérico de las dos integrales se puede calcular teniendo en cuenta latabla de la distribución normal de parámetros µ = 0 y σ = 1 cuya función dedistribución viene dada por

FZ(z) = P (Z ≤ z) =1√2π

Z z

−∞e−t

2/2 dt

En efecto, haciendo el cambio x = t/√2, tenemosZ √ln 2

0

e−x2

dx =1√2

Z √2 ln 20

e−t2/2 dt =

√π³FZ(√2 ln 2)− FZ(0)

´=√π(0,8790−0,5)

Page 106: Demostraciones probabilidad

154 CAPÍTULO 2. VARIABLES ALEATORIAS

yZ +∞√ln 2

e−x2

dx =1√2

Z +∞√2 ln 2

e−z2/2 dz =

√π³FZ(+∞)− FZ(

√2 ln 2)

´=√π(1−0,8790)

Por tanto, obtenemosZ +∞√ln 2

e−x2

dx−Z √ln 20

e−x2

dx =√π(1− 0,8790− 0,8790 + 0,5) = −0,45729

Finalmente, obtenemos la desviación media

E(¯X −

√ln 2¯) = 2

√ln 2e− ln 2 − 0,45729 = 0,37526

2.4.9. Concepto de covarianza y sus propiedades

La medida del grado de interdependencia lineal entre dos variables estadís-ticas es la covarianza. Dada una muestra de n pares de observaciones de dosvariables estadísticas X,Y

(x1, y1), (x2, y2), ..., (xn, yn)

entonces la covarianza de la muestra viene dada por

sXY =1

n

nXi=1

(xi − x)(yi − y)

siendo

x =1

n

nXi=1

xi y y =nXi=1

yi

Ahora queremos generalizar este concepto al caso de variables aleatorias.Se llama covarianza de dos variables aleatorias X,Y y se denota por σXY

o Cov(X,Y ), al valor del momento mixto central de orden 1 + 1

σXY = Cov(X,Y ) = E [(X −E(X)) (Y −E(Y ))]

si existe.

Propiedades de la covarianza

Teorema 35 Si X,Y son variables aleatorias (discretas o absolutamente con-tinuas), entonces

1. Cov(X,Y ) = E(XY )−E(X)E(Y )

2. Cov(X,X) = V ar(X)

Page 107: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS155

3. Cov(X,Y ) = Cov(X,Y )

4. Cov(aX, bY ) = abCov(X,Y ), con a, b ∈ R5. Cov(X + Y,Z) = Cov(X,Z) + Cov(Y,Z)

6. V ar(X ± Y ) = V ar(X) + V ar(Y )± 2Cov(X,Y )

7. Si X,Y son independientes, entonces Cov(X,Y ) = 0

Demostración: (1) Por definición tenemos

Cov(X,Y ) = E [(X −E(X)) (Y −E(Y ))]

= E (XY −XE(Y )− Y E(X) +E(X)E(Y ))

= E(XY )−E(Y )E(X)−E(X)E(Y ) +E(X)E(Y )

= E(XY )−E(X)E(Y )

(2) Por el apartado (1), tenemos

Cov(X,X) = E(X2)− (E(X))2 = V ar(X)

(3) Es inmediato al ser R un cuerpo conmutativo.(4) Por el apartado (1), tenemos

Cov(aX, bY ) = E(aX · bY )−E(aX)E(bY )

= abE(XY )− abE(X)E(Y )

= abCov(X,Y )

(5) Por el apartado (1), tenemos

Cov(X + Y,Z) = E ((X + Y )Z)−E(X + Y )E(Z)

= E(XZ) +E(Y Z)−E(X)E(Z)−E(Y )E(Z)

= Cov(X,Z) + Cov(Y,Z)

(6) Por el apartado (1) del teorema , tenemos

V ar(X + Y ) = E£(X + Y )2

¤− (E(X + Y ))2

= E(X2 + 2XY + Y 2)− (E(X) +E(Y ))2

= E(X2) + 2E(XY ) +E(Y 2)− (E(X))2 − 2E(X)E(Y )− (E(Y ))2= E(X2)− (E(X))2 +E(Y 2)− (E(Y ))2 + 2 [E(XY )−E(X)E(Y )]

= V ar(X) + V ar(Y ) + 2Cov(X,Y )

Análogamente se comprueba la otra fórmula.(7) Si X,Y son independientes, entonces E(XY ) = E(X)E(Y ) y, por tanto,

obtenemosCov(X,Y ) = E(XY )−E(X)E(Y ) = 0

Page 108: Demostraciones probabilidad

156 CAPÍTULO 2. VARIABLES ALEATORIAS

El recíproco de esta propiedad es falso, pues existen pares de variables aleatoriasdependientes que tienen covarianza cero, lo cual nos indica que no podemosutilizar la covarianza como un test para la independencia. No obstante, es claroque si Cov(X,Y ) 6= 0, entonces X,Y son dependientes.

Ejemplo 71 Se lanza un dado al aire. Sea X la variable aleatoria "número depuntos obtenidos"e Y la variable aleatoria que vale 0 si sale 1,2 o 3, y vale 1 sisale 4,5 o 6. Calcular la covarianza de X e Y .Solución: La distribución de probabilidad conjunta viene dada por la sigu-

iente tablaY \X 1 2 3 4 5 60 1/6 1/6 1/6 0 0 01 0 0 0 1/6 1/6 1/6

Entonces, es inmediato comprobar que E(X) = 7/2 y E(Y ) = 1/2. Además secumple

E(XY ) =6X

i=1

2Xj=1

xiyj · P (X = xi, Y = yj) =4

6+5

6+6

6=15

6=5

2

Luego, obtenemos que

Cov(X,Y ) = E(XY )−E(X)E(Y )

=5

2− 74=3

4

Ejemplo 72 La función de densidad conjunta de dos variables aleatorias abso-lutamente continuas X,Y es

f(x, y) =

½32(x

2 + y2) si x, y ∈ (0, 1)0 en otro caso

Calcular la covarianza de X e Y .Solución: Primero debemos calcular las funciones de densidad marginales.

Así, tenemos

fX(x) =

Z +∞

−∞f(x, y) dy

=3

2

Z 1

0

(x2 + y2) dy

=3

2

µx2 +

1

3

¶luego

fX(x) =

½32

¡x2 + 1

3

¢si x ∈ (0, 1)

0 si x /∈ (0, 1)

Page 109: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS157

Análogamente,

fY (y) =

Z +∞

−∞f(x, y) dx

=3

2

Z 1

0

(x2 + y2) dx

=3

2

µ1

3+ y2

¶luego

fY (y) =

½32

¡13 + y2

¢si y ∈ (0, 1)

0 si y /∈ (0, 1)De aquí, obtenemos

E(X) =

Z +∞

−∞x · fX(x) dx

=

Z 1

0

µ3x3

2+

x

2

¶dx

=5

8

y

E(Y ) =

Z +∞

−∞y · fY (y) dy

=

Z 1

0

µy

2+3y3

2

¶dy

=5

8

Por otra parte, tenemos

E(XY ) =

Z +∞

−∞

Z +∞

−∞xy · f(x, y) dx dy

=3

2

Z 1

0

Z 1

0

(x3y + xy3) dx dy

=3

8

Por consiguiente, obtenemos

Cov(X,Y ) = E(XY )−E(X)E(Y )

=3

8− 2564= − 1

64

Page 110: Demostraciones probabilidad

158 CAPÍTULO 2. VARIABLES ALEATORIAS

2.4.10. Regresión lineal

Regresión y correlación lineal entre dos variables estadísticas

Nuestro objetivo es generalizar el concepto de regresión lineal al caso de vari-ables aleatorias. Sin embargo, antes daremos un breve repaso de este conceptoal caso de muestras de variables estadísticas. Consideremos el caso de n paresde valores observados

(x1, y1), (x2, y2), ..., (xn, yn)

correspondientes a dos variables estadísticas X,Y . Se llama regresión linealal problema de encontrar una recta

y = ax+ b

de manera que los valores de byi = axi + b se ajusten del mejor modo posiblea los yi. Utilizando el criterio de los mínimos cuadrados, es decir, que lasuma de todos los errores ei = yi − byi elevados al cuadrado sea mínima

nXi=1

e2i =nXi=1

(yi − byi)2 = nXi=1

(yi − axi − b)2

esta expresión es una función G de a y b,

G(a, b) =nXi=1

(yi − axi − b)2 (2.20)

y para minimizarla se tiene en cuenta la condición necesaria de mínimo, es decir,las ecuaciones

∂G(a, b)

∂a= 0 y

∂G(a, b)

∂b= 0

de donde se obtienen ba = sXY

s2Xy bb = y − bax

siendo x, y, las medias marginales, s2X , la varianza marginal y sXY , la covarianzade la muestra. A la recta

y = bax+bbse la llama recta de regresión de Y sobre X y se acostumbra a expresar enla forma

y − y =sXY

s2X(x− x)

y al coeficienteβY X =

sXY

s2X

se le llama coeficiente de regresión de Y sobre X. Análogamente se encuen-tra la recta de regresión de X sobre Y

x = bcy + bd

Page 111: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS159

que se expresa en la forma siguiente

x− x =sXY

s2Y(y − y)

y al coeficienteβXY =

sXY

s2Y

se le llama coeficiente de regresión de X sobre Y . La recta de regresión deY sobre X sirve para predecir y conocido x; la recta de regresión de X sobre Ysirve para predecir x conocido y.De (2.20) se obtiene la siguiente identidad fundamental

G(ba,bb) = 1

n

nXi=1

(yi − baxi −bb) = s2Y

µ1− s2XY

s2Xs2Y

¶= s2Y (1− r2) ≥ 0 (2.21)

que expresa el error mínimo cuadrático medio de estimación de Y por larecta y = ax+ b, siendo

r2 =s2XY

s2Xs2Y

= βY X · βXY

que se llama coeficiente de determinación, y satisface 0 ≤ r2 ≤ 1. Pordefinición, el coeficiente de correlación lineal es

r =sXY

sXsY

Es un coeficiente de gran importancia en Estadística que da una medida delgrado del buen ajuste de Y como función lineal deX. Algunas de sus propiedadesson:

1. De (2.21) se obtiene 1− r2 ≥ 0 y, por tanto, −1 ≤ r ≤ 1, además de tenerel mismo signo que sXY y los coeficientes de regresión βYX y βXY .

2. Si r2 = 1, es decir, r = ±1, según (2.21), el error mínimo cuadrático medioes cero, lo que implica

yi = baxi +bb (i = 1, 2, ...n)

es decir, una variable es exactamente combinación lineal de la otra. Eneste caso se dice que hay correlación total.

3. Si r2 = 0, o sea, r = 0, según (2.21), tenemos que el error mínimo cuadráti-co medio es s2Y . Entonces yi difiere mucho de la predicción baxi+bb. En estecaso se dice que las variables X,Y están incorrelacionadas (condiciónque cumplen las variables independientes).

4. Si 0 < r < 1, se dice que la correlación es positiva y, en tal caso, si crece(resp. decrece) X cabe esperar que Y crezca (resp. decrezca).

Page 112: Demostraciones probabilidad

160 CAPÍTULO 2. VARIABLES ALEATORIAS

5. Si −1 < r < 0, se dice que la correlación es negativa y, en tal caso, sicrece (resp. decrece) X cabe esperar que Y decrezca (resp. crezca).

Por lo tanto, el coeficiente de correlación r es una medida del grado deinterdependencia lineal entre dos variables estadísticas.Si restamos a la variable Y la parte debida a X según la regresión lineal

bei = yi − byise obtienen los residuos de la aproximación. La varianza de estos residuos s2rY ,llamada varianza residual, es

s2rY = s2Y (1− r2) (2.22)

y puede interpretarse como la variabilidad propia de Y una vez eliminada lainfluencia que sobre Y tiene la variable X. De (2.22), obtenemos

s2Y = s2rY + r2s2Y

es decir, la varianza de Y se descompone en dos partes: s2rY , la varianza residual,y r2s2Y , la varianza explicada o parte de la varianza que es debida a la influenciasobre ella de la variable X. De este modo, el coeficiente de determinación r2

puede interpretarse como la parte de la variabilidad de Y (en tanto por uno)debida a la variable X. Al valor

srY = sYp1− r2

se le llama error típico y no es más que la desviación típica de una predicciónby = bax+bb.Regresión entre dos variables aleatorias

Antes de ver la regresión lineal entre dos variables aleatorias, trataremosun caso más sencillo de regresión. Supongamos que queremos aproximar unavariable aleatoria X a un número real constante no aleatorio α. Una manera dehacerlo consiste en encontrar α mediante el criterio de que el error cuadráticomedio

= E£(X − α)2

¤sea mínimo. Es claro que el error dependerá de α y, por tanto, será mínimo si

d

dα= 0

Ahora bien, se cumple que

d

dα=

d

dαE£(X − α)2

¤=

d

¡E(X2)− 2αE(X) + α2

¢= −2E(X) + 2α

Page 113: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS161

Por tanto, será mínimo siα = E(X)

Hemos visto, pues, que la mejor manera de aproximar una variable aleatoria Xpor una constante es mediante su valor medio. En este caso, el error mínimocometido es la varianza de X

= Eh(X −E(X))2

i= σ2

Como consecuencia, la aproximación de X por su valor medio sólo será unabuena aproximación si la varianza de X es pequeña. Si no lo es, la sustitución deX por E(X) no es efeciente y en tales casos hay que buscar otras aproximacionesmejores. Una de estas, consiste en aproximar X mediante una función lineal deuna variable aleatoria Y

aY + b

de forma que el error cuadrático medio

Eh(X − (aY + b))2

isea mínimo.En general, la regresión consiste básicamente en aproximar una variable

aleatoria X que tiene una distribución de probabilidad desconocida o muy com-pleja mediante una función de una cierta variable aleatoria Y con distribuciónconocida o más sencilla que la distribución de X. Si la función de Y es linealtenemos la regresión lineal (simple o múltiple), mientras que si la función deY es arbitraria, tenemos la regresión no lineal.Dada una variable aleatoria X, la regresión lineal simple consiste en aprox-

imar X mediante aY + b, siendo Y otra variable aleatoria, de manera que elerror cuadrático medio

(a, b) = Eh(X − (aY + b))2

isea mínimo. Los resultados que se obtienen a partir de esta condición son unageneralización del caso muestral y, por este motivo, no haremos sus demostra-ciones.Recta de regresión de X sobre Y :

x−E(X) =Cov(X,Y )

V ar(Y )(y −E(Y ))

Recta de regresión de Y sobre X:

y −E(Y ) =Cov(X,Y )

V ar(X)(x−E(X))

Coeficientes de regresión:

βXY =Cov(X,Y )

V ar(Y )y βY X =

Cov(X,Y )

V ar(X)

Page 114: Demostraciones probabilidad

162 CAPÍTULO 2. VARIABLES ALEATORIAS

Error mínimo cuadrático medio de Y sobre X:

mın = V ar(Y ) · (1− ρ2)

Coeficiente de determinación:

0 ≤ ρ2 = βY X · βXY ≤ 1Coeficiente de correlación lineal (poblacional):

−1 ≤ ρ =Cov(X,Y )p

V ar(X)pV ar(Y )

≤ 1

Varianza residual de eY = Y − βY XX − β0, con β0 = E(X)− βXYE(Y )

V ar(eY ) = V ar(Y )(1− ρ2)

Error típico:σ eY =pV ar(Y )(1− ρ2)

Es importante no confundir r con ρ, pues ρ es constante, mientras que r varíacon la muestra. En todo caso, puede considerarse r como una estimación de ρ.Las propiedades de ρ son análogas a las de r:

1. −1 ≤ ρ ≤ 12. Si ρ = ±1, una variable es exactamente función lineal de la otra, o sea,

Y = βY XX + β0.

3. Si ρ = 0, se dice que las variables aleatorias están incorrelacionadas. Enparticular, si son independientes, Cov(X,Y ) = 0 y, por tanto, ρ = 0. Elrecíproco en general es falso.

4. ρ es invariante por transformaciones lineales de las variables aleatorias, esdecir,

ρ(X,Y ) = ρ(aX + b, cX + d)

Por lo tanto, el coeficiente de correlación ρ es una medida estándar del gra-do de interdependencia lineal entre dos variables aleatorias, que tiene la ventajasobre la covarianza de no depender de la dimensión física de las variables aleato-rias.

Ejemplo 73 La función de densidad conjunta de dos variables aleatorias abso-lutamente continuas X,Y es

f(x, y) =

½32(x

2 + y2) si x, y ∈ (0, 1)0 en otro caso

(1) Calcular el coeficiente de correlación; (2) determinar las rectas de regresión,y (3) ¿qué porcentaje de la variabilidad de X es debida a Y ?

Page 115: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS163

Solución: Sabemos por el ejemplo 41 que

E(X) =5

8E(Y ) =

5

8E(XY ) =

3

8Cov(X,Y ) = − 1

64

Vamos ahora a calcular las varianzas marginales. Tenemos,

E(X2) =

Z +∞

−∞x2 fX(x) dx

=3

2

Z 1

0

µx4 +

x2

3

¶dx

=7

15

luego,

V ar(X) = E(X2)− (E(X))2

=7

15−µ5

8

¶2=73

960

Además, tenemos

E(Y 2) =

Z +∞

−∞y2 fY (y) dy

=3

2

Z 1

0

µy2

3+ y4

¶dy

=7

15

luego,

V ar(Y ) = E(Y 2)− (E(Y ))2

=7

15−µ5

8

¶2=73

960

(1) Por tanto, el coeficiente de correlación es

ρ =Cov(X,Y )p

V ar(X)pV ar(Y )

=−1/64p

73/960p73/960

= −0,2055

que nos dice que la dependencia es negativa y débil; obsérvese que las dos vari-ables no son independientes, pues

f(x, y) 6= fX(x) · fY (y)(2) Los coeficientes de regresión son:

βXY =Cov(X,Y )

V ar(Y )=−1/6473/960

= −15/73

Page 116: Demostraciones probabilidad

164 CAPÍTULO 2. VARIABLES ALEATORIAS

y

βY X =Cov(X,Y )

V ar(X)=−1/6473/960

= −15/73

y, por tanto, la recta de regresión de Y sobre X es

y − 58= −15

73

µx− 5

8

¶y la recta de regresión de X sobre Y es

x− 58= −15

73

µy − 5

8

¶(3) El coeficiente de determinación es

ρ2 = βY X · βXY =

µ−1573

¶2= 0,0422

es decir, hay un 4.22% de la variabilidad de X que es debida a la de Y , lo quenos indica que el ajuste por rectas de regresión no es aceptable.

A veces la aproximación lineal simple de una variable aleatoria X es pocoadecuada. Se puede entonces ensayar una función polinómica, exponencial, etc.Pero lo más interesante es determinar una función g de una variable aleatoriaY de modo que entre todas las curvas posibles se cumpla que

Eh(X − g(Y ))

2i

sea mínimo. El siguiente teorema soluciona este problema, afirmando que laesperanza condicionada es la función que hace que la aproximación sea la mejorposible.

Teorema 36 Si queremos aproximar una variable aleatoria X mediante unafunción g de la variable aleatoria Y , entonces la esperanza condicionada E(X|Y )tiene el error cuadrático medio más pequeño entre todas las posibles aproxima-ciones de X, es decir,

Eh(X −E(X|Y ))2

i≤ E

h(X − g(Y ))2

ipara cualquier función g de la variable aleatoria Y tal que E

h(X − g(Y ))2

iexista. Entonces a la función g(y) = E(X|Y = y) se la llama función deregresión de X sobre Y y a su representación gráfica, curva de regresiónde X sobre Y .Demostración: Haremos la demostración suponiendo que X,Y son dos vari-ables aleatorias absolutamente continuas con función de densidad conjunta f .Sea g una función de la variable aleatoria Y tal que el error cuadrático medio

= Eh(X − g(Y ))2

i

Page 117: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS165

exista. Puesto quef(x, y) = f(x|y) fY (y)

entonces tenemos

= Eh(X − g(Y ))

2i

=

Z +∞

−∞

Z +∞

−∞[x− g(y)]2 f(x, y) dx dy

=

Z +∞

−∞fY (y) dy

Z +∞

−∞[x− g(y)]

2f(x|y) dx

Sea

h (g(y)) =

Z +∞

−∞[x− g(y)]

2f(x|y) dx

entonces podemos escribir

=

Z +∞

−∞fY (y) h (g(y)) dy

Al ser fY una función no negativa, será mínimo si h (g(y)) es mínimo. Ahorabien, tenemos

h (g(y)) =

Z +∞

−∞x2 f(x|y) dx−2g(y)

Z +∞

−∞x f(x|y) dx+(g(y))2

Z +∞

−∞f(x|y) dx

pero Z +∞

−∞f(x|y) dx = 1

y Z +∞

−∞xn f(x|y) dx = E(Xn|Y ) (n = 1, 2)

Por tanto, obtenemos una funcional h de g(y)

h (g(y)) = E(X2|Y )− 2g(y)E(X|Y ) + (g(y))2

Mediante el cálculo variacional se puede demostrar que una condición necesariapara que h (g(y)) sea mínimo es que su variación δh = 0, es decir,

δh =∂

∂αh [g(y) + αδy]α=0

=∂

∂α

hE(X2|Y )− 2 (g(y) + αδy)E(X|Y ) + (g(y) + αδy)

2iα=0

= [−2δyE(X|Y ) + 2(g(y) + αδy)δy]α=0= [−2E(X|Y ) + 2g(y)] δy

Por tanto,δh = 0 ⇐⇒ −2E(X|Y ) + 2g(y) = 0

Page 118: Demostraciones probabilidad

166 CAPÍTULO 2. VARIABLES ALEATORIAS

es decir,g(y) = E(X|Y )

Observación 30 1. Análogamente se obtiene la curva de regresión de Ysobre X

y = h(x)

siendo h(x) = E(Y |X = x).

2. Es claro que si E(Y |X = x) coincide con la recta de regresión de Y sobreX, entonces se dice que Y tiene regresión lineal respecto de X. En gener-al, si sustituimos las curvas de regresión E(X|Y ) y E(Y |X) por las rectasde regresión podemos cometer graves errores al intentar obtener medianteellas los valores de las esperanzas condicionadas si el coeficiente de deter-minación ρ2 es muy cercano a cero, mientras que si ρ2 es próximo a 1, elajuste por rectas de regresión es aceptable.

3. En general, para medir el grado de ajuste entre la distribución conjuntay la curva de regresión de Y sobre X se utiliza la llamada razón decorrelación de Y sobre X que se define por

η2Y X =E£(h(X)−E(Y ))2

¤V ar(Y )

Se verifica: (1) 0 ≤ η2Y X ≤ 1; (2) η2Y X ≥ ρ2; (3) si η2YX = 0, entonces lacurva de regresión se reduce a la recta y = E(Y ), y una variable difieremucho de ser función de la otra; (4) si η2YX = 1, entonces toda la dis-tribución conjunta está concentrada en la curva de regresión de Y sobreX, es decir, se cumple la relación funcional

Y = h(X)

y, cuando y = h(x) es una recta, se dice que Y tiene regresión linealrespecto de X.

Ejemplo 74 Hallar la curva de regresión de Y sobre X, sabiendo que la funciónde densidad conjunta es

f(x, y) =

½18(x+ y) si x, y ∈ (0, 2)0 en otro caso

¿La regresión entre X e Y es lineal? Calcular también la razón de correlaciónde Y sobre X.Solución: La curva de regresión de Y sobre X viene dada por

y = h(x) = E(Y |X = x)

Page 119: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS167

siendo

E(Y |X = x) =1

fX(x)

Z +∞

−∞y · f(x, y) dy

pero, para 0 < x < 2, tenemos

fX(x) =

Z +∞

−∞f(x, y) dy

=1

8

Z 2

0

(x+ y) dy

=1

4(x+ 1)

y se anula en otro caso. Por tanto, para 0 < x < 2 tenemos

E(Y |X = x) =4

x+ 1

Z 2

0

1

8(xy + y2) dy

=1

2(x+ 1)·µ2x+

8

3

¶=

3x+ 4

3x+ 3

y la curva de regresión es

y = h(x) =3x+ 4

3x+ 3(0 < x < 2)

Es claro que la regresión no es lineal. La razón de correlación es

η2Y X =E£(h(X)−E(Y ))2

¤V ar(Y )

Se comprueba enseguida que

E(Y ) =7

6y V ar(Y ) =

11

36

y se cumple

(h(X)−E(Y ))2 =

µ3x+ 4

3x+ 3− 76

¶2=

1

36

µ1− x

1 + x

¶2

Page 120: Demostraciones probabilidad

168 CAPÍTULO 2. VARIABLES ALEATORIAS

luego,

E£(h(X)−E(Y ))2

¤=

Z 2

0

"1

36

µ1− x

1 + x

¶2· 14(x+ 1)

#dx

=1

144

Z 2

0

(1− x)2

1 + xdx

=1

144

Z 2

0

(x− 3) dx+ 1

144

Z 2

0

4

x+ 1dx

= − 136+1

36ln 3

Por consiguiente, obtenemos

η2Y X =E£(h(X)−E(Y ))2

¤V ar(Y )

=36

11

µ− 136+1

36ln 3

¶= 0,009

Obsérvese que X,Y son dependientes, pues η2YX 6= 0, pero la dependencia esmuy débil.

2.4.11. Función característica y función generatriz de mo-mentos

Disponemos ya de dos funciones que nos ayudan a entender una variablealeatoria: la función de distribución y la función de densidad. En este apartadointroduciremos dos nuevas funciones que podremos utilizar para describir lasvariables aleatorias desde una perspectiva diferente. Nos estamos refiriendo a lafunción característica y a la función generatriz de momentos. Ambas funcionesson equivalentes en muchos sentidos. La diferencia esencial entre ellas reside enque la primera siempre está definida para una variable aleatoria, mientras quela segunda puede no estarlo.Hasta ahora sólo hemos tratado con variables aleatorias reales. No obstante,

la definición de esperanza puede extenderse sin dificultades al caso de una vari-able aleatoria compleja Z = X+iY , donde X e Y son variables aleatorias reales.En efecto, si los valores esperados de X e Y existen, entonces el valor esperadode Z se define por

E(Z) = E(X) + iE(Y )

Un caso en que trataremos con variable aleatorias complejas es el de la funcióncaracterística de una variable aleatoria real X. Esta función es la esperanza dela variable aleatoria compleja

eitX = cos tX + i sin tX

que depende del parámetro real t.

Page 121: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS169

Definiciones de función característica y de función generatriz de mo-mentos

Se llama función característica de la variable aleatoria real X a la funciónϕ definida por

ϕ(t) = E(eitX)

Para una variable aleatoria discreta X, tenemos

ϕ(t) =Xn

eitxn P (X = xn)

y para una variable aleatoria absolutamente continua X con función de densidadf , tenemos

ϕ(t) =

Z +∞

−∞eitx f(x) dx

Se llama función generatriz de momentos de la variable aleatoria X a lafunción definida por

g(t) = E(etX)

siempre que E(etX) sea finito. Para una variable aleatoria discreta X, tenemos

g(t) =Xn

etxn P (X = xn)

y para una variable aleatoria absolutamente continua X con función de densidadf , tenemos

g(t) =

Z +∞

−∞etx f(x) dx

Observación 31 1. La función característica de una variable aleatoria Xes una función de variable real que toma valores complejos. Además, esuna función que siempre existe aunque no exista la esperanza de X. Enefecto, por definición tenemos

ϕ(t) = E(eitX) = E(cos tX) + iE(sin tX)

Entonces, ϕ(t) existirá si E(cos tX) y E(t sinX) son finitos, pero

|E(cos tX)| ≤ E(|cos tX|) ≤ E(1) = 1

y, por tanto, E(cos tX) es finito; lo mismo ocurre con E(sin tX). En elapartado 1 de la observación 13 hemos visto que para la distribución deCauchy

f(x) =1

π(1 + x2)

Page 122: Demostraciones probabilidad

170 CAPÍTULO 2. VARIABLES ALEATORIAS

la esperanza no es finita. Sin embargo, mediante el cálculo de residuos sepuede demostrar que

ϕ(t) =

Z +∞

−∞eitx

1

π(1 + x2)dx

=1

π

Z +∞

−∞

eitx

1 + x2dx

= e−|t|

y ϕ(t) existe para todo t ∈ R.2. La función generatriz de momentos de una variable aleatoria es una fun-

ción real de variable real. Evidentemente, para que exista la función gen-eratriz de momentos tendrá que existir el correspondiente valor esperado.

Ejemplo 75 Calcular la función característica y la función generatriz de mo-mentos de (1) la distribución de Poisson de parámetro λ y (2) la distribuciónnormal de parámetros µ = 0 y σ = 1.Solución: (1) Para una variable aleatoria X con distribución de Poisson

de parámetro λ > 0 se tiene

P (X = n) =λn

n!e−λ (n = 0, 1, 2, ...)

Por tanto,

ϕ(t) =∞Xn=0

eitn P (X = n)

= e−λ∞Xn=0

(λeit)n

n!

= e−λeλeit

= exp£λ(eit − 1)¤

Además, se tiene

g(t) =∞Xn=0

etn P (X = n)

= e−λ∞Xn=0

(λet)n

n!

= e−λeλet

= exp£λ(et − 1)¤

(2) Para una variable aleatoria X con distribución normal de parámetrosµ = 0 y σ = 1 se tiene

f(x) =1√2π

e−x2/2

Page 123: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS171

Por tanto,

ϕ(t) =

Z +∞

−∞eitx

1√2π

e−x2/2 dx

=1√2π

Z +∞

−∞eitx−x

2/2 dx

=1√2π

e−t2/2

Z +∞

−∞e−(x−it)

2/2 dx

= e−t2/2

Además, se tiene

g(t) =

Z +∞

−∞etx

1√2π

e−x2/2 dx

=1√2π

Z +∞

−∞etx−x

2/2 dx

=1√2π

et2/2

Z +∞

−∞e−(x−t)

2/2 dx

= et2/2

Ejemplo 76 Calcular la función característica de la variable aleatoria con lasiguiente distribución mixta

P (X = 1) = 0,1, P (X = 2) = 0,2, P (X = 3) = 0,3

yf(x) = 0,04x

para 4 ≤ x ≤ 6, y cero en cualquier otro caso.Solución: Por definición, tenemos

ϕ(t) = E(eitX)

=3X

n=1

eitxP (X = n) +

Z 6

4

eitx · 0,04x dx

= 0,1eit + 0,2e2it + 0,3e3it + 0,04

Z 6

4

xeitx dx

pero Z 6

4

xeitx dx =

·eitx

it

¸64

−Z 6

4

eitx

itdx

=

·eitx

it

¸64

− 1

(it)2£eitx

¤64

=e6it − e4it

it+

e6it − e4it

t2

Page 124: Demostraciones probabilidad

172 CAPÍTULO 2. VARIABLES ALEATORIAS

luego,

ϕ(t) = 0,1eit + 0,2e2it + 0,3e3it + 0,04

µe6it − e4it

it+

e6it − e4it

t2

Propiedades de las funciones características

Las propiedades más importantes de las funciones características se recogenen el siguiente teorema.

Teorema 37 La función característica ϕX de una variable aleatoria X (disc-reta o absolutamente continua) satisface las siguientes propiedades:

1. ϕX(0) = 1 y |ϕX(t)| ≤ 1, para todo t ∈ R

2. ϕX(−t) = ϕX(t), en donde la barra denota el complejo conjugado de ϕX(t)

3. Si Y = aX + b, entonces ϕY (t) = eitbϕX(at), para todo a, b ∈ R

4. Si X,Y son variables aleatorias independientes, entonces

ϕX+Y (t) = ϕX(t)ϕY (t)

Demostración: (1) Es evidente ϕX(0) = 1 ya que ϕX(0) = E(e0) = E(1) = 1.Por otra parte,

|ϕX(t)| =¯E(eitX)

¯≤ E(

¯eitx

¯)

= E(1)

= 1

ya que ¯eitx

¯=pcos2 tx+ sin2 tx = 1

(2) Puesto queϕX(t) = E(cos tX) + iE(sin tX)

tenemos,

ϕX(−t) = E(e−itX)= E(cos tX − i sin tX)

= E(cos tX)− iE(sin tX)

= ϕX(t)

Page 125: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS173

(3) Tenemos

ϕY (t) = E(eitY )

= E(eit(aX+b))

= E(eitaXeitb)

= eitbE(eitaX)

= eitbϕX(aX)

(4) Tenemos

ϕX+Y (t) = E(eit(X+Y ))

= E(eitXeitY )

= E(eitX)E(eitY )

= ϕX(t)ϕY (t)

Ejemplo 77 Dadas n variables aleatorias X1,X2, ...,Xn, independientes y confunciones características ϕ1, ϕ2, ..., ϕn, se define una nueva variable aleatoria Ypor

Y =nXi=1

(aiXi + bi)

Calcular la función característica ϕ de Y .

Solución: Por definición, tenemos

ϕ(t) = E(eitY )

= E

"exp

Ãit

nXi=1

(aiXi + bi)

!#

= E

"nYi=1

exp it (aiXi + bi)

#

Al ser las variables aleatorias Xi independientes, las variables exp it (aiXi + bi)

Page 126: Demostraciones probabilidad

174 CAPÍTULO 2. VARIABLES ALEATORIAS

también lo son, y, por tanto,

ϕ(t) = E

"nYi=1

exp it (aiXi + bi)

#

=nYi=1

E [exp it (aiXi + bi)]

=nYi=1

E£eitaiXi · eitbi¤

=nYi=1

¡eitbi ·E ¡eitaiXi

¢¢=

nYi=1

¡eitbi · ϕi(ait)

¢=

nYi=1

eitbi ·nYi=1

ϕi(ait)

= exp

Ãit

nXi=1

bi

nYi=1

ϕi(ait)

Propiedades de la función generatriz de momentos

Teorema 38 La función generatriz de momentos g de una variable aleatoriaX (discreta o absolutamente continua) satisface las siguientes propiedades:

1. Si Y = aX + b, entonces gY (t) = etbgX(at), para todo a, b ∈ R2. Si X,Y son variables aleatorias independientes, entonces

gX+Y (t) = gX(t)gY (t)

Demostración: Es análoga a los correspondientes apartados del teorema 29.

Cálculo de los momentos mediante la función característica

La utilidad práctica de la función característica se pone de manifiesto en elsiguiente teorema.

Teorema 39 Si una variable aleatoria X (discreta o absolutamente continua)tiene todos sus momentos de orden n ∈ N finitos, entonces

mn = E(Xn) =1

inϕ(n)(0) (n = 1, 2, 3, ...)

Page 127: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS175

Demostración: Para una variable aleatoria discreta X tenemos

ϕ(n)(t) =dn

dtn

"Xk

eitxk P (X = xk)

#

=Xk

dn

dtn¡eitxk

¢P (X = xk)

Ahora bien, tenemosdn

dtn¡eitxk

¢= inxnke

itxk

Por tanto,ϕ(n)(t) = in

Xk

xnkeitxk P (X = xk)

Finalmente, en el punto t = 0, tenemos

ϕ(n)(0) = inXk

xnk P (X = xk)

= in E(Xn)

= in mn

Del mismo modo, para una variable aleatoria absolutamente continua, tenemos

ϕ(n)(t) =dn

dtn

·Z +∞

−∞eitx f(x) dx

¸= in

Z +∞

−∞xneitx f(x) dx

tomando t = 0, obtenemos

ϕ(n)(0) = inZ +∞

−∞xn f(x) dx

= in E(Xn)

= in mn

Obsérvese que si X tiene todos los momentos finitos, entonces la función carac-terística puede desarrollarse en serie de Taylor en un entorno del punto x = 0

ϕX(t) =

Z +∞

−∞eitx f(x) dx

=

Z +∞

−∞

µ1 +

it

1!x+

(it)2

2!x2 + · · ·+ (it)

n

n!xn + · · ·

¶f(x) dx

=

Z +∞

−∞f(x) dx+

it

1!

Z +∞

−∞x f(x) dx+

(it)2

2!

Z +∞

−∞x2 f(x) dx

+ · · ·+ (it)n

n!

Z +∞

−∞xn f(x) dx+ · · ·

= 1 +it

1!m1 +

(it)2

2!m2 + · · ·+ (it)

n

n!mn + · · ·

Page 128: Demostraciones probabilidad

176 CAPÍTULO 2. VARIABLES ALEATORIAS

Ejemplo 78 Hallar los dos primeros momentos de la distribución binomial deparámetros n y p.Solución: Recordemos que una variable aleatoria con distribución binomi-

al de parámetros n y p es la suma de n variables aleatorias de Bernoulli deparámetro p independientes. Una variable aleatoria X sigue una distribución deBernoulli de parámetro p si X toma sólo dos valores 1 (éxito) y 0 (fracaso) conla siguiente distribución de probabilidad

P (X = x) =

½p si x = 1q si x = 0

(p+ q = 1)

luego, su función característica es

ϕX(t) = E(eitX) = peit + qe0 = peit + q

Por consiguiente, si Y es una variable aleatoria con distribución binomial deparámetros n y p

Y =nXi=1

Xi

siendo cada Xi una variable aleatoria de Bernoulli de parámetro p. Entonces,al ser las Xi independientes, tenemos que la función característica de Y es

ϕ(t) =nYi=1

ϕXi(t)

=¡peit + q

¢n(p+ q = 1)

Podemos pasar a calcular ahora los momentos pedidos. Se cumple

mn =1

inϕ(n)(0) (k = 1, 2, 3, ...)

luego, tenemos

m1 =1

iϕ0(0)

=

·n(peit + q)n−1 · ipeit

i

¸t=0

= np

y

m2 =1

i2ϕ00(0)

=

·n(n− 1)(peit + q)n−2 · i2p2e2it + n(peit + q)n−1 · i2peit

i2

¸t=0

= n(n− 1)p2 + np

Page 129: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS177

Ejemplo 79 Estudiar la distribución de una variable aleatoria X que tienetodos sus momentos finitos e iguales a un número real a. ¿Qué condición ha decumplir a?Solución: Como todos los momentos existen y

E(X) = E(X2) = · · · = E(Xn) = · · · = a

la función característica de X puede desarrollarse en serie de Taylor en unentorno del punto x = 0

ϕX(t) = 1 +it

1!m1 +

(it)2

2!m2 + · · ·+ (it)

n

n!mn + · · ·

= 1 +ita

1!+(it)2a

2!+ · · ·+ (it)

na

n!+ · · ·

= 1− a+ a

µ1 +

it

1!+(it)2

2!+ · · ·+ (it)

n

n!+ · · ·

¶= 1− a+ aeit

es decir,ϕX(t) = 1− a+ aeit

pero debe cumplirse que|ϕX(t)| ≤ 1

es decir, ¯1− a+ aeit

¯ ≤ |1− a|+ |a| ≤ 1luego

0 ≤ a ≤ 1Poniendo ahora p = a y q = 1− a, obtenemos

ϕX = q + peit

que es la función característica de la distribución de Bernoulli (ver ejemplo 47).En resumen, se ha de cumplir que 0 ≤ a ≤ 1 y la distribución de X es unaBernoulli de parámetro a.

Cálculo de los momentos mediante la función generatriz de momentos

La utilidad práctica de la función generatriz de momentos, si existe, se ponede manifiesto en el siguiente teorema.

Teorema 40 Si una variable aleatoria X (discreta o absolutamente continua)tiene todos sus momentos de orden n ∈ N finitos para la que existe la funcióngeneratriz de momentos, entonces

mn = E(Xn) = g(n)(0) (k = 1, 2, 3, ...)

Page 130: Demostraciones probabilidad

178 CAPÍTULO 2. VARIABLES ALEATORIAS

Demostración: Consideremos el desarrollo en serie de Taylor de h(x) = etx

en x = 0, se tiene

etx = 1 +t

1!x+

t2

2!x2 + · · ·+ tn

n!xn + · · ·

de donde

g(t) =

Z +∞

−∞etx f(x) dx

=

Z +∞

−∞

µ1 +

t

1!x+

t2

2!x2 + · · ·+ tn

n!xn + · · ·

¶f(x) dx

derivando sucesivamente respecto de t en t = 0, resulta

g0(t) =Z +∞

−∞

µx+ tx2 + · · ·+ tn−1

(n− 1)!xn + · · ·

¶f(x) dx =⇒ g0(0) =

Z +∞

−∞x f(x) dx = m1

g00(t) =Z +∞

−∞

µx2 + · · ·+ tn−2

(n− 2)!xn + · · ·

¶f(x) dx =⇒ g00(0) =

Z +∞

−∞x2 f(x) dx = m2

reiterando este proceso se concluye que

g(n)(0) = mn

La demostración para el caso de variable aleatoria discreta es análogo.

Teoremas de unicidad y de inversión

La función característica de una variable aleatoria proporciona informaciónsobre ella en el sentido de que permite conocer fácilmente todos sus momen-tos de orden n ∈ N. De hecho podemos afirmar aún más: conocer la funcióncaracterística equivale a conocer la distribución de probabilidad de la variablealeatoria. Los dos teoremas siguientes, que damos sin demostración, justificanesta última afirmación.El primero nos dice que cualquier función de distribución F (x) = P (X ≤ x)

está unívocamente determinada por su función característica. Como consecuen-cia, la función característica caracteriza la variable aleatoria, en el sentido deque dos variables aleatorias con la misma función característica tienen la mismafunción de distribución.

Teorema 41 (Teorema de unicidad) Sean F1 y F2 dos funciones de dis-tribución con la misma función característica, entonces F1 = F2.

Es claro que si conocemos la función de densidad de una variable aleatoriala misma definición de función característica determina ϕ(t) de forma unívoca.El problema ahora es conocer la función de densidad a partir del conocimientode la función característica. El segundo teorema resuelve este último problema.

Page 131: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS179

Teorema 42 (Teorema de inversión) Sean ϕ y F la función característicay la función de distribución de una varfiable aleatoria X. Entonces, para parejasarbitrarias de puntos a y b (a < b) donde F es continua, se cumple la siguientefórmula

F (b)− F (a) = lımc→+∞

1

Z c

−c

e−ita − e−itb

itϕ(t) dt

que suele llamarse fórmula de inversión.

Para el caso de una variable aleatoria absolutamente continua X con funciónde distribución F diferenciable y tal que F 0(x) = f(x) sea la función de densidad,la fórmula de inversión puede escribirse de un modo más sencillo, como lo indicael siguiente corolario.

Corolario 2 Si la función de distribución de una variable aleatoria absoluta-mente continua F es diferenciable y F 0(x) = f(x), entonces se cumple

f(x) =1

Z +∞

−∞e−itx ϕ(t) dt

siempre que |ϕ(t)| sea integrable en toda la recta real; dicho en otras palabras,la función característica y la función de densidad son transformadas de Fourierla una de la otra.

Observación 32 La función de densidad es una integral en el plano complejoque puede resolverse, salvo casos sencillos, por el método de los residuos.

Para variables aleatorias discretas, el siguiente teorema proporciona la fór-mula de inversión.

Teorema 43 Sea X una variable aleatoria discreta que toma los valores x1, x2, ..., xn, ...con probabilidad no nula, y sea ϕ su función característica. Entonces, la funciónde densidad de X viene dada por la siguiente fórmula

P (X = xn) = lımT→+∞

"1

2T

Z T

−Te−itxn ϕ(t) dt

#(n = 1, 2, 3, ...)

Ejemplo 80 Una variable aleatoria X se dice que es simétrica si su función dedensidad es par, es decir, f(x) = f(−x) para todo x ∈ R. (1) ¿Qué debe verificarla función característica para que la variable sea simétrica? (2) Averiguar si lavariable aleatoria X de función de función característica

ϕX(x) =

½1− |t| si |t| ≤ 10 si |t| > 1

(3) ¿Tiene momentos esta variable aleatoria? (4) Hallar la función de densidadde la variable aleatoria X del apartado (2).

Page 132: Demostraciones probabilidad

180 CAPÍTULO 2. VARIABLES ALEATORIAS

Solución: (1) Si X es simétrica, entonces X y −X se distribuyen de lamisma manera. Por tanto, X y −X tienen la misma función característica y,por tanto,

ϕX(t) = ϕ−X(t) = ϕX(−t) = ϕX(t)

para todo t ∈ R. La condición ϕX(t) = ϕX(t) es equivalente a decir que ϕX(t)es un número real y, en consecuencia, ϕX ha de ser una función real de variablereal par.

(2) Es claro que ϕX es una función real par, luego

ϕX(t) = ϕX(−t) = ϕ−X(t)

y, por tanto, según el teorema de unicidad, X y −X tienen la misma distribucióny, como consecuencia, X es simétrica.

(3) Esta variable aleatoria no tiene momentos porque la función caracterís-tica no es derivable en x = 0.

(4) Aplicando la fórmula de inversión, tenemos

f(x) =1

Z +∞

−∞e−itx ϕX(t) dt

y observando la gráfica de ϕX

podemos escribir

f(x) =1

Z 0

−1e−itx (1 + t) dt+

1

Z 1

0

e−itx (1− t) dt

Page 133: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS181

pero Z 0

−1e−itx (1 + t) dt =

·e−itx

−ix (1 + t)

¸0−1− 1

−ixZ 0

−1e−itx dt

= − 1ix+1

ix

·e−itx

−ix¸0−1

= − 1ix− 1

(ix)2(1− eix)

y del mismo modo se obtieneZ 1

0

e−itx (1− t) dt =1

ix+

1

(ix)2(e−ix − 1)

Por lo tanto, tenemos

f(x) =1

·− 1ix− 1

(ix)2(1− eix)

¸+1

·1

ix+

1

(ix)2(e−ix − 1)

¸=

1

2πx2(2− eix − e−ix)

=1

πx2

µ1− eix + e−ix

2

¶=

1− cosxπx2

Funciones características bidimensionales

De manera análoga al caso unidimensional se define la función característicay la función generatriz de momentos de variables aleatorias n-dimensionales.Como hemos hecho en otros casos, aquí sólo trataremos el caso bidimensional,dejando la generalización para el lector. Trataremos sólo las funciones carac-terísticas y dejaremos también al lector el trabajo de reescribir la definicióny propiedades de la función generatriz de momentos para variables aleatoriasbidimensionales.Se llama función característica de una variable aleatoria bidimensional (X,Y )

a la funciónϕ(u, v) = E [exp (i(uX + vY ))]

Es una función en las variables reales u, v que toma valores complejos. En elcaso discreto, tenemos

ϕ(u, v) =Xh

Xk

exp [i(uxh + vyk)] P (X = xh, Y = yk)

y, en el caso absolutamente continuo,

ϕ(u, v) =

Z +∞

−∞

Z +∞

−∞exp [i(ux+ vy)] f(x, y) dx dy

Page 134: Demostraciones probabilidad

182 CAPÍTULO 2. VARIABLES ALEATORIAS

Del mismo modo que en el caso unidimensional, se puede demostrar que lafunción característica caracteriza totalmente a la función de distribución con-junta. Las propiedades de las funciones características para variables aleatoriasbidimensionales se recogen en el siguiente teorema.

Teorema 44 La función característica ϕXY de una variable aleatoria bidi-mensional (X,Y ) (discreta o absolutamente continua) satisface las siguientespropiedades:

1. ϕXY (0, 0) = 1 y |ϕXY (u, v)| ≤ 1, para todo (u, v) ∈ R2

2. ϕX(t) = ϕXY (t, 0) y ϕY (t) = ϕXY (0, t)

3. El momento mixto de orden k + h, si existe, es

mkh = E(XkY h) =1

ik+h· ∂

k+hϕXY (u, v)

∂uk∂vh

¸u=v=0

4. Si Z = X + Y , entonces

ϕZ(t) = ϕXY (t, t)

5. Dos variables aleatorias X,Y son independientes si y sólo si

ϕXY (u, v) = ϕX(u) · ϕY (v)

6. Si Z = X + Y y X,Y son independientes, entonces

ϕZ(t) = ϕX(t) · ϕY (t)

Demostración: (1) Se hace del mismo modo que en el caso unidimensional(ver teorema 29).(2) Es claro que

ϕXY (t, 0) = E [exp (i(tX + 0 · Y ))] = E(eitX) = ϕX(t)

y del mismo modo se hace la otra relación.(3) De la definición, mediante derivación parcial, es fácil deducir esta fór-

mula; se deja al lector su comprobación. Además, se puede demostrar que bajociertas condiciones ϕXY admite un desarrollo en serie expresado en términosde los momentos mixtos (al igual que ocurría en el caso unidimensional).(4) En efecto,

ϕZ(t) = E(eitZ) = E(exp(it(X + Y ))) = E(exp(i(tX + tY ))) = ϕXY (t, t)

(5) En efecto, si X,Y son independientes, entonces

ϕXY (u, v) = E [exp (i(uX + vY ))]

= E(eiuX · eivY )= E(eiuX) ·E(eivY )= ϕX(u) · ϕY (v)

Page 135: Demostraciones probabilidad

2.4. VALORES ESPERADOS, MOMENTOS Y FUNCIONES CARACTERÍSTICAS183

No demostraremos el recíproco de esta afirmación por exigir la aplicación delteorema de inversión.(6) Es evidente a partir de (4) y (5).

Ejemplo 81 Dada la variable bidimensional discreta (X,Y ) con distribuciónde probabilidad conjunta

Y \X 1 21 0,1 0,22 0,1 0,6

Calcular la función característica de (X,Y ) y encontrar el momento mixto deorden 1 + 1 respecto al origen.Solución: Por definición tenemos

ϕXY (u, v) =2X

h=1

2Xk=1

exp [i(uh+ vk)] P (X = h, Y = k)

= ei(u+v) · 0,1 + ei(u+2v) · 0,1 + ei(2u+v) · 0,2 + ei(2u+2v) · 0,6

y si el momento pedido existe, se puede calcular mediante

m11 =1

i2· ∂

2ϕXY (u, v)

∂u∂v

¸u=v=0

Para ello, calculamos primero

∂ϕXY (u, v)

∂u= 0,1iei(u+v) + 0,1iei(u+2v) + 0,4iei(2u+v) + 1,2iei(2u+2v)

Entonces

∂2ϕXY (u, v)

∂u∂v= 0,1i2ei(u+v) + 0,2i2ei(u+2v) + 0,4i2ei(2u+v) + 2,4i2ei(2u+2v)

y, por tanto,

m11 =0,1i2ei(u+v) + 0,2i2ei(u+2v) + 0,4i2ei(2u+v) + 2,4i2ei(2u+2v)

i2

¸u=v=0

= 3,1

Ejemplo 82 Hallar la función característica de (X,Y ), sabiendo que la funciónde densidad conjunta es

f(x, y) =

½x+ y si x, y ∈ (0, 1)0 en otro caso

Page 136: Demostraciones probabilidad

184 CAPÍTULO 2. VARIABLES ALEATORIAS

Solución: Por definición tenemos

ϕ(u, v) =

Z +∞

−∞

Z +∞

−∞exp [i(ux+ vy)] f(x, y) dx dy

=

Z 1

0

Z 1

0

ei(ux+vy) (x+ y) dx dy

=

Z 1

0

Z 1

0

eivyeiuxx dx dy +

Z 1

0

Z 1

0

eiuxeivyy dx dy

Calculando cada una de estas integrales, tenemosZ 1

0

Z 1

0

eivyeiuxx dx dy =

Z 1

0

eivy·xeiux

iu− eiux

(iu)2

¸10

dy

=

µeiu

iu+

eiu

u2− 1

u2

¶Z 1

0

eivy dy

=

µeiu

iu+

eiu

u2− 1

u2

¶·eivy

iv

¸10

=

µeiu

iu+

eiu

u2− 1

u2

¶µeiv

iv− 1

iv

¶y del mismo modo se obtieneZ 1

0

Z 1

0

eiuxeivyy dx dy =

µeiu

iu− 1

iu

¶µeiv

iv+

eiv

v2− 1

v2

¶Por consiguiente, obtenemos que

ϕ(u, v) =

µeiu

iu+

eiu

u2− 1

u2

¶µeiv

iv− 1

iv

¶+

µeiu

iu− 1

iu

¶µeiv

iv+

eiv

v2− 1

v2

2.5. Convergencia de sucesiones de variables aleato-rias

En las secciones anteriores nos hemos ocupado del concepto de variablealeatoria tanto unidimensional como bidimensinal, estudiando sus aspectos fun-damentales a través de su función de densidad, su función de distribución, de susmomentos y de su función característica. Pero en muchas situaciones tendremosque analizar el comportamiento límite de una sucesión de variables aleatoriasdefinidas sobre un mismo espacio de probabilidades y no necesariamente inde-pendientes. En esta sección nos ocuparemos de la convergencia de sucesiones devariables aleatorias.

Page 137: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS185

2.5.1. Tipos de convergencia

Sea (Xn) una sucesión de variables aleatorias (reales) definidas sobre un mis-mo espacio de probabilidades (Ω,A, P ). Para cada ω ∈ Ω, la sucesión (Xn(ω))es una sucesión de números reales que puede ser convergente o divergente segúnsea ω. En otras palabras, la existencia o no del límite de la sucesión

lımn→∞Xn

dependerá de los sucesos elementales. Esta dependencia origina tres manerasdistintas de definir la convergencia de variables aleatorias: la convergencia casisegura, la convergencia en probabilidad y la convergencia en media cuadrática.Por otra parte, si (Fi) es la sucesión de funciones de distribución asociada a lasucesión de variables aleatorias (Xi), estudiaremos también la convergencia de(Fi) que nos llevará a la convergencia en distribución.

Convergencia segura y casi segura

El concepto más fuerte de convergencia de sucesiones de variables aleatoriases el de convergencia segura. Una sucesión de variables aleatorias (Xn) se diceque converge seguro a la variable aleatoria X si para todo ω ∈ Ω la sucesión(Xn(ω)) converge a X(ω), es decir,

lımn→∞Xn(ω) = X(ω) (2.23)

para todo ω ∈ Ω.Este tipo de convergencia se da en muy pocos casos y, en general, lo que

ocurre es que (2.23) se cumple sólo para un cierto subconjunto C de Ω, es decir,un suceso de A; obsérvese que en el caso de convergencia segura C = Ω.Un criterio de convergencia un poco menos fuerte es el de convergencia casi

segura o en probabilidad 1. Una sucesión de variables aleatorias (Xn) se diceque converge casi seguro a la variable aleatoria X si (2.23) se cumple sólopara un suceso de probabilidad 1, es decir, si

C =nω ∈ Ω : lım

n→∞Xn(ω) = X(ω)o

entoncesP (C) = 1

Obsérvese que en el caso de convergencia casi segura P (C) = 0, siendo

C =nω ∈ Ω : lım

n→∞Xn(ω) 6= X(ω)o6= ∅

Evidentemente, si C = Ω, la convergencia es segura.La convergencia casi segura se indica por

Xnc.s.−→ X

y viene a significar que (Xn) converge a X en el sentido ordinario del análisismatemático, salvo en conjuntos de probabilidad nula.

Page 138: Demostraciones probabilidad

186 CAPÍTULO 2. VARIABLES ALEATORIAS

Observación 33 Teniendo en cuenta que para cada ω ∈ C la condición

lımn→∞Xn(ω) = X(ω)

significa que para todo > 0 existe un número natural m tal que para todon ≥ m se cumple

|Xn(ω)−X(ω)| <entonces el conjunto

C =nω ∈ Ω : lım

n→∞Xn(ω) = X(ω)o

puede también expresarse en la siguiente forma

C =∞\k=1

∞[m=1

∞\n=m

½ω ∈ Ω : |Xn(ω)−X(ω)| < 1

k

¾y, en consecuencia, también tenemos que

C =∞[k=1

∞\m=1

∞[n=m

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾

Convergencia en probabilidad

Una sucesión de variables aleatorias (Xn) se dice que converge en proba-bilidad a la variable aleatoria X si para todo > 0 se cumple

lımn→∞P (ω ∈ Ω : |Xn(ω)−X(ω)| ≥ ) = 0 (2.24)

o de forma equivalente

lımn→∞P (ω ∈ Ω : |Xn(ω)−X(ω)| < ) = 1

El concepto de convergencia en probabilidad es esencialmente distinto de la con-vergencia determinista, pues (2.24) sólo afirma que dado > 0, la probabilidadde que Xn difiera de X en más de es menor que una cantidad tan pequeñacomo se quiera, a partir de un n suficientemente grande. En particular, (Xn)converge en probabilidad a la constante a si

lımn→∞P (ω ∈ Ω : |Xn(ω)− a| ≥ ) = 0

Esta convergencia en probabilidad se llama también convergencia estocásti-ca y se dice que (Xn) converge estocásticamente a X. Abreviadamente loindicaremos por

XnP−→ X

Page 139: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS187

Observación 34 1. La convergencia en probabilidad significa que la difer-encia entre Xn y X es muy probable que sea muy pequeña si n es grande,pero esto no implica que sea pequeña para todo ω de un cierto subconjuntoC de Ω aunque n sea muy grande. En consecuencia, la convergencia enprobabilidad es un concepto más débil que la convergencia casi segura (verteorema 37).

2. Indicamos a continuación las principales propiedades de la convergenciaen probabilidad:

a) Si XnP−→ X, entonces Xn −X

P−→ 0

b) Si XnP−→ X y g es una función continua, entonces g(Xn)

P−→ g(X)

c) Si XnP−→ X y Yn

P−→ Y , y g es una función real continua de

las variables x, y, entonces g(Xn, Yn)P−→ g(X,Y ). En particular,

se cumplen

Xn ± YnP−→ X ± Y

Xn · Yn P−→ X · Y

Xn

Yn

P−→ XY (Yn

P−→ Y 6= 0)

Con todo esto vemos que las sumas, productos y cocientes de suce-siones de variables aleatorias convergen en probabilidad a las corre-spondientes sumas, productos y cocientes de los límites en probabili-dad (si existen) de aquellas variables aleatorias.

Convergencia en media cuadrática

Una sucesión de variables aleatorias (Xn) se dice que converge en mediacuadrática a la variable aleatoria X si E(X2

n) y E(X2) son finitos y

lımn→∞E

£(Xn −X)2

¤= 0

Abreviadamente lo indicaremos por

Xnm.c.−→ X

En general, se dice que (Xn) converge en media de orden r (r > 0) a X siE(|Xn|r) y E(|X|r) son finitos y

lımn→∞E [(Xn −X)r] = 0

Page 140: Demostraciones probabilidad

188 CAPÍTULO 2. VARIABLES ALEATORIAS

Convergencia en distribución

Una sucesión de variables aleatorias X1,X2, ... con funciones de distribuciónF1, F2, ... se dice que converge en distribución o en ley a la variable aleatoriaX con función de distribución F si

lımn→∞Fn(x) = F (x)

en todos los puntos x donde F es continua. Abreviadamente lo indicaremos por

XnD−→ X

2.5.2. Relación entre los distintos tipos de convergencia

En este apartado demostraremos que existe una cierta relación entre losdiferentes tipos de convergencia y que podemos resumir en el siguiente diagrama

casi segura en media cuadrática& .

en probabilidad↓

en distribución

Lema 1 La sucesión de variables aleatorias (Xn) converge casi seguro a la vari-able aleatoria X si y sólo si

P

µlımsup

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾¶= 0

para todo k = 1, 2, 3, ....Demostración: Supongamos que

P

µlımsup

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾¶= 0 (2.25)

para todo k = 1, 2, 3, .... Consideremos los conjuntos

Ank =

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾(k, n = 1, 2, 3, ...)

Por la observación 24 podemos escribir

C =∞[k=1

∞\m=1

∞[n=m

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾=∞[k=1

∞\m=1

∞[n=m

Ank

De la desigualdad de Boole, obtenemos

P (C) ≤∞Xk=1

P

à ∞\m=1

∞[n=m

Ank

!

Page 141: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS189

Ahora bien, por la definición de límite superior de una sucesión de sucesos,tenemos ∞\

m=1

∞[n=m

Ank = lımsupAnk

y, por tanto,

P (C) ≤∞Xk=1

P (lımsupAnk)

y por (2.25), obtenemosP (C) = 0

o lo que es equivalente,P (C) = 1

Por tanto, la sucesión (Xn) converge casi seguro a X.Recíprocamente, supongamos que (Xn) converge casi seguro a X. Observa-

mos en primer lugar que

lımsupAnk =∞\

m=1

∞[n=m

Ank ⊂∞[k=1

∞\m=1

∞[n=m

Ank = C

y, por tanto,P (C) ≥ P (lımsupAnk)

Ahora bien, puesto que (Xn) converge casi seguro a X, entonces P (C) = 0 y,como consecuencia, obtenemos

P (lımsupAnk) = P

µlımsup

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾¶= 0

para todo k = 1, 2, 3, ....

Observación 35 Si (Xn) es una sucesión de variables mutuamente independi-entes, entonces se puede demostrar que la condición

P

µlımsup

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾¶= 0

para todo k = 1, 2, 3, ..., es equivalente a la siguiente condición∞Xn=1

P

µ½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾¶<∞

y, como consecuencia, tenemos el siguiente criterio de convergencia casi segura:si (Xn) es una sucesión de variables mutuamente independientes, entonces (Xn)converge casi seguro a X si y sólo si

∞Xn=1

P (ω ∈ Ω : |Xn(ω)−X(ω)| ≥ ) <∞

para cualquier > 0 dado.

Page 142: Demostraciones probabilidad

190 CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 45 La convergencia casi segura implica la convergencia en probabili-dad.Demostración: Supongamos que la sucesión de variables aleatorias (Xn) con-verge casi seguro a la variable aleatoria X. Según el lema 1, entonces se cumple

P (lımsupAnk) = 0 (2.26)

para todo k = 1, 2, 3, ..., siendo

Ank =

½ω ∈ Ω : |Xn(ω)−X(ω)| ≥ 1

k

¾De la definición de límite superior de una sucesión de sucesos, tenemos

lımsupAnk =∞\

m=1

∞[n=m

Ank

pero la sucesión B1k, B2k, ... definida por

Bmk =∞[

m=n

Ank

es decreciente y, por tanto,

lımm→∞Bmk =

∞\m=1

Bmk =∞\

m=1

∞[n=m

Ank = lımsupAnk

De la propiedad de continuidad de la probabilidad, deducimos

P (lımsupAnk) = P³lım

m→∞Bmk

´= lım

m→∞P (Bmk) (2.27)

De la definición de Bmk, vemos que

Bmk = Amk ∪Am+1k ∪ · · ·y, por tanto, se cumple

Amk ⊂ Bmk

luego,P (Amk) ≤ P (Bmk)

Entonces, de (2.26) y (2.27), deducimos

0 = P (lımsupAnk) = lımm→∞P (Bmk) ≥ lım

m→∞P (Amk)

es decir,lım

m→∞P (Amk) ≤ 0pero como las probabilidades no son negativas, obtenemos

lımm→∞P (Amk) = lım

m→∞P

µ½ω ∈ Ω : |Xm(ω)−X(ω)| ≥ 1

k

¾¶= 0

para todo k = 1, 2, 3, .... Por consiguiente, la sucesión (Xn) converge en proba-bilidad a X.

Page 143: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS191

Observación 36 El recíproco, en general, no es cierto (ver ejemplo 52).

Ejemplo 83 Sea (Xn) una sucesión de variables aleatorias mutuamente inde-pendientes tales que

Xn =

½0 con probabilidad 1− 1

n+1

1 con probabilidad 1n+1

Probar que (Xn) no converge casi seguramente a X = 0 y, en cambio, (Xn)converge en probabilidad a 0.Solución: Según la observación 26, como que para todo > 0 se cumple

∞Xn=1

P (ω ∈ Ω : |Xn(ω)| ≥ ) =∞Xn=1

1

n+ 1

es divergente, al tratarse de la serie armónica, (Xn) no converge casi segura-mente a X = 0. En cambio, para todo > 0 se cumple

lımn→∞P (ω ∈ Ω : |Xn(ω)| ≥ ) = lım

n→∞1

n+ 1= 0

y, por tanto, (Xn) converge en probabilidad a X = 0.

A continuación demostraremos que la convergencia en media cuadrática (siexiste) es también un concepto más fuerte que el de convergencia en probabili-dad.

Teorema 46 La convergencia en media cuadrática (si existe) implica la con-vergencia en probabilidad.Demostración: Supongamos que la sucesión de variables aleatorias (Xn) con-verge en media cuadrática a la variable aleatoria X. Entonces, por la desigualdadde Tchebychev aplicada a la variable Xn −X, tenemos

P (|Xn −X| ≥ ) ≤E³|Xn −X|2

´2

pero, por hipótesis, se cumple

lımn→∞E

£(Xn −X)2

¤= 0

y, por tanto,lımn→∞P (|Xn −X| ≥ ) = 0

es decir, (Xn) converge en probabilidad a X.

Observación 37 El recíproco, en general, no es cierto (ver ejemplo 53).

Page 144: Demostraciones probabilidad

192 CAPÍTULO 2. VARIABLES ALEATORIAS

Ejemplo 84 Sea (Xn) una sucesión de variables aleatorias mutuamente inde-pendientes tales que

Xn =

½0 con probabilidad 1− 1

n1 con probabilidad 1

n

Probar que: (1) (Xn) converge en probabilidad a 0; (2) (Xn) no converge casiseguramente a 0; (3) (Xn) converge en media cuadrática a 0.Solución: (1) En efecto, es evidente que para todo > 0 se cumple

P (|Xn| ≥ ) = P (Xn = 1) =1

n

y, por tanto,

lımn→∞P (|Xn| ≥ ) = lım

n→∞1

n= 0

y, en consecuencia, (Xn) converge en probabilidad a 0.(2) En efecto,

∞Xn=1

P (|Xn| ≥ ) =∞Xn=1

1

n

no es convergente, pues es la serie armónica y, por tanto, (Xn) no converge casiseguramente a 0.(3) En efecto,

E¡Xn

2¢= 02 ·

µ1− 1

n

¶+ 12 · 1

n=1

n

y, por tanto,lımn→∞E

¡Xn

2¢= 0

es decir, (Xn) converge en media cuadrática a 0.Obsérvese que con este ejemplo también hemos demostrado que la conver-

gencia en media cuadrática no implica la convergencia casi segura. Tambiénse puede ver que la convergencia en media cuadrática no es implicada por laconvergencia casi segura. En efecto, la sucesión (Xn) de variables aleatoriasmutuamente independientes definida por

Xn =

½0 con probabilidad 1− 1

n2

n con probabilidad 1n2

es convergente casi seguro a X = 0, pues para > 0 dado se cumple

∞Xn=1

P (|Xn| ≥ ) =∞Xn=1

P (Xn = n) =∞Xn=1

1

n2<∞

y, en cambio, no converge en media cuadrática, pues

E¡Xn

2¢= 02 ·

µ1− 1

n2

¶+ n2 · 1

n2= 1

Page 145: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS193

y, por tanto,lımn→∞E

¡Xn

2¢= 1 6= 0

A continuación demostraremos que la convergencia en distribución es unconcepto más débil que el de convergencia en probabilidad.

Teorema 47 La convergencia en probabilidad implica la convergencia en dis-tribución.Demostración: Supongamos que la sucesión de variables aleatorias (Xn) con-verge en probabilidad a la variable aleatoria X. Sean Fn (n = 1, 2, ...) y F lasfunciones de distribución de Xn (n = 1, 2, ...) y X. Tenemos

[Xn ≤ x] = [Xn ≤ x,X ≤ y] ∪ [Xn ≤ x,X > y]

⊂ [X ≤ y] ∪ [Xn ≤ x,X > y]

luego,P (Xn ≤ x) = P (X ≤ y) + P (Xn ≤ x,X > y)

es decir,Fn(x) = F (y) + P (Xn ≤ x,X > y) (2.28)

Si y > x, entonces

[Xn ≤ x,X > y] ⊂ [|Xn −X| ≥ y − x]

y, por tanto,P (Xn ≤ x,X > y) ≤ P (|Xn −X| ≥ y − x)

De aquí y de (2.28), obtenemos

Fn(x) = F (y) + P (Xn ≤ x,X > y) ≤ F (y) + P (|Xn −X| ≥ y − x)

pero, por hipótesis, XnP−→ X, entonces

lımn→∞P (|Xn −X| ≥ ) = 0

para todo > 0. Tomando = y − x > 0, obtenemos

lımn→∞Fn(x) ≤ F (x+ ) (2.29)

Por el mismo razonamiento, pero cambiando X por Xn, tenemos

[X ≤ y] = [Xn ≤ x,X ≤ y] ∪ [Xn > x,X ≤ y]

⊂ [Xn ≤ x] ∪ [Xn > x,X ≤ y]

luego,P (X ≤ y) = P (Xn ≤ x) + P (Xn > x,X ≤ y)

Page 146: Demostraciones probabilidad

194 CAPÍTULO 2. VARIABLES ALEATORIAS

es decir,F (y) = Fn(x) + P (Xn > x,X ≤ y) (2.30)

Si y < x, entonces

[Xn > x,X ≤ y] ⊂ [|Xn −X| ≥ x− y]

y, por tanto,P (Xn > x,X ≤ y) ≤ P (|Xn −X| ≥ x− y)

De aquí y de (2.30), obtenemos

F (y) = Fn(x) + P (Xn > x,X ≤ y) ≤ Fn(x) + P (|Xn −X| ≥ x− y)

pero, por hipótesis, XnP−→ X, entonces

lımn→∞P (|Xn −X| ≥ ) = 0

para todo > 0. Tomando = x− y > 0, obtenemos

F (x− ) ≤ lımn→∞Fn(x) (2.31)

Por consiguiente, de (2.29) y (2.31), obtenemos

F (x− ) ≤ lımn→∞Fn(x) ≤ F (x+ )

Ahora bien, si x es un punto de continuidad de F , entonces

F (x− ) = F (x+ ) = F (x)

y, por tanto, deducimoslımn→∞Fn(x) = F (x)

que es lo que queríamos demostrar.

Observación 38 El recíproco, en general, no es cierto (ver ejemplo 54).

Ejemplo 85 Sea Y una variable aleatoria definida por

Y =

½1 con P (Y = 1) = 1/2−1 con P (Y = −1) = 1/2

Definimos la sucesión (Xn) mediante

Xn =

½Y si n es par−Y si n es impar

Probar que (Xn) converge en distribución a Y y, en cambio, no converge enprobabilidad a Y .

Page 147: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS195

Solución: Es claro que Xn = ±1 con probabilidad 1/2 en ambos casos. Portanto, las variables Xn e Y tienen la misma función de distribución y, comoconsecuencia,

lımn→∞Fn(x) = lım

n→∞F (x) = F (x)

es decir, (Xn) converge en distribución a Y . Ahora bien, es claro que

Xn − Y =

½0 si n es par−2Y si n es impar

y se cumple

P (|X2n−1 − Y | ≥ 1) = P (2 |Y | ≥ 1) = P (|Y | ≥ 1/2) = 1

2+1

2= 1

para todo n = 1, 2, 3, ..., y, por tanto,

lımn→∞P (|X2n−1 − Y | ≥ 1) = 1 6= 0

y, en consecuencia, (Xn) no converge en probabilidad a Y .

No obstante, si una sucesión de variables aleatorias converge en distribucióna una constante no aleatoria, entonces el siguiente teorema prueba que la con-vergencia en distribución implica la convergencia en probabilidad a la constante.

Teorema 48 Sea (Xn) una sucesión de variables aleatorias que converge endistribución a una constante c no aleatoria. Entonces, (Xn) también convergeen probabilidad a c.Demostración: Si (Xn) converge en distribución a c, entonces

lımn→∞Fn(x) = F (x) = c

y, por tanto,

F (x) =

½0 si x ≤ c1 si x > c

De este modo, para > 0 tenemos

P (|Xn − c| > ) = P (Xn < c− ) + P (Xn > c+ )

= Fn(c− ) + 1− Fn(c+ )

luego,

lımn→∞P (|Xn − c| > ) = F (c− ) + 1− F (c+ ) = 0 + 1− 1 = 0

y, por tanto, (Xn) también converge en probabilidad a c.

En la mayor parte de las aplicaciones, el criterio de convergencia en dis-tribución no se utiliza en términos de las funciones de distribución Fn, sino através de las funciones características. Enunciamos sin demostración el teoremade Glivenko que permite hacer esto.

Page 148: Demostraciones probabilidad

196 CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 49 (Teorema de Glivenko) Sea X1,X2, ... una sucesión de vari-ables aleatorias con funciones características ϕ1, ϕ2, ..., entonces (Xn) convergeen distribución a la variable aleatoria X si y sólo si

lımn→∞ϕn(t) = ϕ(t)

para todo t ∈ R, siendo ϕ la función característica de X.

Observación 39 El siguiente resultado, debido a Lévy-Cramer, nos permiteestudiar la convergencia en probabilidad utilizando las funciones características:sea (Xn) una sucesión de variables aleatorias con funciones de distribución Fny característica ϕn, entonces (Xn) converge a X en probabilidad si y sólo si

lımn→∞ϕn(t) = ϕ(t)

y ϕ es continua en t = 0, siendo ϕ la función característica de X.

2.5.3. Las leyes de los grandes números

Sea (Xn) una sucesión de variables aleatorias definidas sobre un mismo es-pacio de probabilidades (Ω,A, P ). Consideremos la sucesión de sumas parciales(Sn) definida por

Sn =nX

k=1

Xk

El nombre genérico de "leyes de los grandes números"hace referencia a un con-junto de teoremas que tratan sobre el comportamiento asintótico de (Sn) cuandon tiende a infinito. El problema general consiste en encontrar las condicionesque aseguren la existencia de límites de la forma

lımn→∞

µSn − an

bn

¶siendo (an) y (bn) sucesiones (no aleatorias) de números reales.

Ley débil de los grandes números

Se dice que una sucesión (Xn) de variables aleatorias satisface una ley débilde los grandes números si existen sucesiones numéricas (an) y (bn) tales que

Sn−anbn

P−→ 0

Una condición suficiente para que una sucesión satisfaga la ley débil de losgrandes números viene dada por el siguiente teorema.

Teorema 50 (Ley débil de los grandes números de Tchebychev) Sea(Xn) una sucesión de variables aleatorias mutuamente independientes que tienenvarianzas finitas y acotadas por una misma constante α

σ2n = Eh(Xn −E(Xn))

2i≤ α

Page 149: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS197

para todo n ∈ N, entoncesSn−E(Sn)

n

P−→ 0

Demostración: Por la desigualdad de Tchebichev aplicada a Sn−E(Sn)n obten-

emos

P (

¯Sn −E(Sn)

n

¯≥ ) ≤

E³|Sn −E(Sn)|2

´n2 2

para todo > 0. Ahora bien, como las variables aleatorias Xn (n = 1, 2, 3, ...)son mutuamente independientes, se cumple

E³(Sn −E(Sn))

= V ar(Sn)

= V ar

ÃnX

k=1

Xk

!

=nX

k=1

V ar(Xk)

≤ nα

Por tanto,

P (

¯Sn −E(Sn)

n

¯≥ ) ≤

E³|Sn −E(Sn)|2

´n2 2

≤ α

n 2

y, en consecuencia,

lımn→∞P (

¯Sn −E(Sn)

n

¯≥ ) = 0

para todo > 0.

Corolario 3 (Ley clásica de los grandes números de Bernoulli) Sea(Xn) una sucesión de variables aleatorias mutuamente independientes que tienenla misma esperanza

E(Xn) = µ (n = 1, 2, 3, ...)

y varianzas finitas y acotadas por una misma constante

σ2n ≤ α

para todo n ∈ N. EntoncesX1+X2+···+Xn

n

P−→ µ

Demostración: Es claro que

E(Sn) = E

ÃnX

k=1

Xk

!=

nXk=1

E(Xk) = nµ

Page 150: Demostraciones probabilidad

198 CAPÍTULO 2. VARIABLES ALEATORIAS

Entonces, por el teorema 42, la sucesión

Sn − nµ

n=

X1 +X2 + · · ·+Xn

n− µ

converge en probabilidad a 0. Por tanto,

X1 +X2 + · · ·+Xn

n

converge en probabilidad a µ.

Observación 40 1. El significado empírico de esta ley es el siguiente: dadasn observaciones independientes x1, x2, ..., xn de una variable aleatoria X,la media de esta muestra

x =1

n

nXk=1

xk

se aproxima al valor medio de X a medida que crece n.

2. De la ley clásica de los grandes números se deduce la llamada primeraley empírica del azar: dado un suceso de probabilidad p, en una serie depruebas de un experimento aleatorio, la frecuencia relativa se aproxima ap. En efecto, sea Nn el número de veces que sale un determinado resultadoA en n pruebas independientes de un experimento aleatorio. La frecuenciarelativa de A en las n pruebas es

fn(A) =Nn

n

Ahora bien, podemos escribir Nn en la forma

Nn = X1 +X2 + · · ·+Xn

donde las Xk son variables aleatorias independientes que sólo pueden tomarlos valores 1 o 0 según ocurra o no ocurra A. Si además suponemos que laprobabilidad de que ocurra A es la misma en todas las pruebas, tenemos

Xk =

½1 con P (Xk = 1) = p0 con P (Xk = 0) = 1− p

siendo p = P (A). Por tanto, en este caso tenemos

µ = E(Xk) = 1 · p+ 0 · (1− p) = p

y entonces, aplicando la ley clásica de los grandes números, obtenemos

fn(A)P−→ p = P (A)

A continuación enunciamos el teorema de Khintchine sin hacer la demostración.

Page 151: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS199

Teorema 51 (Ley débil de los grandes números de Khintchine) Si (Xn)es una sucesión de variables aleatorias mutuamente independientes, idéntica-mente distribuidas y con esperanza finita. Entonces

X1+X2+···+Xn

n

P−→ µ

siendo µ = E(Xn).

Observación 41 Son consecuencias de la ley débil de los grandes números deKhintchine, en el caso de que los momentos correspondientes existan

1.1

n

nXi=1

Xki

P−→ E(Xkn)

2.1

n

nXi=1

(Xi −E(Xi))2 P−→ V ar(Xn)

En general, cualquier parámetro que sea función de los momentos (coefi-ciente de correlación, covarianza, asimetría, curtosis) puede aproximarse por elcorrespondiente parámetro muestral si el número de observaciones n es grande.

Ley fuerte de los grandes números

Se dice que una sucesión (Xn) de variables aleatorias satisface una ley fuertede los grandes números si existen sucesiones numéricas (an) y (bn) tales que

Sn−anbn

c.s.−→ 0

Únicamente enunciaremos sin demostración los teoremas de Borel y de Kol-mogorov que dan condiciones suficientes para que una sucesión (Xn) satisfagala ley fuerte de los grandes números.

Teorema 52 (Ley fuerte de los grandes números de Borel) Sea (Xn)una sucesión de variables aleatorias mutuamente independientes que tienen lamisma esperanza

E(Xn) = µ (n = 1, 2, 3, ...)

y momentos centrales finitos y acotados hasta el orden cuatro

E (|Xn − µ|r) ≤ αr (0 < r ≤ 4)

para todo n ∈ N. EntoncesX1+X2+···+Xn

n

c.s.−→ µ

Page 152: Demostraciones probabilidad

200 CAPÍTULO 2. VARIABLES ALEATORIAS

Observación 42 En la observación 30 hemos visto la ley clásica de los grandesnúmeros según la cual dado un suceso de probabilidad p, en una serie de pruebasde un experimento aleatorio, la frecuencia relativa se aproxima a p. Ahora, segúnla ley fuerte de los grandes números de Borel, la frecuencia relativa de un sucesode probabilidad p converge casi seguro a p. Por tanto, la convergencia es másfuerte que la que se desprende de la ley más débil.

Teorema 53 (Ley fuerte de los grandes números de Kolgomorov) Sea(Xn) una sucesión de variables aleatorias mutuamente independientes con vari-anzas σ2n finitas, y sea (bn) una sucesión divergente de números reales positivostales que

∞Xn=1

σ2nb2n

<∞

entonces la sucesión (Xn) sigue la ley fuerte de los grandes números

Sn−E(Sn)bn

c.s.−→ 0

En particular, si∞Xn=1

σ2nn2

<∞

entoncesSn−E(Sn)

n

c.s.−→ 0

Teorema 54 (Teorema de Kolgomorov) La condición necesaria y suficientepara que una sucesión (Xn) de variables aleatorias independientes e idéntica-mente distribuidas cumpla la siguiente ley fuerte

X1+X2+···+Xn

n

c.s.−→ µ

siendo µ = E(Xn) (n = 1, 2, 3, ...), es que

E(|Xn|) <∞Observación 43 Si las variables aleatorias Xn son idénticamente distribuidas,es decir, todas tienen la misma función de distribución, entonces desaparece larestricción de que las varianzas sean finitas.

Ejemplo 86 Sea (Xn) una sucesión de variables aleatorias absolutamente con-tinuas, independientes e idénticamente distribuidas. Comprobar si la sucesiónsatisface la ley fuerte de los grandes números en los casos siguientes: (1) lafunción de densidad de Xn es

fn(x) = e−|x| (n = 1, 2, 3, ...)

para todo x ∈ R, y (2) la función de densidad de Xn es

fn(x) =e

x2 lnx

Page 153: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS201

para todo x ∈ (e,+∞) y se anula en cualquier otro caso.Solución: Según el teorema de Kolgomorov, en ambos casos hemos de com-

probar que

E(|Xn|) =Z +∞

−∞|x| · fn(x) dx <∞

para que la sucesión satisfaga la ley fuerte de los grandes números.(1) En este caso tenemos

E(|Xn|) =Z +∞

−∞|x| · e−|x| dx = 2

Z +∞

0

xe−x dx = 2

y, por tanto, la sucesión satisface la ley fuerte de los grandes números. Además,como

µ = E(Xn) =

Z +∞

−∞x · e−|x| dx = 0

entoncesX1 +X2 + · · ·+Xn

nc.s.−→ 0

(2) En este caso tenemos

E(|Xn|) =

Z +∞

e

|x| · e

x2 lnxdx

= e

Z +∞

e

1

x lnxdx =∞

y, por tanto, la sucesión no satisface la ley fuerte de los grandes números.

2.5.4. Aplicaciones al análisis matemático. El métodoMonteCarlo

Aplicaciones al análisis matemático

Teorema 55 Sea (Xn) una sucesión de variables aleatorias, independientes eidénticamente distribuidas, con esperanza µ = E(Xn) que satisface una ley delos grandes números

X1+X2+···+Xn

n −→ µ

y sea f cualquier función continua y acotada en R, entonces

E

·f

µX1 +X2 + · · ·+Xn

n

¶¸−→ f(µ)

Demostración: Sea Sn = X1+X2+ · · ·+Xn, entonces por ser f una funcióncontinua y acotada, tenemos

lımn→∞ f

µSnn

¶= f

µlımn→∞

Snn

Page 154: Demostraciones probabilidad

202 CAPÍTULO 2. VARIABLES ALEATORIAS

pero, por hipótesis,Snn−→ µ

luego,

f

µSnn

¶−→ f(µ)

y, por tanto,

E

·f

µSnn

¶¸−→ f(µ)

Mediante este teorema de naturaleza totalmente probabilística puede demostrarsealgunos resultados clásicos del análisis matemático. A continuación, a modo deejemplo, damos uno de estos resultados.

Ejemplo 87 (Teorema de aproximación de Weierstrass) Cualquier fun-ción continua y acotada f en el intervalo [0, 1] puede aproximarse uniforme-mente en dicho intervalo por una sucesión de funciones polinómicas.Solución: Consideremos una sucesión de variables aleatorias (Xn), inde-

pendientes y con distribución de Bernoulli, es decir, tales que

Xn =

½1 con probabilidad p0 con probabilidad 1− p

para todo n ∈ N. Por tanto,

µ = E(Xn) = p (n = 1, 2, 3, ...)

En este caso, la función de distribución de

Sn =nXi=1

Xi

es del tipo binomial de parámetros n y p, es decir,

P (Sn = k) =

µn

k

¶pk(1− p)n−k (k = 0, 1, 2, ..., n)

Por tanto, obtenemos

E

·f

µX1 +X2 + · · ·+Xn

n

¶¸=

nXk=0

f

µk

n

¶·µn

k

¶pk(1− p)n−k

pero si f es continua y acotada en [0, 1], por el teorema 47, deducimos

lımn→∞E

·f

µX1 +X2 + · · ·+Xn

n

¶¸= f(µ) = f(p)

Page 155: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS203

Si hacemos p = x y tenemos en cuenta que 0 ≤ p ≤ 1, entonces

lımn→∞

"nX

k=0

f

µk

n

¶·µn

k

¶xk(1− x)n−k

#= f(x)

para todo x ∈ [0, 1]. Observemos que las funciones

Pn(x) =nX

k=0

f

µk

n

¶·µn

k

¶xk(1− x)n−k

son polinomios de grado n. Por lo tanto, obtenemos

lımn→∞Pn(x) = f(x)

en el intervalo [0, 1]. Ahora se puede demostrar que la convergencia es uniforme.

Otra aplicación de las leyes de los grandes números consiste en una técnicade gran utilidad en el cálculo numérico de integrales definidas en el intervalo[0, 1]. Esta técnica es conocida como el método Monte Carlo.

El método Monte Carlo

Sea f : [0, 1] → [0, 1] una función continua. Consideremos dos sucesionesde variables aleatorias (Xn) y (Yn) absolutamente continuas e independientes,distribuidas uniformemente sobre el intervalo [0, 1], es decir, con función dedensidad

fXn(x) =

½1 si x ∈ [0, 1]0 si x /∈ [0, 1] y fYn(y) =

½1 si y ∈ [0, 1]0 si y /∈ [0, 1]

Definimos otra sucesión (Zn) mediante

Zn =

½1 si f(Xn) > Yn0 si f(Xn) < Yn

(n = 1, 2, 3, ...)

Es claro que

E(Zn) = 1 · P (Zn = 1) + 0 · P (Zn = 0)= P (Zn = 1)

= P (f(Xn) > Yn)

pero, al ser Xn e Yn independientes y distribuidas uniformente sobre [0, 1], lafunción de densidad conjunta es

fXnYn(x, y) = fXn(x) · fYn(y) =½1 si x, y ∈ [0, 1]0 si x, y /∈ [0, 1]

Page 156: Demostraciones probabilidad

204 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto,

P (f(Xn) > Yn) =

Z 1

0

Z f(x)

0

1 dx dy =

Z 1

0

f(x) dx

Entonces, por la ley fuerte de los grandes números, obtenemos

1

n

nXk=1

Zkc.s.−→ µ = E(Zn) =

Z 1

0

f(x) dx

es decir, Z 1

0

f(x) dx = lımn→∞

Ã1

n

nXk=1

Zk

!

2.5.5. El teorema del límite central

Las leyes de los grandes números son resultados sobre convergencia en prob-abilidad y convergencia casi segura de sucesiones del tipo

Sn − anbn

(2.32)

hacia cero, con

Sn =nX

k=1

Xk

La pregunta que se plantea de forma inmediata es en qué condiciones (2.32)coverge en distribución hacia una variable aleatoria. La respuesta a esta cuestiónse conoce genéricamente como el teorema del límite central. Como veremos eneste apartado el teorema de límite central no es más que un conjunto de teoremasque responden al problema planteado.En general, aquí diremos que una sucesión de variables aleatorias (Xn) in-

dependientes satisface el teorema central del límite si existen dos sucesionesde números reales (no aleatorios) tales que la variable aleatoria suma Sn cumple

Sn − anbn

D−→ Z

siendo Z una variable aleatoria con distribución normal estándar, es decir, la deparámetros µ = 0 y σ = 1; desde ahora escribiremos Z ∼ N(0, 1) para indicarque Z tiene una distribución normal estándar.

Teorema 56 (Teorema de Lévy-Lindeberg) Sea (Xn) una sucesión de vari-ables aleatorias independientes e idénticamente distribuidas, con esperanza µ yvarianza σ2 finita. Entonces

Sn − nµ

σ√n

D−→ Z ∼ N(0, 1)

Page 157: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS205

Demostración: Sea Yn = Xn − µ (n = 1, 2, 3, ...). Es claro que las Yn sonvariables aleatorias independientes con

E(Yn) = 0 y E(Y 2n ) = σ2 (n = 1, 2, 3, ...)

Consideremos ahora las variables aleatorias

Zn =1

σ√n

nXi=1

Yi =Sn − nµ

σ√n

Primero vamos a demostrar que la función característica de Zn tiende a lafunción característica de la distribución normal estándar

ϕ(t) = e−t2/2

En efecto, si ϕn es la función característica de Zn, entonces por definicióntenemos

ϕn(t) = E(eitZn)

= E

"exp

Ãit

σ√n

nXi=1

Yi

!#Ahora bien, de la independencia de las variables Yn, obtenemos

ϕn(t) =nYi=1

E

·exp

µitYiσ√n

¶¸

=nYi=1

ϕYi

µt

σ√n

¶Ahora bien, las variables Yn están idénticamente distribuidas y, por tanto, todasellas tienen la misma función característica ϕ. Así, tenemos

ϕn(t) =

·ϕ

µt

σ√n

¶¸n(2.33)

Desarrollando ahora ϕ en serie de Taylor en t = 0, obtenemos

ϕ

µt

σ√n

¶= ϕ(0) +

t

σ√nϕ0(0) +

t2

2σ2nϕ00(0) +O

µ1

n3/2

¶en donde el símbolo

O

µ1

n3/2

¶indica que el resto de los términos de la serie son infinitésimos de orden igual osuperior a 1/n3/2 cuando n tiende a infinito. De las propiedades de la funcióncaracterística (ver los teoremas 29 y 31), obtenemos

ϕ(0) = 1, ϕ0(0) = iE(Yn) = 0, ϕ00(0) = i2E(Y 2

n ) = −σ2

Page 158: Demostraciones probabilidad

206 CAPÍTULO 2. VARIABLES ALEATORIAS

Así, tenemos

ϕ

µt

σ√n

¶= 1− t2

2n+O

µ1

n3/2

Por tanto, de (2.33), tenemos

lımn→∞ϕn(t) = lım

n→∞

·ϕ

µt

σ√n

¶¸n= lım

n→∞

·1− t2

2n+O

µ1

n3/2

¶¸n= lım

n→∞

·1− t2

2n

¸n= e−t

2/2

es decir, la función característica de

Zn =Sn − nµ

σ√n

tiende a la función característica de la distribución normal estándar y, en conse-cuencia, por el teorema de Glivenko (ver teorema 41), obtenemos que la funciónde distribución de Zn también tenderá a la función de distribución normal es-tándar.

Observación 44 En la práctica, podemos hacer la aproximación

Sn = X1 +X2 + · · ·+Xn ≈ N(nµ, σ√n)

es decir, la distribución de la variable suma Sn se puede aproximar por unanormal de parámetros µ = nE(Xn) y σ = σXn

√n, siempre que las variables Xn

sean independientes, idénticamente distribuidas y n sea suficientemente grande.

Ejemplo 88 Sea (Xn) una sucesión de variables aleatorias de Poisson de parámetroλ = 2 e independientes. Definimos las variables aleatorias

Yn =nX

k=1

Xn (n = 1, 2, 3, ...)

Calcular P (90 < Y50 < 110).

Page 159: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS207

Solución: Observamos primero que

µ = E(Xn)

=∞Xn=0

n · P (Xn = n)

=∞Xn=0

n · e−2 2n

n!

= e−2∞Xn=1

2n

(n− 1)!

= 2e−2∞Xn=1

2n−1

(n− 1)!= 2e−2 · e2 = 2

y como

E(X2n) =

∞Xn=0

n2 · P (Xn = n)

=∞Xn=0

n2 · e−2 2n

n!

= e−2∞Xn=1

n2n

(n− 1)!

= 2e−2∞Xn=1

n2n−1

(n− 1)!

= 2e−2∞Xn=1

µ(n− 1)2n−1(n− 1)! +

2n−1

(n− 1)!¶

= 22e−2∞Xn=2

2n−2

(n− 2)! + 2e−2∞Xn=1

2n−1

(n− 1)!= 4e−2 · e2 + 2e−2 · e2 = 6

tenemosV ar(Xn) = E(X2

n)− (E(Xn))2= 6− 4 = 2

Aplicando el teorema de Lévy-Lindeberg, obtenemos

Yn − 2n√2n

D−→ Z ∼ N(0, 1)

y, por tanto, la variable aleatoria

Z =Y50 − 100

10∼ N(0, 1)

Page 160: Demostraciones probabilidad

208 CAPÍTULO 2. VARIABLES ALEATORIAS

se distribuye aproximadamente como una normal estándar. Como consecuencia,obtenemos

P (90 < Y50 < 110) = P

µ90− 10010

<Y50 − 100

10<110− 100

10

¶= P (−1 < Z < 1)

= 0,8413− 0,1587= 0,6826

Corolario 4 (Teorema de De Moivre-Laplace) Sea (Xn) una sucesión devariables aleatorias independientes e identicamente distribuidas, con distribu-ción de Bernouilli de parámetro p. Entonces

Sn − np√npq

D−→ Z ∼ N(0, 1) (q = 1− p)

Demostración: Tenemos

Xn =

½1 con probabilidad p0 con probabilidad 1− p

(n = 1, 2, 3, ...)

Entonces,

µ = E(Xn) = p y σ =pV ar(Xn) =

pp− p2 =

pp(1− p) =

√pq

siendo q = 1− p. Por el teorema de Lévy-Lindeberg,

Sn − np√npq

D−→ Z ∼ N(0, 1)

Observación 45 Si las Xn son independientes e idénticamente distribuidas,con distribución de Bernouilli de parámetro p, entonces

Sn =nX

k=1

Xk

se distribuye como una binomial de parámetros n y p, el teorema de De Moivre-Laplace también establece que

Sn = X1 +X2 + · · ·+Xn ≈ N(np,√npq)

es decir, podemos aproximar la distribución binomial de parámetros n y p poruna normal de parámetros µ = np y σ =

√npq, siempre que n sea suficiente-

mente grande.

Page 161: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS209

Ejemplo 89 Se lanza 1000 veces una moneda perfecta. Si sale cara en la pruebak-ésima hacemos Xk = 1 y si sale cruz, Xk = 0. Calcular

P

Ã500 <

1000Xk=1

Xk < 550

!Solución: Al tratarse de variables aleatorias de Bernoulli de parámetro p =

1/2 e independientes, podemos aplicar el teorema de De Moivre-Laplace

Sn − np√npq

D−→ Z ∼ N(0, 1) (q = 1− p)

siendo

Sn =nX

k=1

Xk

y, por tanto, la variable aleatoria

Z =S1000 − 500√

250∼ N(0, 1)

se distribuye aproximadamente como una normal estándar. Como consecuencia,obtenemos

P

Ã500 <

1000Xk=1

Xk < 550

!= P (500 < S1000 < 550)

= P

µ500− 500√

250< Z <

550− 500√250

¶= P (0 < Z < 3,16)

= 0,4992

El teorema 48 es una versión del teorema del límite central. Otra versión,menos restrictiva, viene dada por el teorema de Liapunov. En concreto, este teo-rema no exige que las variables aleatorias de la sucesión dada sean idénticamentedistribuidas. Enunciaremos este teorema sin hacer la demostración.

Teorema 57 (Teorema de Liapunov) Sea (Xn) una sucesión de variablesaleatorias independientes con esperanzas µ = E(Xn) y varianzas σ2n = E

£(Xn − µn)

finitas para todo n = 1, 2, 3, .... Si se cumple

lımn→∞

1

σ3Sn

nXk=1

Eh|Xk − µk|3

i= 0

siendo

Sn =nX

k=1

Xk

Page 162: Demostraciones probabilidad

210 CAPÍTULO 2. VARIABLES ALEATORIAS

y

σ2Sn =nX

k=1

σ2k

entoncesSn −E(Sn)p

V ar(Sn)

D−→ Z ∼ N(0, 1)

Observación 46 Este resultado es fundamental para la gran mayoría de apli-caciones prácticas. Por ejemplo, gracias a este resultado podemos suponer quemuchas variables aleatorias como pesos, alturas, etc. siguen una distribuciónnormal, porque cada una de ellas es suma de un gran número de variables aleato-rias independientes. Así la altura de una persona es suma de muchos factores:hereditario, alimentación, tipo de vida, etc. Los errores, llamados aleatorios, quese presentan en observaciones astronómicas, pesadas de una balanza, etc. y, engeneral, en la mayoría de las medidas con algún aparato, son la suma de unnúmero elevado de errores elementales independientes: corrientes de aire, vibra-ciones, error de apreciación, etc. Por tal motivo los errores aleatorios siguentambién una distribución normal.

Rapidez en la convergencia. Teorema de Poisson

Consideremos una sucesión de variables aleatorias (Xn) que satisface el teo-rema del límite central, es decir, se dan las condiciones suficientes para que

Sn −E(Sn)pV ar(Sn)

D−→ Z ∼ N(0, 1)

Una cuestión que se plantea de forma natural es la de saber con qué rapidez lafunción de distribución Fn de la variable aleatoria

Sn −E(Sn)pV ar(Sn)

tiende a la función de distribución normal estándar

Φ(x) =1√2π

Z x

−∞e−t

2/2 dt

La respuesta a esta pregunta tiene implicaciones muy importantes en la práctica,pues, si la convergencia es rápida, entonces podremos aproximar Fn por Φ paravalores de n relativamente pequeños, mientras que si la convergencia es lenta,la aproximación de Fn por Φ sólo se podrá hacer para valores grandes o muygrandes de n. En muchos casos la situación es de este modo como se pone demanifiesto en el siguiente teorema que damos sin demostración.

Teorema 58 (Teorema de Berry-Essen) Sea (Xn) una sucesión de vari-ables aleatorias independientes con esperanzas µ = E(Xn) y varianzas σ2n =

Page 163: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS211

E£(Xn − µn)

2¤finitas para todo n = 1, 2, 3, ..., que satisface el teorema del

límite central. Sea Fn la función de distribución de la variable aleatoria

Sn −E(Sn)pV ar(Sn)

y sea Φ la función de distribución normal estándar

Φ(x) =1√2π

Z x

−∞e−t

2/2 dt

Entonces, se cumple|Fn(x)− Φ(x)| ≤ cγn

σ3Sn(2.34)

para todo x ∈ R y n ∈ N, siendo c es una constante tal que

c ≥ 1√2π

σ2Sn =nX

k=1

σ2k

y

γn =nX

k=1

Eh|Xk − µk|3

iObservación 47 Si las variables aleatorias Xn están idénticamente distribuidas,entonces

σ2Sn = nσ2 y γn = nγ

y, como consecuencia, la condición (2.34) se escribe ahora como sigue

|Fn(x)− Φ(x)| ≤ cγ

σ3√n

De aquí, al ser muy lenta la convergencia de 1/√n a cero, vemos que, en general,

Fn converge lentamente a Φ. Además, si σ es pequeña, la convergencia es aúnmás lenta.Por ejemplo, para variables aleatorias de Bernoulli con

Xn =

½1 con probabilidad p0 con probabilidad 1− p

(n = 1, 2, 3, ...)

tenemosµ = p σ2 = pq γ = pq(p2 + q2)

siendo q = 1− p. En este caso (2.34) se expresa como sigue

|Fn(x)− Φ(x)| ≤ c(p2 + q2)√npq

Page 164: Demostraciones probabilidad

212 CAPÍTULO 2. VARIABLES ALEATORIAS

Por tanto, la aproximación de Fn por Φ es bastante pobre para valores de ppróximos a 0 o 1, incluso si n es grande. Sin embargo, el problema de la conver-gencia a la distribución normal estándar para sumas de variables de Bernoulliqueda resuelto por el teorema de Poisson, cuando p está próximo a 0 o 1.

El siguiente teorema probará que la distribución de Poisson puede obetenersecomo límite de una distribución binomial.

Teorema 59 (Teorema de Poisson) Supongamos que para cada n ≥ 1 ten-emos una sucesión de variables aleatorias de Bernoulli Xn1,Xn2, ...,Xnn con

Xnk =

½1 con probabilidad pn0 con probabilidad 1− pn

(k = 1, 2, ...n)

Dicho de otro modo, tenemos una sucesión bidimensional de variable aleatoriasde Bernoulli

X11

X21,X22

X31,X32,X33

· · ·Xn1,Xn2,Xn3, ...,Xnn

· · ·Sea

Sn =nX

k=1

Xnk

Silımn→∞ pn = 0

de manera quelımn→∞npn = λ > 0

entonces

lımn→∞P (Sn = k) =

e−λλk

k!(k = 0, 1, 2, ...)

es decir, la distribución de la variable suma Sn tiende a una distribución dePoisson.Demostración: Al ser las variables aleatorias Xnk independientes, la funcióncaracterística ϕn de Sn se escribe como sigue

ϕn(t) =nY

k=1

E¡eitXnk

¢Ahora bien, es claro que

E¡eitXnk

¢= e0P (Xnk = 0) + eitP (Xnk = 1) = 1− pn + eitpn = 1+ pn(e

it − 1)

Page 165: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS213

para k = 1, 2, ..., n. Por tanto, obtenemos

ϕn(t) =£1 + pn(e

it − 1)¤n (2.35)

Silımn→∞ pn = 0

de manera quelımn→∞npn = λ > 0

entonces podemos escribir

pn =λ

n+O

µ1

n2

¶luego, de (2.35), obtenemos

ϕn(t) =

·1 +

λ

n(eit − 1) +O

µ1

n2

¶¸ny, en consecuencia,

lımn→∞ϕn(t) = exp

£λ(eit − 1)¤

que es la función característica de la distribución de Poisson de parámetro λ.De este modo, por el teorema de Glivenko (ver teorema 41), deducimos

lımn→∞P (Sn = k) =

e−λλk

k!(k = 0, 1, 2, ...)

que es lo que queríamos demostrar.

Observación 48 Para sumas

Sn =nX

k=1

Xk

de variables aleatorias de Bernoulli, independientes y con P (Xn = 1) = p (n =1, 2, 3, ...), es decir, para una distribución binomial de parámetros n y p, sonposibles dos distribuciones límite. Por un lado, según el teorema de De Moivre-Laplace, tenemos la distribución normal estándar

Sn − np√npq

D−→ Z ∼ N(0, 1) (q = 1− p)

aproximación que funciona bien cuando p no está próximo a 0 o 1 y n es sufi-cientemente grande. Por otro lado, según este teorema, tenemos la distribuciónde Poisson

lımn→∞P (Sn = k) =

e−λλk

k!(k = 0, 1, 2, ...)

aproximación que funciona bien cuando p está próximo a 0 o 1 aunque sea ngrande. No obstante, si λ es suficientemente grande, la distribución de Poissonpuede aproximarse a la distribución normal estándar (ver teorema 52).

Page 166: Demostraciones probabilidad

214 CAPÍTULO 2. VARIABLES ALEATORIAS

Teorema 60 Sea X una variable aleatoria de Poisson con parámetro λ y con-sideremos la siguiente variable aleatoria

Yλ =X − λ√

λ

Entonces, cuando λ tiende a infinito, la distribución de Yλ tiende a la distribu-ción normal estándar.Demostración: Por las propiedades de la función característica, obtenemos lafunción característica de Yλ

ϕλ(t) = E¡eitYλ

¢= e−it

√λϕX

µt√λ

¶donde ϕX es la función característica de X, es decir,

ϕX(t) = exp£λ(eit − 1)¤

Por tanto,

ϕλ(t) = e−it√λϕX

µt√λ

¶= exp

h−it√λ+ λ(eit/

√λ − 1)

iSi λ tiende a infinito, podemos desarrollar eit/

√λ en serie de potencias de 1/

√λ

eit/√λ = 1 +

it√λ− t2

2λ+O

µ1

λ3/2

¶y, por tanto, obtenemos

ϕλ(t) = exph−it√λ+ λ(eit/

√λ − 1)

i= exp

·− t

2

2+O

µ1

λ1/2

¶¸y, en consecuencia, tenemos

lımn→∞ϕλ(t) = e−t

2/2

que es la función característica de la distribución normal estándar. De estemodo, por el teorema de Glivenko (ver teorema 41), deducimos que cuando λtiende a infinito, la distribución de Yλ tiende a la distribución normal estándar.

Corrección de continuidad

En las aplicaciones prácticas, para aproximar una distribución discreta, comolo son la binomial y la de Poisson, a una distribución normal estándar que esabsolutamente continua, hay que utilizar la corrección de continuidad.Como consecuencia del teorema de De Moivre-Laplace, para n grande, la

distribución binomial de parámetros n y p puede considerarse aproximadamente

Page 167: Demostraciones probabilidad

2.5. CONVERGENCIA DE SUCESIONES DE VARIABLES ALEATORIAS215

una distribución normal de parámetros µ = np y σ =pnp(1− p). Así, si X es

un variable aleatoria binomial de parámetros n y p, cuya función de distribuciónes

F (x) =

[x]Xk=0

µn

k

¶pk(1− p)n−k

Entonces, la fórmula de la aproximación con corrección de continuidad de labinomial a la normal estándar es

P (a ≤ X ≤ b) =bX

k=a

µn

k

¶pk(1− p)n−k = P (a− 0,5 ≤ X ≤ b+ 0,5)

' 1√2π

Z b0

a0e−t

2/2 dt = Φ(b0)− Φ(a0)

para cualquier pareja de enteros no negativos a y b (b > a), siendo

a0 =a− np− 0,5p

np(1− p)y b0 =

b− np+ 0,5pnp(1− p)

En general, la aproximación es suficiente si n ≥ 30 y 0,1 < p < 0,9. Si 0,1 ≥p ≥ 0,9 o n < 30, la aproximación es aceptable si np > 5. Si p ' 0,5, laproximación sigue siendo válida si np > 3, incluso para valores muy moderadosde n. Si n ≥ 30, 0,1 ≥ p ≥ 0,9 y np ≤ 5, la binomial puede aproximarse auna distribución de Poisson de parámetro λ = np por el teorema de Poisson.Finalmente, si n < 30 y np ≤ 5, la binomial debe calcularse directamente comouna binomial, utilizando las tablas.En el teorema 52 hemos demostrado que la distribución de Poisson puede

aproximarse por la distribución normal de parámetros µ = λ y σ =√λ, si

el parámetro λ es suficientemente grande. En la práctica, la aproximación seconsidera aceptable si λ > 5, mejorando a medida que aumenta λ. La fórmulade la aproximación con corrección de continuidad es

P (a ≤ X ≤ b) =bX

k=a

e−λλk

k!= P (a− 0,5 ≤ X ≤ b+ 0,5)

' 1√2π

Z b0

a0e−t

2/2 dt = Φ(b0)− Φ(a0)

para cualquier pareja de enteros no negativos a y b (b > a), siendo

a0 =a− λ− 0,5√

λy b0 =

b− λ+ 0,5√λ

Ejemplo 90 Se sabe que el 1% de los artículos importados de un determinadopaís tiene algún defecto. Si tomamos una muestra de 30 artículos, determinarla probabilidad de que tres o más de ellos tengan algún defecto.

Page 168: Demostraciones probabilidad

216 CAPÍTULO 2. VARIABLES ALEATORIAS

Solución: Es claro que el número X de artículos con algún defecto de lamuestra sigue una distribución binomial de parámetros n = 30 y p = 0,01.Luego, la probabilidad que nos piden es P (X ≥ 3). Para calcularla, podemoshacer una aproximación a la distribución de Poisson, pues p ≤ 0,1, n ≥ 30 ynp ≤ 5. En este caso, el parámetro de la distribución de Poisson es λ = np = 0,3.Por tanto,

P (X ≥ 3) = 1− P (X < 3) = 1− P (X ≤ 2) ' 1− 0,9964 = 0,0036en donde hemos utilizado las tablas de la distribución de Poisson.

Ejemplo 91 Calcular las siguientes probabilidades, directamente y por aprox-imación a la distribución normal estándar: (1) P (3 ≤ X ≤ 6), siendo X unavariable aleatoria binomial de parámetros n = 20 y p = 0,26, y (2) P (2 ≤ X ≤10), donde X es una variablea aleatoria de Poisson de parámetro λ = 6.Solución: (1) Utilizando las tablas de la distribución binomial, obtenemos

directamente

P (3 ≤ X ≤ 6) =6X

k=3

µ20

k

¶· 0,26k · 0,7420−k = 0,67697

Puesto que µ = np = 20 · 0,26 = 5,2 y σ =pnp(1− p) =

√20 · 0,26 · 0,74 =

1,96, por aproximación a la distribución normal estándar, tenemos

P (3 ≤ X ≤ 6) = P (3− 0,5 ≤ X ≤ 6 + 0,5)= P (2,5 ≤ X ≤ 6,5)' P

µ2,5− 5,21,96

≤ X − 5,21,96

≤ 6,5− 5,21,96

¶= P (−1,378 ≤ Z ≤ 0,663)= 0,66225

donde Z ∼ N(0, 1). Observamos que la aproximación es aceptable.(2) Utilizando las tablas de la distribución de Poisson, obtenemos directa-

mente

P (2 ≤ X ≤ 10) =10Xk=2

e−66k

k!= 0,94003

Puesto que µ = λ = 6 y σ =√6, por aproximación a la normal estándar,

tenemos

P (2 ≤ X ≤ 10) = P (2− 0,5 ≤ X ≤ 10 + 0,5)= P (1,5 ≤ X ≤ 10,5)' P

µ1,5− 6√

6≤ X − 6√

6≤ 10,5− 6√

6

¶= P (−1,837 ≤ Z ≤ 1,837)= 0,93375

donde Z ∼ N(0, 1). Observamos que la aproximación también es aceptable.