Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Probabilites & statistiques

quelques brefs rappels # 2

Arthur Charpentier, 2014

http ://freakonometrics.hypotheses.org/category/courses/m1-statistique

1


Plan du cours

◦ Introduction, la modelation statistique

• Rappels de probabilite

◦ Fonctions usuelles, P, F , f , E, Var

◦ Lois uselles, discetes et continues

◦ Conditionnement, esperance conditionnelle et melanges

◦ Convergence, approximations et theoremes limites

· Loi(s) des grands nombres

· Theoreme central limite

• Rappels de statistique (mathematique)

◦ De la statistique descriptive a la statistique mathematique

◦ Echantillonnage, moyenne et variance

◦ Intervalle de confiance

◦ Introduction aux tests

2


L’estimateur comme variable aleatoire

En statistique descriptive, on construit des estimateurs comme des fonctions des

valeurs de l’echantillon, {x1, · · · , xn}, e.g.

xn =x1 + · · ·+ xn

n

En statistique mathematique, on suppose que xi = Xi(ω), i.e. la realisation d’un

variable aleatoire sous-jacente

Xn =X1 + · · ·+Xn

n

X1,..., Xn etant des variables aleatoires, Xn devient une variable aleatoire.

Exemple : supposons que nous disposons d’un echantillon de n = 20 valeurs

tirees suivant une loi uniforme sur [0, 1].

3


Distribution de la moyenne d'un échantillon U([0,1])

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

050

100

150

200

250

300

0.457675

●

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).

4


Distribution de la moyenne d'un échantillon U([0,1])

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

050

100

150

200

250

300

0.567145

●● ●● ●●● ●●●● ● ●● ●●● ●●● ●●● ●● ●● ● ●● ●● ●●● ●● ● ●●● ●● ● ●● ● ●● ●●●● ● ●● ●●●● ●● ● ● ●●●●●● ●● ● ●● ●●● ● ●● ●● ● ●● ●● ● ●● ●● ●●● ●● ●●● ●● ●●●● ●●●● ●● ●●● ● ●●●● ● ● ●●● ●● ● ●● ●●●●● ●● ● ●● ●● ●●●●●● ● ●● ●●● ● ●● ● ●● ●●●●● ● ●●●●● ●●● ● ● ●●● ●●●●● ●●● ●● ● ●●● ●● ●●● ● ●●● ●● ●● ●● ●●● ●● ●● ●●●●● ●●●●● ●●● ●●●● ●● ● ● ●●●● ●●● ●●●● ●● ●●●● ● ●● ●●●●● ●●●● ●● ●●● ●● ●● ●● ● ● ● ●●● ● ●●● ● ●●● ● ●● ●●● ● ●●●● ●● ●● ●●● ●● ● ●● ●●● ● ● ●●● ●●● ●●● ●●● ●●● ●● ●●● ●● ●● ● ●● ●● ● ●●● ●●● ●● ● ●●● ● ●● ●●● ●● ●● ●●● ●● ●●●●●●● ●● ● ●●● ●●●●● ● ● ●●● ●● ●● ●●●● ●● ●●● ●● ●● ●● ●●●● ●●●●●●●● ●●●● ●●● ●● ●●● ●●● ●● ●●●● ●● ●● ● ●● ●● ●●● ●●● ●●●●● ●● ●● ●● ●● ● ●● ● ●●● ●●● ●● ●● ●● ●●● ● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ●● ●● ●●● ● ●● ●● ●●●● ●●●●● ● ●●● ●●●●● ●●●● ●●●● ●● ●● ● ● ●● ●● ●● ●● ●● ● ●●● ● ●● ●● ● ●● ●● ● ● ●●●●●●●●● ●●●● ●●● ● ●●● ●● ●● ●● ●● ●● ●●● ● ●●● ●● ● ●●●● ● ●● ● ●●● ●● ●● ●● ●●●●● ●● ●● ●● ● ●● ● ● ●●● ●● ● ●● ●●● ●●●● ●● ●● ●● ● ●●●● ●● ●● ●● ●●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●●● ●●● ●● ● ●●●●● ●●● ●●● ●● ● ●●● ●● ●●● ● ●●●● ●● ●● ●●●● ●● ● ●●● ●● ●●● ●● ●● ●●●● ●●● ● ●●●● ●● ●●●● ● ●●● ● ●●● ●● ●● ● ●● ● ●●● ●● ●●● ●●● ●●● ● ●●●●● ● ●● ● ●●● ●●● ●● ●●●● ● ● ●● ●● ●●● ●● ●●● ●●●● ●●● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ● ●●●●● ●● ● ●● ●●● ● ●●● ●●● ●●●● ●●● ●●●●● ●●● ●● ● ●●● ●●● ● ●●● ● ●●●● ●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●● ● ●● ●● ●●● ● ●●● ●● ●● ● ●●● ●● ● ● ●●●● ● ● ●● ● ●●

0.0 0.2 0.4 0.6 0.8 1.0

Figure 2 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).

5


L’estimateur comme variable aleatoire

Si l’echantillon change, l’estimateur n’est pas le meme.

Constituons 1000 echantillons de maniere aleatoire. En moyenne, l’estimateur

vaut 1/2. Aussi, la moyenne empirique est un estimateur sans biais de 1/2,

l’esperance mathematique de la loi uniforme sur [0, 1].

Cet estimateur a une variance, et aussi une loi (en l’occurence une densite). Ici,

la moyenne empirique suit (presque) une loi normale.

On distingera toutefois les comportements a distance finie (n fixe) et

asymptotique (theoremes limites - loi des grands nombres et theoreme central

limite - obtenus lorsque n→∞).

6


Petites proprietes preliminaires

Soit x = (x1, · · · , xn) ∈ Rn. Posons x =x1 + · · ·+ xn

n. Alors,

minm∈R

{n∑i=1

[xi −m]2

}=

n∑i=1

[xi − x]2

etn∑i=1

[xi − x]2 =n∑i=1

x2i − nx2

7


La moyenne (empirique)

Definition 1. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La moyenne

empirique est

Xn =X1 + · · ·+Xn

n=

1

n

n∑i=1

Xi

Si on suppose les Xi d’esperance finie (notee µ), alors

E(Xn) = E

(1

n

n∑i=1

Xi

)∗=

1

n

n∑i=1

E (Xi) =1

nnµ = µ

∗ par linearite de l’esperance

Proposition 2. Si on suppose les Xi d’esperance finie (notee µ),

E(Xn) = µ.

La moyenne est un estimateur sans biais de l’esperance mathematique.

8


La moyenne (empirique)

Si on suppose les Xi independants de variance finie (notee σ2), alors

Var(Xn) = Var

(1

n

n∑i=1

Xi

)∗=

1

n2

n∑i=1

Var (Xi) =1

n2nσ2 =

σ2

n

∗ car les variables sont independantes, et car la variance est quadratique.

Proposition 3. Si on suppose les Xi i.i.d. de variance finie (notee σ2),

Var(Xn) =σ2

n.

9


La variance (empirique)

Definition 4. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La variance

empirique est

S2n =

1

n− 1

n∑i=1

[Xi −Xn]2.

Si on suppose les Xi de variance finie (notee σ2),

E(S2n) = E

(1

n− 1

n∑i=1

[Xi −Xn]2

)∗= E

(1

n− 1

[n∑i=1

X2i − nX

2

n

])

∗ par la propriete preliminaire enoncee auparavant

E(S2n) =

1

n− 1[nE(X2

i )− nE(X2)]∗=

1

n− 1

[n(σ2 + µ2)− n

(σ2

n+ µ2

)]= σ2

∗ car Var(X) = E(X2)− E(X)2

10


La variance (empirique)

Proposition 5. Si on suppose les Xi independants de variance finie (notee σ2),

E(S2n) = σ2.

La variance (empirique) est un estimateur sans biais de la variance.

Remarque Pour avoir un estimateur sans biais, on considere comme estimateur

S2n, avec un facteur n− 1, et non pas

S2n =

1

n

n∑i=1

[Xi −Xn]2

(qui reste un estimateur classique).

11


Cas d’un echantillon Gaussien

Proposition 6. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors

• Xn et S2n sont des variables aleatoires independantes,

• Xn a pour loi N(µ,σ2

n

)• (n− 1)S2

n/σ2 a pour loi χ2(n− 1).

Remarque Pour comprendre l’histoire du n− 1 degres de libertes pour une

somme de n termes, notons que

S2n =

1

n− 1

[n∑i=1

(Xi −Xn)2

]=

1

n− 1

[(X1 −Xn)2 +

n∑i=2

(Xi −Xn)2

]

soit S2n =

1

n− 1

( n∑i=2

(Xi −Xn)

)2

+n∑i=2

(Xi −Xn)2

car

n∑i=1

(Xi −Xn) = 0. Aussi S2n est fonction de n− 1 variables (centrees),

X2 −Xn, · · · , Xn −Xn

12


Cas d’un echantillon Gaussien

Proposition 7. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors

•√nXn − µ

σsuit une loi N (0, 1)

•√nXn − µSn

suit une loi de Student a n− 1 degres de liberte

En effet,

√nXn − µS

=√nXn − µ

σ︸︷︷︸N (0,1)

/

√(n− 1)S2

n

σ2︸︷︷︸χ2(n−1)

×√n− 1

13


Proprietes asymptotiques

Proposition 8. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie). Alors pour tout ε > 0,

limn→∞

P(|Xn − µ| > ε) = 0

i.e. XnP→ µ (convergence en probabilite).


variance σ2 (finie). Alors pour tout ε > 0,

limn→∞

P(|S2n − σ2| > ε) ≤ Var(S2

n)

ε2

i.e. une condition suffisante pour que S2n

P→ σ2 (convergence en probabilite) est

que Var(S2n)→ 0 lorsque n→∞.

14


Proprietes asymptotiques


variance σ2 (finie). Alors pour tout z ∈ R,

limn→∞

P(√

nXn − µ

σ≤ z)

=

∫ z

−∞

1√2π

exp

(− t

2

2

)dt

i.e.√nXn − µ

σ

L→ N (0, 1).

Remarque Si les Xi ont pour loi N (µ, σ2), alors

√nXn − µ

σ∼ N (0, 1).

15


Estimation de la variance

Considerons un echantillon Gaussien, alors

Var

((n− 1)S2

n

σ2

)= Var(Z) avec Z ∼ χ2

n−1

donc cette quantite vaut

(n− 1)2

σ4Var(S2

n) = 2(n− 1)

de telle sorte que

Var(S2n) =

2(n− 1)σ4

(n− 1)2=

2σ4

(n− 1).

16


Estimation de l’ecart-type et de la variance

Considerons le cas ou Xi ∼ N (µ, σ2). Un estimateur naturel de σ est

Sn =√S2n =

√√√√ 1

n− 1

n∑i=1

(Xi −Xn)2

On peut alors montrer que

E(Sn) =

√2

n− 1

Γ(n/2)

Γ([n− 1]/2)σ ∼

(1− 1

4n− 7

32n2

)σ 6= σ

mais

SnP→ σ et

√n(Sn − σ)

L→ N(

0,σ

2

)

17


Estimation de l’ecart-type et de la variance

0 50 100 150

0.93

0.95

0.97

0.99

Taille de l'échantillon (n)

Bia

is (

mul

tiplic

atif)

Figure 3 – Biais lors de l’estimation de l’ecart-type.

18


Echantillon transforme

Soit g : R→ R suffisemment reguliere pour ecrire un developpement de Taylor en

tout point,

g(x) = g(x0) + g′(x0) · [x− x0] + un reste

Soit Yi = g(Xi). Alors, si E(Xi) = µ avec g′(µ) 6= 0

Yi = g(Xi) ≈ g(µ) + g′(µ) · [Xi − µ]

de telle sorte que

E(Yi) = E(g(Xi)) ≈ g(µ)

et

Var(Yi) = Var(g(Xi)) ≈ [g′(µ)]2Var(Xi)

Remarque Il ne s’agit que d’approximations.

19



La delta-method permet d’obtenir des proprietes asymptotiques.


variance σ2 (finie), alors

√n(Xn − µ)

L→ N (0, σ2)

Et si g′(µ) 6= 0, alors

√n(g(Xn)− g(µ))

L→ N (0, [g′(µ)]2σ2)


variance σ2 (finie), et si g′(µ) = 0 mais g′′(µ) 6= 0, alors

√n(g(Xn)− g(µ))

L→ g′′(µ)

2σ2χ2(1)

20



Example Si µ 6= 0,√n

(1

Xn

− 1

µ

)L→ N

(0,

1

µ4σ2

)

21


Intervalle de confiance pour µ

Quand on parlera de l’intervalle de confiance de µ a un niveau de confiance 1− α(e.g. 95%), il s’agira du plus petit intervallle I tel que

P(µ ∈ I) = 1− α.

Notons uα le quantile de la loi N (0, 1) au niveau α, i.e.

uα/2 = −u1−α/2 verifie Φ(uα/2) = α/2

Comme Z =√nXn − µ

σ∼ N (0, 1),

on peut en deduire que P(Z ∈ [uα/2, u1−α/2]) = 1− α,

et donc

P(µ ∈

[X +

uα/2√nσ,X +

u1−α/2√n

σ

])= 1− α.

22


Intervalle de confiance, moyenne d’un echantillon normal

• si α = 10%, u1−α/2 = 1.64 et donc, avec une probabilite de 90%,

X − 1.64√nσ ≤ µ ≤ X +

1.64√nσ,

• si α = 5%, u1−α/2 = 1.96 et donc, avec une probabilite de 95%,

X − 1.96√nσ ≤ µ ≤ X +

1.96√nσ,

23



Si la variance est inconnue, on l’estime par S2n =

1

n− 1

(n∑i=1

X2i

)−X2

n.

On a vu que

(n− 1)S2n

σ2=

n∑i=1

Xi − E(X)

σ︸︷︷︸N (0,1)

2

︸︷︷︸loi du χ2(n)

−

Xn − E(X)

σ/√n︸︷︷︸

N (0,1)

2

︸︷︷︸loi du χ2(1)

Le theoreme de Cochrane permet de conclure que(n− 1)S2

n

σ2∼ χ2(n− 1).

24



Comme Xn et S2n sont independantes,

T =√n− 1

Xn − µSn

=

Xn−µσ/√n−1√

(n−1)S2n

(n−1)σ2

∼ St(n− 1).

Si t(n−1)α/2 designe le quantile de la loi St(n− 1) au niveau α/2, i.e.

t(n)α/2 = −t(n−1)1−α/2 verifie P(T ≤ t(n−1)α/2 ) = α/2

on peut en deduire que P(T ∈ [t(n−1)α/2 , t

(n−1)1−α/2]) = 1− α, et donc

P

µ ∈X +

t(n−1)α/2√n− 1

σ,X +t(n−1)1−α/2√n− 1

σ

= 1− α.

25



• si n = 10 et α = 10%, u1−α/2 = 1.833 et donc, avec une probabilite de 90%,

X − 1.833√nσ ≤ µ ≤ X +

1.833√nσ,

• si n = 10 et si α = 5%, u1−α/2 = 2.262 et donc, avec une probabilite de 95%,

X − 2.262√nσ ≤ µ ≤ X +

2.262√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%

Figure 4 – Quantiles pour n = 10, σ connue ou inconnue.

26




X − 1.729√nσ ≤ µ ≤ X +

1.729√nσ,


X − 2.093√nσ ≤ µ ≤ X +

2.093√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%


27




X − 1.660√nσ ≤ µ ≤ X +

1.660√nσ,


X − 1.984√nσ ≤ µ ≤ X +

1.984√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%


28


La lecture des tables

Fonction de repartition de la loi normale X ∼ N (0, 1),

P(X ≤ u) = Φ(u) =

∫ u

−∞

1√2πe−y

2/2dy

Example P(X ≤ 1, 96) = 0, 975.

29


Interpretation d’un intervalle de confiance

Si on genere des echantillons i.i.d. suivant une loi N (µ, σ2), avec µ et σ2 fixes, il y

a 90 chances sur 100 que µ soit dans un des intervalles suivants[X +

uα/2√nσ,X +

u1−α/2√n

σ

]

●

●

●

●

●●●

●

●

●

●

●

●●●

●●●●

●●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●●●●

●

●●

●●

●●

●

●●

●

●

●

●●

●●●

●

●

●

●●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●●

●●

●

●

●

●●●

●

●

●●●

●

●●

●

●

●

●

●

●

●●

●

●

●●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●●

●

●

●●●●

●

●

●

●●

●●

●

0 50 100 150 200

−1.0

−0.5

0.00.5

1.0

interv

alle de

confi

ance

Figure 7 – Intervalle de confiance pour µ, avec σ2 connue.

30


Interpretation d’un intervalle de confiance

ou X +t(n−1)α/2√n− 1

σ,X +t(n−1)1−α/2√n− 1

σ

●

●

●

●

●●●

●

●

●

●

●

●●●

●●●●

●●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●●●●

●

●●

●●

●●

●

●●

●

●

●

●●

●●●

●

●

●

●●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●●

●●

●

●

●

●●●

●

●

●●●

●

●●

●

●

●

●

●

●

●●

●

●

●●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●●

●

●

●●●●

●

●

●

●●

●●

●

0 50 100 150 200

−1.0

−0.5

0.00.5

1.0

interv

alle de

confi

ance

Figure 8 – Intervalle de confiance pour µ, avec σ2 estimee.

31


Un peu de tests

Le lien entre la decision est la vraie valeur peut etre represente par le tableau

ci-dessous

H0 vraie H1 vraie

Decision d0 Bonne decision erreur de seconde espece

Decision d1 erreur de premiere espece Bonne decision

32


Resumons les principaux tests usuels

Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0

H0 : µ6=µ0

La statistique de test est

T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ St(n− 1).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

33


Comparaison de moyennes de deux echantillons

Considerons un test d’egalite de moyenne sur deux echantillons.

On dispose de deux echantillons, {x1, · · · , xn} et {y1, · · · , ym}. On souhaite tester H0 : µX = µY

H0 : µX 6=µY

On rajoute une hypothese, X ∼ N (µX , σ2X) et Y ∼ N (µY , σ

2Y ), i.e.

X ∼ N(µX ,

σ2X

n

)et Y ∼ N

(µY ,

σ2Y

m

)

34



−1 0 1 2

0.0

0.5

1.0

1.5

2.0

●●● ● ● ●● ●●● ●●● ●●

35



Par independance entre X et Y , notons que ∆ = X − Y suit une loi normale,

E(∆) = µX − µY et V ar(∆) =σ2X

n+σ2Y

m

Donc sous H0, µX − µY = 0 et donc

D ∼ N(

0,σ2X

n+σ2Y

m

),

i.e. ∆ =X − Y√σ2X

n+σ2Y

m

∼ N (0, 1).

36



Probleme σX et σY sont inconnus : on les remplace par des estimateurs σX et

σY ,

i.e. ∆ =X − Y√σ2X

n+σ2Y

m

∼ St(ν),

ou ν est une fonction (compliquee) de n1 et n2.

On se donne un seuil d’acceptation α ∈ [0, 1] (e.g. 10%), on accepte H0 si tα/2 ≤ δ ≤ t1−α/2on accepte H0 si δ < tα/2 ou δ > t1−α/2

37


−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●●● ● ● ●● ●●● ●●● ●●

ACCEPTATIONREJET REJET

38


On peut se demander la probabilite p d’obtenir une valueur au moins aussi

grande que δ si H0 est vraie,

p = P(|Z| > |δ||H0 vraie) = P(|Z| > |δ||Z ∼ St(ν)).

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●●● ● ● ●● ●●● ●●● ●●

34.252 %

39


Sous R, t.test(x, y, alternative = c("two.sided", "less", "greater"), mu = 0,

var.equal = FALSE, conf.level = 0.95) permet de tester si les moyennes de deux

chantillons x et y sont egales (mu=0), contre H1 : µX 6= µY ("two.sided").

−2 −1 0 1 2

0.0

0.5

1.0

1.5

2.0

●● ●● ● ●●● ●● ●● ● ●● ●●

40


−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●● ●● ● ●●● ●● ●● ● ●● ●●

ACCEPTATIONREJET REJET

41


−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●● ●● ● ●●● ●● ●● ● ●● ●●

2.19 %

42




H0 : µ≥µ0


T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,


−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

43




H0 : µ≤µ0


T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,


−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

44



Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20

H0 : σ2 6=σ20


T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ χ2(n− 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

45




H0 : σ2≥σ20


T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,


0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

46




H0 : σ2≤σ20


T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,


0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

47



Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2

H0 : µ1 6=µ2


T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,

qui verifie, sous H0, T ∼ St(n1 + n2 − 2).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

48




H0 : µ1≥µ2


T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,


−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

49




H0 : µ1≤µ2


T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,


−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

50



Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2

2

H0 : σ21 6=σ2

2


T =s21s22, si s21 > s22,

qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

51




2

H0 : σ21≥σ2

2


T =s21s22, si s21 > s22,


0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

52




2

H0 : σ21≤σ2

2


T =s21s22, si s21 > s22,


0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

53


Modele parametrique

On dispose d’un echantillon {x1, · · · , xn}, de n observations independantes.

On suppose que les xi sont des realisations d’une variable aleatoire X dont la loi

F est inconnue. Le but est de determiner F .

En statistique parametrique, on suppose que F appartient necessairement a une

famille caracterisee par un parametre θ ∈ Θ.

• X suit une loi de Bernoulli, X ∼ B(p), θ = p ∈ (0, 1),

• X suit une loi de Poisson, X ∼ P(λ), θ = λ ∈ R+,

• X suit une loi normale, X ∼ N (µ, σ), θ = (µ, σ) ∈ R× R+,

On cherche donc une valeur de θ, notee θ0, inconnue, telle que l’on supposera

que X suit une loi Fθ0.

Remarque On supposera souvent que Θ est un ouvert, il est delicat d’estimer

sur les bords.

54


Exemple : jeu de pile ou face

On dispose d’un echantillon

{pile,pile, face,pile, face,pile, face, face,pile, face, pile, face}

que l’on interpretera en posant

X =

1 si pile

0 si face.

On dispose de l’echantillon

{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}

On peut supposer ici que X suite une loi binomiale, X ∼ B(p), de parametre p

inconnu (mais que l’on va chercher a estimer).

55


Inference statistique

Quelle est la vraie valeur de p, que l’on ne connaıt pas ?

• Quelle est la valeur de p la plus vraisemblable ?

Sur n lancers, la probabilite d’obtenir precisement l’echantillon {x1, · · · , xn} est

P(X1 = x1, · · · , Xn = xn),

ou X1, · · · , Xn sont n versions independentes de X, supposees suivre la loi B(p).

Aussi,

P(X1 = x1, · · · , Xn = xn) =n∏i=1

P(Xi = xi) =n∏i=1

pxi × (1− p)1−xi ,

car pxi × (1− p)1−xi =

p si xi vaut 1

1− p si xi vaut 0

56



Aussi,

P(X1 = x1, · · · , Xn = xn) = p∑n

i=1 xi × (1− p)∑n

i=1 1−xi .

Cette fonction, qui depend de p mais aussi de {x1, · · · , xn} est appelee

vraisemblance de l’echantillon, et sera notee L (likelihood),

L(p;x1, · · · , xn) = p∑n

i=1 xi × (1− p)∑n

i=1 1−xi .

Ici, nous avons obtenu 5 valeurs de 1 et 6 fois 0. On en deduit les vraisemblances

suivante en fonction de l’echantillon.

57


Valeur de p L(p;x1, · · · , xn)

0.1 5.314410e-06

0.2 8.388608e-05

0.3 2.858871e-04

0.4 4.777574e-04

0.5 4.882812e-04

0.6 3.185050e-04

0.7 1.225230e-04

0.8 2.097152e-05

0.9 5.904900e-07

0.0 0.2 0.4 0.6 0.8 1.0

0e

+0

01

e−

04

2e

−0

43

e−

04

4e

−0

45

e−

04

Probabilité p

Vra

ise

mb

lan

ce

L

●

●

●

● ●

●

●

●●

La valeur la plus vraisemblance pour p est obtenue au maximum de la

vraisemblance, i.e. 0.4545.

58



• Peut-on utiliser la moyenne empirique ?

Rappelons que l’on dispose de l’echantillon

{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}

Rappelons que pour une loi binomiale, E(X) = p. Aussi, il pourrait etre legitime

de considerer comme estimateur de p la version empirique de E(X), i.e. x.

Un estimateur naturel de p serait donc x 5/11 = 0.4545.

59


Le maximum de vraisemblance

Formellement, si fθ designe la vraie loi (inconnue) de X,

• la densite de X si X est continue, i.e. fθ(x) =dF (x)

dx= F ′(x),

• la loi de probabilite de X si X n’est pas continue, i.e. fθ(x) = P(X = x),

La vraisemblance s’ecrit, comme les Xi sont i.i.d.

L(θ;x1, · · · , xn) = P(X1 = x1, · · · , Xn = xn) =n∏i=1

fθ(xi)

Un estimateur naturel pour θ est obtenu au maximum de la vraisemblance,

θ ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.

Petite remarque pratique : pour toute fonction croissante h,

θ ∈ argmax{h (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.

60



0 1 2 3 4 5

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

Figure 9 – Invariance de la position du maximum par transformation croissante.

61



Prenons le cas particulier de la fonction h = log

θ ∈ argmax{log (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.

i.e. on cherche le maximum de la log-vraisemblance, qui s’ecrit simplement

logL(θ;x1, · · · , xn) =n∑i=1

log fθ(xi)

et pour chercher le maximum, la condition du 1er ordre impose de calculer des

derivees (et la derivee d’une somme est plus simple a calculer que la probabilite

d’un produit), si θL(θ;x) est derivable.

62


0.0 0.2 0.4 0.6 0.8 1.0

0e

+0

01

e−

04

2e

−0

43

e−

04

4e

−0

45

e−

04

Probabilité p

Vra

ise

mb

lan

ce

L

●

●

●

● ●

●

●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−3

0−

25

−2

0−

15

−1

0

Probabilité pL

og

vra

ise

mb

lan

ce

L

●

●● ● ● ●

●

●

●

Figure 10 – Fonction de vraisemblance et de log-vraisemblance.

63



Les quations de vraisemblance sont alors

• condition du premier ordre

si θ ∈ Rk,∂ log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

= 0

si θ ∈ R,∂ log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

= 0

• condition du second ordre

si θ ∈ Rk,∂2 log (L(θ;x1, · · · , xn))

∂θ∂θ′

∣∣∣∣θ=θ

est definie negative

si θ ∈ R,∂2 log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

< 0

La fonction∂ log (L(θ;x1, · · · , xn))

∂θest appele fonction score : au maximum de

vraisemblance, le score est nul.

64


La notion d’information de Fisher

Un estimateur θ de θ sera dit exhaustif s’il fournit autant d’information sur θ que

l’ensemble des observations {x1, · · · , xn}.

L’information de Fisher associee a une densite fθ, θR est

I(θ) = E(d

dθlog fθ(X)

)2

ou X a pour loi fθ,

I(θ) = V ar

(d

dθlog fθ(X)

)= −E

(d2

dθ2log fθ(X)

).

Notons que l’information de Fisher est simplement la variance du score.

Pour parle aussi d’information de Fisher pour un observation unique. Dans le cas

d’un echantillon X1, · · · , Xn de densite fθ, l’information est In(θ) = n · I(θ).

65


Notions d’efficacite et d’optimalite

Si θ est une estimateur sans biais de θ, alors V ar(θ) ≥ 1

nI(θ). Un estimateur qui

atteint cette borne sera dit efficace.

Mais la borne n’est pas toujours atteignable.

Un estimateur θ sans biais sera dit optimal s’il est de variance minimale parmi

tous les estimateurs sans biais.

La notion d’information de Fisher en dimension plus grande

L’information de Fisher est la matrice k × k I = [Ii,j ] ou

Ii,j = E(∂

∂θiln fθ(X)

∂

∂θjln fθ(X)

).

66


Exemple de calcul d’information de Fisher

Soit X suivant une loi P(θ),

log fθ(x) = −θ + x log θ − log(x!) etd2

dθ2log fθ(x) = − x

θ2

I(θ) = −E(d2

dθ2log fθ(X)

)= −E

(−Xθ2

)=

1

θ

Pour une loi B(n, θ), I(θ) =n

θ(1− θ)

Pour une loi BN (θ, σ2), I(θ) =1

σ2

Pour une loi BN (µ, θ), I(θ) =1

2θ2

67



Definition 13. Soit {x1, · · · , xn} un echantillon de loi fθ, ou θ ∈ Θ. On appelle

estimateur du maximum de vraisemblance θn de θ

θn ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.

Proposition 14. Sous quelques conditions techniques, θn converge presque

surement vers θ, θnp.s.→ θ.

Proposition 15. Sous quelques conditions techniques, θn est un estimateur

asymptotiquement efficace de θ,

√n(θn − θ)

L→ N (0, I−1(θ)).

L’estimateur du maximum de vraisemblance n’a aucune raison d’etre sans biais.

68


Le maximum de vraisemblance, cas N (µ, σ2)

Soit {x1, · · · , xn} un echantillon independant, distribue suivant la loi N (µ, σ2),

de densite

f(x | µ, σ2) =1√

2π σexp

(− (x− µ)2

2σ2

).

La vraisemblance est alors

f(x1, . . . , xn | µ, σ2) =n∏i=1

f(xi | µ, σ2) =

(1

2πσ2

)n/2exp

(−∑ni=1(xi − µ)2

2σ2

),

ou encore

f(x1, . . . , xn | µ, σ2) =

(1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

).

69


Le maximum de vraisemblance, cas N (µ, σ2)

Le maximum de vraisemblance en µ est obtenu a l’aide de la condition du

premier ordre,

∂

∂µlog

((1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

))

=∂

∂µ

(log

(1

2πσ2

)n/2−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

)

= 0− −2n(x− µ)

2σ2= 0.

qui donne µ = x =∑ni=1 xi/n.

70


La seconde condition du premier ordre s’ecrit

∂

∂σlog

((1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

))

=∂

∂σ

(n

2log

(1

2πσ2

)−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

)= −n

σ+

∑ni=1(xi − x)2 + n(x− µ)2

σ3= 0.

Le maximum est alors obtenu pour σ2 =∑ni=1(xi − µ)2/n.

Par substitution de µ, on peut ecrire

σ2 =1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

x2i −1

n2

n∑i=1

n∑j=1

xixj .

On peut noter facilement que E [µ] = µ, mais aussi E[σ2]

=n− 1

nσ2.

71


Le maximum de vraisemblance, cas uniforme sur [0, θ]

La densite des Xi est ici fθ(x) =1

θ1(0 ≤ x ≤ θ).

La vraisemblance s’ecrit alors

L(θ;x1, · · · , xn) =1

θn

n∏i=1

1(0 ≤ xi ≤ θ) =1

θn1(0 ≤ inf{xi} ≤ sup{xi} ≤ θ).

Cette fonction n’est pas derivable en θ, mais on note que L est maximale pour θ

le plus petit possible, i.e. θ = sup{xi}.

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.000

0.001

0.002

0.003

0.004

72



Notons que l’estimateur du maximum de vraisemblance n’est par necessairement

unique.

Supposons que {x1, · · · , xn} soient uniforment distribuees sur [θ, θ + 1]. Si

θ− = sup{xi} − 1 < inf{xi} = θ+

Alors tout estimateur θ ∈ [θ−, θ+] est un estimateur du maximum de

vraisemblance de θ.

Enfin l’estimateur du maximum de vraisemblance n’est pas forcement sans biais.

Dans le cas de la loi exponentielle θ = 1/x. En utilisant des proprietes de la loi

inverse-gamma, onm peut montrer que

E(θ) =n

n− 1θ > θ.

73


Le maximum de vraisemblance, aspects numeriques

Pour les lois usuelles, sous R, library(MASS) permet de calculer le maximum de

vraisemblance pour les lois usuelles, e.g. fitdistr(x.norm,"normal") pour estimer les

parametres d’une loi normale pour un echantillon x.

Si on souhaite utiliser des methodes numeriques sous R, LV <-

function(theta){-sum(log(dexp(x,theta)))} puis optim(2,LV) permet de calculer

numeriquement le maximum de la fonction de log-vraisemblance.

Parfois, obtenir le maximum de la vraisemblance peut etre difficile, ou impossible.

On peut alors utiliser des methodes de type Newton-Rahpson ou la methode du

score pour approcher numeriquement le maximum.

Soit S(x, θ) =∂

∂θlog f(x, θ) la fonction score. On pose

Sn(θ) =n∑i=1

S(Xi, θ).

74


En faisant un developpement de Taylor, de Sn au voisinage de θ0,

Sn(x) = Sn(θ0) + (x− θ0)S′n(y) pour y ∈ [x, θ0]

En x = θn,

Sn(θn) = 0 = +(θn − θ0)S′n(y) pour y ∈ [θ0, θn]

Aussi, θn = θ0 −Sn(θ0)

S′n(y)pour y ∈ [θ0, θn]

75


Le maximum de vraisemblance, aspects numeriques

Construisons la suite (Newton-Raphson)

θ(i+1)n = θ(i)n −

Sn(θ(i)n )

S′n(θ(i)n )

,

a partir d’une valeur initiale θ(0)n bien choisie.

Construisons la suite (methode du score)

θ(i+1)n = θ(i)n −

Sn(θ(i)n )

nI(θ(i)n )

,

a partir d’une valeur initiale θ(0)n bien choisie.

76


La methode des moments

La methode des moments est la methode la plus simple et la plus intuitive pour

estimer un parametre θ. Si E(X) = g(θ), on cherche θ tel que x = g(θ).

Exemple Dans le cas d’une loi exponentielle sur E(θ), P(X ≤ x) = 1− e−θx,

E(X) = 1/θ, donc θ = 1/x.

Exemple Dans le cas d’une loi uniforme sur [0, θ], E(X) = θ/2, donc θ = 2x.

Si θ ∈ R2, on utilise egalement soit V ar(X), soit E(X2).

77


Comparer des estimateurs

Parmi les proprietes usuelles des estimateurs,

• sans biais, E(θn) = θ,

• convergent, θnP→ θ, quand n→∞

• asymptotiquement normal,√n(θ − θ) L→ N (0, σ2) quand n→∞,

• efficace

• optimal

Soient T1 et T2 deux estimateurs sans biais, alors T1 sera dit plus efficace que T2

s’il est de variance plus faible.

Pour comparer deux estimateurs sans biais, on compare souvent leur variance. Le

meilleur estimateur aura la variance la plus faible.

78


Comparer des estimateurs, biais vs. variance

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

Figure 11 – Choisir un estimateur, θ1 versus θ2.

79


Comparer des estimateurs, biais vs. variance

• θ1 estime avec biais θ (E(θ1) 6= E(θ)),

• θ2 estime sans biais θ (E(θ2) = E(θ)),

• V ar(θ1) ≤ V ar(θ2).

L’estimateur θ1 peut etre interessant des lors que l’on peut estimer correctement

le biais. Mais

• le biais est souvent une fonction de θ (qui est inconnu),

• le biais est souvent une fonction compliquee de θ.

80

Documents

Rappels stats-2014-part2