Upload
dangnga
View
219
Download
2
Embed Size (px)
Citation preview
Quelques elements de la theorie del’echantillonnage
Jean-Jacques Daudin
AgroParisTech
2009
1
Definitions
– Population : ensemble des unites sur lesquelles porte l’etude
– Echantillon : sous-ensemble d’unites de population
– Base de sondage : liste des unites de la population
– Taux de sondage : rapport entre la taille de l’echantillon et la
taille de la population
2
Echantillonnage aleatoire simple
Notations
Y : variable (ou caractere) etudiee
n : nombre d’unites dans l’echantillon (taille de l’echantillon)
N : nombre d’unites dans la population (taille de la population)
Taux de sondage : f = nN
3
uα : unite de population (α = 1, N)uαi : unite de l’echantillon (i = 1, n)yα : valeur de Y mesuree sur l’unite uα
Y =1
n
n∑i=1
yαi
S2 =1
n− 1
n∑i=1
(yαi − Y )2
µ =1
N
N∑α=1
yα
σ∗2 =1
N − 1
N∑α=1
(yα − µ)2
4
Echantillon aleatoire simple
echantillon obtenu par une methode qui assure a chaque echantillon
possible la meme probabilite d’etre selectionne.
CnN echantillons possibles (tirage sans remise)
La probabilite d’obtenir l’un quelconque d’entre eux est egale
a 1CnN
.
Chaque unite a la meme probabilite d’appartenir a l’echantillon
P (uα ∈ echantillon) = nN
5
Exemple
Population : a, b, c, d
N=4
Valeurs de Y : ya = 1 yb = 2 yc = 3 yd = 4
µ = 2.5
σ∗2 = 13(1.52 + 0.52 + 0.52 + 1.52) = 5
3
Echantillonnage aleatoire simple avec n=2
6 echantillons possibles :
(a,b) (a,c) (a,d) (b,c) (b,d) (c,d)
6
Proprietes
1. E(Y ) = µ
l’esperance E est prise sur tous les echantillons possibles (et
equiprobables)
2. V (Y ) = σ∗2n (1− f)
ou V (Y ) est la variance des moyennes des echantillons pos-
sibles
1− f : facteur de correction pour population finie
On ne connait pas σ∗2 : on l’estime par S2
3. La loi de Zn =√n(Y − µ) tend vers une loi normale centree
quand n tend vers l’infini.
7
Exemple (suite)
echantillon Y erreur d’echantillonnage(a,b) 1.5 -1(a,c) 2 -0.5(a,d) 2.5 0(b,c) 2.5 0(b,d) 3 0.5(c,d) 3.5 1
Moyenne 2.5 0
Variance 512
2.56
E(Y ) = µ = 2.5
V (Y ) = σ∗2n (1− f) =
532(1− 1
2) = 512
8
Estimation d’une proportion
On veut connaitre la proportion des unites de la population quipossedent une caracteristique
La variable etudiee prend 2 valeurs : yα=1 si l’unite uα possedela caracteristique et 0 sinon.
π (resp. P ) : proportion d’unites de la population (resp. del’echantillon) qui possedent la caracteristique
P = Y et S2 = nn−1P (1− P )
π = µ et σ∗2 = NN−1π(1− π)
Les proprietes enoncees pour l’estimation d’une moyenne res-tent vraies pour une proportion.
9
Echantillonnage stratifie
Partition de la population en H strates
Nh : taille de la strate h,
N =∑Hh=1Nh et Wh = Nh
N
Echantillonnage stratifie : on prend un echantillon aleatoire
simple dans chaque strate.
nh : taille de l’echantillon dans la strate h,
n =∑Hh=1 nh et fh = nh
Nh
fh = f , echantillon stratifie proportionnel
10
µh : moyenne de Y dans la strate h
σ∗2h : variance de Y dans la strate h
Yh : moyenne de Y dans l’echantillon issu de la strate h
S2h : variance de Y dans l’echantillon issu de la strate h
Pour estimer µ on utilise Yst =∑Hh=1WhYh
V (Yst) =∑Hh=1W
2hV (Yh) et V (Yh) =
σ∗2hnh
(1− fh)
A taille d’echantillon total egale, Yst est plus precis que
Y .
Il est d’autant plus precis que les strates ont des moyennes
differentes.
11
Exemple
Population : a, b, c, d N = 4
Valeurs de Y : ya = 1 yb = 2 yc = 3 yd = 4
2 strates : strate 1 : a, b ; strate 2 : c,d
N1 = N2 = 2, σ∗21 = σ∗22 = 0.5
W1 = W2 = 12, µ = 2.5
Echantillon stratifie proportionnel : n1 = n2 = 1 et n =2
4 echantillons possibles : (a,c) (a,d) (b,c) (b,d)
12
echantillon Y erreur d’echantillonnage(a,c) 2 -0.5(a,d) 2.5 0(b,c) 2.5 0(b,d) 3 0.5
moyenne 2.5 0
variance 0.54
0.54
E(Y ) = µ = 2.5
V (Yst) = W21σ∗21
n1(1− f1) +W2
2σ∗22
n2(1− f2)
V (Yst) =1
4(0.5)(1−
1
2) +
1
4(0.5)(1−
1
2) =
0.5
4V (Yst)V (Y )
= 0.3 et σ(Yst)σ(Y )
= 0.58
13
Echantillonnage a deux degres
Partition de la population en M unites primaires (UP)
Chaque UP est constituee d’unites de population : les unites
secondaires (US).
Echantillonnage a deux degres :
on preleve selon un echantillonnage aleatoire simple m UP
parmi les M, puis on preleve des US parmi les UP selectionnees.
14
Ni : taille de l’unite primaire i, N =∑Mi=1Ni, Wi = Ni
N
ni : taille de l’echantillon dans l’UP i, n =∑mi=1 ni
Yi : moyenne de Y dans l’echantillon de UPi
Pour estimer µ :
Y2d =M
m
m∑i=1
WiYi
A taille d’echantillon total egale, Y2d est moins precis que l’echantillon-
nage aleatoire simple
(d’autant moins que les moyennes des UP sont differentes).
15
Exemple
Population : a, b, c, d , N=4, Valeurs de Y : ya = 1 yb = 2 yc = 3yd = 4
2 UP : UP1 : a, b UP2 : c,d
N1 = N2 = 2
M=2 ; m=1 f1 = f2 = 1
On preleve un echantillon de 2 unites dans l’une ou l’autre desdeux unites primaires
2 echantillons possibles : (a,b) (c,d)
16
echantillon Y erreur d’echantillonnage(a,b) 1.5 -1(c,d) 3.5 1
moyenne 2.5 0variance 1 1
E(Y ) = µ = 2.5, V (Y2d) = 1
V (Y2d)
V (Y )= 2.4
σ(Y2d)
σ(Y )= 1.5
17
Sources d’erreurs dans une enquete
– Erreur d’echantillonnage : erreur due au fait que l’echantillon
est different de la population
– Erreur de mesure : erreur due a l’appareil de mesure (formula-
tion des questions, biais de complaisance, incomprehension...
dans la cas d’un questionnaire)
– Erreur de couverture : erreur liee au fait que la population
echantillonnee n’est pas celle que l’on voulait etudier
– Non-reponses : absence de mesure pour certaines unites de
l’echantillon
18
Exemple d’erreur de mesure en sciences
humaines (1)
Pensez-vous que les Etats-Unis doivent autoriser les discours pu-
blics contre la democratie ?
– Doivent autoriser : 21%
– Ne doivent pas autoriser : 62%
– Pas d’opinion : 17%
Pensez-vous que les Etats-Unis doivent interdire les discours pu-
blics contre la democratie ?
– Doivent interdire : 46%
– Ne doivent pas interdire : 39%
– Pas d’opinion : 175%19
Exemple (2)
Selon vous quels sont aujourd’hui les deux problemes les plusgraves dans la liste des items ci-dessous ?La liste est proposee dans l’ordre pour une partie de l’echantillon et dans
l’ordre inverse pour l’autre partie.
Reponse ordre direct ordre inverseChomage 34% 19%
Terrorisme 8.5% 7%Faim dans le monde 21% 17%
Guerres 15% 18%Racisme 5% 8%
Non respect des droits de l’homme 8% 10%Formation des jeunes 1% 6%
Delinquance 1% 8%
20
Conseils pour etablir un questionnaire
1. Les questions doivent etre comprehensibles– eviter le vocabulaire technique– eviter les questions imprecises– eviter les doubles negations
2. Les personnes doivent pouvoir repondre– toutes les situations doivent etre prevues– eviter de trop faire appel a la memoire (defaillante)
3. Les questions doivent appeler une reponse sincere et nonsuscitee– eviter les questions contenant la reponse– biais de desirabilite sociale– attraction de la reponse positive
4. Eviter les questionnaires trop longs
21
Autres mots cles
– Methode des quotas
– Echantillonnage sytematique
– Methodes de redressement ; stratification a posteriori
– Sondage avec probabilites inegales
– Panels
22
References
– Les sondages : principes et methodes A.M. Dussaix, J-M. Gros-
bras, Que sais-je ? (701). PUF
– Sampling techniques W.G. Cochran, Wiley.
– Pratique et analyse des enquetes par sondage M. Deroo, A.M.
Dussaix, PUF
23