Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
S1.3 La dispersion statistique
Thérèse Saint-Julien
Dispersion statistique : définition
On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution d'un caractère à s'étaler, à se disperser, de part et d'autre d'une valeur centrale.
On distingue la dispersion absolue (mesurée dans l'unité de mesure du caractère), et la dispersion relative (mesurée par un nombre sans dimension).
1. Les mesures de la dispersion absolue
Paris 1er 17 45Paris 2e 20 39Paris 3e 34 44Paris 4e 31 46Paris 5e 59 52Paris 6e 45 53Paris 7e 57 49Paris 8e 39 43Paris 9e 56 43Paris 10e 90 33Paris 11e 149 35Paris 12e 137 37Paris 13e 172 34Paris 14e 133 43Paris 15e 225 46Paris 16e 162 45Paris 17e 161 40Paris 18e 185 28Paris 19e 173 25Paris 20e 183 26
Part des cadres dans le total de la population
active résidente (%)
Nombre d'habitants en 1999 (en
milliers)
Arrondissements
• Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence. Un paramètre de dispersion absolue s'exprime toujours dans l'unité de mesure.
• Les mesures de la dispersion absolue s’expriment dans l’unité de mesure de la variable considérée. Exemples:
– Pour le nombre d'habitants en 1999, il s’agira de milliers d'habitants
– Pour la part des cadres dans le total de la population active résidente, il s’agira de % de personnes actives occupant un emploi de cadre
• Les trois paramètres de dispersion absolue les plus courants sont l'étendue, l'intervalle inter quantile, et l'écart type
La dispersion inter annuelle des précipitations de septembre au
Mont Aigoual entre 1896 à 1925
nombre de mois de
septembre
1110987654321
0 100 200 300 400 500 600 700 800Total des précipitations en mm
Minimum 27 mmMaximum 760 mmEtendue 733 mm
1er quartile 90 mmMédiane 3ème quartile 252 mm
Intervalle interquartile 162 mm
Moyenne Variance 32246Ecart-type 179,6 mm
Année
Pluviosité du mois de septembre (en mm)
1896 1191897 1701898 311899 351900 5831901 4221902 271903 2541904 1531905 1331906 271907 7601908 491909 2011910 701911 901912 2521913 3001914 2001915 1581916 3821917 1861918 1501919 6301920 2111921 1601922 1821923 981924 1121925 61
1.1 L’étendue ou amplitude• l'étendue ou amplitude d'une distribution est égale à la
différence entre la plus grande et la plus petite valeur de la distribution :
• Etendue de X = Xmax - Xmin
nombre de mois de
septembre
1110
987654321
0 100 200 300 400 500 600 700 800Total des précipitations en mm
médiane= 160moyenne=212
Année
Pluviosité du mois de
septembre (en mm)
1896 1191897 1701898 311899 351900 5831901 4221902 271903 2541904 1531905 1331906 271907 7601908 491909 2011910 701911 901912 2521913 3001914 2001915 1581916 3821917 1861918 1501919 6301920 2111921 1601922 1821923 981924 112
1.2 La mesure de la dispersion statistique et les valeurs centrales
43,0 11140,3 106
Nombre d'habitants en
1999 (en milliers)
MoyenneMédiane
Arrondissements
Part des cadres dans la
population active %
nombred'arrondissements
4321
<20]
]20-40]
]40-60]
]60-80]
]80-100]
]100-120]
]120-140]
]140-160]
]160-180]
]180-200]
]200-220]
]220-240]
nombred'arrondissements
54321
<24]
]24-30]
]30-35]
]35-40]
]40-45]
]45-50]
]50-55]
Part des emplois de cadres dans la population active résidente
Nombre d'habitants intervalle interquantile par rapport à la médiane
variance et écart-type par rapport à la moyenne
la mesure de l'étendue exceptée, chacun des paramètres de dispersion statistique caractérise le degré de dispersion des valeurs de la distribution statistique de part et d'autre d'une valeur centrale de référence
1. Mesures de la dispersion autour de la médiane
Quantiles Année
Pluviosité du mois
de septembre (en mm)
Nombre de mois de septembre
1902 271906 271898 311899 351908 491910 701911 90 1er quartile=90 mm1923 981924 1121896 1191905 1331918 1501904 1531915 1581921 1601897 1701922 1821917 1861914 2001909 2011920 2111912 252 3e quartile=252 mm1903 2541913 3001916 3821901 4221900 5831919 6301907 760
médiane=159 mm
1. Quantiles : les quantiles sont les valeurs du caractère qui définissent les bornes d'une partition en classes d'effectifs égaux. Ces particuliersLes quartiles sont les trois valeurs qui permettent de découper la distribution en quatre classes d'effectifs égaux. On les note Xq1 , Xq2 et Xq3.
Partition du caractère Xmin Xq1Xq2 Xq3 Xmax
fréquence des éléments: 25% 25%25% 25%
Remarque : Xq2 est égal à la médiane.Intervalle interquartile 162 mm
Quantiles
Précipitations en mm (déciles)
33 1er décile65,5 2e décile105 3e décile
141,5 4e décile159 5e décile184 6e décile206 7e décile277 8e décile
502,5 9e décile
2. Déciles- Les déciles sont les neufs valeurs de X qui permettent de découper la distribution en dix classes d'effectifs égaux. 0n les note Xd1...Xd9.
Etc..
Intervalle interquantile
- L'intervalle interquartile est l'étendue de la distribution sur laquelle se trouvent concentrée la moitié des éléments dont les valeurs de X sont les plus proches de la médiane. On exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus fortes de X. Cet intervalle se note:(Xq3-Xq1).
- L'intervalle interdécile est l'étendue de la distribution sur laquelle se trouvent concentrés 80% des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10% des valeurs les plus fortes. Il se note (Xd9-Xd1).
Le rapport interquantile : XQ3/XQ1; ou interdéciles : XD1/XD9
Application du rapport inter déciles aux revenus des ménages en Ile-de-
France• La position de chaque point est
définie en fonction de la valaur prise par le revenu médian (abscisse) et par le rapport inter déciles (ordonnée).
Revenus fiscaux déclarées au titre de l'année 2001
revenu médian 1er décile 9e décile
rapport interdécile
Paris 20147 4864 50961 10,5Hauts de Seine 20195 6138 45716 7,4Seine-Saint-Denis 13155 3658 27740 7,6Val de Marne 17181 5841 36129 6,2Ile de France 17982 5581 38912 7,0Province 14103 5446 27637 5,1
source DGI: revenus fiscaux localisés
Val de Marne
Ile de France
Province
Paris
Hauts de SeineSeine-Saint-
Denis
4
5
6
7
8
9
10
11
10000 12000 14000 16000 18000 20000 22000
revenu médian
rapp
ort i
nter
déci
le
2. Mesures de la dispersion autour de la moyenne
1.4 Variance, écart-type et moyenne
• La variance de X, notée σ²x est une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique (quantitéd'information). Elle exprime la dispersion dans une unité de l’ordre du carré de l’unité de mesure du caractère.
• Pour obtenir un paramètre de dispersion absolue, on calcule la racine carrée de la variance
• L'écart type, noté σx est la racine carré de la moyenne des carrés des écarts à la moyenne, c'est à dire la racine carrée de la variance.
( )21
2 1 XNn
iiX −= ∑
=σ
( )21
1 XN X i
n
i−= ∑
=σ
Exemple de calcul de la variance et de l’écart-type
/20
écarts algébrique
s à la moyenne
carré des écarts
algébriques/20
écarts algébrique
s à la moyenne
carré des écarts
algébriques
A 7 -3 9 0 -10 100B 8 -2 4 5 -5 25C 9 -1 1 9 -1 1D 10 0 0 10 0 0E 10 0 0 10 0 0F 10 0 0 10 0 0G 11 1 1 11 1 1H 12 2 4 15 5 25I 13 3 9 20 10 100moyenne 10 0 10 0 somme 0 28 0 252écart-type 1,8 1,8 5,3 5,3
Notes du Professeur YNotes du Professeur X
Elèves
( )XX i− ( )2XX i − ( )XX i− ( )2
XX i −
Notes du professeur X3 D2 E1 A B C F G H I J
1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20
nombre d'élèves
Notes du professeur Y3 D2 E1 A B C F G H I
1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20
nombre d'élèves
Valeurs centrales et paramètres de dispersion pour quelques indicateurs décrivant les arrondissements de
Paris
Paramères de la distribution
revenu moyen communal par
unité de consommation
en milliers d'Euros
Part chômeurs
dans la population active %
Part des cadres dans la
population active %
Part des ouvriers dans la
population active %
Part des étrangers dans la
population %
Nombre d'habitants en milliers en 1999
Nbr. de valeurs utilisées 20 20 20 20 20 20
Minimum 12807 8 25 4 11 17Maximum 45460 17 53 14 28 225Etendue 32652 9 28 10 17 208
1er quartile 15142 9 35 5 14 42Médiane 20033 11 43 7 17 1113ème quartile 25398 14 45 11 21 167Intervalle interquartile 10256 4 11 6 8 125intervalle interquartile relatif 0,51 0,41 0,25 0,78 0,48 1,12
Moyenne 22727 11 40 8 18 106Variance 94804619 7 63 11 24 4327214Ecart-type 9737 3 8 3 5 66Ecart absolu moyen 7687 2 7 3 4 62CV (écart-type/moyenne) 0,44 0,24 0,20 0,42 0,29 0,64
Caractéristiques de la distribution normale
Caractéristiques de la courbe Normale :
1. La variable x varie de -∞ à +∞
2. La fonction est toujours > 0
3. L’aire sous la courbe vaut 1
4. Elle est symétrique
5. Elle atteint son maximum au point X (moyenne arithmétique)
6. Elle a une forme en « cloche » : plus on s’écarte à gauche et à droite de lamoyenne arithmétique, plus la hauteur de la courbe diminue avec l’axe desabscisses comme asymptote.
La signification probabiliste de l’écart-type
L’écart-type a l'avantage d'avoir une signification probabiliste. La théorie des probabilités permet en effet d'estimer la chance qu'a une valeur d'être éloignée de la moyenne de plus d'un certain nombre d'écart-types.
Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne sont les suivantes :
68,3% des valeurs sont entreet
95,5% des valeurs sont entre et
99,7 % des valeurs sont entre
et
Distribution normale
XXX σ1−
XXX σ1+
XXX σ2−
XXX σ2+
XXX σ3−
XXX σ3+
68,30%
95,50%
99,70%
2. Les mesures de la dispersion relative
.méd
XX X
IIQIIQR =
• Eliminer l’effet de l’unité de mesure du caractère pour pouvoir comparer les degrés de dispersion de deux caractères
• Deux mesures usuelles de la dispersion relative à partir de:
l’intervalle interquantile: l’intervalle interquantile relatif (IIQR)
On peut aussi utiliser le rapport interquantile, par exemple:
l’écart-type: le coefficient de variation (CV)
XCV Xσ=
XX
Q
Q
1
3
XX
D
D
1
9
La dispersion statistique des revenus des ménages à Paris et dans les départements de la petite couronne
REVENUS FISCAUX DES MENAGES: MEDIANES ET DECILES
0
10000
20000
30000
40000
50000
60000
Par i s
Hauts de Sei ne
Sei ne-Sai nt -Deni s
V al de M ar ne
I l e de Fr ance
Pr ovi nce
1er décile revenu médian 9e décile
Zones géographiques
revenu médian
1er décile
9e décile
rapport interdécile
Paris 20147 4864 50961 10,5Hauts de Seine 20195 6138 45716 7,4Seine-Saint-Denis 13155 3658 27740 7,6Val de Marne 17181 5841 36129 6,2Ile de France 17982 5581 38912 7,0Province 14103 5446 27637 5,1
Revenus fiscaux (en euros) déclarées au titre de l'année 2001
Val de Marne
Ile de France
Province
Paris
Hauts de SeineSeine-Saint-
Denis
4
5
6
7
8
9
10
11
10000 12000 14000 16000 18000 20000 22000
revenu médian
rapp
ort i
nter
déci
le
Evolution des salaires annuels des hommes et des femmes en Ile-de-France:
moyennes, médianes et déciles
Mesures absolues et relatives de la dispersion statistique
Minimum 3,9 24,7Maximum 14,3 53,0Etendue 208 28,31er quartile 5,5 34,5Médiane 7,2 43,03ème quartile 11,1 45,4intervalle interquartile 5,6 11
intervalle interquartile relatif 0,78 0,25
Moyenne 8,2 40,3
Ecart-type 3,4 7,9CV (écart-type/moyenne) 0,42 0,20
Part des ouvriers dans la population
active %
Arrondissements
Part des cadres dans la
population active %
• Pour comparer les degré de dispersion de deuxdistributions on a recours aux mesures de dispersion relative, et non pas les mesures de dispersion absolue.
• Dans l’exemple ci-contre la comparaison directe des écart-types (ou des intervalles interquartiles) pourrait, à tort, laisser croire, qu’en moyenne, les disparités introduites entre les arrondissements par le caractère «Part des cadres dans la population active » sont supérieures à celles liées au caractère « Part des ouvriers dans la population active ». Il n’en est rien.
• Comme l’indique la comparaison des coefficients de variation les arrondissements parisiens sont, en moyenne, beaucoup plus différents les uns des autres du fait de la part des ouvriers (cv=0,42) que de la part des cadres(cv= contre 0,2).
3. Distribution statistique et répartition géographique
Montant moyen de l’impôt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution
géographique
montant de l'impôt par
contribuable
nombre de contribuables
imposés
Nbre d'aires urbaines
361 361
Minimum 9609 26561er quartile 13386 4832Médiane 14620 89843ème quartile 15755 22354Int. interquartile 2369 17522Int. interquartile relatif
0,16 1,95
Maximum 25847 2745058Etendue 16239 2742402Moyenne 14718 30719CV (écart-type/moyenne)
0,15 4,89
Ecart-type 2193 149915
Forme de la distribution, dispersion et distribution géographique (dépt des Yvelines)
Paramètres des distributionsdensité en
1999(habitants/km²)
part des prof.
Intermédiaires dans la population
active résidente en
1999 (%)
Nbr. de valeurs utilisées 194 194Minimum 29 171er quartile 99 25Médiane 303 273ème quartile 1289 30Maximum 6729 39Etendue 6700 23Moyenne 934 28CV (écart-type/moyenne) 1,45 0,15Ecart-type d'échantillon 1355 4Ecart absolu moyen 993 3
Hi st ogr a mme
0,0
0,2
0,4
0,6
0,8
1,0
29 1369 2709 4049 5389 6729
Hist o gramme
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
0,400
16 20 24 28 32 36 40
Densité de population
Résidents ayant un emploi de profession intermédiaire pour 100 emplois
Montant moyen de l’impôt et nombre de contribuables dans les aires urbaines: distribution statistique et
distribution géographique: synthèse
Caractéristiques des distributions géographiques
montant de l'impôt par contribuable
nombre de contribuables imposés
Disparités entre les aires urbaines
Très faibles: les aires urbaines ont, en
moyenne, tendance à se ressembler. Les valeurs
des mesures de dispersion relative
voisines de 0.
Très fortes: les aires urbaines sont en moyenne très
dissemblables les unes des autres. Les mesures de
dispersion relative très éloignées de 0
Forme de la distribution
symétrique: méd.=moy. Les aires urbaines les plus nombreuses se
concentrent autour de la moyenne
très dissymétrique: méd.< moy. Les aires urbaines les plus
nombreuses se concentrent autour des valeurs les plus
faibles
Dispersion statistique et répartition géographique
Dispersion statistique et répartition géographique
intensité de la dispersion statistique
Distribution statistique de X
fortegrandes
différences des valeurs de X
faible
Distribution géographique de X
grandes ressemblances des
valeurs de X
avec un ordre géographique
concentration
dispersion
homogénéité des unités spatiales
hétérogénéité des unités spatiales
sans ordre géographique de la répartition
Les densités de population à Paris de 1861 à 1999
La répartition en 1861Forte dispersion statistique des
valeurs= forte hétérogénéitéspatiale
Dans ce cas, l’hétérogénéité est assortie d’un ordre spatial fort : les fortes densités concernent les quartiers des arrondissements centraux; les plus faibles concernent les quartiers les plus périphériques des arrondissements périphériques.
La répartition en 1999La dispersion statistique est
plus faible mais un ordre spatial demeure. Les fortes valeurs sont le fait des quartiers nord et est.
Dispersion statistique et répartition géographique dans l’exemple des arrondissements parisiens