Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Université Abdelmalek Essaâdi Faculté Polydisciplinaire à Larache
LEF Sciences Économiques et de Gestion
Statistique Descriptive
Prof. Mohamed EL OTMANI
Année Universitaire 2014-2015
Introduction à la Statistique
Définition de la Statistique:
« La statistique est l'ensemble des méthodes et techniques permettant de traiter les données numériques associées à une situation ou un phénomène, dans le but de rendre compte de la réalité, de présenter et d’analyser des données, et d’en tirer des conclusions et de prendre des décisions ».
Autres définitions:
Selon l’Encyclopédie Universalis: le mot statistique désigne à la fois un ensemble de données d’observations et l’activité qui consiste dans leur recueil, leur traitement et leur interprétation.
3
Selon le Petit Larousse: 1. Ensemble de données d’observations relatives à un groupe
d’individus ou d’unités 2. Ensemble des méthodes qui ont pour objet la collecte, le
traitement et l’interprétation de ces données. 3. Ensemble des données numériques concernant un
phénomène quelconque et dont on tire certaines conclusions.
Remarque: Ne pas confondre « La statistique » et « Les statistiques »: • La statistique est la science qui vient d’être définie • Les statistiques est l’ensemble des données chiffrées ou le résultat numérique de la statistique
4
Vocabulaire statistique
Population: ensemble des unités statistiques ou individus sur lesquels on effectue une analyse statistique.
Exemple : étudiants de la FP Larache; salariés d’une entreprise, voitures …
Unités statistiques (individus): élément de la population sur lequel porte l’observation
Exemple : étudiant; salarié, voiture
Échantillon: sous-ensemble d’individus prélevés de la population
Exemple : étudiants de moins de 20 ans; jeunes salariés, voitures Renault
Variable statistique (Caractère): désigne une grandeur observable sur un individu et susceptible de varier prenant ainsi différents états appelés modalités.
Exemple : âge des étudiants, nombre d’heures du travail des salariés ,
couleur de voiture. 5
La collecte des données statistiques
Avant la collecte des données, il faut 1. Fixer une problématique de recherche et poser les
objectifs à atteindre soit d’exploration et description d’un phénomène, soit d’explication d’une relation ou soit de prévision et d’anticipation.
2. Fixer la population cible de l’étude ainsi que les éléments de cette population qu’il faut observer.
Pour recueillir des informations sur une population
statistique, on dispose de deux principales sources de données statistiques : exhaustive et non exhaustive.
6
Les recensements (méthode exhaustive): sont des opérations issues du dénombrement où chaque individu de la population est étudié selon le ou les caractères étudiés.
Les enquêtes (méthode de sondage ou échantillonnage= méthode non exhaustive): elle portent sur un sous-ensemble d’une population appelé échantillon
Remarques: o Ne pas confondre « dénombrement » et « recensement » :
• Le dénombrement : comptage des individus d’une population
• Le recensement : chiffrer les données selon plusieurs aspects
o La qualité de l’enquête et des résultats dépend du choix de l’échantillon.
7
Nature des données:
Données
Discrètes Continues Nominales Ordinales
Qualitatives Quantitatives
Il est important d’avoir en permanence dans la mémoire, au moment du choix des méthodes d’analyse statistique, les différents types de données statistiques schématisés par le diagramme suivant:
8
1) Caractères quantitatifs: se sont des variables numériques et mesurables exprimant une quantité.
Les variables quantitatives peuvent être classées en : a) Variables quantitatives discrètes ou discontinues:
représentées par un nombre fini de valeurs Exemple: nombre d’enfant par ménage; nombre d’heures de travail par
jour des salariés d’une entreprise…
b) Variables quantitatives continues: un caractère continu peut prendre un nombre infini de valeurs dans son intervalle de définition. Ces valeurs peuvent être regroupées en classes.
Exemple: revenu mensuel par ménage, poids ou taille des salariés d’une entreprise
9
2) Caractères qualitatifs: ils ne peuvent pas faire l’objet d’une mesure car ils ne se présentent pas sous forme numérique.
Exemple: sexe, mention du baccalauréat, type de contrat de travail des salariés …
Les caractères qualitatifs se présentent en plusieurs modalités (différentes valeurs prises par un caractère qualitatif)
Exemple: la variable ‘sexe’ a deux modalités: masculin et féminin
La variable ‘mention du baccalauréat ’ a plusieurs modalités: passable, A. Bien, Bien ….
a) Variables qualitatives nominales: dont les modalités ne peuvent pas être classées ou hiérarchisées
10
Exemple: Pour le caractère ‘sexe des étudiants’, les modalités féminin et
masculin ne peuvent pas être classées ou hiérarchisées.
b) Variables qualitatives ordinales: dont les modalités
peuvent être classées ou hiérarchisées Exemple: pour le caractère ‘mention du baccalauréat’, les modalités
sont ordonnées par ordre croissement comme suit : passable, Assez bien, Bien, Très bien, Excellent.
Remarques: i. Les modalités d’un caractère qualitatif sont: Intégrales: à chaque individu doit correspondre une modalité du
caractère Incompatibles: Chaque individu doit pouvoir être classé dans une seule
modalité du caractère ii. Chaque individu d’un caractère doit pouvoir être classé dans une et
une seule modalité 11
Exercice : Pour les nouveaux inscrits à la faculté polydisciplinaire à Larache, on veut étudier le type de baccalauréat obtenu par les étudiants, l’année d’obtention de baccalauréat et l’âge des étudiants. Pour réaliser cette étude, on choisit au hasard 30 étudiants pour les questionner. 1. Donner la population étudiée 2. La collecte des données était elle exhaustive ou non
exhaustive? 3. Donner les caractères étudiés et préciser leur nature.
12
Les tableaux statistiques
Les tableaux statistiques
L’un des objectifs de la statistique descriptive est de résumer les données brutes recueillies sur une population dans des tableaux statistiques afin d’avoir une présentation des données d’une façon lisible.
Exemple : Enquête auprès d’un échantillon de 60 familles de la région Larache-El Kser El Kebir sur le nombre d’enfant par ménage. Les résultats brutes des nombres d’enfants sont:
2 1 4 2 2 0 1 2 3 0 4 5 2 5 4 2 6 2 6 4 2 1 3 2 1 3 3 3 1 1 1 3 2 3 3 2 4 2 5 2 3 3 1 5 1 5 2 6 2 5 2 3 1 2 2 0 1 4 3 1
Remarquons que les données brutes ne sont pas lisibles d’où la nécessité de regrouper ces données dans un tableau pour faciliter leur traitement.
14
La présentation d’un tableau statistique La présentation d’un tableau statistique doit respecter des
principes généraux :
• Le tableau doit porter des intitulés de lignes et de colonnes clairement définis ainsi que préciser les unités utilisés.
• Le tableau doit porter un titre précisant son contenu et la source des informations lorsque les données sont empruntées à une publication ou à un organisme.
Dans un tableau statistique:
o La première colonne du reprend les différentes modalités (xi ) prises par le caractère étudié.
o La deuxième colonne présente les effectifs (ni ) nombre d’individus correspondant à chaque modalité (xi ) du caractère .
15
Modalité (xi ) Effectif (ni )
x1
x2
.
.
.
xi
.
.
.
xk
n1
n2
.
.
.
ni
.
.
.
nk
Total n
Considérons une population statistique de n individus décrite selon le caractère x dont les k modalités sont x1, x2, ..., xi, ...., xk
ni représente le nombre d’individus, appelé « effectif partiel » présentant la modalité xi
n: la somme des effectifs partiels ni
est appelé « effectif total » de la population
1
k
i
i
n n
16
Nombre
d’enfants par ménage (xi )
Effectif
des ménages (ni )
0 3 1 12 2 18 3 12 4 6 5 6 6 3
Total 60
Nombre d’enfants observé dans un échantillon des ménages
de la région Larache-ElKser Elkebir
Exemples:
17
Source: www.hcp.ma (site institutionnel du haut commissariat au plan du royaume du Maroc
18
La fréquence relative
La fréquence relative ou fréquence notée fi est la proportion d’individus présentant la même modalité dans la population. Elle est obtenue en divisant chaque effectif ni par l’effectif total n:
Remarques :
• Il est recommandé d’exprimer la fréquence fi en pourcentage.
• La somme des fréquences fi est égale à 1 et la somme des fréquences exprimées en pourcentage est égale à 100.
ii
nf
n
19
Modalité (xi) Effectif (ni) Fréquence (fi)
x1
x2
.
.
.
xi
.
.
.
xk
n1
n2
.
.
.
ni
.
.
.
nk
f1
f2
.
.
.
fi .
.
.
fk
Le tableau statistique de la distribution du caractère étudié se présentera donc sous la forme suivante :
Il en est de même si on considère les fréquences en pourcentage au lieu des fréquences.
20
Exemple: le tableau statistique de la distribution de nombre d’enfants par ménage dans la région de Larache-ElKser ElKebir est présenté comme suit:
Nombre
d’enfants par ménage
Effectif
des ménages Fréquence
des ménages en %
0 3 5
1 12 20
2 18 30
3 12 20
4 6 10
5 6 10
6 3 5
Total 60 100
21
Effectifs cumulés et fréquences cumulées Dans l’exemple précédent, s’il est demandé de répondre à
certains questions de type
• Combien de familles ont moins de quatre enfants?
• Combien de familles ont au moins quatre enfants?
• Quelle est la proportion de familles ayant au plus quatre enfants?
• Quelle est la proportion de familles ayant plus de quatre enfants?
Le calcul des effectifs cumulés, notés Ni, et des fréquences cumulées, notées Fi, nous permet de donner ces valeurs.
Ce calcul se fait en cumulant (sommant) les effectifs et les fréquences relatives dans une colonne du tableau. En effet :
22
Pour calculer un effectif cumulé croissant d’une valeur d’un caractère, il suffit d’ajouter à l’effectif de cette valeur le ou les effectifs des valeurs précédentes. Pour calculer une fréquence cumulée croissante d’une valeur d’un caractère, il suffit d’ajouter à la fréquence de cette valeur la ou les fréquences des valeurs précédentes. Pour calculer un effectif cumulé décroissant d’une valeur d’un caractère, il suffit d’ajouter à l’effectif de cette valeur le ou les effectifs des valeurs suivantes. Pour calculer une fréquence cumulée décroissante d’une valeur d’un caractère, il suffit d’ajouter à la fréquence de cette valeur la ou les fréquences des valeurs suivantes.
23
Sommer de haut en bas
Calculer les effectifs cumulés
croissants et les fréquences cumulées
croissantes
Répondre aux questions
« moins de » et « au plus »
Sommer de bas en haut
Calculer les effectifs cumulés
décroissants et les fréquences
cumulées décroissantes
Répondre aux questions
« plus de » et «au moins »
Exemple: Pour répondre aux questions posées au début de ce paragraphe, il suffit de calculer les effectifs cumulés et les fréquences cumulées du caractère représentant le nombre d’enfants par ménage dans la région Larache-ElKser ElKebir.
24
Nombre
d’enfants
par
ménage
Effectifs
des
Ménages
Fréquence
s
des
Ménage
en %
Effectifs
cumulés
croissants
Effectifs
cumulés
décroissant
s
Fréquence
s
cumulées
croissantes
en %
Fréquences
cumulées
décroissante
s
en %
0 3 5 3 60 5 100
1 12 20 15 57 25 95
2 18 30 33 45 55 75
3 12 20 45 27 75 45
4 6 10 51 15 85 25
5 6 10 57 9 95 15
6 3 5 60 3 100 5
Total 60 100
D’après le tableau: • 45 ménages ont moins de 4 enfants • 15 ménages ont au moins 4 enfants • 85% des ménages ont au plus de 4 enfants • 15% des ménages ont plus de 4 enfants
25
Nom: Prénom:
Âge (en années): Lieu de naissance : Taille (en cm):
Avis sur l’architecture de la FPL:
Médiocre Moyenne Bonne Très bonne Excellente
□ □ □ □ □
Exercice : Lors d’une enquête d’opinion réalisée auprès de 250 étudiants de la FPL, il était demandé de remplir le questionnaire suivant:
1. Tableau statistique d’un caractère qualitatif nominal: La répartition des étudiants interrogés selon leur lieu de naissance est donnée par le tableau ci-dessous: Lieu de naissance Effectif des étudiants
Larache 98
El Ksar El Kebir 87
Tanger 22
Tétouan 13
Autres 30
Calculer les fréquences des étudiants (avec une précision de 10-2). 26
2. Tableau statistique d’un caractère qualitatif ordinale: la distribution des avis des étudiants sur l’architecture de la FPL est résumée dans le tableau suivant:
a) Calculer les fréquences et les fréquences cumulées des étudiants. b) Quel est le pourcentage des étudiants qui estiment que l’architecture de
la FPL est plus que moyenne?
Avis Effectif
Excellente 38
Très bonne 84
Bonne 75
Moyenne 37
Médiocre 16
3. Tableau statistique d’un caractère quantitatif discret: l’âge des étudiants questionnés est présenté dans le tableau statistique ci-après.
27
Âge effectif <18 8 18 82 19 70 20 28 21 20 22 14 23 16
24 12
4. Tableau statistique d’un caractère quantitatif continu: la distribution de la taille des étudiants (en cm):
Taille effectif [130; 150[ 2 [150; 160[ 30 [160; 165[ 60 [165;170[ 62 [170; 175[ 44 [175; 180[ 28 [180; 190[ 16 [190; 220] 8
a) Quel est l’effectif des étudiants qui ont une taille moins que 1,5m ou plus que 1,8m?
b) Quel est la proportion des étudiants qui ont une taille plus que 165cm?
c) Quel est la proportion des étudiants qui ont une taille au plus165cm?
a) Quel est l’effectif des étudiants qui sont âgés de moins de 20 ans?
b) Quel est le pourcentage des étudiants qui sont âgés au moins de 19 ans?
28
Représentation graphique des données statistiques
Les représentations graphiques Les graphiques permettent de donner une synthèse
visuelle de la distribution d’une variable et mettre en
évidence certaines informations données par le
tableau.
Les représentations graphiques sont spécifiques à
chaque type de variables ou de caractères (qualitatif,
quantitatif discret ou quantitatif continu).
Représentations des caractères qualitatifs Les variables qualitatives peuvent être représentées graphiquement de différentes manières . Les diagrammes les plus utilisés sont le diagramme à bandes (ou diagramme en tuyaux d’orgues) et le diagramme à secteurs circulaires. 30
1. Diagrammes en bâtons: Un diagramme en bâtons est constitué d’une suite de bâtons (verticaux ou horizontaux). À chaque modalité du caractère, on associe un « bâton» de longueur proportionnelle à l’effectif ou à la fréquence de cette modalité.
Exemple: Répartition des salariés de l’entreprise X selon le contrat de travail
CSP Cadres supérieurs
Contremaîtres
Employés Ouvriers spécialisés
Autres catégories
Effectif des salariés
10 5 20 40 5
31
CSP
Effectifs
Cad
res
Co
ntr
emaî
tres
Emp
loyé
s
Ou
vrie
rs
Au
tres
cat
ég.
10
20
30
40
Répartition des salariés de l’entreprise selon la CSP
CSP
Fréquence en %
Cad
res
Co
ntr
emaî
tres
Emp
loyé
s
Ou
vrie
rs
Au
tres
cat
ég.
10
20
30
40
50
32
10
5
20
40
5
0
5
10
15
20
25
30
35
40
45
Cadres Contremaîtres Employés Ouvriers Autres CSP
Effectif
Effectif
2. Diagrammes à bandes : Dans un diagramme à bandes, on associe une bande verticale à chaque modalité. La largeur de chacune de bande est la même et sa hauteur est proportionnelle à l’effectif ou la fréquence de la modalité correspondante. La distance entre les bandes est constante. Au dessus de chaque bande on note des étiquettes permettant connaître l’effectif ou la fréquence de la modalité associée. Exemple: le diagramme à bandes correspondant aux effectifs des salariés de l’entreprise X
33
Exemple : Répartition des salariés de l’entreprise X selon la CSP
CSP
xi
Effectif
ni
Fréquence
fi
Angle
αi
Cadres 10 0,125 45
Contremaîtres 5 0,0625 22,5
Employés 20 0,25 90
Ouvriers 40 0,50 180
Autres 5 0,0625 22,5
3. Diagrammes à secteurs: C’est un disque divisé en secteurs angulaires représentant
l’ensemble de la population. Les différentes modalités du caractère sont représentées par des angles aux centres proportionnelles aux effectifs ou fréquences de leurs modalités respectives.
L’angle de chaque secteur αi est proportionnel à la fréquence fi :
360i if
34
Cadres
13%
Contremaîtres
6%
Employés
25%Ouvriers
50%
Autres
6%
Cadres Contremaîtres Employés Ouvriers Autres
Répartition par secteurs des salariés de l’entreprise selon la CSP
35
Représentations des caractères quantitatifs 1. Représentation graphique des caractères
quantitatifs discrets: a) Représentation d’une distribution de fréquences (ou effectifs) :
On présente une distribution à variable quantitative discrète par un diagramme en bâtons.
Exemple :Nombre d’enfants de 40 salariés d’une entreprise:
Nb. d’enfants Effectifs Fréquences en %
0 8 20
1 7 17,5
2 12 30
3 6 15
4 3 7,5
5 4 10
Total 40 100 36
5%
10%
15%
20%
25%
30%
Fréquences %
Nb. d’enfants 1 2 0 3 4 5
Distribution des fréquences des salariés selon leur nombre d’enfants
Polygone des fréquences: En joignant les sommets des bâtons par une ligne
brisée, on obtient le polygone de fréquences
37
2.Représentation graphique des caractères quantitatifs continus :
a) Histogramme : Un histogramme est constitué d’une suite de rectangles, dont les bases coïncident avec les classes divisant le domaine de variation de la variable et dont les hauteurs soient telles que les effectifs (ou les fréquences) sont traduits par les surfaces des rectangles.
Exemple : Dans le cadre de l’étude de la population des adolescents d’un cartier populaire, les valeurs de leurs tailles peuvent être réparties de la façon suivante :
38
Taille effectif Fréquence en %
[140,145[ 1 2
[145,150[ 1 2
[150,155[ 9 18
[155,160[ 17 34
[160,165[ 16 32
[165,170[ 3 6
[170,175[ 3 6
1 1
9
17 16
3 3
0
5
10
15
20
Effectifs des adolescents selon leurs tailles
L’histogramme des effectifs de cette série est présenté par le graphique suivant:
39
Sur le même graphique des effectifs (resp. des fréquences) , on présente le polygone des effectifs (resp. des fréquences). Ce polygone permet de représenter la distribution sous la forme d’une courbe en joignant les milieux des bases supérieures de chaque rectangle de l’histogramme par des segments de droite.
2 2
18
34 32
6 6
Fréquences des adolescents selon leurs tailles
Polygone des fréquences
40
Polygones cumulatifs: On construit dans un repère cartésien orthogonal les points dont les abscisses sont égales aux bornes supérieurs des classes (sauf pour le premier point), et dont les ordonnées sont les effectifs cumulés croissant correspondants. En joignant ces points par des segments de droites nous obtenons le polygone cumulatif croissant de la distribution donnée. Exemple: On calcule les effectifs cumulés croissant:
Taille effectif Effectif cumulé
[140,145[ 1 1
[145,150[ 1 2
[150,155[ 9 11
[155,160[ 17 28
[160,165[ 16 44
[165,170[ 3 47
[170,175[ 3 50 41
0
10
20
30
40
50
60
140 145 150 155 160 165 170 175
Polygone des actifs cumulés des adolescents selon leurs tailles
42
Exercice 1 : On a interrogé 50 personnes sur leur dernier diplôme obtenu. On a obtenu le tableau statistique suivant:
Dernier diplôme obtenu effectif Fréquence en %
Sans diplôme 4
Primaire 11
Secondaire 14
Supérieur non-universitaire 9
Universitaire 12
1. Calculer les fréquences des diplômes obtenus 2. Tracer le diagramme en bâtons représentatif des effectifs des
diplômes obtenus 3. Tracer le diagramme en bandes représentatif des fréquences des
diplômes obtenus
43
Exercice 2 : On mesure la taille de 40 étudiants choisis au hasard. Les mesures sont données par la série statistique suivante: {150; 151; 153; 154; 154; 155 ; 156 ; 156 ; 156; 156; 157; 157; 157 ;158 ; 158 ; 159; 159; 160; 160; 160; 161 ; 160 ; 161; 162 ; 162; 162; 163 ; 164 ; 164; 164; 164; 165; 166; 167; 168; 168; 169 ; 170; 171; 173}
I. On construit le tableau statistique suivant:
Classes des tailles
Effectifs ni
Effectifs cumulés croissants
Ni
Fréquences fi
en %
Fréquences cumulées croissants Fi en %
[1,50-1,55[ 5 5 12,5 12,5
[1,55-1,60[ 12 17 30 42,5
[1,60-1,65[ 14 31 35 77,5
[1,65-1,70[ 6 37 15 92,5
[1,70-1,75[ 3 40 7,5 100
1. Remplir le tableau 2. Tracer l’histogramme des fréquences et le polygone cumulatif des effectifs
44
Exercice 3 : Afin d’établir un rapport éventuel entre l’âge et les loisirs, un psychosociologue enquête auprès d’une population de 20 personnes et obtient les informations suivantes :
Individu 1 2 3 4 5 6 7 8 9 10
Age 12 14 40 35 26 30 50 55 25 40
Loisir S S C C S T L C L C
Individu 11 12 13 14 15 16 17 18 19 20
Age 30 50 69 45 28 25 50 30 35 25
Loisir T L L C S C L T T T
S = Sport *** C = Cinéma *** T =Théâtre *** L =Lecture
1. Combien a-t-on de variables? Quel est le type de chaque variable ? 2. Pour la variable « Loisir »
a. dresser le tableau des modalités et des effectifs b. calculer les fréquences. c. Représenter les fréquences en diagramme de bâtons
45
3. Quel est le pourcentage des individus a. Qui préfèrent le cinéma ? b. qui ne préfèrent pas la lecture ?
4. Remplir le tableau suivant:
Age [10,20[ [20,30[ [30,40[ [40,50[ [50,60[ [60,70]
Effectif
a. Calculer les fréquences, les fréquences cumulées croissantes et décroissantes
b. Tracer l’histogramme et le polygone des fréquences c. Représenter dans le même graphe, le polygone cumulatif croissant et
décroissant des fréquences. d. Quel est le pourcentage des individus âgés de moins de 30 ans? e. Quel est le pourcentage des individus âgés d’au moins de 30 ans?
46
Âge effectif 17 8 18 82 19 70 20 28 21 20 22 14 23 16 24 12
Distribution de la taille des étudiants (en cm): Taille effectif < 155 2
[155; 160[ 30 [160; 165[ 60 [165;170[ 62 [170; 175[ 44 [175; 180[ 28 [180; 185[ 16
185 8
a) Calculer les fréquences et les fréquences cumulées croissantes
b) Tracer l’histogramme et le polygone des fréquences
c) Tracer le polygone des fréquences cumulées croissantes
a) Calculer les fréquences (en %) b) Tracer le diagramme en bâtons et le polygone
des fréquences
47
L’âge des étudiants (en années)
Caractéristiques de position: mode, médiane et moyenne
Mode Le mode (ou valeur modale), noté Mo, est la valeur que la variable statistique prend le plus souvent ( la valeur qui a le plus grand effectif ). Le mode peut être calculé pour les caractère qualitatifs comme pour les caractères quantitatifs. Exemple : Soit la série : {8,4,4,3,4,3,8,2,5} La valeur la plus fréquente de cette série est 4. Le mode est Mo=4. Remarques: 1. Une série peut avoir plusieurs modes : Soit la série S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. "2" et "3" sont les valeurs qui reviennent le plus souvent : 5 fois
chacune. Cette série a deux modes: 2 et 3. On peut avoir des séries avec 3, 4, … modes. Ce sont alors des séries multimodales.
49
2. Le mode n’existe pas forcément : C'est le cas lorsque toutes les valeurs ont le même effectif comme dans l'exemple suivant : {8,6,5,7,3,1}. Dans ce cas, on peut aussi dire que toutes les valeurs sont modales.
3. Le mode n’est pas la valeur la plus élevée : Il ne faut pas confondre le mode, qui est la valeur la plus fréquente, avec la valeur la plus élevée de la série. Dans la série {8,6,5,7,3,1}, il n'y a pas de mode, mais la valeur la plus élevée est 8. Il peut arriver que le mode soit aussi la valeur la plus élevée, mais ce n’est alors qu’une coïncidence.
I. Le mode dans le cas d’une variable qualitative:
Le mode est la modalité correspondante à l’effectif le plus important.
Exemple: Répartition des salariés de l’entreprise X selon le contrat de travail
CSP Cadres supérieurs
Contremaîtres
Employés Ouvriers spécialisés
Autres catégories
Effectif des salariés
10 5 20 40 5
50
Le mode de ce caractère est la modalité « ouvriers spécialisés » Le mode dans le cas d’une variable quantitative discrète: Le mode est la valeur correspondante à l’effectif le plus important Exemple :Nombre d’enfants de 40 salariés d’une entreprise
Nb. d’enfants Effectifs Fréquences en %
0 8 20
1 7 17,5
2 12 30
3 6 15
4 3 7,5
5 4 10
Total 40 100
Le mode de ce caractère est égal à 2 enfants
51
La classe modale dans le cas d’une variable quantitative continue:
Si les classes sont toutes de même amplitude, la classe modale est la classe d’effectif le plus élevé ou de fréquence la plus élevée.
Si les classes ne sont pas toutes de même amplitude, la classe modale est la classe dont l’effectif corrigé ou la fréquence corrigée est maximum
Exemples:
1. On considère la distribution statistique d’une population d’étudiants selon leur taille (en cm):
Taille (cm) <160 [160;170[ [170;180[ [180;190[ ≥ 190 total
effectif 6 7 8 2 1 24
Fréquences en % 25 29,1 33,3 8,3 4,3 100
L’effectif ou la fréquence les plus élevés montrent que le classe modale est [170;180[
52
2. Soit la distribution d’une population des étudiants répartis suivant leur poids (en kg)
Poids (en kg)
Effectif (ni)
Fréquence (fi) en %
Amplitude (ai)
fréquence corrigée fico=fi/ai
<55 2 8,33 5 1,67
[55;60[ 3 12,5 5 2,5
[60;70[ 4 16,67 10 1,67
[70;75[ 5 20,83 5 4,17
[75;85[ 6 25 10 2,5
85 4 16,67 10 1,67
Total 24 100
La classe modale, à laquelle est associée la fréquence corrigée la plus grande, est la classe [70; 75[
53
Le mode dans le cas d’une variable quantitative continu: On peut calculer le mode pour un caractère quantitatif continu par la formule suivante:
10
1 2
CMo CMoM LI A
où • LICMo est la borne inférieur de la classe modale • ACMo est l’amplitude de la classe modale • ∆1= fCMO-fCMO-1: différence entre la fréquence de la classe
modale et la fréquence de la classe précédente
•∆2= fCMO-fCMO+1: différence entre la fréquence de la classe
modale et la fréquence de la classe suivante
54
Exemple: Soit le tableau suivant décrivant la distribution des salaires de 75 employés:
Salaires [215,235[ [235,255[ [255,275[ [275,295[
Effectifs 4 6 13 22
Fréquences 5,33 8 17,33 29,33
10
1 2
29,33 17,33275 20
(29,33 17,33) (29,33 20)
286,25
CMo CMoM LI A
[295,315[ [315,335[ [335,355[ [355,375[
15 6 5 4
20 8 6,67 5,33
Salaires
Effectifs
Fréquences
Le mode calculé par la relation précédente est
55
La médiane:
Définition: La médiane Me est telle que l'effectif des observations dont les modalités sont inférieures à Me est égal à l'effectif des observations dont les modalités sont supérieures à Me.
Détermination pratique: • On classe les données par ordre croissant, la médiane est la valeur centrale qui sépare la série en deux parties égales. • On la détermine à partir des effectifs cumulés ou du diagramme cumulatif.
56
Cas d'une variable discrète: 1. À partir de la série statistique: On classe les donner par ordre croissant : x1<x2<…<xn
Si n paire (n=2k), la médiane est égale à
Exemple: S={0 ; 0 ; 1 ; 1 ; 2 ; 2 ; 3 ; 4}. La médiane est égale à
Si n est impaire (n=2k+1), la médiane est égale à la (k+1)-ème valeur de la série
Exemple: S={0 ; 1 ; 1 ; 2 ; 2 ; 3 ; 4}. La médiane est égale à
1
2
k kx xMe
1kMe x
1 21,5
2Me
2Me
57
2. À partir du tableau statistique: On la détermine à partir des fréquence cumulées.
Exemple: Nombre d’enfants observés dans un échantillon de 55 familles
xi ni Ni fi (%) Fi (%)
0 3 3 5 % 5 %
1 4 7 7 % 12 %
2 8 15 15 % 27 %
3 7 22 13 % 40 %
4 14 36 25 % 65 %
5 9 45 16 % 81 %
6 6 51 11 % 92 %
7 2 53 4 % 96 %
8 1 54 2 % 98 %
9 1 55 2 % 100 %
4Me 58
59
Exemple : les notes obtenues pour 250 étudiants
Notes Effectifs Effectifs cumulés croissants
0 5 5
1 10 15
2 7 22
3 9 31
4 4 35
5 11 45
6 5 50
7 8 58
8 12 70
9 10 80
10 21 101
11 14 115
12 26 141
13 22 163
14 14 177
15 17 194
16 10 204
17 16 220
18 12 232
19 15 247
20 3 250
12Me
60
xi ni Ni fi (%) Fi (%)
0 22 22 27,5 27,5
1 18 40 22,5 50
2 16 56 20 70
3 10 66 12,5 82,5
4 7 73 8,75 91,25
5 5 78 6,25 97,5
6 2 80 2,5 100
TOTAL 80 100
Exemple: nombre d’enfants par foyer
40 41 1 21,5
2 2e
x xM
Cas d'une variable continue: En général, la médiane se trouve à l’intérieur d’une classe. Sa valeur exacte est déterminée par interpolation linéaire. Détermination analytique de la médiane: Déterminer la classe médiane [a; b[ telle que F(a)<= 50% et F(b) > 50%.
50 %
F(a)
F(b)
a b Médiane
50 ( )( )
( ) ( )
F aMe a b a
F b F a
61
Exemple: La distribution statistique d’une population d’étudiants selon leur taille (en cm):
Taille (cm) <160 [160;170[ [170;180[ [180;190[ ≥ 190 total
effectif 6 7 8 2 1 24
Fréquences en % 25 29,1 33,3 8,3 4,3 100
Fréquences cumulées croissantes en %
25 54,1 87,4 95,7 100
62
50 25160 (170 160)
54,1 25
168,6
Me
La médiane de cette distribution est
La moyenne:
1 1 2 2
11 2
... 1
...
pp p
i i
ip
n x n x n xx n x
n n n n
1. Moyenne Arithmétique: La moyenne (arithmétique ) est la somme des valeurs observées divisée par leur nombre. Remarque: La moyenne ne peut être définie que sur une variable quantitative.
La moyenne d’une variable discrète {(xi; ni)}
63
Exemple: L'étude de 20 familles a conduit à la distribution des nombres d'enfants dans chaque famille :
Nombre d'enfants xi 0 1 2 3 4 5
Nombre de familles ni 5 3 6 1 3 2
Le nombre moyen d'enfants par famille est:
(0 5) (1 3) (2 6) (3 1) (4 3) (5 2)
5 3 6 1 3 2
452,25
20
x
64
La moyenne d’une variable continue: La variable est connue par ses classes [ai;bi] et les effectifs ni associée à chaque classe.
1 1 2 2
11 2
... 1
...
pp p
i i
ip
n c n c n cx n c
n n n n
où ci est le centre de la classe [ai;bi[.
Exemple: La distribution des tailles de 40 étudiants est donnée par le tableau
Taille en cm xi [150-160[ [160-165[ [165-170[ [170-175[ [175-185 ]
Nombre d’étudiants ni 4 8 10 16 2
(155 4) (162,5 8) (167,5 10) (172,5 16) (180 2)
4 8 10 16 2
620 1300 1675 2760 360167,875
40
x
La moyenne des tailles des étudiants:
65
66
Exercice : Un bureau d'étude stratégique désire étudier le nombre d'enfants et le revenu mensuel des ménages de la province de Larache. Pour réaliser cette enquête, on considère un échantillon de 120 ménages choisis au hasard. I) La distribution de la variable ``Nombre d'enfants'' est donnée par le tableau suivant:
Nombre d’enfants 0 1 2 3 4
Effectif des ménages 18 12 54 30 6
1. Tracer le diagramme en bâtons de cette distributio
2. Quel est le mode de cette distribution?. 3. Calculer la médiane de la distribution. 4. Calculer la moyenne des enfants par ménages
67
II) Les revenus mensuels des ménages sont répartis suivant le tableau ci-après:
Revenus Entre 2000 et 3000
Entre 3000 et 4000
Entre 4000 et 5000
Entre 5000 et 6000
Entre 6000 et 7000
Entre 7000 et 8000
Effectifs 24 18 42 18 12 6
1. Calculer les fréquences fi et tracer le polygone des fréquences des revenus
2. Calculer le mode de la distribution des revenus 3. Calculer les fréquences cumulées croissantes Fi et
tracer le polygone cumulatif 4. Calculer la médiane de la distribution des revenus 5. Quel est le revenu moyen des ménages?
Caractéristiques de dispersion: variance et écart-type
La variance La variance est un indicateur de la dispersion d’une série par rapport à sa moyenne. 1. La variance d’une série est donnée par la formule suivante :
2
1
1( ) ( )
n
i
i
V X x xn
2. La variance d’une variable quantitatif discrète {(xi,ni); i=1,…,p} est exprimée par
2
1
1( ) ( )
p
i i
i
V X n x xn
3. La variance d’une variable quantitative continue {([ei;ei+1[,ni); i=1,…,p} est donnée par:
2
1
1( ) ( )
p
i i
i
V X n c xn
où ci est le centre de la classe [ei;ei+1[.
69
Remarques: 1. On peut dire que plus la variance est élevée, plus la dispersion autour de la
moyenne est élevée. Mais comme les écarts à la moyenne ont été élevés au carré, le chiffre obtenu est assez élevé. C’est pourquoi, on utilise surtout la variance comme calcul intermédiaire pour obtenir l’écart-type et le coefficient de variation.
2. La variance peut s’écrire encore de la forma suivante: • Pour une variable quantitative discrète:
• Pour une variable quantitative continue:
2 2
1
1( ) ( )
p
i i
i
V X n x xn
2 2
1
1( ) ( )
p
i i
i
V X n c xn
70
Exemple : L'étude de 20 familles a conduit à la distribution des nombres d'enfants dans chaque famille :
Nombre d'enfants xi 0 1 2 3 4 5
Nombre de familles ni 5 3 6 1 3 2
On a déjà calculé x=2,25.
xi ni (xi)2 ni(xi)
2
0 5 0 0
1 3 1 3
2 6 4 24
3 1 9 9
4 3 16 48
5 2 25 50
21var( ) ( 134) (2,25) 1,6375
20X
71
Exemple: La distribution des tailles de 40 étudiants est donnée par le tableau suivant
Taille en cm xi [150-160[ [160-165[ [165-170[ [170-175[ [175-185 ]
Nombre d’étudiants ni 4 8 10 16 2
La moyenne est déjà calculée: x=167,875
Taille (en cm) ni ci (ci)2 ni(ci)
2
[150;160[ 4 155 24025 96100
[160;165[ 8 162,5 26406 211250
[165;170[ 10 167,5 28056 280562,5
[170;175[ 16 172,5 29756 476100
[175;185] 2 180 32400 64800
Total 40 1128813
21var( ) ( 1128813) (167,875) 38,3
40X
72
L’écart-type
• si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées autour de la moyenne. • si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus dispersées autour de la moyenne.
( )X V X
Par définition, l’écart-type d’une variable est la racine carrée de la variance
73
Remarque : Quelque soit la distribution statistique étudiée, un intervalle dont les extrémités sont « x-2σ » et « x+2σ » contient toujours au moins 75% des unités constituant la population étudiée.
Les indices statistiques
Introduction
Les économistes, les sociologues et les gestionnaires étudient l’évolution dans le temps de grandeurs représentatives de phénomènes économiques et sociaux tels que l’indice de confiance des consommateurs, l’indice de compétitivité des nations, l’indice du développement humain, l’indice de chômage, l’indice du bonheur, etc. Pour évaluer ces évolutions ou effectuer ces comparaisons, on utilise principalement les indices statistiques.
75
Indice statistique simple
Soit X une grandeur simple observée dans plusieurs situations. Soit Xt la valeur de X à la situation t et X0 la valeur de X à la situation 0.
La situation t est appelée situation courante et la situation 0 est appelée situation de base ou situation de référence. L’indice simple de X à la situation t base 100 à la situation 0,
noté est le rapport entre Xt et X0 multiplié par 100:
/0tI
/0
0
100tt
XI
X
76
Il mesure la variation relative de la valeur entre la période de base et la période courante et permet de calculer et de comparer facilement les évolutions de plusieurs grandeurs entre deux périodes données.
Souvent, on multiplie le rapport par 100; on dit : indice base 100 à telle période.
Exemple : le prix du dollar par rapport au franc suisse a passé de 2.50 en 2003 à 1.25 en 2009. L’indice du prix du dollar est alors:
09/03
1,25100 50.
2,5I
77
Indice statistique élémentaire
/ '
'
100tt t
t
XI
X
Définition: L'indice élémentaire d'une grandeur est le rapport entre
la valeur de cette grandeur au cours d'une période courante et sa valeur au cours d'une période de base.
En général, le rapport entre deux grandeurs simples entre deux périodes différentes est appelé un indice élémentaire.
78
t’ t
2007 2008 2009
2007 100 115 120
2008 86.96 100 104.35
2009 83.33 95.83 100
Le tableau des indices élémentaires des prix du bien est le suivant:
Année 2007 2008 2009
t 0 1 2
Pt 2 2.30 2.40
Exemple: le prix P d’un bien entre 2007 et 2009:
79
Propriétés des indices élémentaires
Identité:
Les indices élémentaires vérifient les propriétés de transitivité (ou circularité) et de réversibilité.
Transitivité: / /
/100
t r r st s
I II
Réversibilité:
2
/
/
100r s
s r
II
Soit t, r et s trois situations différentes:
/ 100t tI
80
Les indices synthétiques
Définition : Un indice synthétique est un indice calculé sur une grandeur complexe ( ensemble de prix, ensemble de deux ou plusieurs produits …) Les indices calculés sont donc essentiellement des indices de prix, des indices de quantités et des indices des valeurs monétaires. Les situations d’observations sont presque souvent des périodes.
81
Indice de LASPEYRES a) Indice d’évolution des prix: L’indice de LASPEYRES d’évolution des prix mesure l’évolution, entre deux dates 0 et t, des prix des biens qui composent un panier, en prenant comme référence la valeur du panier à la date initiale (t = 0) et en supposant que les quantités de biens dans le panier n’ont pas varié entre 0 et t.
0
1
/0
0 0
1
100
nj j
t
jp
t nj j
j
p q
L
p q
82
L’indice de Laspeyres des prix traduit l’évolution de l’ensemble des prix des n produits à la date t puisque entre le numérateur et le dénominateur seuls les prix différent.
83
Exemple: Une grande surface propose trois types de piles AAA(1.5v). Les prix (en DHs) et les quantités (en milliers de pièces) de ces trois types pendant les années 2012 et 2013 sont résumés dans le tableau ci-dessous:
2012 2013
prix quantité prix quantité
Type 1 25 120 22 125
Type 2 8 115 10 85
Type 3 6 100 9 95
L’indice de LASPEYRES d’évolution des prix entre 2012 et 2013 est 3
13 12
1
13/12 3
12 12
1
(22 120) (10 115) (9 100)100 100
(25 120) (8 115) (6 100)
103,76
j j
jp
j j
j
p q
L
p q
b) Indice d'évolution des quantités L’indice de LASPEYRES d’évolution des quantités mesure l’évolution, entre deux dates 0 et t, des quantités des biens qui composent un panier, en prenant comme référence la valeur du panier à la date initiale (t=0) et en supposant que les prix des biens dans le panier n’ont pas varié entre 0 et t.
0
1
/0
0 0
1
100
nj j
t
jq
t nj j
j
p q
L
p q
84
Cet indice traduit l’évolution de l’ensemble des quantités des n produits de la date 0 à la date t puisque entre le numérateur et dénominateur seuls les prix différent.
85
Exemple: Pour le même exemple
2012 2013
prix quantité prix quantité
Type 1 25 120 22 125
Type 2 8 115 10 85
Type 3 6 100 9 95
l’indice de LASPEYRES d’évolution des quantités entre 2012 et 2013 est
3
12 13
1
13/12 3
12 12
1
(25 125) (8 85) (6 95)100 100
(25 120) (8 115) (6 100)
96,8
j j
jq
j j
j
p q
L
p q
a) Indice d’évolution des prix : L’indice de Paasche d’évolution des prix mesure l’évolution, entre deux dates 0 et t, des prix des biens qui composent un panier, en prenant comme référence la valeur du panier à la date courante t et en supposant que les quantités de biens dans le panier n’ont pas varié entre 0 et t.
1
/0
0
1
100
nj j
t t
jp
t nj j
t
j
p q
P
p q
Indice de Paasche
86
L’indice de Paasche traduit l’évolution de l’ensemble des prix des n produits de la date 0 à la date t puisque entre le numérateur et le dénominateur seuls les prix différent.
87
Exemple: Pour le même exemple
2012 2013
prix quantité prix quantité
Type 1 25 120 22 125
Type 2 8 115 10 85
Type 3 6 100 9 95
l’indice de Paasche d’évolution des prix entre 2012 et 2013 est
3
13 13
1
13/12 3
12 13
1
(22 125) (10 85) (9 95)100 100
(25 125) (8 85) (6 95)
101,83
j j
jp
j j
j
p q
P
p q
b) Indice d'évolution des quantités : L’indice de Paasche d’évolution des quantités mesure l’évolution, entre deux dates 0 et t, des quantités des biens qui composent un panier, en prenant comme référence la valeur du panier à la date courante t et en supposant que les prix des biens dans le panier n’ont pas varié entre 0 et t.
1
/0
0
1
100
nj j
t t
jq
t nj j
t
j
p q
P
p q
88
89
Exemple: Pour le même exemple
2012 2013
prix quantité prix quantité
Type 1 25 120 22 125
Type 2 8 115 10 85
Type 3 6 100 9 95
l’indice de Paasche d’évolution des quantités entre 2012 et 2013 est
3
13 13
1
13/12 3
13 12
1
(22 125) (10 85) (9 95)100 100
(22 120) (10 115) (9 100)
95
j j
jq
j j
j
p q
P
p q
Indice de Fisher:
Il serait souhaitable que les indices synthétiques satisfont aux mêmes propriétés des indices élémentaires. Fisher a proposé un indice qui satisfait à la propriété de réversibilité. L’indice de Fisher est défini par:
/0 /0 /0t t tF L P
L’indice de Fisher est défini de la même manière pour les prix que pour les quantités.
90
L'indice de Sidgwick
L'indice de Sidgwick est la moyenne arithmétique des indices de Paasche et de Laspeyres:
/0 /0/0 .
2
t tt
L PS
91
Exercice: Calculer les indices de Fisher et de Sidgwick de l’évolution des prix et des quantités des trois types de piles entre 2012 et 2013 (voir exemple précédent) et donner une interprétation des résultats.
92
Exercice : L'évolution des prix de vente (hors taxes) des flacons de 100 ml de huile d'Argan alimentaire, fabriqués et vendus par l'entreprise ``EFAS'', pour les années 2007 à 2013 est donnée par le tableau suivant:
Année (t) 2007 2008 2009 2010 2011 2012 2013
Prix (pt) 25 28 31 36 39 42 45
1. a) Calculer l'indice élémentaire en 2012, base 100, par rapport à 2007.
b) Calculer l'indice élémentaire en 2010, base 100, par rapport à 2009.
c) Donner une interprétation de l'évolution des prix entre 2007 et 2012 et entre 2009 et 2010.
2. Calculer, par deux méthodes différentes, l'indice élémentaire en 2007, base 100, par rapport à 2012.
93
Le directeur commercial de l'entreprise EFAS cherche maintenant à apprécier l'évolution de ses ventes annuelles des flacons de l'huile d'Argan entre les années 2007 et 2013. On considère pour ceci trois types de produits:
2007 2013
prix quantité prix quantité
Huile alimentaire 25 146 45 210
Huile cosmétique 20 220 42,5 180
Huile solaire 50 39 79 100
Entre 2007 et 2013: 1. calculer l'indice de Laspeyres des quantités 2. calculer l'indice de Paasche des quantités 3. Calculer l'indice de Fischer et donner une interprétation
des résultats.
Statistique Descriptive Bivariée
Introduction
• Lorsque l’on étudie plusieurs caractères simultanément, on souhaite évaluer le lien entre les caractères et leur dépendance. On parle donc de Statistique multivariée
• On va se limiter ici à deux dimensions, c.à.d la statistique bivariée
Statistique descriptive bivariée
Le but est d’étudier simultanément deux variables X et Y sur une même population.
95
Plusieurs cas se présentent selon la nature de ces deux variables :
X et Y sont deux variables qualitatives. Exemple : L’acceptation du crédit X est-elle associée au type de
contrat de travail Y?. X est qualitative (ou quantitative discrète avec peu de valeurs
distinctes) et Y est continue. Exemple : On observe le prix Y d’un produit de consommation
courante dans des grandes surfaces de 3 régions différentes X.
X et Y sont deux variables quantitatives (continues ou discrètes)
Exemples :On veut étudier le rapport entre l’âge des femmes (ayant au moins un enfant) et le nombre de leurs enfants.
Quel est le rapport entre les salaires et les dépenses d’une catégorie des fonctionnaires?.
96
Les tableaux à deux caractères
Une population statistique peut être décrite à l’aide de deux caractères simultanément Les tableaux statistiques correspondant sont à deux dimensions, ils sont appelés tableaux de contingence ou croisés dynamiques ou à double entrées
Présentation générale des tableaux de contingence
Considérons une population statistique décrite par deux caractères Un caractère X dont les p modalités xi sont x1, x2, ...,xp et un caractère Y dont les k modalités yj sont y1, y2, ..., yq
97
yj
xi
y1 y2 . . . . . yj . . . . . . yq
x1
x2 .
.
.
xi .
.
.
xp
Les
p m
od
alit
és
de
X
Les q modalités de Y
n11 n12 . . . . .n1j . . . . . n1q
n21 n22 . . . . .n2j . . . . . n2q . . . .
ni1 ni2 . . . . . nij . . . . . . niq . . . .
np1 np2 . . . . . npj . . . . . npq
n1.
n2. . . . .
ni. . . . .
np.
n.1 n.2 . . . . . n.j . . . . . n.q n.j
ni.
n..
Les effectifs partiels apparaissent à l’intérieur du tableau: nij est l’effectif de la population présentant à la fois la modalité xi et la modalité yj
Les marges ou effectifs marginaux
ni. : somme des effectifs de la ième ligne, l’indice j variant de 1 à q est remplacé par « . »
n.j : somme des effectifs de la modalité yj , l’indice i = 1 à p est remplacé par «.»
98
Présentation générale des tableaux de contingence
1. Le tableau contient : Dans la 1ère colonne les n modalités x1, x2, ..., xi, ...., xp du caractère X
Dans la 1ère ligne les k modalités y1, y2, ..., yj, ...., yq du caractère Y
2. L’effectif nij correspond à l’intersection d’une ligne i et d’une colonne j
L’effectif de la population présentant à la fois la modalité xi et la modalité yj
3. Pour les effectifs marginaux ni. et n.j , on remplace l’indice qui varie par « . »
ni. : somme des effectifs de la ième ligne, j =1, ..., q est remplacé par « . »
n.j : somme des effectifs de la jème colonne, i =1, ..., p est remplacé par « . »
4. L’effectif général marginal de X est noté « ni. » et celui de Y « n.j »
5. L’effectif total du tableau est noté « n.. » : il s’agit de l’effectif total de la population étudiée
99
Exemple: Une enquête réalisée auprès des familles de la ville de Larache comporte les deux questions suivantes : – Combien avez-vous eu d’enfants jusqu’`a ce jour ? – Combien de télévisions avez-vous ? En ne considérant que 120 familles ayant au moins une télévision et au moins un enfant, on construit un tableau de contingence résumant les réponses données à ces deux questions. Le tableau de contingence observé est le suivant :
X Y 1 2 3 4
1 12 4 5 11
2 18 16 11 3
3 10 4 20 6
100
Propriétés des tableaux de contingence
Les modalités xi et yj étant incompatibles et exhaustives, on peut écrire plusieurs séries d’égalités
représente le nombre d’individus présentant la modalité xi de X quelle que soit la modalité de Y
Σ nij = ni. q
j=1
Σ nij = n.j p
i=1
représente le nombre d’individus présentant la modalité yj de Y quelle que soit la modalité de X
101
L’effectif total de la population
Il apparaît à l’intersection de la dernière ligne et de la dernière colonne
Il est égal à la somme de la dernière ligne ou de la dernière colonne
Σ ni. = p
i=1 n.. = Σ n.j
q
j=1
En remplaçant ni. et n.j par les expressions précédentes, on obtient
Σ p
i=1 Σ nij = q
j=1 n.. = Σ nij
p
i=1 Σ q
j=1
102
Les fréquences partielles
La fréquence partielle est le rapport de l’effectif partiel par l’effectif total
La fréquence partielle des modalités xi , yj est égale à :
fij =
nij
n..
C’est la proportion d’individus satisfaisant à la fois la modalité xi et la modalité yj
Remarque: La somme des fréquences partielles est égale à 1
103
Distributions marginales
Un tableau de contingence compte deux distributions marginales: la distribution marginale du caractère X et la distribution marginale du caractère Y
La distribution marginale du caractère X
Elle est composée des modalités du caractère X et des effectifs correspondant quelles que soit les modalités du caractère Y
104
La distribution marginale du caractère X est donnée par le tableau suivant
Caractère Effectifs marginaux
x1
x2 .
.
.
xi .
.
.
xp
n1.
n2. .
.
.
ni. .
.
.
np.
Total n..
Fréquences marginales
f1.
f2. .
.
.
fi. .
.
.
fp.
1
On peut calculer les « fréquences marginales »: rapport de l’effectif marginal sur l’effectif total
fi. =
ni.
n..
105
Caractère Effectifs marginaux
y1
y2 .
.
.
yi .
.
.
yq
n.1
n.2 .
.
.
n.j .
.
.
n.q
Total n..
Fréquences marginales
f.1
f.2 .
.
.
f.j .
.
.
f.q
1
La distribution marginale du caractère Y
Elle est composée des modalités du caractère Y et des effectifs correspondant quelles que soit les modalités du caractère X
La fréquence marginale de la modalité yj est égale à :
f.j =
n.j
n..
106
Exemple: En ne considérant que 120 familles ayant au moins une télévision et au moins un enfant, on construit un tableau de contingence ci-dessous où X représente le nombre de télévision par foyer et Y le nombre d’enfants par foyer.
Y X
1 2 3 4
1 12 4 5 11
2 18 16 11 3
3 10 4 20 6
107
108
Distribution marginale de X:
xi ni. fi. (en %)
1 32 26,67
2 48 40
3 40 33,33
total 120 100
Distribution marginale de Y:
yj n.j f.j (en %)
1 40 33,33
2 24 20
3 36 30
4 20 16,67
total 120 100
Distributions conditionnelles 1. Distributions conditionnelles du caractère X liées par yj
Ce sont les modalités de X et des effectifs de chacune de ces modalités dans la sous population présentant la modalité yj de Y
109
Caractère Effectifs de yj
x1
x2 .
.
.
xi .
.
.
Xp
n1j
n2j .
.
.
nij .
.
.
npj
Total n.j
Fréquences conditionnelles
f1/ j
f2/ j .
.
.
fi/ j .
.
.
fp/ j
1
On peut calculer la fréquence conditionnelle de la modalité xi de X sous condition que Y=yj : fxi/y j
=
nij n.j
Caractère Effectifs de
yj
y1
y2 .
.
.
yj .
.
.
yk
ni1
ni2 .
.
.
nij .
.
.
nik
Total ni.
Fréquences
conditionnelles
f1/ i
f2/ i .
.
.
fj/ i .
.
.
fk/ i
1
La fréquence conditionnelle de la modalité yj de Y sous condition que x = xi
2. Distributions conditionnelles du caractère Y liées par xi
Ce sont les modalités de Y et des effectifs de chacune de ces modalités dans la sous population présentant la modalité xi de X
110
fyj/ xi =
nij ni.
Exemple: Pour l’exemple précédent, la distribution de X sous la condition Y=2 la distribution de Y sous la condition X=1
111
xi ni2 fi2
(en %)
1 4 16,67
2 16 66,67
3 4 16,67
total 24 100,01≈ 100
yj n1j f1j (en %)
1 12 37,5
2 4 12,5
3 5 15, 625
4 11 34,375
total 32 100
Caractéristiques numériques des distributions marginales
Soient X et Y deux caractères quantitatifs discrets. { xi , ni. } est la distribution marginale d’effectifs du caractère X et { yj , n.j } est la distribution marginale d’effectifs du caractère Y. Ces deux distributions peuvent être étudiées comme dans le cas des statistiques univariées. En particulier, elles peuvent être caractérisées par leur moyenne et variance.
112
La moyenne de du caractère X:
La moyenne de du caractère Y:
.
1
1
..
p
i i
i
x n xn
.
1
1
..
q
j j
j
y n yn
La variance du caractère X:
La variance du caractère Y:
2
.
1
22
.
1
1( ) ( )
..
1
..
p
i i
i
p
i i
i
Var X n x xn
n x xn
Remarque: Dans le cas où l’un des caractères X et Y est quantitatif continu, on remplace les formules de la moyenne et de la variance les valeurs xi par les centres ci des classes du caractère.
113
2
.
1
22
.
1
1( ) ( )
..
1
..
q
j j
j
p
j j
j
Var Y n y yn
n y yn
Caractéristiques numériques des distributions conditionnelles
Chacune des distributions conditionnelles peut être étudiée comme dans le cas des statistiques univariées. On peut définir les moyennes et les variances conditionnelles.
La moyenne conditionnelle du caractère X sachant que Y=yj
La moyenne conditionnelle du caractère Y sachant que X=xi
1.
1 p
j ij i
ij
x n xn
1.
1 q
i ij j
ji
y n yn
114
La variance de X sachant que Y=yj
La variance de Y sachant que X=xi
2
1.
2 2
1.
1( | ) ( )
1( )
p
j ij i j
ij
p
ij i j
ij
Var X Y y n x xn
n x xn
2
1.
2 2
1.
1( | ) ( )
1( )
q
i ij j j
ji
q
ij j i
ji
Var Y X x n y yn
n y yn
115
Moyenne de X : Variance de X :
Exemple: Soit le tableau de contingence suivant représentant X (nombre de télévision par foyer) et Y (nombre d’enfants par foyer) Y
X 1 2 3 4
1 12 4 5 11
2 18 16 11 3
3 10 4 20 6
116
3
.
1
1
120
1248 2,07
120
i i
i
x n x
32 2
.
1
2
1( )
120
1584 (2,07) 0,58
120
i i
i
Var X n x x
xi ni. ni.*xi
1 32 32 2 48 96 3 40 120
somme 120 248
xi ni. ni.*xi2
1 32 32 2 48 192
3 40 360 somme 120 584
117
Moyenne de Y sous la condition X=1 : Variance de Y sous la condition X=1 :
4
1 1
1
1
32
179 2,47
32
j j
j
y n y
yj n1j n1j*yj
1 12 12
2 4 8 3 5 15
4 11 44 somme 32 79
42 2
1 1
1
2
1( | 1) ( )
32
1249 (2,47) 1,68
32
j j
j
Var Y X n y y
yj n1j n1j*yj2
1 12 12 2 4 16
3 5 45
4 11 176
somme 32 249
118
Exercice: Dans une étude de l'une des filiales de la société ``DigiTech'', on
s'intéresse simultanément aux salaires mensuels et à l'ancienneté des salariés. On note par « X » la variable statistique associée au caractère `` ancienneté des salariés'' en années et par « Y » la variable statistique associée au caractère ``salaires mensuels des salariés'' en Dirhams. Les résultats obtenus sont consignés dans le tableau suivant:
Y X
2000 3000 4000 6000
1 3 3 3 1
3 1 3 4 1
5 1 4 5 2
8 1 5 7 7
1. Déterminer les distributions marginales de X et Y 2. Donner une signification des termes n3., n.1, f2. et f.4 3. Calculer la moyenne, la variance et l’écart-type de Y 4. Déterminer la distribution conditionnelle de X sous la condition Y=6000 5. Calculer X4 et Var(X|Y=6000).
119
Exercice : Les données suivantes concernent 120 offres de ventes d’appartements dans la ville de Larache. Le caractère X représente la surface (en m2) et le caractère Y représente le prix (en 104dhs).
X Y [20,30[ [30,40[ [40,60[ [60,80[
60 16 7 5 2
75 4 10 9 4
80 3 3 11 9
100 2 5 4 4
120 1 5 5 11
1) Calculer f43 et f34 et donner une interprétation des résultats. 2) Donner les distributions marginales de X et de Y 3) Donner une interprétation des valeurs f4. et f.2
4) Calculer la moyenne, la variance et l’écart-type de X 5) Déterminer la distribution conditionnelle de X sous la condition
Y€[30,40[ 1. Calculer X2 et Var(X| Y€[30,40[).
Séries chronologiques
Introduction:
• Une série chronologique ou chronique est constituée par une suite d'observations au cours du temps. Ces observations sont chiffrés, ordonnées dans le temps et portant sur une même grandeur.
• En économie et gestion, le temps est défini comme une variable discrète et les données observées pourront être journalières, hebdomadaires, mensuelles ou trimestrielles.
Remarque:
Une série chronologique peut être définie comme une distribution à deux variables dont l'une est le temps.
121
Exemple 1 : On considère le nombre de ventes d’un bien effectuées par une entreprises dans les 3 dernières années.
122
• Une série chronologique peut être représentée graphiquement en portant
en abscisse le temps t
en ordonnée les valeurs des observations
Exemple 1 : pour la série de vente
0
500
1000
1500
2000
2500
123
Composantes d'une série chronologique
• L'analyse d'une série chronologique vise à fournir un modèle quantitatif permettant de résoudre les problèmes que l'on se pose à son propos.
• Le principe consiste à considérer que la série chronologique étudiée est constituée d'un nombre de composantes que l'on peut isoler et quantifier. Ces composantes sont
la tendance ou trend
la variation saisonnière
la variation résiduelle ou résidus.
124
• La tendance (mouvement de long durée): c'est le mouvement profond de l'évolution à longue durée. Elle schématise l'orientation générale du phénomène étudié. On note Tt sa valeur à l'instant t.
• Le mouvement saisonnier: c'est une composante périodique dont les fluctuations s'équilibrent autour de la tendance. Ce mouvement se déploie généralement sur des périodes à l'intérieur d'une année .En notant St sa valeur à l'instant t et p la période, nous avons St+p=St.
• La composante résiduelle: Elle correspond à des mouvements perturbateurs, irréguliers et imprévisibles. On la note E à l'instant t.
125
Modèle additif • Il s'applique à une variable dont l'amplitude du
mouvement saisonnier est constante.
0
500
1000
1500
2000
2500
Vente
126
Le modèle additif permet de décomposer la variable étudiée Y en somme des trois composantes: Remarque: Dans la pratique on calcule C’est avec ce modèle qu’on peut faire des prévisions.
t t t tY T S
thY T S
127
Analyse de la tendance: Par la méthode des moindres carrées
On cherche à déterminer la relation entre les valeurs observables (yi) et le temps (t) sous la forme de l’équation d’une droite
où « a » et «b » sont deux réels telle que cette droite soit le “plus près” possible du nuage de points.
( )Tr t at b
128
Question: Comment déterminer les coefficients « a » et « b » de l’équation de la droite approximative
129
La détermination des coefficients « a » et « b », appelées coefficients de la régression linéaire, est de telle sorte que l’on minimise la quantité ∑ (ei)
2 où ei est l’écart entre la droite de régression et l’observation d’ordre i.
X
X X
e1
e2
e3
y
x
Ceci est équivalent à minimiser la quantité:
2 2
1 1
( , ) ( )n n
i i i
i i
S a b e y ax b
Méthode des moindres carrés
y ax b
Détermination des coefficient de la régression affine:
Rappel: Si une fonction à deux variables admets des dérivées partielles du premier ordre où elle présente un extremum relatif (a,b), alors ces dérivées s’annulent en ce point.
Les dérivées partielles de S par rapport à a et b sont nulles si et seulement si
130
On obtient donc le système de deux équations à deux inconnus a et b
Ce qui est équivalent à
131
( , ) et
( )
Cov X Ya b y ax
Var X
En conclusion
Rappelons que
132
Calcul des valeurs du trend par la méthode des moindres carrés
Par la méthode des moindres carrés, l’équation de trend est
133
( , ) et
( )
Cov t ya b y at
Var t
1 1
1 1 et
n n
i i
i i
t t y yn n
2 2
1
1( ) ( )
n
i
i
Var t t tn
1
1( ; ) _
n
i i
i
Cov t y t y t yn
( )Tr t at b Les coefficients « a » et « b » sont tels que
avec
Exemple d’application: On considère le nombre de ventes d’un bien effectuées par une entreprises dans les trois dernières années.
134
1. Calcul de la moyenne de t et de y:
12
1
1
12
11 2 3 4 5 6 7 8 9 10 11 12
12
6,5
i
i
t t
12
1
1
12
860 941+360 1148+1096+10211
+1705+1505+1436+1363+2047+200012
116335
12
1361,25
i
i
y y
135
ti 1 2 3 4 5 6 7 8 9 10 11 12 Somme
ti2 1 4 9 16 25 36 49 64 81 100 121 144 650
2. Calcul de Var(t):
122 2
1
1( ) ( )
12i
i
Var t t t
21
( ) 650 6,512
54,17 42,25
11,92
Var t
136
3. Calcul de Cov(t,y):
12
1
1( ; ) _
12
1119772 6,5 1361,25
12
9981 8848,125
1132,875
i i
i
Cov t y t y t y
ti yi tiyi
1 860 860
2 794 1588
3 1360 4080
4 1148 4592
5 1096 5480
6 1021 6126
7 1705 11935
8 1505 12040
9 1436 12924
10 1363 13630
11 2047 22517
12 2000 24000
137
4. Calcule de a et b:
5. Equation du Trend
( , )
( )
1132,875
11,92
95,04
Cov t ya
Var t
1361,25 95,04 6,5
743,49
b y at
( ) 95,04 743,49Tr t t
138
Détermination du mouvement saisonnier
• L'objectif est de déterminer la composante saisonnière S mesurant l'influence saisonnière correspondante pour chaque saison.
• Deux principes fondamentaux sont à la base de déterminer les coefficients saisonniers:
1. Répétition à l'identique: toute variation saisonnière se répète identiquement à chaque période.
2. Neutralité de l'influence des variables saisonnières sur chaque période: le mouvement saisonnier est compensant
139
Calcul des coefficients saisonniers
1. On calcule l'écart saisonnier
ES=Y-T
2. On calcule si la moyenne arithmétique des écarts saisonniers pour chaque période i.
3. On calcule s la moyenne des si
4. les coefficients saisonniers Si sont définies par
Si=si- s
140
Exemple d’application:
On calcule les trend par l’équation y=at+b pour t=1,2,…,12
141
1. On calcule les écarts saisonniers ES=Y-T:
142
2. On Calcule les si pour i=1,2,3, 4
1 1 5 9
1
3
121, 47 122,69 162,85
3
88,02
s ES ES ES
2 2 6 10
1
3
1139,57 292,73 330,89
3
254,4
s ES ES ES
3 3 7 11
1
3
1331,39 296,23 258,07
3
295,23
s ES ES ES
4 4 8 12
1
3
124,35 1,19 116,03
3
47,19
s ES ES ES
143
3. On calcule la moyenne des si
4. On calcule les Si
1 2 3 4
1
4
188,02 254,4+295,23+47,19
4
0
s s s s s
1 1
2 2
3 3
4 4
88,02
254,4
295, 23
47,19
S s s
S s s
S s s
S s s
144
Représentation et prévision Pour présenter le modèle théorique de la série chronologique,
il suffit de calculer, pour tout t,
th
t t t tY T S at b S
Par exemple dans la série de vente:
1 1 1
2 2 2
8 8 4
11 11 3
838,53 88,02
933,57 254,4
1503,81 47,19
1788,93 295,23
th
th
th
th
Y T S
Y T S
Y T S
Y T S
145
146
0
500
1000
1500
2000
2500
1 2 3 4 5 6 7 8 9 10 11 12
vente
vente théorique
147
Le contrôleur de gestion demande des prévisions auprès du service des ventes pour les deux dernières trimestres de 2014.
• Le 3ème trimestre est équivalent à t=15
La prévision des ventes est:
• Le 4ème trimestre est équivalent à t=16
La prévision des ventes est:
15 15 3
95,04 15 743,49 295,23
2464
thY T S
16 16 4
95,04 16 743,49 47,19
2311
thY T S
148
149
Exercice : L'évolution du prix d'un article pendant les deux dernières années est résumée dans le tableau suivant
1. Calculer t, P, Var(t) et Cov(t;P). 2. Trouver l'équation d'ajustement linéaire des prix en fonction du Rang:
P=at+b. 3. En déduire les valeurs des Trends Tr(t) pour t=1,...,8. 4. Calculer les écarts saisonniers ES(t) pour t=1,...,8 et en déduire les
coefficients saisonniers. 5. Calculer les valeurs théoriques Pth(t) de la série chronologique des
prix. 6. Donner les prévisions des prix pour les six premiers mois de l'année 2015.
Années 2012 2013
Trimestres 1 2 3 4 1 2 3 4
Rang: t 1 2 3 4 5 6 7 8
Prix: P 1490 2225 1100 1635 1335 2085 1050 1560
Bibliographie
• Elisabeth Olivier, «L'essentiel de Statistique descriptive », Collection Les Carrés (2008).
• Catherine Dehon, «Cours de statistique descriptive et éléments de probabilités», Université libre de Bruxelles (2014).
• Fabrice MAZEROLLE, «Notes de cours Statistique descriptive », Faculté d’Economie Appliquée d’Aix-Marseille (2007).
150