37
GOL Techniques Quantitatives HERVÉ BOULET 08/11/2013 1.2

Techniques Quantitatives - educatim.fr

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Techniques Quantitatives - educatim.fr

GO

LTechniques

Quantitatives

HERVÉ BOULET

08/11/2013

1.2

Page 2: Techniques Quantitatives - educatim.fr

Légende

Page 3: Techniques Quantitatives - educatim.fr

Table des matières

Objectifs 5

Introduction 7

I - Généralités 9

A. Terminologie................................................................................................9 1. Objet de la statistique........................................................................................................9 2. Population statistique......................................................................................................10 3. Echantillon.....................................................................................................................14 4. Individu ou unité statistique.............................................................................................16 5. Variable.........................................................................................................................17

II - Statistique descriptive 25

A. Série statistique uni variée...........................................................................25 1. Tendance centrale...........................................................................................................25 2. Dispersion......................................................................................................................35 3. Forme............................................................................................................................38 4. Concentration.................................................................................................................45

3

Page 4: Techniques Quantitatives - educatim.fr

Objectifs

Les calculs statistiques sont des techniques d'interpretation desdonnees numeriques. Ces calculs ont pour objet de permettre de tirerdes conclusions a partir de donnees observees, conclusions quiechapperaient a un examen purement intuitif.L'objectif est atteint en deux temps :

1. La collecte des donnees : c'est l'objet de la statistiquedescriptive, qui consiste a fournir des indicateurs simples,peu nombreux et concis en vue de presenter la realitephysique ou economique.

2. L'interpretation des donnees : cette phase permet de tirer desconclusions a partir de resultats observes sur un echantillon.C'est la statistique inferentielle. On utilise a cet effet lecalcul des probabilites pour definir quel est le modelemathematique qui represente le mieux la realite. Tout ceci envue de faire des previsions.

5

Page 5: Techniques Quantitatives - educatim.fr

Introduction

Vous serez amener en entreprise à analyser des ensembles de données issues de WMS oud'une manière générale du système d'information de l'entreprise qui vous accueille. Lamission N°2 de la formation GOL est propice à la mise en œuvre des outils d'analyses et deprévisions qui seront aborder dans ce cours.Organisation des cours 28 heures de cours en salle informatique 2 notes :

Un partiel : travail à réaliser à l'aide d'un tableur comme Excel Un projet mettant en œuvre les notions abordées durant les cours conduisant à la

réalisation d'une application sur tableur. Le travail réalisé en binôme consiste àcollecter des données (réelles ou fictives) et à proposer une étude la plus complètepossible.

7

Page 6: Techniques Quantitatives - educatim.fr

I - Généralités I

Terminologie 9

A. Terminologie

1. Objet de la statistique

DéfinitionLa statistique est l'ensemble des techniques ayant pour objet de décrire,numériquement et graphiquement les populations. Population, individus, variables, données et statistiques sont les objets de lastatistiques.

2. Population statistique

DéfinitionEn statistique, on appelle population un ensemble d'elements caracterises par uncritere permettant de les identifier sans ambiguite. Chacun des elements est appeleindividu (ou unité statistique). Ces appellations sont liees aux origines demographiques de la statistique.

Exemple La population europeenne : ensemble des individus residant sur le territoire

europeen a un moment donne. Le parc automobile francais: ensemble des automobiles immatriculees sur le

territoire francais.

Fondamental La population est en general notee P L'effectif total d'une population est note N

9

Page 7: Techniques Quantitatives - educatim.fr

Population statistique

Conseil : Confusion population-variableLa définition de la population et de la variable n'est pas si simple qu'elle ne paraît.Supposons qu'on soit chargé d'une étude statistique sur l'absentéime dans uneentreprise. Des propositions erronées comme par exemple :

Nombre de salariés : la population n'est jamais un nombre, mais unensemble

Ensemble des salariés présents : il vaut mieux s'intéresser à la populationdes salariés et ajouter la variable durée d'absence. Les salariés présentsseront ceux pour lesquels cette durée est positive.

Durée des absences : il ne peut s'agir d'une variable, pas d'une population.Une durée se mesure sur une absence. La population doit être l'ensembledes déclarations d'absence.

3. Echantillon

DéfinitionC'est un sous-ensemble construit et representatif d'une population donnee. Lorsquel'on parle d'echantillon on parle en general de population mere, c'est-a-dire de lapopulation dont est issu l'echantillon.

FondamentalUn echantillon de taille n est un sous-ensemble forme de n individus de lapopulation (n< =N).

AttentionLa notion d'echantillon est fondamentale, car, en regle generale, la populationentiere n'est pas disponible ou observable. Dans ce cas seul un echantillon estetudie et les resultats obtenus sont extrapoles a la population.

4. Individu ou unité statistique

DéfinitionÉlément de base constitutif de la population à laquelle il appartient. Il est

Généralités

10

Page 8: Techniques Quantitatives - educatim.fr

indivisible et peut etre un animal, un vegetal, un humain ou un objet.

Exemple une automobile, un logement, une vache, une ampoule, une ville, etc.

FondamentalNoté i

5. Variable

a) Caractère(s) caractéristique(s)

DéfinitionCaractere(s) ou caracteristique(s) de l'individu (cf. Individu ou unité statistique p10) integrant la population (cf. Population statistique p 9) etudiee.

ExempleExemple : la couleur, le sexe, le poids, la taille, la marque, le modele, l'espece, leprix, la surface, etc.

ComplémentCes caractères sont aussi appelés critères.Parmi ces critères, certains sont quantitatifs comme l'âge, le poids, la talle. Onpeut en effet effectuer des calculs numériques sur ces critères : poids moyen, taillemaximale, taille minimale, etc.D'autres critères ne sont pas quantifiables, car on ne peut pas effectuer de calculsdessus. Ils sont qualitatifs. C'est le cas du sexe par exemple. On peut connaîtrel'effectif masculin et l'effectif féminin d'une population, mais la notion de "sexemoyen" n'a pas de sens et ne peut d'ailleurs pas être calculée.Afin de différencier les deux types de critères, les critères qualitatifs sont appelésparfois caractères et les critères quantitatifs, variables.

b) Modalité

DéfinitionUne modalité est la valeur prise par une variable statistique qu'elle soit qualitativeou quantitative. Les modalités correspondent donc à l'ensemble des valeurspossibles.

Exemple Sexe : féminin ou masculin Poids : 45kg, 67 kg,...

Généralités

11

Page 9: Techniques Quantitatives - educatim.fr

Couleur : bleu, verte,...

AttentionLes modalités sont exhaustives et mutuellement exclusives. Chaque individu doitpouvoir être classé dans une et une seule modalité.

SyntaxeSi le nombre de modalités est noté r, l'ensemble des modalités de la variable X seranoté M={x1, x2,...,xr)

c) Variable statistique

DéfinitionUne variable statistique est une caracteristique (cf. Caractère(s) caractéristique(s)p 11) pouvant prendre plusieurs des valeurs d'un ensemble d'observations possiblesauquel une mesure ou une qualite peut etre appliquee.

FondamentalEst notée X

Fondamental : Une variable est dite, selon le cas :« Quantitative » : ses valeurs sont des nombres exprimant une quantité, surlesquels les opérations arithmétiques (somme, etc...) ont un sens. La variable peutalors être discrète ou continue selon la nature de l'ensemble des valeurs qu'elleest susceptible de prendre (valeurs isolées ou intervalle de R ).« Qualitative » : ses valeurs sont des modalités , (ou catégories , ou caractères )exprimées sous forme littérale ou par un codage numérique sur lequel desopérations arithmétiques n'ont aucun sens. On distingue des variables qualitativesordinales ou nominales , selon que les modalités peuvent être naturellementordonnées ou pas.

d) Propriétés des données

Types, échelles de mesure et natures des donnéesLes données manipulées en statistique (lors de la collecte et/ou lors de l'analyse)peuvent se présenter sous différentes formes. Ces formes, reflets des propriétésintrinsèques de la donnée, influent de façon décisive sur la manière de représentercelle-ci et sur les types de traitements qui pourront lui être appliquées en vue deson analyse.On distingue trois proprietes fondamentales qui permettent de caracteriserprecisement la donnee. Ce sont:

1. Le type : qualitatif (cf. Variable qualitative p 13) ou quantitatif (cf. Variablequantitative p 13)

2. L'echelle de mesure : nominale (cf. Échelle nominale p 17), ordinale (cf.Échelle ordinale p 16), intervalle (cf. Échelle d'intervalle p 17) ouproportionnelle (cf. Échelle proportionnelle p 17)

3. La nature : continue (cf. Variable continue p 18) ou discrete (cf. Variablediscrète p 17)

A chaque donnee, a chaque variable sont necessairement rattachees ces troisproprietes.

Généralités

12

Page 10: Techniques Quantitatives - educatim.fr

Propriétés des données et variables

Une donnee ou une variable est obligatoirement de type qualitatif ou de typequantitatif. Le type qualitatif est egalement appele type « non-metrique » paropposition au type quantitatif dit type « metrique ».

e) Type

i Variable qualitative

Rappel : DéfinitionLes variables qualitatives contiennent des valeurs qui expriment une qualite, unetat, c'est-a-dire une condition, un statut unique et exclusif comme le sexe, lacouleur ou bien encore la categorie socioprofessionnelle.Les operations arithmetiques que l'on peut realiser sur ce type de variable sontrelativement reduites et se limitent au comptage des effectifs par modalite(frequences absolues) et au calcul de pourcentage (frequences relatives) et lemode.

ExempleUne personne ne peut pas appartenir a des sexes differents en meme temps et nepeut, en theorie, pas en changer (unicite) . Le fait d'etre, par exemple, du sexefeminin l'exclue automatiquement des autres modalites que peut prendre lavariable « sexe » (exclusivite).

1 Échelle de mesure

Les donnees et variables qualitatives peuvent se presenter sous deux formes deuxdifferentes: la forme nominale ou la forme ordinale.Nous pouvons distinguer :

La forme qualitative nominale (cf. Échelle nominale p 17) La forme qualitative ordinale (cf. Échelle ordinale p 16)

2 Nature

Une variable qualitative, qu'elle soit nominale ou ordinale, est toujours de naturediscrete (cf. Variable discrète p 17), contrairement a une variable quantitative quipeut etre soit de nature discrete, soit de nature continue.

ii Variable quantitative

Généralités

13

Qualitative Quantitative

Variable ou donnée

Type

Echelle de mesure

Nominale Ordinale Intervalle Proportionnelle

Discrète

Nature

Continue

Discrète Discrète DiscrèteContinu

e

Page 11: Techniques Quantitatives - educatim.fr

Rappel : Définitionles donnees ou variables quantitatives contiennent des valeurs numeriques faisantreference a une unite de mesure reconnue. Pour cette raison, elles sont quelquesfois qualifiees de variables metriques. La taille, le poids, la surface, la distance, lerevenu, l'age, le chiffre d'affaire ou bien encore la population (dans le sens dunombre d'habitants) sont des variables quantitatives.Toutes les operations arithmetiques simples et complexes sont applicables auxvariables quantitatives, du denombrement (frequences absolues) et autre calcul depourcentage (frequences relatives) en passant par la moyenne, la mediane etl'ecart-type jusqu'a la modelisation numerique.

ExempleExemple, le loyer d'un logementAu-dela de la qualification d'un loyer (bon marche, correct, cher ou tres cher) quien fait alors une variable qualitative ordinale, le loyer demeure une variablemesurable objectivement selon une unite de mesure reconnue : le prix exprime eneuros par mois ou en euros par mois et par m2. On peut l'additionner, en calculer lamoyenne et l'ecart-type, en regrouper les valeurs pour former des classes et memele modeliser.

1 Échelle de mesure

Nous distinguons trois types d'échelles : Échelle ordinale (cf. Échelle ordinale p 16) Échelle d'intervalles (cf. Échelle d'intervalle p 17) Échelle proportionnelle (cf. Échelle proportionnelle p 17)

2 Nature

Une variable quantitative proportionnelle (ou de rapport) peut etre de naturediscrete (cf. Variable discrète p 17) ou de nature continue (cf. Variable continue p18).

iii Transformation de variables qualitatives en variables quantitatives

MéthodeCertains traitements et analyses sur des donnees et variables qualitativesnecessitent voire exigent que ces dernieres presentent une forme « pseudoquantitative » en lieu et place de leur forme « nominale ». C'est notamment le caslorsqu'il s'agit d'utiliser des variables qualitatives dans un traitement multivarie ousimplement lorsque l'on desire les rendre manipulables et compatibles avec deslogiciels statistiques.

Exemple : Variable qualitative ordinalela variable qualitative ordinale « moral des menages francais » propose les cinqmodalites suivantes: Tres bon, Bon, Moyen, Mauvais et Tres mauvais. L'encodagenumerique de la variable doit se faire en respectant son caractere ordinal initial. Cefaisant, on obtient le codage suivant :

5 = Tres bon 4 = Bon 3 = Moyen 2 = Mauvais

Généralités

14

Page 12: Techniques Quantitatives - educatim.fr

1 = Tres mauvais

Exemple : Variable qualitative nominalela variable qualitative nominale « sexe » propose les deux modalites suivantes:Masculin et Feminin. Dans ce cas, l'encodage numerique n'a aucune hierarchie arespecter mais doit seulement reproduire la distinction entre modalites. On peutainsi indifferemment ecrire :

1 = Masculin 2 = Feminin

AttentionIl est a noter que les nombres affectes aux modalites qualitatives en vue de leurtransformation n'ont pas de signification et ne peuvent faire l'objet d'operationsarithmetiques comme par exemple le calcul d'une somme ou d'une moyenne. Enrealite, ce sont des « numeros » qui ne modifient en rien les proprietesfondamentales rattachees aux variables qualitatives, qu'elles soient nominales ouordinales.

iv Transformation de variables quantitatives en variables qualitatives

FondamentalLa transformation d'une variable quantitative en variable qualitative, est egalementpossible et meme souhaitable dans certains cas de figures meme si elle demeureplus delicate et impose de ce fait le respect de regles beaucoup plus strictes.La plupart du temps la transformation d'une variable quantitative en une variablequalitative passe la constitution de classes a partir de la distribution observee.

Définition : DiscrétisationCette operation est appelee discretisation puisque, quelle que soit la nature desdonnees quantitatives en amont (intervalle ou de rapport, discrete ou continue),elle aboutit inevitablement a la fabrication d'une variable qualitative ordinalediscrete.

AttentionIl est donc important d'avoir a l'esprit que cette transformation engendre une perted'information et egalement une diminution de la capacite d'analyse et traitementdes donnees puisque certains parametres ne seront plus calculables precisement apartir d'une distribution discrete (moyenne, ecart-type, etc.). En effet, chaqueclasse definie regroupe sous une meme identite, selon un meme caractere desindividus qui a l'origine se distinguaient les uns des autres par des valeursdifferentes. On soupconne ici l'importance que revet le processus d'elaboration desclasses (definition des limites de classes, etendue des classes, nombre de classes,etc.), le but final etant de synthetiser un volume important d'informations enlimitant la perte liee a la discretisation. Autrement dit, il s'agit de maximiser lareduction de contenu informationnelle d'une distribution en en minimisant lespertes.

1 Méthodes

Il existe plusieurs methodes plus ou moins complexes et elaborees en vue de ladiscretisation d'une distribution de valeurs sachant que pour ce faire rien neremplace le bon sens et la connaissance que l'on a du phenomene etudie.

Généralités

15

Page 13: Techniques Quantitatives - educatim.fr

Il existe donc trois groupes de methodes de discretisation :

1 Méthodes empiriques

les methodes empiriques : basees sur l'experience et la connaissance duphenomene etudie, elles utilisent en plus l'allure de la distribution pour y decelerdes ruptures naturelles et ainsi delimiter les bornes des classes a creer. Cettemethode, pour partie visuelle, necessite une bonne connaissance du phenomene atraiter.

2 Méthodes par défaut

les methodes par defaut qui ne necessitent ni une connaissance approfondie duphenomene ni une etude de la distribution. Leur simplicite est a la hauteur desapproximations qu'elles generent et elles ont tendance, de fait, a lisser lephenomene etudie. Leur principe est simple: prenant en compte ou l'effectif totalde la population etudiee ou l'amplitude totale de la distribution de la variableetudiee, ces methodes proposent, des lors qu'un nombre souhaite de classes estdefini :

soit une discretisation en classes d'egale amplitude, soit une discretisation en classes d'egal effectif.

3 Les méthodes statistiques

les methodes statistiques basees sur les parametres de tendance centrale et dedispersion :

Sur la base de la moyenne Sur la base de l'ecart-type

f) Echelle

i Échelle ordinale

DéfinitionUne variable qualitative ordinale possede toutes les proprietes de la variablequalitative nominale (cf. Échelle nominale p 17) avec en plus la possibilite depositionner et de hierarchiser les individus entre eux selon la valeur attachee a leurcaractere. En d'autres termes, il sera possible de ranger dans une gradationlogique, selon une hierarchie naturelle, les individus de la population etudiee pour lecaractere retenu. D'une facon generale, la forme qualitative ordinale fait referencea des caracteres non mesurables mais dont on sait que les modalites renfermentune notion d'ordre, ou bien a des variables quantitatives ayant fait l'objet d'uneclassification. Les operations autorisees pour l'echelle qualitative ordinale sont, enplus du comptage par modalite (frequences absolues et frequences relatives etmode), la mediane.

ExempleLa variable « niveau de confort d'un logement » est de type qualitative ordinale, lesvaleurs pouvant etre prises par celle-ci etant bien de type nom (mediocre, moyen,bon, tres bon) et une hierarchie existe entre les modalites definies sans pour autantque l'on puisse mesurer de facon infaillible le niveau de confort : il n'existe pas de «conforometre » ni d'unite de mesure du parametre « confort » au demeurant tressubjectif. Le caractere ordinal de la variable permet cependant d'ecrire bon >mediocre ou moyen < tres bon. L'epoque de construction des logements estegalement une variable qualitative ordinale.

Généralités

16

Page 14: Techniques Quantitatives - educatim.fr

ii Échelle nominale

DéfinitionUne variable est dite qualitative nominale quand ses valeurs sont des elementsd'une categorie type nom non hierarchique. En d'autres termes, ses elements nepeuvent pas se ranger dans une gradation logique, selon une hierarchie naturelle.La donnee qualitative nominale ne peut donc etre apprehendee qu'a travers desmodalites entre lesquelles il n'existe aucune relation d'ordre

Exemplela variable « couleur » est de type qualitative nominale, les valeurs pouvant etreprises par celle-ci etant bien de type nom (vert, jaune, noir, rouge, ...) sansqu'aucune hierarchie ne soit applicable entre les modalites recensees (on peut enaucun cas ecrire jaune > rouge ou vert = noir).

iii Échelle d'intervalle

Une variable appartenant a l'echelle d'intervalle a ceci de specifique que les valeursqui la composent ne sont pas des multiples les unes de autres, et donc que lesintervalles entre valeurs ne sont pas constants. Un exemple: on a releve le12/06/2008 a Moscou une temperature de 11°C. Le lendemain, on mesure unetemperature de 22 °C a la meme heure. Il a donc fait plus chaud le 13/12/2008 quela veille mais on ne peut cependant pas affirmer qu'il y a fait deux fois plus chaud.L'echelle d'intervalles, en plus des operations arithmetique s classiques, autorise laplupart des calculs statistiques : moyenne arithmetique, ecart-type, coefficient decorrelation, variance, covariance, etc. Par contre, elle ne permet pas le calcul de lamoyenne geometrique ou du coefficient de variation.

iv Échelle proportionnelle

A la difference de l'echelle d'intervalle, l'echelle proportionnelle ou de rapport secaracterise par des proportions egales entre les valeurs mesurees de telle sorte qu'ilexiste entre ces valeurs une relation mathematique directe et constante. L'echelleproportionnelle possede en outre un zero unique et universel. Toutes les variablesfaisant reference au Systeme International d'Unite (SI – norme ISO 1000)appartiennent a l'echelle de mesure dite proportionnelle (ou de rapport): c'est lecas des longueurs, des surfaces, des poids et des comptages d'effectifs ainsi que lamesure du temps via le SI, et toutes les variables resultantes de la combinaisond'au moins deux des unites du SI telle que la vitesse (qui n'est qu'une expressionde la distance par rapport au temps), la densite de population (effectif rapporte aune surface), etc. Le zero y est universel et signifie absence de mesure ou mesurenulle, et chaque valeur non nulle mesuree est necessairement le multiple den'importe quelle autre valeur mesuree. Exemple: on pourra dire qu'une personnepesant 90 kg est deux fois plus lourde qu'une personne de 45 kg ou bien encorequ'un loyer de 337,50 €/mois est 1,5 fois (ou 50 %) plus eleve qu'un loyer de 225€/mois.L'echelle de rapport (ou echelle proportionnelle) possede toutes les proprietes ettous les niveaux d'informations des autres echelles plus l'immense avantage de sepreter a absolument toutes les operations arithmetiques et statistiques pouvantexister.

g) Nature

i Variable discrète

Généralités

17

Page 15: Techniques Quantitatives - educatim.fr

DéfinitionUne variable est dite discrete quand elle prendre un nombre fini ou denombrable devaleurs. En d'autres termes, le passage d'une modalite a une autre est « brutal »,sans continuite, sans glissement progressif. C'est typiquement le cas des variablesqualitatives nominales et ordinales pour lesquelles la transitions entre modalites serealise sans nuance, abruptement.

Exemplela variable « categorie socioprofessionnelle » est une variable qualitative nominativediscrete. En effet, le nombre de valeurs qu'elle peut prendre est fini (oudenombrable) et la transition entre modalite, par exemple de la modalite « employe» a la modalite « agriculteur », se fait sans nuance, sans continuite, maisnettement.Dans le meme ordre d'idee, la variable « niveau d'education » avec les modalites «Analphabete, Primaire, Secondaire, Universitaire » est de type qualitative ordinalediscrete pour les memes raisons qu'evoquees dans le cas precedent.

ii Variable continue

DéfinitionUne variable continue peut, a l'inverse de la variable discrete, prendre un nombreinfini ou non denombrable de valeurs. Il n'y a, de ce fait, plus de modalite ou plutotune infinite de modalites car entre deux valeurs donnees toutes les nuances detransitions sont possibles. Le cas « continu » ne concerne donc que les variablesdites quantitatives pour lesquelles il peut y avoir autant de modalites qu'il y ad'individus.

Exemplela variable « temperature » est une variable quantitative d'intervalle continue.Celle-ci peut en effet prendre une infinite de valeurs quelles que soient les limitesretenues. Par exemple, entre 10 et 12 °C, la variable peut prendre n'importelaquelle des innombrables valeurs existantes et mesurables : 10,007 °C, 11,11 °Cou bien encore 11,9999 °C si tant que l'on soit capable d'atteindre cette precisiondans la mesure.

D'une facon generale, les valeurs que peut prendre une variable quantitativecontinue appartiennent a l'ensemble des nombres reels R alors que les valeurscaracterisant une appartiennent quant a elles a l'ensemble des nombres entiers N,comme par exemple le nombre d'habitants.

Généralités

18

Page 16: Techniques Quantitatives - educatim.fr

II - Statistique descriptive

II

Série statistique uni variée 25

A. Série statistique uni variée

1. Tendance centrale

a) Mode

Noté , il correspond à la valeur qui apparaît le plus souvent dans unedistribution, autrement la valeur qui a la fréquence (absolue ou relative) la plusélevée. S'il s'agit de données non groupées, la valeur modale est clairement identifiable. Par contre, si l'on est en présence de données groupées en classes, le mode serapportera à la classe comportant le plus grand nombre d'individus : on parleraalors de classe modale.

RemarqueAttention ! Le mode est la seule mesure centrale qui peut être relevée et utiliséeaussi bien pour des données qualitatives que quantitatives.

FondamentalLe mode est donc l'effectif le plus important qu'il est possible de déterminer lafonction MAX() dans Excel.Dans le cas de classe modale, pour obtenir la valeur exacte du mode, il fautprocéder une interpolation.

19

Page 17: Techniques Quantitatives - educatim.fr

Classe modale

Lorsque les variables sont groupées en classes il est parfois utile de remplacer lanotion de classe modale par la notion de mode, pour cela on effectue uneinterpolation linéaire à l'intérieur de la classe modale ; la détermination se fait de lafaçon suivante :Afin de calculer le mode, nous prendrons l'hypothèse d'une répartition influencéepar les valeurs h1et h2, le mode étant « attiré » du côté du rectangle voisin de plusgrande densité. Il est supposé que la densité croît de la valeur h1, à son maximumh et décroît de h à h2 avec la même vitesse, ce qui donne, avec les tauxd'accroissement :

avec et La formule est donnée par :

RemarqueLe mode n'est évidemment pas suffisant pour caractériser et résumer unedistribution. Il l'est encore moins pour comparer et différencier des distributions.Deux distribution peuvent en effet avoir le même mode avec cependant des allures,et donc des caractéristiques, totalement différentes. On a donc inventer d 'autresparamètres, d'autres mesures susceptibles de mieux caractériser et/ou différencierdes distribution. C'est le cas de la médiane.

b) Moyenne

i Moyenne arithmétique

C'est la plus simple et la communément utilisée et ce, pas toujours à bon escient.Elle se note la plupart du temps. Elle peut être simple ou pondérée. Attention ! Onne peut pas calculer de moyenne arithmétique sur des données qualitatives.

1 Moyenne arithmétique simple

DéfinitionSa version simple correspond à une somme de résultats divisée par le nombre derésultats et s'écrit

Statistique descriptive

20

Page 18: Techniques Quantitatives - educatim.fr

AttentionLa moyenne simple, dans son principe de calcul, ne permet de tenir compte de lastructure de la population étudiée et du poids éventuellement différent que peuventavoir chacun des individus ou classes d'individus la composant.

2 Moyenne arithmétique pondérée

La moyenne arithmétique pondérée, autant le dire tout de suite, donne, dans sonutilisation classique (c'est-à dire lorsque tous les individus ont le même poids), lemême résultat que la moyenne arithmétique simple. Sa formule est cependantdifférente puisqu'elle introduit la notion de poids via un terme supplémentaire quipeut s'avérer utile dans certaines situations, notamment lorsque justement lesindividus composant une population n'ont pas le même poids ou coefficient :certains individus, pour diverses raisons, ont davantage d'influence dans laditepopulation que les autres. Ce peut être le cas par exemple lorsque l'on a affaire àune série de notes dont le coefficient n'est pas le même.

DéfinitionDans le cas d'une variable discrète, la moyenne arithmétique est donnée par :

ni est l'effectif pour la modalité xiLa moyenne arithmétique de données groupéesAutant que faire se peut, ce type de calcul est à éviter car source d'imprécision etd'erreur trop importantes. Cependant, on peut être confronter à une situation oùseules des données groupées sont disponibles. Dans ce cas, et seulement danscelui-là, on peut être autorisé à calculer une moyenne à partir de classes. On agitalors comme si tous les résultats d'une classe se trouvaient au centre de celle-ci. Lamoyenne de la distribution est alors calculée à partir des valeurs centrales desclasses pondérées par leurs effectifs respectifs.

Le résultat est au final assez peu différent de celui obtenu par la moyennearithmétique simple car la moyenne arithmétique simple, vu le nombre importantde valeurs et compte tenu de la structure de l'échantillon, tient compte, de façonpresque naturelle, du poids des individus en attribuant implicitement à chaqueindividus le poids de sa catégorie.

Statistique descriptive

21

x=1n∑i=1

n

x i=∑i=1

n

x i

n=

( x1+ x2+ ...+ xn)

n

x=1N

⋅∑i=1

p

n i⋅x i ou x=∑i=1

p

f i⋅x i

x=1N

⋅∑i=1

p

n i⋅c i

Page 19: Techniques Quantitatives - educatim.fr

RemarqueIndiquons que dans le cadre de cette démarche, la moyenne pondérée par leseffectifs prendra le nom "d'espérance mathématique" dans le domaine d'étude desprobabilités.

ii Moyenne géométrique

La moyenne géométrique est un instrument permettant de calculer des tauxmoyens, notamment des taux moyens annuels. Son utilisation n'a un sens que siles valeurs ont un caractère multiplicatif.

1 Moyenne géométrique simple

DéfinitionLa moyenne géométrique de n valeurs positives xi est la racine nième du produit de

ces valeurs. Notée , elle s'écrit :

ExempleLes prix de l'immobilier ancien ont augmenté ces 10 dernières années de la façonsuivante :

Année

Variationannuelle

(%)

1 9,2

2 12,7

3 8,8

4 7,7

5 3,9

6 1,7

7 0,9

8 2,2

9 4,7

10 3,3

En utilisant la moyenne arithmétique simple, on obtiendrait une évolution moyennede (9,2+12,7+8,8+7,7+3,9+1,7+0,9+2,2+4,7+3,3)/10 = 55,1 / 10 = 5,51 %mais ce résultat est faux compte tenu de la relation entretenue par les taux d'uneannée sur l'autre. L'utilisation de la moyenne géométrique permet de solutionner ceproblème :

Soit une hausse moyenne annuelle de 4,18 % contre 5,51 % avec la moyennearithmétique.

Statistique descriptive

22

Page 20: Techniques Quantitatives - educatim.fr

Méthode : Formule ExcelMOYENNE.GEOMETRIQUE(nombre1;nombre2;...)nombre1,nombre2,... représentent les 1 à 30 arguments dont vous souhaitezcalculer la moyenne. Vous pouvez aussi utiliser une matrice ou une référence à unematrice plutôt que des arguments séparés par des points-virgules.NotesLes arguments doivent être soit des nombres, soit des noms, des matrices ou desréférences contenant des nombres.Si une matrice ou une référence utilisée comme argument contient du texte, desvaleurs logiques ou des cellules vides, ces valeurs ne sont pas prises en compte. Enrevanche, les cellules contenant la valeur 0 sont prises en compte.Si l'une des observations ≤ 0, la fonction MOYENNE.GEOMETRIQUE renvoie lavaleur d'erreur #NOMBRE!

2 Moyenne géométrique pondérée

DéfinitionSi on considère l'ensemble de données suivant :X = { x1, x2, ..., xn}et les poids associés :W = { w1, w2, ..., wn}La moyenne géométrique pondérée se calcule de la manière suivante :

iii Moyenne quadratique

Une moyenne qui trouve des applications lorsque l'on a affaire à des phénomèneprésentant un caractère sinusoïdal avec alternance de valeurs positives et devaleurs négatives. Elle est, de ce fait, très utilisée en électricité. Elle permetnotamment de calculer la grandeur d'un ensemble de nombre.

DéfinitionElle s'écrit :

ExemplePrenons un rapide exemple : considérons les nombre suivants {-2, 5, -8, 9, -4 }Nous pouvons en calculer la moyenne arithmétique avec l'inconvénient de voir seneutraliser les valeurs positives et négatives et d'aboutir à un résultat nul sans quecela ne nous apprenne quoi que ce soit. En effet, .

Le calcul de la moyenne quadratique pour la même série donne .

RemarqueLa formule de la moyenne quadratique sera utilisée dans le calcul de la variance.

Statistique descriptive

23

Page 21: Techniques Quantitatives - educatim.fr

iv Moyenne harmonique

On utilise la moyenne harmonique lorsqu'on veut déterminer un rapport moyendans des domaines ou ilsexistent des liens de proportionnalité inverse.

ExempleExemples :

Pour une distance donnée, le temps de trajet est d'autant plus court que lavitesse est élevée.

Un loyer dans le parc privé est d'autant plus élevé que la taille ou la surfacedu logement est petite.

Dans certains cas, la moyenne harmonique donne la véritable notion de « moyenne». Par exemple, si pour la moitié de la distance d'un trajet vous voyagez à 40kilomètres par heure, et que pour l'autre moitié vous voyagez à 60 kilomètres parheure, votre vitesse moyenne est alors donnée par la moyenne harmonique de 40km/h et 60 km/h, ce qui donne 48 km/h. Votre temps de voyage total est donc lemême que si vous aviez voyagé à 48 kilomètres par heure sur l'ensemble de ladistance

1 Moyenne harmonique simple

DéfinitionLa moyenne harmonique de N valeurs est le nombre dont l'inverse est la moyennearithmétique des inverses desdites valeurs. C'est un peu compliqué commedéfinition ! Voilà ce que ça donne sous une forme mathématique :

C'est donc l'inverse de la moyenne arithmétique de l'inverse des termes.La moyenne harmonique permet de calculer des moyennes sur des fractions si ledénominateur change. C'est le cas du calcul de la vitesse moyenne parcourue dansun trajet aller/retour, la vitesse étant la valeur représentée par distance / temps.

2 Moyenne harmonique pondérée

En statistiques, si on considère le jeu de données suivant :X = { x1, x2, ..., xn}et les poids associés :W = { w1, w2, ..., wn}

Définition

v Moyenne glissante ou moyenne mobile

La moyenne glissante, ou moyenne mobile trouve son application dans l'analyse

Statistique descriptive

24

Page 22: Techniques Quantitatives - educatim.fr

des séries temporelles de données en permettant la suppression des fluctuations defaçon à en souligner les tendances sur le long terme. Cette moyenne est ditemobile parce qu'elle est recalculée de façon perpétuelle, dès lors qu'une nouvelledonnée intègre la série en venant remplacer la plus ancienne, modifiant ainsi ladate de référence. Cette façon de faire tend à lisser le phénomène étudié en noyantles valeurs extrêmes dans une masse de données davantage représentative d'unetendance moyenne.

ExempleOn dispose de données mensuelles concernant l'évolution des prix à laconsommation (inflation) et on souhaite connaître pour chaque mois l'évolutionmensuelle moyenne des prix sur un trimestre.

La moyenne trimestrielle glissantecalculée pour chaque mois tientcompte tient de la valeur du mois deréférence et des valeurs des 2 moisprécédents. Ainsi, la moyennetrimestrielle calculée au mois deréférence Mai donnera donc : (0,6 +0,9 + 0,5) / 3 =2 / 3 = 0,67. Celle dumois de juin donnera (0,9+0,5+0,2) /3 = 1,6 / 3 = 0,53. Remarque : on nepeut calculer la moyenne glissantepour les deux premiers mois de lasérie.

DéfinitionD'une façon générale, la moyenne glissante s'écrit :

Où représente le nombre de valeurs successives à prendre en compte. Dans

notre exemple N = 3 représente la valeur de référence. représente le rang.

vi Relation entre les moyennes

D'une façon générale, pour une même distribution, les résultats obtenus par lesdifférentes moyennes décrites s'organisent de la façon suivante :Moyenne Harmonique ≤ Moyenne Géométrique ≤ Moyenne Arithmétique ≤Moyenne Quadratique

Statistique descriptive

25

Image 1 Moyenne glissante

Page 23: Techniques Quantitatives - educatim.fr

c) Quantiles

L'idée de partager une série statistique en groupes ayant exactement le mêmeeffectif est une autre approche descriptive.On suppose que les modalités de la série statistique sont rangées dans l'ordrecroissant.

Soit un réel tel que ( , on lui associe la valeur de la série, notée ,appelée quantile d'ordre p. est l aplus petite valeur de la série pour laquelle laproportion des observations inférieures ou égales à est au moins égale à p.

i Médiane

Étymologiquement « médiane » signifie milieu, et c'est bien de ça dont il s'agit carla médiane est réellement le milieu d'une distribution. Noté , la médianecorrespond à la valeur de la distribution qui partage l'effectif total en deux sous-effectifs de même taille de telle sorte que l'on puisse dire que 50 % des individusd'une population sont caractérisés par une valeur supérieure à celle de la médianeet que 50 % des individus de cette même population ont une valeur inférieure à lamédiane.

ExempleExemple : la médiane des revenus pour une population donnée correspond à lavaleur du revenu pour laquelle on a 50 % de ladite population dont le revenu estsupérieur à cette valeur et 50 % dont le revenu est inférieur. On parle alors derevenu médian.

AttentionContrairement au mode, la médiane est une mesure centrale qui ne peut êtrecalculée et utilisée que pour des variables quantitatives, continues ou discrètes.

Méthode : Comment calculer la médiane ?Si le mode, pour être révélé, ne nécessite aucun calcul mais simplement de l'observation, la médiane impose quant à elle, un certain nombre de manipulationsvoire de calcul pour sa mesure.Pour le calcul de la note médiane il faut :Même si Excel (fonction : MEDIANE() ) ou d'autres applications disposent defonctions capables de calculer automatiquement la médiane, il est bon de savoircomment ce calcul se fait.

1. Classer les valeurs de la série par ordre croissant. Cette opération a pour butd'affecter un rang à chaque valeur et ainsi de déterminer plus facilement lemilieu de la série donc la médiane.

2. Déterminer si la série comporte un nombre n pair ou impair de valeurs.Deux cas peuvent alors se présenter :- Si n est pair,il n'y a pas possibilité d'identifier simplement la valeur qui

partage la population en deux effectifs égaux. Deux valeurs se situent aucentre de la série et jouent ce rôle respectivement de rang (n/2) et[(n/2)+1]. La médiane est alors égale à la moyenne des valeursencadrant le milieu de la série.

- Si n est impair alors il est possible d'identifier simplement la valeur quipartage la population en deux effectifs égaux. Le rang central étant égalà [(n+1)/2].

Statistique descriptive

26

Page 24: Techniques Quantitatives - educatim.fr

La médiane peut également être repérée graphiquement sur le courbe desfréquences cumulées comme suit :

La médiane peut être lue dans le graphique des effectifs cumulés

La médiane de données groupées est également calculable ou plutôt estimable parinterpolation. La médiane est trouver et à estimer dans le classe où se situe le rangdivisant en deux parties égales la population.

Médiane dans le cas d'un distribution en classes / Histogramme des fréquencescumulées

Dans cet exemple, la médiane est située dans la classe [15 ;20[. Pour déterminersa valeur exacte, on utilisera le calcul du coefficient directeur de la droite AB.La formule :

xm=((xa-xb)*(ym-ya))/(yb-ya)+xa

Statistique descriptive

27

Page 25: Techniques Quantitatives - educatim.fr

RappelUne animation vous permettra de mieux comprendre la notion de coefficientdirecteur (ici (cf. Le coefficient Directeur))

ii Quartile

Les quartiles partagent la population ou l'échantillon en quatre groupes comprenantchacun 25% des observations.

Au nombre de trois, ils se notent et

Définition est le quartile d'ordre 0,25 : au moins 25% des observations sont inférieures ou

égales à et au moins 75% supérieures ou égales à

est le quartile d'ordre 0,50 : au moins 50% des observations sont inférieures ouégales à et au moins 50% supérieures ou égales à . est la médiane.

est le quartile d'ordre 0,75 : au moins 75% des observations sont inférieures ouégales à et au moins 25% supérieures ou égales à

Les quartiles

Méthode : Calcul des quartilesLa détermination des quartiles se fait comme pour la médiane, avec uneinterpolation linéaire dans le cas continu, les quartiles pouvant être déterminésgrâce au polygone des fréquences ou des effectifs cumulés croissants.

iii Décile

DéfinitionLes déciles partagent la population ou l'échantillon en dix groupes comprenantchacun 10% des observations.

Au nombre de neuf, ils se notent est le quartile d'ordre 0,10 : au moins 10% des observations sont inférieures ou

égales à et au moins 90% supérieures ou égales à

Statistique descriptive

28

Page 26: Techniques Quantitatives - educatim.fr

est le quartile d'ordre 0,20 : au moins 20% des observations sont inférieures ouégales à et au moins 80% supérieures ou égales à et ainsi de suite jusqu'à La détermination des déciles est faite selon le même processus que celui utilisépour les quartiles.

iv Centile

DéfinitionLes centiles partagent la population ou l'échantillon en cent groupes comprenantchacun 1% des observations.

Au nombre de quatre-vingt dix neuf, ils se notent : est le quartile d'ordre 0,01 : au moins 1% des observations sont inférieures ou

égales à et au moins 99% supérieures ou égales à La détermination des centiles est faite selon le même processus que celui utilisépour les quartiles.

2. Dispersion

a) Caractéristiques simples

L'étendue, les intervalles interquantiles et l'écart absolu moyen sont qualifiés desimples, car ces caractéristiques restent limitées dans leur construction et leurutilisation au regard de la notion de variance.

i Etendue

DéfinitionL'étendue d'une série est la différence entre la plus grande et la plus petite valeurobservées.Elle est notée : = Max(x) - Min(x)

FondamentalL'étendue est une approche aisée de la dispersion d'une variable mais sasignification reste très limitée, car elle ne prend en compte que les deux valeursextrêmes de la série. Or ces valeurs extrêmes peuvent être mal connues, voireaberrantes ou erronées. Par ailleurs, l'étendue n'est pas indépendante de l'effectifobservé et peut donner une vision fausse de la dispersion.

ii Intervalles et écarts interquantiles

DéfinitionIl existe trois intervalles et écarts interquantiles :

L'intervalle interquartile [ , ] représente la zone centrale de la populationcomprenant 50% de la série ; l'amplitude de l'intervalle est appelé écartinterquartile et on note L'intervalle interdécile [ , ] représente la zone centrale de la populationcomprenant 80% de la série ; l'amplitude de l'intervalle est appelé écartinterdécile et on note

Statistique descriptive

29

Page 27: Techniques Quantitatives - educatim.fr

L'intervalle intercentile [ , ] représente la zone centrale de la populationcomprenant 98% de la série ; l'amplitude de l'intervalle est appelé écartintercentile et on note

Par rapport à l'étendue, l'écart interquartile présente l'avantage d'écarter lesvaleurs extrêmes, mais l'inconvénient de laisser de côté 50ù des données.

iii La Boîte à moustaches

DéfinitionLes quantiles permettent une représentation de la distribution statistique par lediagramme de Tuckey1, ou Boîte à moustaches. Il s'agit d'une boîte délimitéepar les quartiles et , coupée en deux parties par la médiane et prolongée dechaque côté par des moustaches.

Le diagramme de Turkey ou Boîte à moustaches

La boîte à moustaches permet une bonne visualisation de la zone centrale de lasérie et de la dispersion. Ce diagramme est extrêmement précieux pour comparerdiverses séries statistiques.

iv Écart absolu moyen

DéfinitionL'écart absolu moyen de n observations est la moyenne arithmétique des valeursabsolues des écarts à la moyenne :

L'écart absolue moyen est le paramètre de dispersion le plus simple qui mesure lesfluctuations de la série par rapport à la moyenne.

1 - http://fr.wikipedia.org/wiki/John_Tukey

Statistique descriptive

30

Page 28: Techniques Quantitatives - educatim.fr

Considérons une valeur centrale : par exemple, la moyenne . La dispersion de lasérie statistique autour de est liée à l'amplitude des écarts des observations à cettevaleur centrale :

Dispersion d'une série statistique autour de la moyenne

dans la figure de gauche, les observations sont peu dispersées (fortconcentrées) autour de ; cela se traduit par des écarts de faiblesamplitudes ;

dans la figure de droite, les observations sont fort dispersées autour de ; ilexiste des écarts qui ont une grande amplitude .

On voit donc qu'il est naturel de mesurer la dispersion d'une série statistique àpartir des écarts . Mais comment les prendre en compte ? La première idée qui vient à l'esprit consiste à considérer la moyenne de tous cesécarts . Mais cette idée ne mène à rien puisque cette moyenne est toujours nulle(cf. valeurs centrées des observations) ! Il convient plutôt de considérer les amplitudes des écarts, c'est-à-dire deconsidérer les écarts sans leur signe – ce qui nous intéresse est dequantifier dans quelle mesure est éloigné ou, au contraire, proche de , et non demettre en évidence le fait que est plus petit ou, au contraire, plus grand que –,ce qui peut se faire aisément en utilisant la valeur absolue des écarts , notée

. Ceci conduit à la définition de l'écart moyen absolu .

b) Variance et écart-type

Le calcul de l'écart moyen absolu est simple lorsqu'on dispose d'une sérieobservée de petite taille. Il devient beaucoup plus fastidieux quand est grand. Enoutre, l'outil utilisé (la valeur absolue) est peu maniable et ne possède que demaigres propriétés mathématiques. C'est pourquoi ces mesures de dispersion sontrelativement peu employées.

Une autre manière de considérer l'amplitude des écarts – autrement dit, deconsidérer les écarts sans tenir compte de leurs signes – consiste à éleverces écarts au carré. On obtient alors une mesure de dispersion aux propriétésplus riches : la variance

Définition

La variance de la série statistique se note (ou encore ) et se définit commesuit :

Elle correspond à la moyenne des carrés des différences entre les observations etleur moyenne .

Dans le cas de n observations, ordonnées dans un tableau statistique ,présentant r modalités.

Statistique descriptive

31

Page 29: Techniques Quantitatives - educatim.fr

La variance (ou fluctuation) est la moyenne arithmétique des carrés des écarts à lamoyenne.L'écart-type, noté , est la racine carrée de la variance.

ou

Complément : Interprétation de la varianceMalgré sa complexité apparente, la variance est très souvent calculée lorsqu'onétudie la dispersion d'une série statistique.Dans une série statistique peu dispersée, les observations sont proches les unesdes autres, et donc de leur moyenne. Dans ce cas, les écarts seront defaibles amplitudes et sera petit. Au contraire, plus une série statistique estdispersée, plus s'accroît.

RemarqueTout comme les écarts moyen et médian absolus, la variance ne se conçoit que si lavariable étudiée est quantitative et mesurée sur une échelle d'intervalles ou derapports. Une série statistique constituée de valeurs mesurées sur une échelleordinale ne permet pas le calcul de et de .

La variance est nulle si et seulement si toutes les observations ont la mêmevaleur (aucune dispersion).L'unité dans laquelle s'exprime la variance vaut le carré de l'unité utilisée pour lesvaleurs observées. Ainsi, par exemple, une série de poids exprimés en kilospossède une variance qui, elle, doit s'interpréter en "kilos-carré".Ceci peut constituer une difficulté dans l'interprétation de la valeur de la variancequi a incité à compléter cette mesure de dispersion en calculant l'écart-type (voir lamesure de dispersion suivante).Comme la moyenne arithmétique, la variance est sensible à la présence de valeursextrêmes, non seulement parce que celles-ci seront éloignées de , mais aussiparce que leur présence va éloigner des autres valeurs (celles qui ne sont pasextrêmes).

Remarque : Autre notation de la varianceLa variance peut se calculer également ainsi :

et si il y a pondération.

3. Forme

a) La loi normale

Que ce soit pour un caractère discret ou continue, une série statistique peut être

Statistique descriptive

32

Page 30: Techniques Quantitatives - educatim.fr

représentée par un diagramme en bâtons ou un histogramme des fréquences quel'on complète en général par le tracé du polygone des fréquences.L'histogramme des fréquences est un bon estimateur de la densité d'une sériestatistique et qu'en le lissant on peut représenter la série par une distributioncontinue.

Fondamentalla loi normale est le modèle fondamental des distributions continuesDe nombreux caractères quantitatifs du monde réel suivent une loi normale : lestailles des individus, les poids, les notes aux examens GOL.

DéfinitionLa loi normale est entièrement déterminée par deux paramètres : sa moyenne (m)et son écart-type .La loi normale centré réduite constitue le modèle de référence ; sa moyenne est 0(centrée) et son écart-tpe 1 (réduite).

Sa densité est donnée par

Loi normale / Courbe en cloche

Complément : La loi normale et la boîte à moustachesLa boîte à moustaches d'une distribution statistique conforme à une distributionnormale mettra en évidence la symétrie : et sont équidistants de la médiane

qui est dans ce cas la moyenne arithmétique et le mode.

Statistique descriptive

33

Page 31: Techniques Quantitatives - educatim.fr

Boîte à moustaches et Loi normale

b) Asymétrie

i Asymétrie

DéfinitionUne distribution est dite symétrique si les valeurs observées se répartissent defaçon uniforme autour des trois valeurs centrales : la moyenne, le mode et lamédiane.Le terme anglais est "skewness".

Pour mesurer l'asymétrie d'une distribution, on dispose de différents coefficients. Lebut est de comparer les formes de plusieurs distributions, ces comparaisons n'ayantde sens que si elles sont faites à partir des mêmes coefficients appliqués auxdifférentes distributions.

Asymétrie de distribution

On distingue trois types de distributions selon qu'elles sont dissymétriques(asymétriques) à gauche (graphique de gauche), symétriques (graphique du milieu)ou dissymétriques (asymétriques) à droite (graphique de droite).Souvent, l'analyse du diagramme en bâtons – ou de l'histogramme – permet de serendre compte du caractère symétrique ou non d'une distribution. L'examen de laboîte à moustaches permet aussi de se faire une idée sur cette question selon quela boîte et les moustaches sont symétriques ou, au contraire, de plus petite

Statistique descriptive

34

Page 32: Techniques Quantitatives - educatim.fr

amplitude à gauche (asymétrie à gauche) ou à droite (asymétrie à droite). Distribution étalée à droite : Distribution symétrique : Distribution étalée à gauche :

1 Coefficient de Yule

Définition Le coefficient de Yule sert à mesurer l'asymétrie de la distribution en tenant

compte des positions relatives des quartiles par rapport à la médiane.

Méthode

I est défini par ou de manière équivalente

Ce coefficient permet de localiser la médiane dans la boîte à moustaches, parrapport au milieu du segment formé par et .

Ce coefficient est indépendant de l'unité de mesure. En outre, il est toujourscompris entre -1 et 1, car la médiane est située en et .

Si , la distribution est symétrique.

Si , la distribution est étalée à droite

Si , la distribution est étalée à gauche

2 Les coefficients de Pearson

Les coefficients de Pearson étudient l'étalement de la courbe à partir des valeurs dela moyenne, du mode et de l'écart-type.

1 Le coefficient S de Pearson

DéfinitionLe coefficient S de Pearson mesure l'asymétrie d'une distribution par comparaisonentre les valeurs de la moyenne et du mode.

Il se note :

Méthode Si S=0, la distribution est symétrique. Si S>0, la distribution est étalée à droite. Si S<0, la distribution est étalée à gauche.

2 Le coefficient B de Pearson

Définition

Le coefficient d'asymétrie de Pearson est défini par où

désigne le moment centré d'ordre 3, soit .

Statistique descriptive

35

Page 33: Techniques Quantitatives - educatim.fr

désigne le moment centré d'ordre 2, soit , c'est à direla variance.

MéthodeL'interprétation de la valeur de de Pearson se fait comme suit :

Si est proche de 0, la distribution est approximativement symétrique.

Si >0, elle est étalée à droite pour .

Si >0, elle est étalée à gauche pour .

3 Coefficient de Fisher

Définition

Le coefficient d'asymétrie de Fisher est défini par .

est le moment centré d'ordre 3

MéthodeL'interprétation de la valeur du de Fischer se fait comme suit :

Si est proche de 0, la distribution est approximativement symétrique.

Si , la distribution est étalée à droite.

Si , la distribution est étalée à gauche.

ii ExerciceUne enquête menée auprès de 1500 ménages d'une certaine région géographiquerurale s'est intéressée à la variable correspondant à la taille du ménage, c'est-à-dire au nombre de personnes constituant le ménage. Les données recueilliespeuvent être présentées sous la forme du diagramme en bâtons suivant.

Diagramme à bâtons.

Télécharger le fichier Excel et créer les formules.

Statistique descriptive

36

Page 34: Techniques Quantitatives - educatim.fr

Q u e s t i o n 1Calculer le coefficient de Yule

Indice :

Le coefficient de Yule est défini par

Q u e s t i o n 2Déterminer le coefficient d'asymétrie de Fisher

Indice :

est le moment centré d'ordre 3

Q u e s t i o n 3

Calculer le coefficient d'asymétrie de Pearson

Indice :

Le coefficient d'asymétrie de Pearson est défini par où

désigne le moment centré d'ordre 3, soit .

désigne le moment centré d'ordre 2, soit , c'est àdire la variance.

c) Aplatissement

i Aplatissement

L’aplatissement d'une distribution est un indicateur de dispersion autour des valeurscentrales.Plus la distribution est grande, plus la courbe sera plate.

On utilisera deux coefficient ; Pearson et Ficher

Aplatissement : kurtosis

Statistique descriptive

37

Page 35: Techniques Quantitatives - educatim.fr

1 Le coefficient de Pearson

DéfinitionLe coefficient de Pearson sert à mesurer l'aplatissement.Il est défini par :

Il s'agit d'un coefficient sans dimension. et dans le cas d'une distributionnormale .

Méthode : Interprétation si , la courbe est dite platicurtique, c'est à dire plus plate que la loi

normale.

si , la courbe est proche de la courbe normale.

si , la courbe est leptocurtique, c'est à dire plus pointue que la loinormale.

2 Le coefficient de Ficher

DéfinitionLe coefficient de Fischer sert à mesurer l'aplatissement.

Il est défini par .

De manière équivalent :

Méthode : Interprétation si , la courbe est dite platicurtique.

si , la courbe est proche de la courbe normale.

si , la courbe est dite leptocurtique.

4. Concentration

a) Concentration

AttentionLa mesure de la concentration concerne les caractères statistiquesquantitatives représentant une valeur positive cumulable.Il s'agit d'étudier la densité des données autour de la valeur centrale.

ExempleLes données sont par exemple la concentration des salaires, des revenus, del'emploi, des branches d'un secteur économique...

Afin de mesurer la concentration, il convient de définir les valeurs globales , lamédiale et l'indice de Gini et la courbe de concentration appelée Courbe deLorentz.

Statistique descriptive

38

Page 36: Techniques Quantitatives - educatim.fr

i Les valeurs globales

DéfinitionÉtant donné une série statistique comportant n observations ordonnées dans untableau statistique , représentant r modalités, on appelle :

masse associée à la modalité d'effectif , la quantité définie par , masse relative associée à la modalité notée , la quantité définie par

Généralement, les masses relatives sont exprimées en pourcentage de la massetotale.

les masses relatives cumulées croissantes sont notées et définies par

ii La médiale

Définition : la médialeLa Médiale est la valeur du caractère qui partage en deux parties égales la massetotale du caractère. [Statistique descriptive. Applications avec Excel etcalculatrices / Etienne Bressoud &amp; Jean-Claude KAHANE / Ed. PEARSON]Notée Ml, la médiale s'exprime dans la même unité que la variable étudiée.

MéthodeLa médiale se calcule un peu de la même façon qu'une médiane

Dans le cas de variables discrètes, la médiale est la plus petite valeur ducaractère dont la masse relative cumulée croissante est inférieure ou égale à50%

Dans le cas continu, soit on procède graphiquement à l'aide du polygone desmasses relatives cumulées croissantes, soit algébriquement par interpolationlinéaire.

iii La courbe de concentration

La courbe de concentration est réalisée à partir des calculs des fréquencescumulées croissantes et des masses cumulées croissantes.Les fréquences cumulées croissantes sont placées en abscisses et les massescumulées croissantes sont placées en ordonnées.Dans Excel, on créé un graphique de type Nuage de points avec lignes.La distribution théorique d'égale répartition correspond à la bissectrice du repère.L'aire comprise entre la distribution théorique et la courbe de concentrations'appelle la surface de concentration.

Statistique descriptive

39

Page 37: Techniques Quantitatives - educatim.fr

Courbe de concentration

iv L'indice de Gini

Définition : La surface de concentrationLa surface de concentration est égale à l'aire du triangle rectangle (délimité par ladistribution théorique et l'axe des ficc) diminuée de l'aire du domaine située sous lasurface de concentration.

Définition : L'indice de GiniL'indice de Gini, noté est le rapport de l'aire de la surface de concentration àl'aire de la surface du triangle rectangle (délimité par la distribution théorique etl'axe des ficc)

Méthode : Interprétation Si est proche de 0, la courbe de Lorentz est proche de la diagonale, la

concentration est faible. La concentration nulle correspond à une distributionégalitaire.

Si est proche de 1, la concentration est forte.

Statistique descriptive

40