29
Mohamed AZMI [email protected] 2011/2012

(Cours d’analyse de données ENCG)

Embed Size (px)

Citation preview

Page 1: (Cours d’analyse de données ENCG)

Mohamed AZMI

[email protected]

2011/2012

Page 2: (Cours d’analyse de données ENCG)

L’analyse de données� Le principe consiste à synthétiser, structurer l’information contenue dans des

données multidimensionnelles (n individus, p variables).

� L’analyse de données se base sur deux groupes de méthodes

– méthodes de classification : réduire la taille de l’ensemble des individus en

formant des groupes homogènes .formant des groupes homogènes .

– méthodes factorielles : réduire le nombre de variables en les résumant par un

petit nombre de composantes synthétiques.

� Deux types de méthodes factorielles

– analyse en composantes principales : variables numériques .

– analyse des correspondances : variables qualitatives.

Page 3: (Cours d’analyse de données ENCG)

Méthodes couvertes par le cours

� – analyse en composantes principales (ACP) ;

� – analyse (factorielle) des correspondances (AFC) ;� – analyse (factorielle) des correspondances (AFC) ;

� – Méthodes de classification.

� – Analyse discriminante

Page 4: (Cours d’analyse de données ENCG)

Terminologie

• La statistique est une méthode scientifique dont l’objet estde recueillir, d’organiser, de résumer et d’analyser lesdonnées d’une enquête, d’une étude ou d’une expérience,aussi bien que de tirer des conclusions et de prendre lesdécisions qui s’imposent à partir des analyses effectuées.

Statistique

• Ensemble d'individus définis par une propriété communedonnée.donnée.

• Exp : si l’on veut étudier la durée de vie des ampoulesélectriques fabriquées par une compagnie, la populationconsidérée est l’ensemble de toutes les ampoulesfabriquées par cette compagnie.

Population

• Sous-ensemble de la population.

• Exp : pour établir la durée de vie des ampoules électriques produites par une machine, on peut prélever au hasard un certain nombre d’ampoules - un échantillon- parmi toutes les celles produites par cette machine.

Echantillon

Page 5: (Cours d’analyse de données ENCG)

Terminologie

• Chaque élément de la population ou de l’échantillon.

• Exp : dans l’exemple précédant, chaque ampoule constitue un individu ou une unité statistique.

Individu ou unité

statistique

• Représente le nombre d’individus d’un échantillon oud’une population. Elle est symbolisée par « n » dans le casd’un échantillon et par « N » dans le cas d’une population.

La tailled’un échantillon et par « N » dans le cas d’une population.

• C’est l’aspect particulier que l’on désire étudier.

• Exp : concernant un groupe de personnes, on peut s’intéresser à leur age, leur sexe leur taille…

Variable

• Les différentes manières d’être que peut présenter une variable.

• Exp 1 : le sexe est un caractere qui presente deux modalités : feminin ou masculin

• Exp 2 : quant au nombre d’enfants par famille, les modalités de ce caractere peuvent être 0,1, 2,3…,20.

Lesmodalités

Page 6: (Cours d’analyse de données ENCG)

Terminologie

Population Echantillon

Individu

Taille de l’échantillon

=3

Page 7: (Cours d’analyse de données ENCG)

Terminologie

Variables qualitatives Variables quantitatives

Variables statistiques

Variables qualitatives

Variables discrètes Variables continues

Variables quantitatives

Page 8: (Cours d’analyse de données ENCG)

• Ses modalités ne s’expriment pas par un nombre

• Exp : la religion, le sexe, l’opinion…Variable

qualitative

• Ses modalités sont numériques.

• L’ensemble des valeurs que peut prendre le caractère est fini ou dénombrable. Le plus souvent, ces valeurs sont Variable

Terminologie

• L’ensemble des valeurs que peut prendre le caractère est fini ou dénombrable. Le plus souvent, ces valeurs sont entières.

• Exp :le nombre d’enfant dans une famille, le nombre de téléviseurs par foyer .

Variable quantitative

discrète

• Ses modalités sont numériques.

• Le caractère peut prendre théoriquement n’importe quelle valeur dans un intervalle donné de nombres réels.

• Exp : la taille d’un individu, le poids…

Variable quantitative

continue

Page 9: (Cours d’analyse de données ENCG)

La covariance

� la covariance est un nombre permettant d'évaluer le sens de variation de deux variables et, ainsi, de qualifier l'indépendance de ces variables.

� Si deux variables sont indépendantes alors leur covariance est nulle, mais la réciproque est fausse.réciproque est fausse.

� L'unité de mesure de la covariance cov(X,Y) est le produit des unités des variables aléatoires X et Y et sa valeur est comprise dans

Page 10: (Cours d’analyse de données ENCG)

Coefficient de corrélation linéaire:

� Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la liaison linéaire entre deux variables X et Y :

( )yx

yxr σσ .,cov=

� Le coefficient de corrélation linéaire est une mesure de dépendance linéaire sans unité et prend ses valeurs dans [ − 1 ; 1 ]

yx σσ .

Page 11: (Cours d’analyse de données ENCG)

( ) 6,0.

,cov ==yx

yxr σσAlors 60% des variations de X (resp. Y) sont contrôlées par Y (resp. X)Alors 60% des variations de X (resp. Y) sont contrôlées par Y (resp. X)

Page 12: (Cours d’analyse de données ENCG)

Objectifs et aspect théorique de l’ ACP

L’analyse en composantes principales a surtout trois objectifs :

� Etudier les interrelations entre un assez grand nombre de variables .

� A partir de cette étude, regrouper ces variables dans des groupes limités appelés facteurs ou composantes .

� Etablir entre ces groupes de variables une hiérarchie basée essentiellement sur la valeur explicative de chacun d’eux .

Page 13: (Cours d’analyse de données ENCG)

En bref, l’analyse en composantes principales considère quatre

types de relations :

� 1. les relations des variables entre elles ;

� 2. les relations des variables aux facteurs ;

� 3. les relations entre les variables d’un même facteur ;

� 4. les relations entre les différents facteurs;

Page 14: (Cours d’analyse de données ENCG)

Quantifier la variabilité contenue dans un tableau de

données

Page 15: (Cours d’analyse de données ENCG)

Projeter sur un plan un tableau de données à

j dimensions

� Dans un tableau de données à j variables, les individus se trouvent dans un espace à j dimensions.

� L’objectif de l’ ACP est de représenter sous forme graphique l’essentiel de

l’information contenue dans un tableau de données quantitatif.

Page 16: (Cours d’analyse de données ENCG)

Représentation graphique

Page 17: (Cours d’analyse de données ENCG)
Page 18: (Cours d’analyse de données ENCG)
Page 19: (Cours d’analyse de données ENCG)
Page 20: (Cours d’analyse de données ENCG)

Au plan pratique, l’analyse en composantes principales essaie de répondre à des questions simples.

EXEMPLE

par exemple, au sujet d’une marque de voiture, parmi les qualités suivantes : le prix, la vitesse, le look, la sécurité, le confort. suivantes : le prix, la vitesse, le look, la sécurité, le confort. lesquelles sont les plus importantes ?

On pose ces questions à un échantillon de clients possibles , ils doivent noter chacune de ces qualités de 1 à 10.

où 1 = Pas du tout important.

10 = Très important.

Page 21: (Cours d’analyse de données ENCG)

On aura donc les relations suivantes

On voit que les variables sont reliées à tous les facteurs. L’ACP permettra, par

exemple, d’arriver aux résultats suivants

Page 22: (Cours d’analyse de données ENCG)

Dans la publicité, les qualités de sécurité et de confort sont les arguments

les plus importants à utiliser pour maximiser les ventes d’une marque donnée .

Dans le facteur I, la sécurité est jugée plus importante que le confort.

Dans le facteur II, il y a aussi une gradation, un ordre hiérarchique : le prix, Dans le facteur II, il y a aussi une gradation, un ordre hiérarchique : le prix,

la vitesse, le look.

L’analyse en composantes principales, dans cet exemple, a bien rempli son rôle :

� Réduire les données .

� Donner une certaine explication aux choix effectués par les répondants.

Page 23: (Cours d’analyse de données ENCG)

L’analyse en composantes principales doit respecter certaines contraintes :

• le nombre des variables doit être suffisant (cinq variables ou plus)

• la forme des réponses aux questions (les items) doit être la même (par exemple, • la forme des réponses aux questions (les items) doit être la même (par exemple, cinq choix de réponse), dans le cas contraire, les variables doivent être réduites et normalisées

• On doit avoir dix fois plus de cas qu’il y a de variables impliquées ,par exemple 10 variables fois 10 cas donnent une taille n égale à 100.

Page 24: (Cours d’analyse de données ENCG)

Présentation élémentaire de l’ACP

Page 25: (Cours d’analyse de données ENCG)

Statistiques élémentaires

Coefficients de corrélations

Page 26: (Cours d’analyse de données ENCG)

La matrice Var-Covar

L’inertie totale : Var(Math)+Var(Phys)+Var(Fran)+Var(Angl) = 40,3

Les valeurs propres de la matrice Var-Covar

Les valeurs propres sont les variances des composantes principales correspondant

La somme des 4 valeurs propres est 40,3

Page 27: (Cours d’analyse de données ENCG)

Le nuage de points en dim 4 est toujours le même (variables initiales

ou composantes principales) et sa dispersion globale n’a pas changée.

C’est la répartition de cette dispersion selon les nouvelles variables

(composantes principales) qui se trouve modifiée.

Les deux premières composantes principales restituent à elles seules la

quasi-totalité de la dispersion du nuage, ce qui permet de négliger les

deux autres. C’est ainsi que l’objectif (résumé pertinent des données en

petite dim) est atteint.

Page 28: (Cours d’analyse de données ENCG)

Résultats sur les variables

Il s’agit d’un axe d’opposition entre disciplines scientifiques et disciplines littéraire

Surtout marqué par l’opposition entre le français et les maths.

Cette interprétation sera précisée avec les graphiques et tableaux relatifs aux

individus

Page 29: (Cours d’analyse de données ENCG)

� On peut voir que l’axe 1 représente le résultat de l’ensemble des élèves. Par ailleurs, l’élève le « plus bas » sur le graphique avec une coordonnée élevée sur le deuxième axe principal est Pier dont les résultats sont les plus contrastés en faveur des disciplines littéraires ( 14 et 11,5 contre 7 et 5,5). C’est le contraire pour Andr qui obtient la moyenne dans les disciplines scientifiques mais des résultats très faibles dans les disciplines littéraires. On note que Mon et Alan ont un scores voisin de zerosur le deuxième axe car ils ont des résultats très homogènes dans les quatre disciplines