19
ANALYSE DES DONNEES : Introduction a l’analyse des donnees : Definition : L’analyse multidimensionnelle est une collection d’instrument de statistique descriptive qui a pour but de décrire des données consignées .l’analyse multidimensionnelle se devise en analyse factorielle (À savoir ACP, AFC, AFD) et classification automatique. Dont le but de réduire le nombre de caractères, non sous forme d'une simple sélection de certains d'entre eux, mais par construction de nouveaux caractères synthétiques obtenus en combinant les caractères initiaux (méthode factorielle). Le choix de la méthode optimale dépend généralement des objectifs de l’étude, la structure générale du tableau de données, la nature des variables (quantitatives ou qualitatives) et la métrique utilisée pour mesurer les liens. Afin d’avoir une bonne visualisation l’analyse des données multidimensionnelles permet de passer d’un espace à p dimensions à un sous espace vectoriel à k dimensions (où k<p), résumant la structure du nuage de points sans trop perdre d’informations. Elle offre également une possibilité élargie d’interprétation du fait de la distinction entre : Variables actives ou principales : contribuant à la formation des axes factoriels,

Analyse Des Donnees Theo Final

Embed Size (px)

Citation preview

Page 1: Analyse Des Donnees Theo Final

ANALYSE DES DONNEES :

Introduction a l’analyse des donnees :

Definition :

L’analyse multidimensionnelle est une collection d’instrument de statistique descriptive qui a pour but de décrire des données consignées .l’analyse multidimensionnelle se devise en analyse factorielle (À savoir ACP, AFC, AFD) et classification automatique. Dont le but de réduire le nombre de caractères, non sous forme d'une simple sélection de certains d'entre eux, mais par construction de nouveaux caractères synthétiques obtenus en combinant les caractères initiaux (méthode factorielle).

Le choix de la méthode optimale dépend généralement des objectifs de l’étude, la structure générale du tableau de données, la nature des variables (quantitatives ou qualitatives) et la métrique utilisée pour mesurer les liens.

Afin d’avoir une bonne visualisation l’analyse des données multidimensionnelles permet de passer d’un espace à p dimensions à un sous espace vectoriel à k dimensions (où k<p), résumant la structure du nuage de points sans trop perdre d’informations. Elle offre également une possibilité élargie d’interprétation du fait de la distinction entre :

♦ Variables actives ou principales : contribuant à la formation des axes factoriels,

♦ Variables passives ou secondaires : qui peuvent être rajoutées pour des besoins d’analyse et d’interprétation.

Il est à signaler qu’une attention, toute particulière, doit être accordée à la phase de collecte des données et à leur organisation de façon à obtenir une matrice exploitable, en effet, la consistance des résultats à obtenir repose essentiellement sur la fiabilité des données de cette matrice.

Notre travail porte sur un problème traitant un exemple de l’ACP.

Historique

Les techniques d'Analyse des Données se sont développées à partir des années 70 grâce à l'essor de l'informatique dans le domaine scientifique (langage Fortran). Les méthodes d'Analyse des Données comme l'Analyse Factorielle

Page 2: Analyse Des Donnees Theo Final

utilisent des distances et connaissent un grand succès pour le traitement d'ensembles importants de données. A la même époque, en Intelligence Artificielle se développèrent les méthodes d'Apprentissage Symbolique qui poursuivaient des objectifs similaires : extraire des connaissances à partir de données représentées dans le formalisme de la logique. Aujourd'hui les méthodes d'analyse des données continuent à être étudiées et ceci sous des angles divers : dan le cadre de la théorie des ensembles flous (fuzzy set), de l'approche connexioniste (réseaux de neurones), des graphes probabilistes (réseaux bayesiens) et dans des contextes variés : bases de données (Data Mining) ou de la toile (Web mining).

1.4 Les objectifs

Les objectifs des méthodes d'Analyse des données sont résumés ci-dessous:

• Exploration des données• Réduction des données• Classification• Prédiction• Génération d'hypothèses• Validation d'hypothèses

1.5 La démarche en Analyse des Données

Les principales étapes d'une analyse de données sont : f. Formulation du problème, choix des objectifs

2. Elaboration du plan de recherche, des hypothèses à vérifier3. Recueil des données4. Analyse des données5. Interprétation des résultats

1.6 Les données

Les données consistent en un ensemble d'observations (ou individus) caractérisées par un ensemble d'attributs (ou variables). Les variables peuvent être de type numérique (quantitatif) ou symbolique (qualitatif ordonné ou non). Les valeurs doivent être codées numériquement, les données se présentent alors comme une matrice de nombres réels.

Page 3: Analyse Des Donnees Theo Final

Presentation de l’ACP   :

Les méthodes multifactorielles permettent d'obtenir des représentations graphiques qui constituent le meilleur résumé possible de l'information contenue dans un grand tableau de données. Pour cela, il faut consentir à une perte d'information afin de gagner en lisibilité. En fonction des phénomènes que l'on veut étudier et de la nature du tableau de données dont on dispose, on appliquera telle ou telle méthode multifactorielle. En effet, il n'existe pas une méthode factorielle d'analyse des données, mais un ensemble de méthodes, reposant toutes sur les mêmes théories mathématiques. Ainsi, on trouvera les principales méthodes suivantes :

-ACP : Analyse en Composantes Principales, pour les tableaux de variables quantitatives. -AFTD : Analyse Factorielle d'un Tableau de Distances, pour les tableaux de distances. -AFC : Analyse Factorielle des Correspondances, pour les tableaux de contingence. -ACM : Analyse des Correspondances Multiples, pour les tableaux de variables qualitatives. -STATIS : Structuration des Tableaux A Trois Indices de la Statistique, AFM : Analyse Factorielle Multiple, DACP : Double Analyse en Composante Principale, sont quelques méthodes basées sur les précédentes et adaptées à l'étude de phénomènes temporels ou de répétition. -la liste n'est pas exhaustive.

Ces méthodes reposent toutes sur les mêmes notions théoriques, mais chacune produit un genre de résumé spécifique et s'applique sur un types de donnée précis. C'est pourquoi on devra choisir la méthode la plus adaptée au type d'information que l'on possède et aux phénomènes qu'on veut étudier.

L'ACP fait en réalité partie d'un ensemble de méthodes d'analyse de données, appelées méthodes multifactorielles. De façon générale, celles-ci ont pour but de résumer de la façon la plus fidèle possible un grand ensemble de données, c'est-à-dire d'observations différentes (les variables) pour chaque membre d'une importante population d'étude (les individus). Ce résumé engendre toujours une perte d'information, mais c'est au profit des informations les plus pertinentes et de la lisibilité, donc de la meilleure interprétation.

Objectifs de l’ACP :

Page 4: Analyse Des Donnees Theo Final

Il existe plusieurs approches différentes de l'ACP, mais toutes s'accordent sur les conditions de son application et son objectif général.Cette méthode s'applique aux ensembles de données quantitatives d'au moins deux variables.Puisqu'il s'agit d'une méthode d'analyse de données multifactorielle, son but est de résumer cet ensemble de données. Ceci se fait selon les modalités suivantes :

fournir des outils simples et lisibles de représentation des informations traitées, permettant de faire ressortir des données brutes les éventuels liens existant entre les variables (en terme de corrélation),

donner des indications sur la nature, la force et la pertinence de ces liens, afin de faciliter leur interprétation et découvrir quelles sont les tendances dominantes de l'ensemble de données,

réduire efficacement le nombre de dimensions étudiées (et ainsi simplifier l'analyse), en cherchant à exprimer le plus fidèlement possible l'ensemble original de données grâce aux relations détectées entre les variables.

Avantages et inconvénients de l’ACP :

Les avantages :

Simplicité mathématique: L'ACP est une méthode factorielle car la réduction du nombre des caractères ne se fait pas par une simple sélection de certains d'entre eux, mais par la construction de nouveaux caractères synthétiques obtenus en combinant les caractères initiaux au moyen des "facteurs". Cependant, il s'agit seulement de combinaisons linéaires. Les seuls véritables outils mathématiques utilisés dans l'ACP sont le calcul des valeurs/vecteurs propres d'une matrice, et les changements de base.Sur le plan mathématique, l'ACP est donc une méthode simple à mettre en oeuvre.

Simplicité des résultats : Grâce aux graphiques qu'elle fournit, l'Analyse en Composantes Principales permet d'appréhender une grande partie de ses résultats d'un simple coup d'oeil.

Puissance : L'ACP a beau être simple, elle n'en est pas moins puissante. Elle offre, en quelques opérations seulement, un résumé et une vue complète des relations existant entre les variables quantitatives d'une population d'étude, résultats qui n'auraient pas pu être obtenus autrement, ou bien uniquement au prix de manipulations fastidieuses.

Flexibilité : L'ACP est une méthode très souple, puisqu'elle s'applique sur un ensemble de données de contenu et de taille quelconques, pour peu qu'il s'agisse de données quantitatives organisées sous forme individus/variables. Cette

Page 5: Analyse Des Donnees Theo Final

souplesse d'utilisation se traduit surtout par la diversité des applications de l'ACP, qui touche tous les domaines, comme exposé dans la partie précédente.

Les inconvénients :

En tant que méthode d'analyse de données, l'ACP n'a pas réellement d'inconvénients en soi. Elle s'applique simplement sur des cas précis et pour générer un type de résultat particulier. Ca n'aurait donc aucun sens de dire que c'est un inconvénient de l'ACP qu'elle ne s'applique pas en dehors de ce contexte. De même, étant donné qu'il s'agit avant tout d'une technique de résumé de données, la perte d'information forcément engendrée n'est pas un inconvénient, mais plutôt une condition d'obtention du résultat, même si elle occulte parfois des caractéristiques pourtant représentatives dans certains cas particuliers.

Formulation mathematique de l’acp :

On part d'un tableau de données rectangulaire, représentant toutes les données, en plaçant en ligne les individus et en colonnes les variables. Soit X ce tableau de données.

Par convention, on placera en exposant ce qui se rapporte aux individus : le premier individu est donc x1, et en indice ce qui se rapporte

aux variables : x1 désigne la première variable. désigne la valeur numérique prise par la première variable, pour le premier individu. Et notre tableau de données regroupe toutes les valeurs prises par tous les individus (de 1 à n) par p variables, soit encore :

Page 6: Analyse Des Donnees Theo Final

Pour la suite, on considérera le tableau X comme un tableau de variables centrées. Une variable centrée est une variable dont la moyenne est nulle. Pour centrer les données, il suffit de retrancher à chaque variable sa moyenne, on obtient ainsi un tableau X', avec des nouvelles variables de moyenne nulle.On considère maintenant N comme le nuage de points formé par l'ensemble des individus xi, dans l'espace à p dimensions des variables. Le but de l'ACP est d'obtenir une représentation la plus fidèle possible du nuage N en le projetant sur un espace de faible dimension. Pour cela, on cherche à minimiser les " écarts " entre les points de N et leurs projections. Les espaces de représentation choisis sont des espaces affines (droite, plan,...). La formulation mathématique de l'ACP est alors la suivante.

Problème de l'A.C.P.:

Trouver le sous-espace affine Ek de dimension k (k<p

souvent k=2) tel que , inertie du nuage N par rapport à l'espace Ek soit minimum.

Avec :

Et les notations suivantes :

pi : pondération sur les individus. Chaque individu i est muni du poids pi. La plupart du temps, on se place dans un cadre d'équipondération : tous les individus ont le même poids.

Page 7: Analyse Des Donnees Theo Final

dM : distance définie par la métrique M. En pratique, on considère deux métriques différentes : I, la métrique identité, ou la métrique D1/² qui réduit les variables. Réduire un tableau de données consiste à calculer l'écart type pour chacun des caractères et à exprimer toutes les cases en nombre d'écarts types (positif ou négatif). L'écart type devient ainsi une mesure unique commune à tous les caractères et les unités dans lesquels s'expriment initialement les données n'ont plus d'importance. dM(xi, Ek) désigne la distance entre xi et Ek soit la distance entre xi et son projeté sur Ek..

Pour un tableau de variables centrées, l'espace Ek qui minimise contient le centre de gravité du nuage N. Ek est donc un sous-espace vectoriel. Dans ce cas,

nous savons que l'inertie totale I du nuage se décompose en une somme +

où est l'inertie expliquée par l'orthogonal de Ek. Le problème peut maintenant s'écrire :

Trouver le sous-espace vectoriel Ek de dimension k (k<p

souvent k=2) tel que , inertie du nuage N par rapport à

l'espace Ek soit minimum, c'est à dire, tel que l'inertie soit maximale.

On procède alors de la manière suivante :

recherche d'un axe u1 maximisant l'inertie , on note : ;

recherche d'un axe u2, M-orthogonal à E1 maximisant l'inertie  ;

on note : ...

recherche d'un axe uk, M-orthogonal à Ek-1 maximisant l'inertie  ;

on note :

Page 8: Analyse Des Donnees Theo Final

On montre facilement que chacun des sous-espaces Ei (i k) ainsi définis est un sous-espace affine de dimension i maximisant l'inertie expliquée.On note V la matrice d'inertie du nuage N, qui est aussi la matrice de covariance des caractères (x1,...,xp).La solution est alors obtenue en utilisant les propriétés spectrales des matrices : les vecteurs propres normés de la matrice VM ordonnés suivant les valeurs propres décroissantes fournissent les axes u1, uk,

appelés axes factoriels. De plus, les inerties expliquées par ces axes sont égales aux valeurs propres k. Les ui forment une base M-orthonormée de Ek : les vecteurs ui sont par définition normés et par ailleurs, la matrice VM étant symétrique, ses vecteurs propres sont orthogonaux.

On définit le pourcentage d'inertie expliquée par le sous-espace Ek par la formule:

où la trace de la matrice VM est la somme des éléments diagonaux, soit la somme de toutes les valeurs propres.Si r est le rang de la matrice X, alors r min(p, n-1) et on montre que :

1,r > 0 et r+1 ,..., p = 0, donc :i > r,

Le nuage N est alors exactement dans le sous-espace vectoriel Er engendré par les r premiers axes factoriels.

Représentation des individus lors d'une ACP   :

Le problème initial était d'obtenir une représentation du nuage N dans des espaces de dimension réduit. On connaît maintenant les axes

Page 9: Analyse Des Donnees Theo Final

définissant ces espaces. Pour pouvoir obtenir les différentes représentations, il suffit de déterminer les coordonnées de la projection

de tous les points du nuage sur chaque axe factoriel. Soit ces n coordonnées pour l'axe i.

Le vecteur est appelé ième composante principale.

On peut alors obtenir " l'image " du nuage N dans un plan factoriel quelconque (ui, uj) grâce aux composantes principales ci et cj. La représentation dans le premier plan factoriel est obtenue grâce à c1 et c2. En utilisant conjointement la représentation du plan (u1, u3), on peut " voir " le nuage dans le sous-espace E3.

Le calcul des composantes principales se fait par changement de base. Il suffit de faire une projection orthogonale sur les nouveaux vecteurs de base. Ainsi, pour la ième composante principale, on a :

d'où l'expression de la composante principale :

 

Synthèse des résultats   :

Les résultats mathématiques classiques sont regroupés dans le tableau suivant:

Rp Rp* Rn

Page 10: Analyse Des Donnees Theo Final

ui i ci=Xi=XMui

ième axe factoriel ou axe principal

d'inertie.

ième facteur principal d'inertie

ième composante principale

ui : vecteur propre de VM associé à la

valeur propre i.

i : vecteur propre de MV associé à la valeur propre i.

Les (ui) sont des vecteurs

M-orthonormés :

M(ui,ui)=1 ; M(ui,uj)=0

Les (i) sont des vecteurs

M-1-orthonormés.M-1(ui,ui)=1 ; M-1

(ui,uj)=0 ,

A la fin de l'ACP, on peut représenter les individus et les variables par leurs projections sur un plan. A titre d'exemple, voici la projection de 10 variables constituant un questionnaire.

Page 11: Analyse Des Donnees Theo Final

Il reste alors à trouver une signification à cette projection... L'interprétation des résultats s'effectue généralement plan par plan.

Règles d'interprétation des résultats d'une ACP

Pour un plan factoriel donné, on regardera la part d'inertie expliquée. On regarde donc la somme des parts d'inertie expliquée par chaque axe, laquelle peut être interprétée comme un pourcentage de l'information du nuage initial retranscrite par le plan factoriel. Ainsi, un axe expliquant moins de 10% de l'inertie générale sera rarement intéressant. Dans toutes les sorties des logiciels, les axes sont rangés dans l'ordre décroissant d'inertie (en fait dans l'ordre décroissant des valeurs propres obtenues après diagonalisation, mais il y a correspondance), de telle manière que le premier plan factoriel - constitué par les deux premiers axes factoriels - soit toujours celui qui est le plus riche en renseignements sur les propriétés du nuage étudié.

Puis on peut proposer une interprétation des axes en faisant l'étude des corrélations entre les composantes principales et les variables initiales du tableau de données. En effet, une composante principale est une combinaison linéaire des variables initiales. Par conséquent, le rôle de

Page 12: Analyse Des Donnees Theo Final

chaque composante principale peut être déterminé par les variables d'origine qui contribuent le plus à sa construction, soit les plus corrélées.

Lorsque l'on fait une ACP en utilisant la métrique D1/², ce qui revient à travailler sur le tableau de données centré et réduit, ces coefficients de corrélation linéaire r(ck,xj) peuvent alors être calculés par la formule :

Une fois toutes les corrélations calculées, on les représente dans un plan formé par un couple de composantes principales c1 et c2, où elles figureront dans un cercle appelé cercle des corrélations. Dans ce plan, une variable xj est repérée par un point de coordonnées r(c1,xj) et d'ordonnée r(c2,xj).

Si la première composante principale c1 est très corrélée avec une variable xj, alors les individus qui sont très prononcés sur l'axe 1 (grandes coordonnées) sont caractérisés par une valeur fortement supérieure à la moyenne pour la variable xj.

Page 13: Analyse Des Donnees Theo Final

De plus, pour faciliter l'interprétation des axes, on introduit la notion de contribution à l'axe. On définit la contribution de l'individu i à la composante ck par le quotient :

où est la ième coordonnée de la composante principale ck.

Par la formulation initiale de l'A.C.P. (minimalisation de l'inertie), un axe peut être assimilé à une droite de régression dans l'espace de départ, et donc comme passant " au plus près " de l'ensemble des points du nuage. Mais tous les points du nuage ne sont pas pour autant proches de l'axe. La contribution est un indicateur de cette proximité à l'axe. Ainsi, les individus ayant une bonne contribution (valeur numérique élevée) sont ceux qui sont le plus proche de l'axe et donc ceux qui attirent l'axe vers eux, qui favorisent la détermination de l'axe. Et par conséquent, c'est grâce à ces individus que l'on va pouvoir chercher à donner un sens à l'axe. Il faut bien voir que, dans la plupart des cas, ce sont les points extrêmes d'un axe qui ont la plus forte contribution pour ce dernier, ce qui est normal dans la mesure où ce sont eux qui donnent une forme particulièrement allongée au nuage suivant la direction de l'axe. Un bon moyen de caractériser l'axe rapidement est donc de classer les individus par ordre décroissant de contribution.

Il faut aussi s'assurer que la représentation des individus sur les plans principaux est de bonne qualité. Pour un individu ei, on mesure cette qualité à l'aide du cosinus de l'angle formé par le plan principal et le vecteur défini par l'individu ei. L'indicateur utilisé dans les logiciels est alors couramment noté cos². Idéalement, lorsqu'un individu est sur le plan factoriel, l'angle défini est alors nul, ce qui entraîne un cos² égal à 1. Au contraire, un individu orthogonal à chacun des axes du plan factoriel aura un cos² nul. Tous les individus occupant des positions intermédiaires entre ces deux extrémités auront un cos² compris entre 0 et 1, d'autant plus proche de 1 que l'individu est bien représenté par sa projection sur le plan.

Page 14: Analyse Des Donnees Theo Final

En règle générale, les individus contribuant bien aux axes du plan y sont bien représentés. L'indicateur cos² est principalement à utiliser quand on veut interpréter les points centraux.

Enfin, dans certains cas, on peut gagner en richesse en utilisant des variables ou des individus en tant qu'objets supplémentaires. Les objets supplémentaires ne sont pas intégrés au tableau de données lors du calcul, mais peuvent être visualisés en même temps que les objets actifs lors de la représentation finale. Cette représentation simultanée permet de juger de leurs liens éventuels avec les variables de base. Lorsqu'un nombre restreint d'individus contribuent fortement à un axe (et donc suffisent à le déterminer à eux seuls), il peu être intéressant de relancer une analyse en les mettant en individus illustratifs, de telle sorte qu'ils n'influencent pas les résultats.