62
Analyse des données et liens avec les systèmes décisionnels Ahlame Douzal [email protected] (2016)

Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Analysedesdonnéesetliensavecles

systèmesdécisionnels

[email protected]

(2016)

Page 2: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Ahlame Douzal. Analyse des données, 2016

1. INTRODUCTION AU DATA MINING Qu’est-ce que le data mining Émergence du data mining Problématiques du data mining et applications Les grandes étapes d’un projet en data mining

2. LA PREPARATION DES DONNEES EN DATA MINING Les différents types de données

Transformation des données Mesures de similarités et codages

3. LES PRINCIPALES TECHNIQUES DE DATA MINING Description : techniques descriptives et exploratoires Structuration : techniques de classification et de classement Explication : techniques prédictives (arbres de décision et segmentation) Association : techniques pour l’extraction de règles d’association

(Analyse du panier de la ménagère)

4. ANALYSES DESCRIPTIVES ET EXPLORATOIRES Indicateurs de résumé et de synthèse

Analyse factorielle

5. CLASSIFICATION AUTOMATIQUE Classification par partitionnement Classification hiérarchique

6. SEGMENTATION PAR ARBRE Construction d’un arbre de décision

Critères de sélection du meilleur sous arbre Les règles d’affectation

Estimation du risque d’erreur

Page 3: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Introduc)onaudatamining(DM)

Objec)f:ExploraEonetanalysededonnéesvolumineusesafin d’extrairedesconnaissancescachéespourprédireetagir.

Connaissance:liens,règles,objetssimilaires,groupes,associaEon,…Facteursd’émergenceduDM:

–  laproducEonmassivedesdonnées.–  degrandescapacitésdestockage.–  depuissantsprocesseurs.–  uncontextetrèsconcurrenEel.–  ladisponibilitédelogicielsdeDM.

Ahlame Douzal. Analyse des données, 2016

Page 4: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Domainesd’applicaEonetproblémaEquesSecteur

Industriel Problématique décisionnelle

Grande Distribution

• Analyse des comportements des consommateurs. • Recherche des similarités des consommateurs en

fonction des critères géographiques. • Prédiction des taux de réponse en Marketing direct

Laboratoires pharmaceutiques

• Identification des meilleures thérapies pour différentes maladies

• Optimisation des plans d’action des visiteurs médicaux pour le lancement de nouveaux produits

Banques • Recherche de formes d’utilisation de cartes caractéristiques d’une fraude.

• Modélisations prédictives des clients partants. Assurances • Analyse des sinistres

• Recherche des critères explicatifs du risque ou de la fraude

Aéronautique, automobile

• Prévision des ventes • Dépouillement d’enquête de satisfaction

Télécommunication, eau et énergie

• Détection des formes de consommation frauduleuses

• Classification des clients selon la forme d’utilisation des services

• Prévision du départ des clients Ahlame Douzal. Analyse des données,

2016

Page 5: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

PosiEonnementduDWetduDM

Ahlame Douzal. Analyse des données, 2016

Data Warehouse Données Méthodes du

DM

Résultats

Prédire & Agir

Observer & Mesurer

Page 6: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Lesgrandesétapesd’unprojetendatamining

•  AnalysedesobjecEfs•  LaconstrucEondelabased’analyse•  LapréparaEondesdonnées

– LanormalisaEon,lecodage,lagesEondesdonnéesaberrantesetmanquantes,…

•  Lechoixdesmodèlesd’analyse•  L’analyseetl’interprétaEondesrésultats•  LavalidaEondesrésultats•  LaprédicEon

Ahlame Douzal. Analyse des données, 2016

Page 7: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Ahlame Douzal. Analyse des données, 2016

Connaissances

Interprétations

Modèles d’analyse

Résulats

Données pré-traitées

Pré traitement

Données

Sélection

Données cibles

Données transformées

Transformation

Validation

Page 8: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Systèmesdécisionnels

•  Lesmoteursdesbasesdedonnées(Oracle,Informix,SqlServer,Ingres,…)pourlestockageetlastructuraEon

•  LesouElsderequêtes(BusinessObject,Brioquery,GQL,etc.)pourlereporEngetl’interrogaEondesdonnées.

•  LesouElsOLAP(SASMDDB,OracleExpress,PilotdeCompshare,Cognos,…)pourl’analysemulEdimensionnelle

•  LesouElsdudataminingpourl’extracEondeconnaissancescachéesdanslesdonnées.

Ahlame Douzal. Analyse des données, 2016

Page 9: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ExemplededonnéesmulEdimensionnellesentélécommunicaEon

Ahlame Douzal. Analyse des données, 2016

nb d ’appels

durée

nb de contacts client

Page 10: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

DescripEondel’acEvitémensuelledesclients

Ahlame Douzal. Analyse des données, 2016

Clients NbAppel

DuréeCom

Nb AppelEntrant

CourrierVocal

NbContact

C1 35 500 41 Non 16C2 9 170 25 Non 13C3 7 210 45 Oui 3C4 12 220 5 Non 17C5 31 580 39 Non 19C6 11 180 30 Oui 5C7 11 110 10 Oui 20C8 40 600 50 Oui 12

Attributs / Dimensions

nupl

ets

Page 11: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

QuelquesproblémaEques…•  Cons)tuerdesgroupesdeprofilsdeconsomma)onsimilaires

ClassificaEon,AnalyseFactorielle

•  ExtrairelesaBributscaractérisantaumieuxcesgroupes AnalysedescorrélaEons,analysefactorielle

•  AnalyserlesliensentreaBributs(variables)AnalysedescorrélaEons,Analysed’associaEons

•  Iden)fierlegrouped’appartenanced’unnouveauclientClassement,ClassificaEon

•  Extrairedesrèglesdedécisionportantsurlebonoumauvaispoten)eld’unclient

SegmentaEon,Arbrededécision

•  Prédirelecomportementd’unclientRéseauxneuronaux,régression,…

Ahlame Douzal. Analyse des données, 2016

Page 12: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Laprépara)ondesdonnéesendatamining

-  Lesdifférentstypesdedonnées

-  TransformaEondesdonnées-  LanormalisaEon:

-  Moyenne,variancecovarianceetcorrélaEons…

-Mesuresdesimilaritésetcodagesdesdonnées

Ahlame Douzal. Analyse des données, 2016

Page 13: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Ahlame Douzal. Analyse des données, 2016

Les différents type de données

Structure Continu Dénombrable Cardinal

=, # CSP Nominal

<= , >= Age Température

Rang ressemblance

Ordinal

<=, >=, +, * Revenu Mesurable

Quantitatif Qualitatif Attribut

Page 14: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Ahlame Douzal. Analyse des données, 2016

X1 … Xp w1 … xij wN

Tableau quantitatif (W , X) ∀ j :{1..p} Xj quantitatif

Tableau qualitatif (W , X) j :{1..p} Xj qualitatif Tableau contingence (W , X) xij est la fréquence d’apparition de la modalité xj pour l’individu wi Tableau de préférence (W , X) xij exprime le degré de préférence de la modalité Xj par wi Tableau binaire (W , X) xij :{0 ,1} exprime la présence ou pas de la modalité Xj pour wi Tableau de proximité (W, W) xij exprime une mesure de similarité ou de dissimilarité entre deux individus wi, wj Tableau hétérogène

Attributs

Individus

Page 15: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

IndicateursdeposiEonetdedispersiond’a^ributquanEtaEf

•  IndicateurdePosiEon– MoyennedeXj

•  Indicateurdedispersion–  Variance

–  Covariance

–  CorrélaEon

∑=

=N

ixij

NXj

1

1

2

1)(1)var( ∑

=−=

N

iXjxij

NXj

Ahlame Douzal. Analyse des données, 2016

∑=

−−=N

iXkxikXjxij

NXkXj

1))((1),cov(

)var(*)var(),cov(),(XkXj

XkXjXkXjcor =

Page 16: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Ahlame Douzal. Analyse des données, 2016

La normalisation des données quantitatives

Le centrage d’un attribut quantitatif Xj = (x1j,…,xij,… xNj) xij

La réduction d’un attribut quantitatif Xj = (x1j,…,xij,… xNj)

xij

La normalisation d’un attribut quantitatif Xj = (x1j,…,xij,… xNj)

xij

Xjxijxijc −=

)var(/ Xjxijxijn =

)var()(*

XjXjxijxij −

=

Page 17: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Lesmesuresstandardsdeproximitésentren-uplets

1-TableauxquanEtaEfs

DistancedeMinkowski

r=1(distancedeManha^an)

r=2(distanceeuclidienne)

r~>(distanceChebychev)

( )xipxiwi ,...1=rp

j

rxsjxijwswid/1

1),(

⎟⎟

⎜⎜

⎛−= ∑

=

Ahlame Douzal. Analyse des données, 2016

∑=

−=p

jxsjxijwswid

1),(

( )∑=

−=p

jxsjxijwswid

1

2),(

∞ ( )xsjxijwswidpj

−=≤≤

max1

),(

Page 18: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

2- Tableaux binaires xij=0/1 xsj=0/1

Codage des données binaires

•  a : nombre d’occurrence où xij=1 et xsj=1 •  b : nombre d’occurrence où xij=0 et xsj=1 •  c : nombre d’occurrence où xij=1 et xsj=0 •  d : nombre d’occurrence où xij=0 et xsj=0

( )xipxiwi ,...1=

wi ws

1 0

1 a b 0 c d

( )xspxsws ,...1=

Page 19: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Mesuresdedissemblanceusuelles

dcbaawswid

+++−=1),(

cbaawswid++

−=1),(

Ahlame Douzal. Analyse des données, 2016

Russel et Rao

Jaccard

Dice

Sokal & Sneath

Roger & Tanimoto

Kulzinsky

Yule

)(21),(

cbaawswid++

−=

cbaawswid++

−=221),(

)(21),(

cbdadawswid+++

+−=

bcadbcadwswid

+

−−=1),(

cbawswid+

−=1),(

Page 20: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

3-TableauqualitaEfnominalet/ouordinal•  Onprocèdeaucodagedesa^ributsqualitaEfsena^ributsbinaires•  ApplicaEonsdesmesuresdesimilaritésvuesprécédemment

•  Codagebinaire

Couleur Forme

wi Rouge Ellipsoïde

ws Jaune Circulaire

Rouge Jaune Bleue Ellipsoïde Circulaire

wi 1 0 0 1 0

ws 0 1 0 0 1

Ahlame Douzal. Analyse des données, 2016

Page 21: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Lesmesuresstandardsdeproximitésentrea^ributs

1-ABributsquan)ta)fs

D(Xj,Xk)=cor(Xj,Xk)

2-ABributsqualita)fsnominaux

(voirsimilaritésentrevecteurbinaire)3-ABributsqualita)fsordinaux

LecoefficientdecorrélaEondesrangsdeKendall…

Ahlame Douzal. Analyse des données, 2016

Page 22: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Lecoefficientdecorréla)ondesrangsdeKendallXj(x1j,…xNj)Xk(x1k,…,xNk)Onprocèdeaucodagedesa^ributsXjenYjetXkenYk:

{ }

),(),(

1),(0),(1),(1,0,1:

YkYjcorXkXj

xikxijsiwswiYjxikxijsiwswiYjxikxijsiwswiYj

xYj

=

⎪⎭

⎪⎬

⎪⎩

⎪⎨

=

==

−=

−→ΩΩ

τ

Ahlame Douzal. Analyse des données, 2016

Page 23: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

•  ExempleX1 X2

1 a e 2 c f 3 b e 4 a g Y1 Y2

(1,2) -1 -1 (1,3) -1 0 (1,4) 0 -1 (2,3) +1 1 (2,4) 1 -1 (3,4) 1 -1

Ahlame Douzal. Analyse des données, 2016

a<b<c et e<f<g

Codage

)2,1()2,1( YYcorXX =τ

Page 24: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Techniquesdescrip)vesetexploratoires

Objec&f:Résumer,synthéEser,structurerunensembled’informaEonsenuElisantdesreprésentaEonsgraphiquesouindicateursnumériques

Moyens:FoncEonsd’agrégaEon(moyenne,moyennemobile,raEo,cumul,…)

OuElsgraphiques

Ahlame Douzal. Analyse des données, 2016

L’analyse descriptive

Page 25: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ExemplesdemesuresdescripEves

Générerlerapportdonnantlafréquencedesappelsclients,laduréetotaldecommunicaEonparmois.

Donnerlamoyennemobiledestroisderniersmoisdesnombresd’appelsentrants.

Mesurerlavariabilitédeladuréedeconnexiondesclientssurl’année

Ahlame Douzal. Analyse des données, 2016

Page 26: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ExempledemesuresdescripEves

Clients C1 C2 C3 C4 C5 C6 C7 C8 TotNb Appel 35 9 7 12 31 11 11 40 156Fréquence 0.22 0.05 0.04 0.07 0.19 0.07 0.07 0.25

Fréquence :Moyenne :Variance :

Ahlame Douzal. Analyse des données, 2016

0

5

10

15

20

25

30

35

40

C1 C2 C3 C4 C5 C6 C7 C8

Nb Appel

Page 27: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

•  Objec&f:Extrairedespropriétésàunensembledenuplets.Étendre(inférer)cespropriétésàlabasededonnées.Validerouinfirmercespropriétésàl’aidedetestsd’hypothèses.

Moyens:Mesuredesimilarité,dedistanceentrenuplets.MesuredecorrélaEons,deliensentredescripteursOuElsgraphiques

Ahlame Douzal. Analyse des données, 2016

L’analyse exploratoire

Page 28: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Quelquesméthodesdel’analyseexploratoire

•  Analysefactorielle–  ObjecEf:

– extraitlesa^ributsperEnents–  fournitdesreprésentaEonsgraphiquesdesindividus

– mesurelesliensentredescripteurs– préparelesdonnéesàuneéventuelleclassificaEon.

– Méthodes:– Analyseencomposantesprincipales(ACP):donnéesconEnues

– AnalysedescorrespondancesmulEples(ACM):donnéesconEnuesetnominales.

–  …Ahlame Douzal. Analyse des données,

2016

Page 29: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

L’analysefactorielleClients Nb

AppelDuréeCom

Nb AppelEntrant

CourrierVocal

NbContact

C1 35 500 41 Non 16C2 9 170 25 Non 13C3 7 210 45 Oui 3C4 12 220 5 Non 17C5 31 580 39 Non 19C6 11 180 30 Oui 5C7 11 110 10 Oui 20C8 40 600 50 Oui 12

Ahlame Douzal. Analyse des données, 2016

ACP / ACM

PC1

PC2

C1 C8 C5

C2

C7

C4

C6 C2

G1

G2

G3

NbC NbA

Page 30: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Techniquesclassificatoires

Objec&f:FournitunereprésentaEongraphiqueExtraitdesgroupesd’individussimilaires

MéthodesParparEEonnement(Centres-mobiles):lesgroupesforment

uneparEEonHiérarchique:lesgroupespeuventserecouvrirpar

inclusion

Ahlame Douzal. Analyse des données, 2016

Page 31: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

MéthodedesCentres-mobiles

Objec&f:ConstruireuneparEEonderclasses.

Algorithme:

1)Choisirlenombredeclasser2)Choisirrnupletscommecentresdesrclasses3)Affecterchaquenupletaucentreleplusproche.4)Recalculerlecentredelaclassed’affectaEon.5)Répéterlesétapes3)et4)jusqu’àstabilisaEon.

Ahlame Douzal. Analyse des données, 2016

Page 32: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Centres-mobiles

Ahlame Douzal. Analyse des données, 2016

C1 C2

C1 C2

C1 C2

G1 G2

Étape 1

Étape 2

Étape 3

Page 33: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Exemple

nuplets A1Esthétiquedu Package

A2Mémorisation

Accrochepublicitaire

P1 1 1P2 1 2P3 4 3P4 4 5P5 2 2

Ahlame Douzal. Analyse des données, 2016

Nombre de classe = 2 P1, P5 comme centres des deux

classes

Page 34: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Centres-mobiles

Étape1:

Classe1:P1,P2Classe2:P4,P5,P3

Nouveauxnupletscentres:Classe1:P12(1,1.5)

Classe2:P12(3.33,3.33)

Étape2:Classe1:P1,P2,P5Classe2:P4,P3

Ahlame Douzal. Analyse des données, 2016

Page 35: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ClassificaEonHiérarchique

Objec&f:ConstruireunesuccessiondeparEEonsàpclasses,p-1classes,…,1classe.

Algorithme:1)Soitpnupletsàclasser2)Onconstruitlamatricedesdistancesentrelespnuplets(pclasses).

3)Onagrègeenunnouvelnupletlesdeuxnupletslesplusproches(p-1classes)

4)onréitèrelesétapes2et3jusqu’àcequ’iln’yaitplusqu’uneclasse.

Ahlame Douzal. Analyse des données, 2016

Page 36: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ClassificaEonhiérarchique

Ahlame Douzal. Analyse des données, 2016

Étape 1 Étape 2

Étape 3 Étape 4

1 3

4

2

5

1 3

4

2 2

2

1 1 3 3

4 5 5

5 4

Page 37: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ClassificaEonhiérarchique

•  Distance

Ahlame Douzal. Analyse des données, 2016

N-uplets 1 3 4 2 5

6 7

8

9

Page 38: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Exemple

nuplets A1Esthétiquedu Package

A2Mémorisation

Accrochepublicitaire

P1 1 1P2 1 2P3 4 3P4 4 5P5 2 2

Ahlame Douzal. Analyse des données, 2016

Distances P1 P2 P3 P4 P5P1 0 1 3.6 5 1.41P2 0 3.16 4.24 1P3 0 2 2.23P4 0 3.6P5 0

P1 et P2 agrégés en P12 Étape 1

Page 39: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

nuplets A1 Esthétique du Package

A2 Mémorisation

Accroche publicitaire P12 1 1.5 P3 4 3 P4 4 5 P5 2 2

Ahlame Douzal. Analyse des données, 2016

Étape 2

Distances P12 P3 P4 P5P12 3.35 4.6 1.11P3 0 2 2.23P4 0 3.6P5 0

P12 et P5 agrégés en P125

Page 40: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

nuplets A1Esthétiquedu Package

A2Mémorisation

Accrochepublicitaire

P125 1.5 1.75P3 4 3P4 4 5

Ahlame Douzal. Analyse des données, 2016

Étape 3

Distances P125 P3 P4

P125 2.74 4.1

P3 0 2

P4 0

P3 et P4 agrégés en P34

Page 41: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Arbresdedécision

R(A1,…,Ap,B)

A1,…An:a^ributsexplicaEfsB:a^ributàexpliquer

Ai⇒pBsijeconnaisAialorsjeconnaisBavecune

probabilitép(p∈[0,1])

Ahlame Douzal. Analyse des données, 2016

Page 42: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Arbresdedécision

•  ObjecEf Extrairelesa^ributslesplusdiscriminants (Ai⇒pBavecpfort)

Extrairedesrèglesdedécision(IdenEficaEon)AiΛAjΛAk⇒pB

Ahlame Douzal. Analyse des données, 2016

Vg Vd

Rg Rd

Aj R

Page 43: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ParEEonnementbinaire

Ahlame Douzal. Analyse des données, 2016

Type Attribut Vg Vd

Qualitatif binaire

(a1,a2)

Aj =a1 Aj =a2

Aj = a1 Aj ≥ a2

Qualitatif ordonné

(a1, a2, a3)

a1 ≤ a2 ≤ a3

Aj ≤ a2 Aj = a3

Aj = a1 Aj = a2 ou Aj = a3

Aj = a1 ou Aj = a2 Aj = a3Qualitatif non ordonné

(a1, a2, a3)Aj = a1 ou Aj = a3 Aj = a2

Quantitatif

(a)

Aj ≤ a Aj > a

Page 44: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Mesured’impureté

SoitAjetBdeuxa^ributsbinaires

Ahlame Douzal. Analyse des données, 2016

1 0

R1(n1) R2(n2) ni : nb de nuplets dans Ri

Aj

(c10, c11) (c20, c21) c10 : proportion des nuplets n1 prenant la modalité 0 de B

I(Aj) = ∑i ci0 * ci1

c11 : proportion des nuplets n1 prenant la modalité 1 de B

Page 45: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Algorithmedeconstruc)ondel’arbrededécision

Algorithmea)Pourchaquea^ributexplicaEf,onparEEonnel’ensembledesnupletspuisoncalculeledegréd’impuretéassociéàce^eparEEon.

b)Onchoisitcommepremiera^ributdeparEEonnementceluidonnantledegréd’impuretélemoinsélevé.

c)Pourchaquea^ributexplicaEfrestant,onréitèrea)etb)poursegmenterchacunedesparEesobtenues.Ons’arrêtequandlaparEeconEentunnupletouqu’onaa^eintledegréd’impureté0.

Ahlame Douzal. Analyse des données, 2016

Page 46: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ExempledeconstrucEond’unarbrebinaire

nuplets A1A eu unstagiaire

A2A embauché un

étudiant

A3Connaîtl’école

A4Rendez-

vous1 1 0 0 02 1 0 1 03 1 1 0 14 0 1 1 15 1 0 0 16 0 1 0 17 0 1 1 18 0 0 1 0

Ahlame Douzal. Analyse des données, 2016

explicatifs à expliquer

Page 47: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

A1(I=0.4375)

Ahlame Douzal. Analyse des données, 2016

{1,2,3,4,5,6,7,8}

1 0 {1,2,3,5} {4,6,7,8}

{1,2,3,4,5,6,7,8}

1 0 {3,4,6,7} {1,2,5,8}

{1,2,3,4,5,6,7,8}

1 0

{2,4,7,8} {1,3,5,6}

A2

A3

(0.5, 0.5) (1/4, 3/4)

(0, 1) (0.5,0.5)

(0.5,0.5) (1/4, 3/4)

(I = 0.25)

(I = 0.4375)

A2 B 0.25

Page 48: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

A2

Ahlame Douzal. Analyse des données, 2016

1 0

{3,4,6,7}

(0, 1) (0.5,0.5)

{1,2,5,8}

{1,2,5,8} {1,2,5,8} A1 A3

1 1 0 0

(2/3, 1/3) {1,2,5} {8}

(1, 0)

{1,5} {2,8} (0.5, 0.5) (1, 0)

(I = 0.25) (I = 0.22)

A1 B 0.22

Page 49: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

A2

Ahlame Douzal. Analyse des données, 2016

{1,2,3,4,5,6,7,8}

1 0 {3,4,6,7}

(0, 1) {1,2,5,8}

1 0

{1,2,5} {8} (1, 0)

A1

A3 1 0

{2} {1,5} (1, 0) (0.5, 0.5)

(I = 0.25)

Page 50: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

ExtracEonderègles

(A2=1)⇒1B=1

Sil’entrepriseaembauchéunétudiantalorsobtenEond’unrendez-vous

(A2=0etA1=0)⇒1B=0

(A2=0etA1=1etA3=1)⇒1B=0

(A2=0etA1=1etA3=0)⇒0.5B=1

Ahlame Douzal. Analyse des données, 2016

Page 51: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Extrac)onderèglesd’associa)on Farine Sucre Lait Œuf Chocolat Thé

1 1 1 1 0 0 0 2 0 1 0 1 1 0 3 1 1 0 1 1 0 4 0 0 0 1 1 1

Ahlame Douzal. Analyse des données, 2016

Objectif : •  Extraire les associations du type Ai=1⇒Aj=1 (noté Ai⇒Aj)

•  Évaluer la fiabilité des associations extraites

farine ⇒ sucre, chocolat ⇒ thé

Page 52: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

•  Ledegrédeconfianced’uneassocia)onConf(Ai⇒Aj)=

Conf:ledegrédeconfianceOcc(Ai):lenombred’occurrencesdanslatableoùapparaît

lamodalitéAi

•  Ledegrédesupportd’uneassocia)onSup(Ai⇒Aj)=

Ahlame Douzal. Analyse des données, 2016

Occ(Ai⇒Aj) Occ(Ai)

Occ(Ai⇒Aj) N

N : le nombre de nuplets

Page 53: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Algorithmea)Oncalculelepoidsdechaquea^ribut.Onéliminelesa^ributsdontlepoidsestinférieuràuncertainseuildeconfiance.

b)Oncalculelepoidsdechaquecoupled’a^ribut(Ai=1,Aj=1).Onéliminelescouplesdontlepoidsestinférieuràuncertainseuildeconfiance.

c)SurlabasedescouplesretenusonconstruittouteslesassociaEonspossibles.

d)PourchaqueassociaEononévaluesesdegrésdeconfianceetdesupport.

Ahlame Douzal. Analyse des données,

2016

Page 54: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Processusdudatamining

•  Poserleproblème•  Larecherchedesdonnées•  LasélecEondesdonnéesperEnentes•  Le«ne^oyage»desdonnées•  LesacEonssurlesvariables•  Larecherched’unmodèle•  L’évaluaEondurésultat•  L’intégraEondelaconnaissance

Ahlame Douzal. Analyse des données, 2016

Page 55: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Poserleproblème

•  LaformulaEonduproblèmeproblèmedediagnosEcdepanne analysedesdéfautsdeproducEon…

•  Latypologieduproblème Exploratoire?InférenEelle?

•  Lesrésultatsa^endusetuElisaEons

Ahlame Douzal. Analyse des données, 2016

Page 56: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Larecherchedesdonnées

•  InvesEgaEonetdéterminaEondelastructuregénéraledesdonnées

•  LaréducEondesdimensions(corrélaEons)

Ahlame Douzal. Analyse des données, 2016

Nombre d’attributs

Nom

bre

de n

uple

ts

-

+

- +

Zone optimale Long calculs

S’assurer de la stabilité

Peu de nuplets

Page 57: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

LasélecEondesdonnées

•  ÉchanEllonouexhausEvitéchoixdépenddel’infrastructuredétecEondetendancesgénérales(échanEllonreprésentaEf)ExhausEvité:qualitédesrésultats,coûteux

•  modedecréaEondel’échanEllontaille:foncEondesméthodesàappliquerEragealéatoireàparErdesdifférentessous-populaEon

Ahlame Douzal. Analyse des données, 2016

Page 58: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Lene^oyagedesdonnées

•  GesEondesvaleursaberrantes isolaEondes«pics»dedistribuEonstaEsEques

•  GesEondesvaleursmanquantesexclurelesnupletsincompletsremplacerlesdonnéesmanquantes…

Ahlame Douzal. Analyse des données, 2016

Page 59: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

LesacEonssurlesa^ributs

•  LatransformaEonmono-a^ribut–  lanormalisaEondesdistribuEons–  transformaEondesdatesendurées– géocodage(intégrerlescontraintesdeproximitésdansleraisonnement)

•  LatransformaEonmulE-a^ribut–  lesraEos,lesfréquences,–  lestendances–  lescombinaisonlinéaires,...

Ahlame Douzal. Analyse des données, 2016

Page 60: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

Larecherchedumodèle

•  Choixdelabased’apprenEssageetdelabasedetest(70%/30%)

•  Choixdesalgorithmesdecalcul–  modèleàbased’équaEons

(Réseauxdeneurones,techniquesderégression)

–  analyselogique(Arbresdedécisions,règlesd’associaEon,ensemblesflous)

–  techniquesdeprojecEon(miseenévidencedesfacteursprincipauxd’explicaEon)(analysefactorielles,classificaEon,…)

Ahlame Douzal. Analyse des données, 2016

Page 61: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

L’évaluaEondurésultat

•  ÉvaluaEonqualitaEve–  resEtuEondelaconnaissancesousformegraphique

•  ÉvaluaEonquanEtaEve– Lesintervallesdeconfiance–  lestestsdevalidaEon(étudierlastabilitédesrésultatsdanslabasetest)

Ahlame Douzal. Analyse des données, 2016

Page 62: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •

L’intégraEondelaconnaissance

•  Dresserunbilan– unefaiblequalitédesdonnéesconduitàrevoirlesprocessusd’alimentaEondel’entrepôt

–  ladétecEondufortpouvoirprédicEfd’unedonnéepousseàmodifierleschémadelabaseetlerythmed’alimentaEon

– Lesagrégatsconstruitsserévèlentêtredesdimensionsintéressantesàintégrerdansletableaudebordexistant

– explicaEondesconnaissancescontradictoiresavecl’existant.

Ahlame Douzal. Analyse des données, 2016