Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Ahlame Douzal. Analyse des données, 2016
1. INTRODUCTION AU DATA MINING Qu’est-ce que le data mining Émergence du data mining Problématiques du data mining et applications Les grandes étapes d’un projet en data mining
2. LA PREPARATION DES DONNEES EN DATA MINING Les différents types de données
Transformation des données Mesures de similarités et codages
3. LES PRINCIPALES TECHNIQUES DE DATA MINING Description : techniques descriptives et exploratoires Structuration : techniques de classification et de classement Explication : techniques prédictives (arbres de décision et segmentation) Association : techniques pour l’extraction de règles d’association
(Analyse du panier de la ménagère)
4. ANALYSES DESCRIPTIVES ET EXPLORATOIRES Indicateurs de résumé et de synthèse
Analyse factorielle
5. CLASSIFICATION AUTOMATIQUE Classification par partitionnement Classification hiérarchique
6. SEGMENTATION PAR ARBRE Construction d’un arbre de décision
Critères de sélection du meilleur sous arbre Les règles d’affectation
Estimation du risque d’erreur
Introduc)onaudatamining(DM)
Objec)f:ExploraEonetanalysededonnéesvolumineusesafin d’extrairedesconnaissancescachéespourprédireetagir.
Connaissance:liens,règles,objetssimilaires,groupes,associaEon,…Facteursd’émergenceduDM:
– laproducEonmassivedesdonnées.– degrandescapacitésdestockage.– depuissantsprocesseurs.– uncontextetrèsconcurrenEel.– ladisponibilitédelogicielsdeDM.
Ahlame Douzal. Analyse des données, 2016
Domainesd’applicaEonetproblémaEquesSecteur
Industriel Problématique décisionnelle
Grande Distribution
• Analyse des comportements des consommateurs. • Recherche des similarités des consommateurs en
fonction des critères géographiques. • Prédiction des taux de réponse en Marketing direct
Laboratoires pharmaceutiques
• Identification des meilleures thérapies pour différentes maladies
• Optimisation des plans d’action des visiteurs médicaux pour le lancement de nouveaux produits
Banques • Recherche de formes d’utilisation de cartes caractéristiques d’une fraude.
• Modélisations prédictives des clients partants. Assurances • Analyse des sinistres
• Recherche des critères explicatifs du risque ou de la fraude
Aéronautique, automobile
• Prévision des ventes • Dépouillement d’enquête de satisfaction
Télécommunication, eau et énergie
• Détection des formes de consommation frauduleuses
• Classification des clients selon la forme d’utilisation des services
• Prévision du départ des clients Ahlame Douzal. Analyse des données,
2016
PosiEonnementduDWetduDM
Ahlame Douzal. Analyse des données, 2016
Data Warehouse Données Méthodes du
DM
Résultats
Prédire & Agir
Observer & Mesurer
Lesgrandesétapesd’unprojetendatamining
• AnalysedesobjecEfs• LaconstrucEondelabased’analyse• LapréparaEondesdonnées
– LanormalisaEon,lecodage,lagesEondesdonnéesaberrantesetmanquantes,…
• Lechoixdesmodèlesd’analyse• L’analyseetl’interprétaEondesrésultats• LavalidaEondesrésultats• LaprédicEon
Ahlame Douzal. Analyse des données, 2016
Ahlame Douzal. Analyse des données, 2016
Connaissances
Interprétations
Modèles d’analyse
Résulats
Données pré-traitées
Pré traitement
Données
Sélection
Données cibles
Données transformées
Transformation
Validation
Systèmesdécisionnels
• Lesmoteursdesbasesdedonnées(Oracle,Informix,SqlServer,Ingres,…)pourlestockageetlastructuraEon
• LesouElsderequêtes(BusinessObject,Brioquery,GQL,etc.)pourlereporEngetl’interrogaEondesdonnées.
• LesouElsOLAP(SASMDDB,OracleExpress,PilotdeCompshare,Cognos,…)pourl’analysemulEdimensionnelle
• LesouElsdudataminingpourl’extracEondeconnaissancescachéesdanslesdonnées.
Ahlame Douzal. Analyse des données, 2016
ExemplededonnéesmulEdimensionnellesentélécommunicaEon
Ahlame Douzal. Analyse des données, 2016
nb d ’appels
durée
nb de contacts client
DescripEondel’acEvitémensuelledesclients
Ahlame Douzal. Analyse des données, 2016
Clients NbAppel
DuréeCom
Nb AppelEntrant
CourrierVocal
NbContact
C1 35 500 41 Non 16C2 9 170 25 Non 13C3 7 210 45 Oui 3C4 12 220 5 Non 17C5 31 580 39 Non 19C6 11 180 30 Oui 5C7 11 110 10 Oui 20C8 40 600 50 Oui 12
Attributs / Dimensions
nupl
ets
QuelquesproblémaEques…• Cons)tuerdesgroupesdeprofilsdeconsomma)onsimilaires
ClassificaEon,AnalyseFactorielle
• ExtrairelesaBributscaractérisantaumieuxcesgroupes AnalysedescorrélaEons,analysefactorielle
• AnalyserlesliensentreaBributs(variables)AnalysedescorrélaEons,Analysed’associaEons
• Iden)fierlegrouped’appartenanced’unnouveauclientClassement,ClassificaEon
• Extrairedesrèglesdedécisionportantsurlebonoumauvaispoten)eld’unclient
SegmentaEon,Arbrededécision
• Prédirelecomportementd’unclientRéseauxneuronaux,régression,…
Ahlame Douzal. Analyse des données, 2016
Laprépara)ondesdonnéesendatamining
- Lesdifférentstypesdedonnées
- TransformaEondesdonnées- LanormalisaEon:
- Moyenne,variancecovarianceetcorrélaEons…
-Mesuresdesimilaritésetcodagesdesdonnées
Ahlame Douzal. Analyse des données, 2016
Ahlame Douzal. Analyse des données, 2016
Les différents type de données
Structure Continu Dénombrable Cardinal
=, # CSP Nominal
<= , >= Age Température
Rang ressemblance
Ordinal
<=, >=, +, * Revenu Mesurable
Quantitatif Qualitatif Attribut
Ahlame Douzal. Analyse des données, 2016
X1 … Xp w1 … xij wN
Tableau quantitatif (W , X) ∀ j :{1..p} Xj quantitatif
Tableau qualitatif (W , X) j :{1..p} Xj qualitatif Tableau contingence (W , X) xij est la fréquence d’apparition de la modalité xj pour l’individu wi Tableau de préférence (W , X) xij exprime le degré de préférence de la modalité Xj par wi Tableau binaire (W , X) xij :{0 ,1} exprime la présence ou pas de la modalité Xj pour wi Tableau de proximité (W, W) xij exprime une mesure de similarité ou de dissimilarité entre deux individus wi, wj Tableau hétérogène
Attributs
Individus
IndicateursdeposiEonetdedispersiond’a^ributquanEtaEf
• IndicateurdePosiEon– MoyennedeXj
• Indicateurdedispersion– Variance
– Covariance
– CorrélaEon
∑=
=N
ixij
NXj
1
1
2
1)(1)var( ∑
=−=
N
iXjxij
NXj
Ahlame Douzal. Analyse des données, 2016
∑=
−−=N
iXkxikXjxij
NXkXj
1))((1),cov(
)var(*)var(),cov(),(XkXj
XkXjXkXjcor =
Ahlame Douzal. Analyse des données, 2016
La normalisation des données quantitatives
Le centrage d’un attribut quantitatif Xj = (x1j,…,xij,… xNj) xij
La réduction d’un attribut quantitatif Xj = (x1j,…,xij,… xNj)
xij
La normalisation d’un attribut quantitatif Xj = (x1j,…,xij,… xNj)
xij
Xjxijxijc −=
)var(/ Xjxijxijn =
)var()(*
XjXjxijxij −
=
Lesmesuresstandardsdeproximitésentren-uplets
1-TableauxquanEtaEfs
DistancedeMinkowski
r=1(distancedeManha^an)
r=2(distanceeuclidienne)
r~>(distanceChebychev)
( )xipxiwi ,...1=rp
j
rxsjxijwswid/1
1),(
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛−= ∑
=
Ahlame Douzal. Analyse des données, 2016
∑=
−=p
jxsjxijwswid
1),(
( )∑=
−=p
jxsjxijwswid
1
2),(
∞ ( )xsjxijwswidpj
−=≤≤
max1
),(
2- Tableaux binaires xij=0/1 xsj=0/1
Codage des données binaires
• a : nombre d’occurrence où xij=1 et xsj=1 • b : nombre d’occurrence où xij=0 et xsj=1 • c : nombre d’occurrence où xij=1 et xsj=0 • d : nombre d’occurrence où xij=0 et xsj=0
( )xipxiwi ,...1=
wi ws
1 0
1 a b 0 c d
( )xspxsws ,...1=
Mesuresdedissemblanceusuelles
dcbaawswid
+++−=1),(
cbaawswid++
−=1),(
Ahlame Douzal. Analyse des données, 2016
Russel et Rao
Jaccard
Dice
Sokal & Sneath
Roger & Tanimoto
Kulzinsky
Yule
)(21),(
cbaawswid++
−=
cbaawswid++
−=221),(
)(21),(
cbdadawswid+++
+−=
bcadbcadwswid
+
−−=1),(
cbawswid+
−=1),(
3-TableauqualitaEfnominalet/ouordinal• Onprocèdeaucodagedesa^ributsqualitaEfsena^ributsbinaires• ApplicaEonsdesmesuresdesimilaritésvuesprécédemment
• Codagebinaire
Couleur Forme
wi Rouge Ellipsoïde
ws Jaune Circulaire
Rouge Jaune Bleue Ellipsoïde Circulaire
wi 1 0 0 1 0
ws 0 1 0 0 1
Ahlame Douzal. Analyse des données, 2016
Lesmesuresstandardsdeproximitésentrea^ributs
1-ABributsquan)ta)fs
D(Xj,Xk)=cor(Xj,Xk)
2-ABributsqualita)fsnominaux
(voirsimilaritésentrevecteurbinaire)3-ABributsqualita)fsordinaux
LecoefficientdecorrélaEondesrangsdeKendall…
Ahlame Douzal. Analyse des données, 2016
Lecoefficientdecorréla)ondesrangsdeKendallXj(x1j,…xNj)Xk(x1k,…,xNk)Onprocèdeaucodagedesa^ributsXjenYjetXkenYk:
{ }
),(),(
1),(0),(1),(1,0,1:
YkYjcorXkXj
xikxijsiwswiYjxikxijsiwswiYjxikxijsiwswiYj
xYj
=
⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧
=
==
−=
−→ΩΩ
τ
≻
≺
Ahlame Douzal. Analyse des données, 2016
• ExempleX1 X2
1 a e 2 c f 3 b e 4 a g Y1 Y2
(1,2) -1 -1 (1,3) -1 0 (1,4) 0 -1 (2,3) +1 1 (2,4) 1 -1 (3,4) 1 -1
Ahlame Douzal. Analyse des données, 2016
a<b<c et e<f<g
Codage
)2,1()2,1( YYcorXX =τ
Techniquesdescrip)vesetexploratoires
Objec&f:Résumer,synthéEser,structurerunensembled’informaEonsenuElisantdesreprésentaEonsgraphiquesouindicateursnumériques
Moyens:FoncEonsd’agrégaEon(moyenne,moyennemobile,raEo,cumul,…)
OuElsgraphiques
Ahlame Douzal. Analyse des données, 2016
L’analyse descriptive
ExemplesdemesuresdescripEves
Générerlerapportdonnantlafréquencedesappelsclients,laduréetotaldecommunicaEonparmois.
Donnerlamoyennemobiledestroisderniersmoisdesnombresd’appelsentrants.
Mesurerlavariabilitédeladuréedeconnexiondesclientssurl’année
Ahlame Douzal. Analyse des données, 2016
ExempledemesuresdescripEves
Clients C1 C2 C3 C4 C5 C6 C7 C8 TotNb Appel 35 9 7 12 31 11 11 40 156Fréquence 0.22 0.05 0.04 0.07 0.19 0.07 0.07 0.25
Fréquence :Moyenne :Variance :
Ahlame Douzal. Analyse des données, 2016
0
5
10
15
20
25
30
35
40
C1 C2 C3 C4 C5 C6 C7 C8
Nb Appel
• Objec&f:Extrairedespropriétésàunensembledenuplets.Étendre(inférer)cespropriétésàlabasededonnées.Validerouinfirmercespropriétésàl’aidedetestsd’hypothèses.
Moyens:Mesuredesimilarité,dedistanceentrenuplets.MesuredecorrélaEons,deliensentredescripteursOuElsgraphiques
Ahlame Douzal. Analyse des données, 2016
L’analyse exploratoire
Quelquesméthodesdel’analyseexploratoire
• Analysefactorielle– ObjecEf:
– extraitlesa^ributsperEnents– fournitdesreprésentaEonsgraphiquesdesindividus
– mesurelesliensentredescripteurs– préparelesdonnéesàuneéventuelleclassificaEon.
– Méthodes:– Analyseencomposantesprincipales(ACP):donnéesconEnues
– AnalysedescorrespondancesmulEples(ACM):donnéesconEnuesetnominales.
– …Ahlame Douzal. Analyse des données,
2016
L’analysefactorielleClients Nb
AppelDuréeCom
Nb AppelEntrant
CourrierVocal
NbContact
C1 35 500 41 Non 16C2 9 170 25 Non 13C3 7 210 45 Oui 3C4 12 220 5 Non 17C5 31 580 39 Non 19C6 11 180 30 Oui 5C7 11 110 10 Oui 20C8 40 600 50 Oui 12
Ahlame Douzal. Analyse des données, 2016
ACP / ACM
PC1
PC2
C1 C8 C5
C2
C7
C4
C6 C2
G1
G2
G3
NbC NbA
Techniquesclassificatoires
Objec&f:FournitunereprésentaEongraphiqueExtraitdesgroupesd’individussimilaires
MéthodesParparEEonnement(Centres-mobiles):lesgroupesforment
uneparEEonHiérarchique:lesgroupespeuventserecouvrirpar
inclusion
Ahlame Douzal. Analyse des données, 2016
MéthodedesCentres-mobiles
Objec&f:ConstruireuneparEEonderclasses.
Algorithme:
1)Choisirlenombredeclasser2)Choisirrnupletscommecentresdesrclasses3)Affecterchaquenupletaucentreleplusproche.4)Recalculerlecentredelaclassed’affectaEon.5)Répéterlesétapes3)et4)jusqu’àstabilisaEon.
Ahlame Douzal. Analyse des données, 2016
Centres-mobiles
Ahlame Douzal. Analyse des données, 2016
C1 C2
C1 C2
C1 C2
G1 G2
Étape 1
Étape 2
Étape 3
Exemple
nuplets A1Esthétiquedu Package
A2Mémorisation
Accrochepublicitaire
P1 1 1P2 1 2P3 4 3P4 4 5P5 2 2
Ahlame Douzal. Analyse des données, 2016
Nombre de classe = 2 P1, P5 comme centres des deux
classes
Centres-mobiles
Étape1:
Classe1:P1,P2Classe2:P4,P5,P3
Nouveauxnupletscentres:Classe1:P12(1,1.5)
Classe2:P12(3.33,3.33)
Étape2:Classe1:P1,P2,P5Classe2:P4,P3
Ahlame Douzal. Analyse des données, 2016
ClassificaEonHiérarchique
Objec&f:ConstruireunesuccessiondeparEEonsàpclasses,p-1classes,…,1classe.
Algorithme:1)Soitpnupletsàclasser2)Onconstruitlamatricedesdistancesentrelespnuplets(pclasses).
3)Onagrègeenunnouvelnupletlesdeuxnupletslesplusproches(p-1classes)
4)onréitèrelesétapes2et3jusqu’àcequ’iln’yaitplusqu’uneclasse.
Ahlame Douzal. Analyse des données, 2016
ClassificaEonhiérarchique
Ahlame Douzal. Analyse des données, 2016
Étape 1 Étape 2
Étape 3 Étape 4
1 3
4
2
5
1 3
4
2 2
2
1 1 3 3
4 5 5
5 4
ClassificaEonhiérarchique
• Distance
Ahlame Douzal. Analyse des données, 2016
N-uplets 1 3 4 2 5
6 7
8
9
Exemple
nuplets A1Esthétiquedu Package
A2Mémorisation
Accrochepublicitaire
P1 1 1P2 1 2P3 4 3P4 4 5P5 2 2
Ahlame Douzal. Analyse des données, 2016
Distances P1 P2 P3 P4 P5P1 0 1 3.6 5 1.41P2 0 3.16 4.24 1P3 0 2 2.23P4 0 3.6P5 0
P1 et P2 agrégés en P12 Étape 1
nuplets A1 Esthétique du Package
A2 Mémorisation
Accroche publicitaire P12 1 1.5 P3 4 3 P4 4 5 P5 2 2
Ahlame Douzal. Analyse des données, 2016
Étape 2
Distances P12 P3 P4 P5P12 3.35 4.6 1.11P3 0 2 2.23P4 0 3.6P5 0
P12 et P5 agrégés en P125
nuplets A1Esthétiquedu Package
A2Mémorisation
Accrochepublicitaire
P125 1.5 1.75P3 4 3P4 4 5
Ahlame Douzal. Analyse des données, 2016
Étape 3
Distances P125 P3 P4
P125 2.74 4.1
P3 0 2
P4 0
P3 et P4 agrégés en P34
Arbresdedécision
R(A1,…,Ap,B)
A1,…An:a^ributsexplicaEfsB:a^ributàexpliquer
Ai⇒pBsijeconnaisAialorsjeconnaisBavecune
probabilitép(p∈[0,1])
Ahlame Douzal. Analyse des données, 2016
Arbresdedécision
• ObjecEf Extrairelesa^ributslesplusdiscriminants (Ai⇒pBavecpfort)
Extrairedesrèglesdedécision(IdenEficaEon)AiΛAjΛAk⇒pB
Ahlame Douzal. Analyse des données, 2016
Vg Vd
Rg Rd
Aj R
ParEEonnementbinaire
Ahlame Douzal. Analyse des données, 2016
Type Attribut Vg Vd
Qualitatif binaire
(a1,a2)
Aj =a1 Aj =a2
Aj = a1 Aj ≥ a2
Qualitatif ordonné
(a1, a2, a3)
a1 ≤ a2 ≤ a3
Aj ≤ a2 Aj = a3
Aj = a1 Aj = a2 ou Aj = a3
Aj = a1 ou Aj = a2 Aj = a3Qualitatif non ordonné
(a1, a2, a3)Aj = a1 ou Aj = a3 Aj = a2
Quantitatif
(a)
Aj ≤ a Aj > a
Mesured’impureté
SoitAjetBdeuxa^ributsbinaires
Ahlame Douzal. Analyse des données, 2016
1 0
R1(n1) R2(n2) ni : nb de nuplets dans Ri
Aj
(c10, c11) (c20, c21) c10 : proportion des nuplets n1 prenant la modalité 0 de B
I(Aj) = ∑i ci0 * ci1
c11 : proportion des nuplets n1 prenant la modalité 1 de B
Algorithmedeconstruc)ondel’arbrededécision
Algorithmea)Pourchaquea^ributexplicaEf,onparEEonnel’ensembledesnupletspuisoncalculeledegréd’impuretéassociéàce^eparEEon.
b)Onchoisitcommepremiera^ributdeparEEonnementceluidonnantledegréd’impuretélemoinsélevé.
c)Pourchaquea^ributexplicaEfrestant,onréitèrea)etb)poursegmenterchacunedesparEesobtenues.Ons’arrêtequandlaparEeconEentunnupletouqu’onaa^eintledegréd’impureté0.
Ahlame Douzal. Analyse des données, 2016
ExempledeconstrucEond’unarbrebinaire
nuplets A1A eu unstagiaire
A2A embauché un
étudiant
A3Connaîtl’école
A4Rendez-
vous1 1 0 0 02 1 0 1 03 1 1 0 14 0 1 1 15 1 0 0 16 0 1 0 17 0 1 1 18 0 0 1 0
Ahlame Douzal. Analyse des données, 2016
explicatifs à expliquer
A1(I=0.4375)
Ahlame Douzal. Analyse des données, 2016
{1,2,3,4,5,6,7,8}
1 0 {1,2,3,5} {4,6,7,8}
{1,2,3,4,5,6,7,8}
1 0 {3,4,6,7} {1,2,5,8}
{1,2,3,4,5,6,7,8}
1 0
{2,4,7,8} {1,3,5,6}
A2
A3
(0.5, 0.5) (1/4, 3/4)
(0, 1) (0.5,0.5)
(0.5,0.5) (1/4, 3/4)
(I = 0.25)
(I = 0.4375)
A2 B 0.25
A2
Ahlame Douzal. Analyse des données, 2016
1 0
{3,4,6,7}
(0, 1) (0.5,0.5)
{1,2,5,8}
{1,2,5,8} {1,2,5,8} A1 A3
1 1 0 0
(2/3, 1/3) {1,2,5} {8}
(1, 0)
{1,5} {2,8} (0.5, 0.5) (1, 0)
(I = 0.25) (I = 0.22)
A1 B 0.22
A2
Ahlame Douzal. Analyse des données, 2016
{1,2,3,4,5,6,7,8}
1 0 {3,4,6,7}
(0, 1) {1,2,5,8}
1 0
{1,2,5} {8} (1, 0)
A1
A3 1 0
{2} {1,5} (1, 0) (0.5, 0.5)
(I = 0.25)
ExtracEonderègles
(A2=1)⇒1B=1
Sil’entrepriseaembauchéunétudiantalorsobtenEond’unrendez-vous
(A2=0etA1=0)⇒1B=0
(A2=0etA1=1etA3=1)⇒1B=0
(A2=0etA1=1etA3=0)⇒0.5B=1
Ahlame Douzal. Analyse des données, 2016
Extrac)onderèglesd’associa)on Farine Sucre Lait Œuf Chocolat Thé
1 1 1 1 0 0 0 2 0 1 0 1 1 0 3 1 1 0 1 1 0 4 0 0 0 1 1 1
Ahlame Douzal. Analyse des données, 2016
Objectif : • Extraire les associations du type Ai=1⇒Aj=1 (noté Ai⇒Aj)
• Évaluer la fiabilité des associations extraites
farine ⇒ sucre, chocolat ⇒ thé
• Ledegrédeconfianced’uneassocia)onConf(Ai⇒Aj)=
Conf:ledegrédeconfianceOcc(Ai):lenombred’occurrencesdanslatableoùapparaît
lamodalitéAi
• Ledegrédesupportd’uneassocia)onSup(Ai⇒Aj)=
Ahlame Douzal. Analyse des données, 2016
Occ(Ai⇒Aj) Occ(Ai)
Occ(Ai⇒Aj) N
N : le nombre de nuplets
Algorithmea)Oncalculelepoidsdechaquea^ribut.Onéliminelesa^ributsdontlepoidsestinférieuràuncertainseuildeconfiance.
b)Oncalculelepoidsdechaquecoupled’a^ribut(Ai=1,Aj=1).Onéliminelescouplesdontlepoidsestinférieuràuncertainseuildeconfiance.
c)SurlabasedescouplesretenusonconstruittouteslesassociaEonspossibles.
d)PourchaqueassociaEononévaluesesdegrésdeconfianceetdesupport.
Ahlame Douzal. Analyse des données,
2016
Processusdudatamining
• Poserleproblème• Larecherchedesdonnées• LasélecEondesdonnéesperEnentes• Le«ne^oyage»desdonnées• LesacEonssurlesvariables• Larecherched’unmodèle• L’évaluaEondurésultat• L’intégraEondelaconnaissance
Ahlame Douzal. Analyse des données, 2016
Poserleproblème
• LaformulaEonduproblèmeproblèmedediagnosEcdepanne analysedesdéfautsdeproducEon…
• Latypologieduproblème Exploratoire?InférenEelle?
• Lesrésultatsa^endusetuElisaEons
Ahlame Douzal. Analyse des données, 2016
Larecherchedesdonnées
• InvesEgaEonetdéterminaEondelastructuregénéraledesdonnées
• LaréducEondesdimensions(corrélaEons)
Ahlame Douzal. Analyse des données, 2016
Nombre d’attributs
Nom
bre
de n
uple
ts
-
+
- +
Zone optimale Long calculs
S’assurer de la stabilité
Peu de nuplets
LasélecEondesdonnées
• ÉchanEllonouexhausEvitéchoixdépenddel’infrastructuredétecEondetendancesgénérales(échanEllonreprésentaEf)ExhausEvité:qualitédesrésultats,coûteux
• modedecréaEondel’échanEllontaille:foncEondesméthodesàappliquerEragealéatoireàparErdesdifférentessous-populaEon
Ahlame Douzal. Analyse des données, 2016
Lene^oyagedesdonnées
• GesEondesvaleursaberrantes isolaEondes«pics»dedistribuEonstaEsEques
• GesEondesvaleursmanquantesexclurelesnupletsincompletsremplacerlesdonnéesmanquantes…
Ahlame Douzal. Analyse des données, 2016
LesacEonssurlesa^ributs
• LatransformaEonmono-a^ribut– lanormalisaEondesdistribuEons– transformaEondesdatesendurées– géocodage(intégrerlescontraintesdeproximitésdansleraisonnement)
• LatransformaEonmulE-a^ribut– lesraEos,lesfréquences,– lestendances– lescombinaisonlinéaires,...
Ahlame Douzal. Analyse des données, 2016
Larecherchedumodèle
• Choixdelabased’apprenEssageetdelabasedetest(70%/30%)
• Choixdesalgorithmesdecalcul– modèleàbased’équaEons
(Réseauxdeneurones,techniquesderégression)
– analyselogique(Arbresdedécisions,règlesd’associaEon,ensemblesflous)
– techniquesdeprojecEon(miseenévidencedesfacteursprincipauxd’explicaEon)(analysefactorielles,classificaEon,…)
Ahlame Douzal. Analyse des données, 2016
L’évaluaEondurésultat
• ÉvaluaEonqualitaEve– resEtuEondelaconnaissancesousformegraphique
• ÉvaluaEonquanEtaEve– Lesintervallesdeconfiance– lestestsdevalidaEon(étudierlastabilitédesrésultatsdanslabasetest)
Ahlame Douzal. Analyse des données, 2016
L’intégraEondelaconnaissance
• Dresserunbilan– unefaiblequalitédesdonnéesconduitàrevoirlesprocessusd’alimentaEondel’entrepôt
– ladétecEondufortpouvoirprédicEfd’unedonnéepousseàmodifierleschémadelabaseetlerythmed’alimentaEon
– Lesagrégatsconstruitsserévèlentêtredesdimensionsintéressantesàintégrerdansletableaudebordexistant
– explicaEondesconnaissancescontradictoiresavecl’existant.
Ahlame Douzal. Analyse des données, 2016