42
Introduction au datamining Patrick Naïm janvier 2006

Introduction au datamining Patrick Naïm janvier 2006

Embed Size (px)

Citation preview

Page 1: Introduction au datamining Patrick Naïm janvier 2006

Introduction au datamining

Patrick Naïmjanvier 2006

Page 2: Introduction au datamining Patrick Naïm janvier 2006

Définition

Page 3: Introduction au datamining Patrick Naïm janvier 2006

Définition

Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des

données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie

Quelle est la définition du datamining ? Procédons de façon inductive …

Page 4: Introduction au datamining Patrick Naïm janvier 2006

Définitions du datamining

« Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à l’aide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes. » (Gartner Group)

« Ensemble de techniques permettant d’extraire des modèles d’une base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur d’un procédé. » (Georges Gardarin, PRISM)

« Le datamining est l’extraction d’informations de grandes bases de données. Il s’agit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici l’humain joue un rôle essentiel car lui seul peut décider de l’intérêt d’une règle pour l’entreprise » (IBM)

« Le datamining est un processus d’analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils travaillent » (Michel Jambu , CNET, France Telecom)

« [Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables » [1](Fayyad, Piatetsky-Shapiro & Smyth ,KDD)

[1] “[Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data”

Page 5: Introduction au datamining Patrick Naïm janvier 2006

Exemples d’applications

Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de

mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)

Page 6: Introduction au datamining Patrick Naïm janvier 2006

Segmentation

Regrouper les individus en groupes homogènes Classification des objets célestes Identifier des comportements d’achat « types »

0

2

4

6

8

10

12

0 5 10 15

TEMPS

AR

TIC

LES

0

2

4

6

8

10

12

0 5 10 15TEMPS

AR

TIC

LES

Page 7: Introduction au datamining Patrick Naïm janvier 2006

Association

Identifier les proximités entre caractéristiques observées Achats croisés de couches et de bière Détection de fraudes sur les marchés (COB)

Page 8: Introduction au datamining Patrick Naïm janvier 2006

Classification

Expliquer ou prévoir une caractéristique (qualitative) à partir d’autres Détection de fraude sur carte bancaire Localisation de gènes Réduction de coûts des campagnes de mailing

Sous-entendus Relation explicite Y=F(X) Prévoir X(t), et Y(t+1) Incertitude Y=F(X)+

Page 9: Introduction au datamining Patrick Naïm janvier 2006

Estimation

Expliquer ou prévoir une caractéristique (quantitative) à partir d’autres Prévision sur les marchés boursiers Prévision de consommation électrique Estimation de la consommation d’un client

Page 10: Introduction au datamining Patrick Naïm janvier 2006

Représentation des données

Transformation des données pour en avoir une vision plus synthétique Opérations mathématiques explicites

Moyenne des consommations par mois Opérations mathématiques implicites

Analyse en composantes principales Visualisation

2D, 3D, réalité virtuelle

Page 11: Introduction au datamining Patrick Naïm janvier 2006

Caractérisation des applications

Organiser et synthétiser Représentation Segmentation Association

Modéliser et prévoir Classification Estimation

Modélisation descriptive Modélisation prédictive

Page 12: Introduction au datamining Patrick Naïm janvier 2006

Les problèmes traités par le datamining

Datamining

Modélisation descriptive Modélisation prédictive

Représentation Segmentation Association Classification Estimation

Page 13: Introduction au datamining Patrick Naïm janvier 2006

La démarche du datamining

La connaissance est dans les données … C’est la démarche de la science expérimentale :

modélisation empirique Cette démarche suppose la stabilité des phénomènes :

existence de lois Les problèmes portent le plus souvent sur des

données issues d’usages humains : les comportements sont instables

Le besoin existe surtout dans les phases d’instabilité !!

Page 14: Introduction au datamining Patrick Naïm janvier 2006

Pourquoi utilise-t-on le datamining ?

En général, pour fonder une décision économique : Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)

La qualité de la décision est évaluée a posteriori

Page 15: Introduction au datamining Patrick Naïm janvier 2006

Qualité d’une décision

Faits

Risque Décision

Rentabilité ?

A priori : rationnelle

A posteriori : bonne ?

Page 16: Introduction au datamining Patrick Naïm janvier 2006

Notre définition du datamining

Dans le cadre d’une mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, c’est-à-dire celles dont la rentabilité sera probablement la meilleure.

Page 17: Introduction au datamining Patrick Naïm janvier 2006

Motivations

Page 18: Introduction au datamining Patrick Naïm janvier 2006

Secteurs et applications

Télécommunications Banque, Finance,

Assurances Grande distribution, VPC,

eCommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique

Fidélisation clientèle (churn)

Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc.

Page 19: Introduction au datamining Patrick Naïm janvier 2006

Pourquoi le datamining aujourd’hui ?

Environnement technique Plus de données disponibles (puissance des

ordinateurs) Développement de l’internet

Environnement économique Concurrence croissante (dérèglementation des

télécommunications) Personnalisation : développement du marketing

1-to-1

Page 20: Introduction au datamining Patrick Naïm janvier 2006

Cadre théorique

Page 21: Introduction au datamining Patrick Naïm janvier 2006

La démarche scientifique

Deux cadres mathématiques principaux Géométrie Probabilités

Ces deux cadres théoriques sont communs avec l’analyse de données …

Page 22: Introduction au datamining Patrick Naïm janvier 2006

Cadre géométrique

Principe Les données sont représentées dans un espace muni d’une métrique

Modélisation descriptive Les données sont regroupées en fonction de leur proximité Les conclusions sont tirées par l’observateur, sous sa responsabilité

Modélisation prédictive Les nouvelles situations sont identifiées aux situations passées les plus

proches

Outils mathématiques Espaces vectoriels Distance euclidienne Inertie Distances généralisées (dans d’autres espaces)

Page 23: Introduction au datamining Patrick Naïm janvier 2006

Cadre probabiliste

Principe Les données sont supposées issues d’une distribution jointe non observée La distribution est estimée à partir des données

Modélisation descriptive Les données sont résumées par la distribution estimée (dépendances et

indépendances) Modélisation prédictive

Les conséquences de nouvelles situations sont estimées en probabilité (P(Y|…))

Outils mathématiques Probabilités Théorie de l’estimation

Page 24: Introduction au datamining Patrick Naïm janvier 2006

Cadre théorique du datamining

Page 25: Introduction au datamining Patrick Naïm janvier 2006

Les techniques utilisées

Page 26: Introduction au datamining Patrick Naïm janvier 2006

Techniques utilisées en datamining

Plusieurs sources Analyse de données Probabilités / statistiques Théorie de l’information Intelligence artificielle Base de données Visualisation

Page 27: Introduction au datamining Patrick Naïm janvier 2006

Techniques utilisées

AD Analyse en composantes principales Analyse discriminante Classification ascendante hiérarchique

Intelligence artificielle Réseaux neuronaux, réseaux bayésiens

Probabilités, théorie de l’information Arbres de décision, réseaux bayésiens

Autres Règles d’association Filtrage collaboratif

Page 28: Introduction au datamining Patrick Naïm janvier 2006

Techniques d’analyse des données

Analyse en Composantes Principales Utilisée pour le prétraitement des données Peut être couplée avec des techniques de

segmentation et/ou classification Analyse discriminante

Utilisée pour le prétraitement des données Utilisée comme technique de classification

Page 29: Introduction au datamining Patrick Naïm janvier 2006

Réseaux neuronaux

Modélisation du fonctionnement du système nerveux (années 1950) Modèle du neurone Modèle du réseau Modèle de l’apprentissage

En pratique Technique de régression non linéaire Apprentissage = Minimisation d’erreur

Page 30: Introduction au datamining Patrick Naïm janvier 2006

Réseaux bayésiens

Gestion de l’incertitude dans les systèmes experts (diagnostic médical)

Couplage Théorie des graphes Théorie des probabilités (Bayes)

Utilisation Classification = Inférence P(Y|X) Modélisation descriptive = Apprentissage P(M|D)

Page 31: Introduction au datamining Patrick Naïm janvier 2006

Arbres de décision

La technique la plus classique du datamining Basée sur la théorie de l’information Minimisation itérative de l’entropie d’un ensemble

de données Avantages

Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1

Très utile en marketing

Page 32: Introduction au datamining Patrick Naïm janvier 2006

Filtrage collaboratif

Hit parade

FI LTRAGE COLLABORATIF Individus qui ont vu les mêmes

programmes

Filtre

Hit parade

AUTRE FI LTRAGE Individus qui ont le même profil

(âge)

Page 33: Introduction au datamining Patrick Naïm janvier 2006

Pratique du datamining

Page 34: Introduction au datamining Patrick Naïm janvier 2006

Etapes du processus de datamining

Collecte des données Nettoyage des données Représentation des données Modélisation Evaluation Suivi et mesure de la dérive

Page 35: Introduction au datamining Patrick Naïm janvier 2006

1 - Collecte des données

Avec la suivante, l’étape la plus longue du processus : Sources et formats hétérogènes Jointure Volume Répétabilité

La valeur ajoutée est dans l’exhaustivité exemple : réclamations clients

Page 36: Introduction au datamining Patrick Naïm janvier 2006

2 – Nettoyage des données

Supprimer les valeurs aberrantes Connaissance a priori (Age = 220) Ecrêtage statistique

Traiter les valeurs manquantes : Moyenne, moyenne conditionnelle

Page 37: Introduction au datamining Patrick Naïm janvier 2006

3- Représentation des données

Objectif : Obtenir un tableau : Une ligne par observation, Une colonne par variable

Difficultés Variables

Agrégation (exemple : nombreux produits) Données temporelles Sélection

Individus Représentativité

Page 38: Introduction au datamining Patrick Naïm janvier 2006

4- Modélisation

Segmentation des bases Apprentissage, Test, Validation

Choix de la technique Fabrication du modèle En général 20% seulement du temps total

Page 39: Introduction au datamining Patrick Naïm janvier 2006

5 - Evaluation du modèle

Performances Précision (base d’apprentissage) Stabilité (base de validation) Critère économique (sur les deux bases)

Comparaison avec un modèle de référence

Page 40: Introduction au datamining Patrick Naïm janvier 2006

6 - Suivi et mesure de la dérive

Sources d’erreur Les modèles réalisés ne sont pas parfaits

(univers incomplets) Les relations changent dans le temps

Comment décider d’où vient l’erreur ? Définition de critères objectifs pour réviser le

modèle

Page 41: Introduction au datamining Patrick Naïm janvier 2006

Plan des séances suivantes

S2 : Rappels mathématiques Cadre géométrique Cadre probabiliste Mesures de performance

S3 : Segmentation K-means, CAH, Cartes topologiques

S4 : Association Market basket analysis, filtrage collaboratif, réseaux bayésiens

S5 : Classification Arbres de décision, réseaux bayésiens

S6 : Estimation Réseaux neuronaux

Page 42: Introduction au datamining Patrick Naïm janvier 2006

Contact

Cours (ppt et pdf)

www.elseware.fr/univevry Email

[email protected]