Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Collabora'on IRISA/INRA sur le transfert de nitrates et l’améliora'on de la qualité des eaux des bassins
versants:
Tassadit BOUADI 22 Juin 2010, Saint Jacut
1
Plan • Introduc<on: Contexte de la thèse • Entrepôts de données
• Défini<on et applica<ons • Cube de données • Modélisa<ons conceptuelles des entrepôts de données • Opéra<ons OLAP • Explora<on des cubes de données
• Couplage fouille de données et analyse en ligne • Conclusion • Pistes de proposi<ons
2
3
Contexte de la thèse
Simulateur
Modèle décisionnel
Accès aux résultats de simulation
Modèle biophysique
Langage de scénario
Accès aux connaissances
Entrepôt de données :
Connaissances
Résultats/données
Appren<ssage et fouille
Requête / interaction
Entrepôts de données
• Entrepôts de données – Data Warehouses (DW) • Différentes défini<ons • « Un data warehouse est une collec<on de données
concernant un sujet par<culier, varie dans le temps, non vola<le et où les données sont intégrées. »— W. H. Inmon
• Objec<fs: – Offrir un accès à une version agrégée et historisée de l'ensemble des données de l'entreprise
– Offrir des ou<ls d'aide à la décision (OLAP)
4
Applica<ons d’un DW
• Traitement d’informa<ons: – Analyses sta<s<ques de base – Rapports à l’aide de tableaux croisés, graphe, etc.
• Traitement analy<que: – Analyse mul<dimensionnelle des données d’un DW – Supporte les opéra<ons OLAP
• Fouille de données: – Découverte de connaissances
5
Cube de données
• Un DW est basé sur un modèle mul<dimensionnel où les données sont vues comme des data cubes
• Un data cube, ex: ventes, permet de voir les données selon plusieurs dimensions – Les tables de dimension ex: item (nom_item, marque, type), ou temps (jour, semaine, mois, trimestre, année)
– La table de faits con<ent des mesures (ex: unités_vendues) et les clés externes faisant référence à chaque table de dimension
• Dans la liférature du data warehousing, un cube de dimension n est dit cuboïde. Le treillis des cuboïdes d’un data warehouse forme un data cube.
6
7
Data Cube Total annuel des ventes
de TV aux U.S.A. Date
Pays
sum
sum TV
DVD PC
1Trim 2Trim 3Trim 4Trim U.S.A
Canada
Mexique
sum
100 200 300 100 700
8
Cube: Un treillis de cuboïdes
tous
temps item lieu fournisseur
temps,item temps,lieu
Temps, fournisseur
item,lieu
item,fournisseur
Lieu, fournisseur
temps,item,lieu
Temps, item, fournisseur
temps,lieu, fournisseur
item,lieu, fournisseur
Temps, item,lieu,fournisseur
0-D cuboïde
1-D cuboïdes
2-D cuboïdes
3-D cuboïdes
4-D cuboïde
9
Concept de hiérarchie
• Montant des ventes comme une fonc<on des paramètres produit, mois, région
Prod
uit
Mois
Dimensions: Produit, Lieu, Temps Chemins de consolidation hiérarchiques
Industrie Région Année
Catégorie Pays Trimestre
Produit Ville Mois Semaine
Magasin Jour
10
Modélisa<on Conceptuelle des Data Warehouses
• Dimensions & mesures
– Schéma en étoile: Au milieu, une table de faits connectée à
un ensemble de tables de dimensions
– Schéma flocon de neige (snowflake): Un raffinement du
précédent où certaines tables de dimensions sont
normalisées (donc décomposées)
– Constella'on de faits: Plusieurs tables de faits partagent quelques tables de dimension (constella<on d’étoiles)
11
Exemple de schéma en étoile
Id_temps jour Jour_semaine mois trimestre année
temps
Id_lieu rue ville département pays
lieu
Table de faits “ventes”
id_time
id_item
id_branche
id_lieu
unités_vendues
montant_ventes
moyenne_ventes Mesures
Id_item Nom_item marque type Type_fournisseur
item
Id_branche Nom_branche Type_branche
branche
12
Exemple de schéma Snowflake
Id_temps jour Jour_semaine mois trimestre année
temps
Id_lieu rue Id_ville
lieu
Table de faits “Vente”
Id_temps
Id_item
Id-branch
Id_lieu
unités_vendues
montant_vente
moyenne_vente
Mesures
Id_item Nom_item Marque type Id_fournisseur
item
Id_branche Nom_branche Type_branche
branche
Id_fournisseur Type_fournisseur
fournisseur
Id_ville ville département pays
ville
13
Exemple de Constella<on de faits
Id_lieu rue ville département pays
lieu
Meesures
Table de faits Transport
Id_temps
Id_item
id_arrivée
coût
Unités_transportées
Id_Transporteur Nom_transporteur Id_lieu Type_transporteur
transporteur
Id_temps jour Jour_semaine mois trimestre année
temps
Id_branche Nom_branche Type_branche
branche
Id_temps
Id_item
Id-branche
Id_lieu
unités_vendues
montant_vente
moyenne_vente
Id_item Nom_item marque type Id_fourniseur
item Table de faits Vente
Id_transporteur
id_départ
14
Opéra<ons typiques de l’OLAP
• Roll up : consolider (résumer) les données
– Passer à un niveau supérieur dans la hiérarchie d’une dimension
• Drill down : l’inverse du Roll‐up – descendre dans la hiérarchie d’une dimension
• Slice et Dice: – Projec6on et sélec6on du modèle rela6onnel
• Pivot (Rotate): – Réoriente le cube pour visualisa6on
15
16
Explora<on des cubes de données
• Explora<on guidée par les hypothèses
– Explora<on par l’usager à l'aide des opéra<ons OLAP (drill‐down, roll‐up, slice, dice, pivot, ..)
• Avantages – Permet de visualiser les données selon diverses perspec<ves
• Inconvénients – Espace de recherche trop grand
• Pour un cube de n dimensions et Li niveaux de hiérarchie pour la dimension Di
T= ∏ i=1..n (Li+1)
• Exemple : un cube de 8 dimensions avec des hiérarchies de dimension de 7 niveaux offre 1,6 millions (8 ^8) cuboïdes possibles
17
18
Explora<on des cubes de données
• Visualisa<on • Manipula<on interac<ve
Entrepôt de données / OLAP
ECD / Fouille de données
OLAP Exploration : visualisation et navigation dans les cubes de données
Grande capacité de stockage
Structuration multidimensionnelle des données Cubes de données
Extraction des connaissances à partir de tableaux «Individus-Variables»
Fouille de données Approche inductive pour la description et la prédiction
La structure multidimensionnelle peut apporter un contexte d’analyse ciblé pour la fouille de données
Définir une nouvelle génération d’opérateurs OLAP basés sur des techniques de fouille
Associer l’aspect exploratoire de l’OLAP à la démarche descriptive et prédictive de la fouille
OLAP + Fouille de données
OLAP : besoin d’une analyse en ligne plus élaborée dépassant la simple exploration
et le résumé des cubes de données
Entrepôt de données / OLAP
ECD / Fouille de données
Couplage Fouille de données et analyse en ligne
19
1 . Extension des opérateurs OLAP
2 . Adaptation des algorithmes de fouille de données
Couplage Fouille de données et analyse en ligne
20
• Etendre le langage de requêtes des opérateurs OLAP pour simuler des techniques de fouille de données Han et al. (OLAM : DBMiner) Sathe et al. (Opérateur RELAX ) Sarawagi (Opérateur DIFF)
1 . Extension des opérateurs OLAP
21
• Application de la fouille au cœur des données multidimensionnelles Palpanas (Visions théoriques : processus d’analyse élaborée) Sarawagi et al. (Discovery-driven : détection des valeurs remarquables) Giacometti et al. (Recommandations de requêtes pour OLAP )
2 . Adaptation des algorithmes de fouille de données
22
Conclusion
• Démarche pour une explora<on efficace et effec<ve des cubes de données dans les entrepôts
• Présente des défis intéressants dans un contexte mul<dimensionnel
• Peut abou<r à des connaissances fort u<les décrivant des associa<ons, des groupements ou des excep<ons au niveau des données agrégées
• Trouve des applica<ons dans plusieurs domaines du monde réel
23
Pistes de proposi<ons
• Orienter l’u<lisateur dans l’u<lisa<on des opérateurs OLAP
• Personnalisa<on de la défini<on d’une excep<on par l’u<lisateur
• Etablir de nouveaux modèles d’appren<ssage en ligne sur les données mul<dimensionnelles
• Créa<on de nouveaux opérateurs permefant la prédic'on…
24
Je vous remercie
25