25
Collabora’on IRISA/INRA sur le transfert de nitrates et l’améliora’on de la qualité des eaux des bassins versants: Tassadit BOUADI 22 Juin 2010, Saint Jacut 1

Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Collabora'on IRISA/INRA sur le transfert de nitrates  et l’améliora'on de la qualité des eaux des bassins 

 versants: 

Tassadit BOUADI 22 Juin 2010, Saint Jacut 

Page 2: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Plan •  Introduc<on: Contexte de la thèse •  Entrepôts de données 

•  Défini<on et applica<ons •  Cube de données •  Modélisa<ons conceptuelles des entrepôts de données •  Opéra<ons OLAP •  Explora<on des cubes de données 

•  Couplage fouille de données et analyse en ligne •  Conclusion •  Pistes de proposi<ons 

Page 3: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Contexte de la thèse 

Simulateur

Modèle décisionnel

Accès aux résultats de simulation

Modèle biophysique

Langage de scénario

Accès aux connaissances

Entrepôt de données :

Connaissances

Résultats/données

Appren<ssage  et fouille 

Requête / interaction

Page 4: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Entrepôts de données 

•  Entrepôts de données – Data Warehouses (DW) •  Différentes défini<ons  •  « Un data warehouse est une collec<on de données 

concernant un sujet par<culier, varie dans le temps, non vola<le et où les données sont intégrées. »— W. H. Inmon 

•  Objec<fs: –  Offrir un accès à une version agrégée et historisée de l'ensemble des données de l'entreprise 

–  Offrir des ou<ls d'aide à la décision (OLAP) 

Page 5: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Applica<ons d’un DW 

•  Traitement d’informa<ons: –  Analyses sta<s<ques de base –  Rapports à l’aide de tableaux croisés, graphe, etc. 

•  Traitement analy<que: –  Analyse mul<dimensionnelle des données d’un DW –  Supporte les opéra<ons OLAP 

•  Fouille de données: –  Découverte de connaissances  

Page 6: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Cube de données 

•  Un DW est basé sur un modèle mul<dimensionnel où les données sont vues comme des data cubes 

•  Un data cube, ex: ventes, permet de voir les données selon plusieurs dimensions –   Les tables de dimension ex: item (nom_item, marque, type),   ou temps (jour, semaine, mois, trimestre, année)  

–   La table de faits con<ent des mesures (ex: unités_vendues) et les clés externes faisant référence à chaque table de dimension 

•  Dans la liférature du data warehousing, un cube de dimension n est dit  cuboïde. Le treillis des  cuboïdes d’un data warehouse forme un data cube. 

Page 7: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Data Cube Total annuel des ventes

de TV aux U.S.A. Date

Pays

sum

sum TV

DVD PC

1Trim 2Trim 3Trim 4Trim U.S.A

Canada

Mexique

sum

100  200  300  100  700 

Page 8: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Cube: Un treillis de cuboïdes 

tous

temps item lieu fournisseur

temps,item temps,lieu

Temps, fournisseur

item,lieu

item,fournisseur

Lieu, fournisseur

temps,item,lieu

Temps, item, fournisseur

temps,lieu, fournisseur

item,lieu, fournisseur

Temps, item,lieu,fournisseur

0-D cuboïde

1-D cuboïdes

2-D cuboïdes

3-D cuboïdes

4-D cuboïde

Page 9: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Concept de hiérarchie 

•  Montant des ventes comme une fonc<on des paramètres produit, mois, région 

Prod

uit

Mois

Dimensions: Produit, Lieu, Temps Chemins de consolidation hiérarchiques

Industrie Région Année

Catégorie Pays Trimestre

Produit Ville Mois Semaine

Magasin Jour

Page 10: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

10 

Modélisa<on Conceptuelle des Data Warehouses 

•  Dimensions & mesures 

–  Schéma en étoile: Au milieu, une table de faits connectée à 

un ensemble de tables de dimensions 

–  Schéma flocon de neige (snowflake):  Un raffinement du 

précédent où certaines tables de dimensions sont 

normalisées (donc décomposées) 

–  Constella'on de faits:  Plusieurs tables de faits partagent quelques tables de dimension (constella<on d’étoiles) 

Page 11: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

11 

Exemple de schéma en étoile 

Id_temps jour Jour_semaine mois trimestre année

temps

Id_lieu rue ville département pays

lieu

Table de faits “ventes”

id_time

id_item

id_branche

id_lieu

unités_vendues

montant_ventes

moyenne_ventes Mesures

Id_item Nom_item marque type Type_fournisseur

item

Id_branche Nom_branche Type_branche

branche

Page 12: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

12 

Exemple de schéma Snowflake  

Id_temps jour Jour_semaine mois trimestre année

temps

Id_lieu rue Id_ville

lieu

Table de faits “Vente”

Id_temps

Id_item

Id-branch

Id_lieu

unités_vendues

montant_vente

moyenne_vente

Mesures

Id_item Nom_item Marque type Id_fournisseur

item

Id_branche Nom_branche Type_branche

branche

Id_fournisseur Type_fournisseur

fournisseur

Id_ville ville département pays

ville

Page 13: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

13 

Exemple de Constella<on de faits 

Id_lieu rue ville département pays

lieu

Meesures

Table de faits Transport 

Id_temps

Id_item

id_arrivée

coût

Unités_transportées

Id_Transporteur Nom_transporteur Id_lieu Type_transporteur

transporteur

Id_temps jour Jour_semaine mois trimestre année

temps

Id_branche Nom_branche Type_branche

branche

Id_temps

Id_item

Id-branche

Id_lieu

unités_vendues

montant_vente

moyenne_vente

Id_item Nom_item marque type Id_fourniseur

item Table de faits Vente 

Id_transporteur

id_départ

Page 14: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

14 

Opéra<ons typiques de l’OLAP 

•  Roll up : consolider (résumer) les données 

–  Passer à un niveau supérieur dans la hiérarchie d’une dimension 

•  Drill down : l’inverse du Roll‐up –  descendre dans la hiérarchie d’une dimension 

•  Slice et Dice:  –  Projec6on et sélec6on du modèle rela6onnel  

•  Pivot (Rotate):  –  Réoriente le cube pour visualisa6on 

Page 15: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

15 

Page 16: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

16 

Page 17: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Explora<on des cubes de données 

•  Explora<on guidée par les hypothèses 

–  Explora<on par l’usager à l'aide des opéra<ons OLAP (drill‐down, roll‐up, slice, dice, pivot, ..) 

•  Avantages –  Permet de visualiser les données selon diverses perspec<ves 

•  Inconvénients –  Espace de recherche trop grand 

•  Pour un cube de n dimensions et Li niveaux de hiérarchie pour la dimension Di  

                                       T=  ∏ i=1..n (Li+1) 

•  Exemple : un cube de 8 dimensions avec des hiérarchies de dimension de 7 niveaux offre 1,6 millions (8 ^8) cuboïdes possibles 

17 

Page 18: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

18 

Explora<on des cubes de données 

•  Visualisa<on •  Manipula<on interac<ve 

Page 19: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Entrepôt de données / OLAP

ECD / Fouille de données

OLAP Exploration : visualisation et navigation dans les cubes de données

Grande capacité de stockage

Structuration multidimensionnelle des données Cubes de données

Extraction des connaissances à partir de tableaux «Individus-Variables»

Fouille de données Approche inductive pour la description et la prédiction

La structure multidimensionnelle peut apporter un contexte d’analyse ciblé pour la fouille de données

Définir une nouvelle génération d’opérateurs OLAP basés sur des techniques de fouille

Associer l’aspect exploratoire de l’OLAP à la démarche descriptive et prédictive de la fouille

OLAP + Fouille de données

OLAP : besoin d’une analyse en ligne plus élaborée dépassant la simple exploration

et le résumé des cubes de données

Entrepôt de données / OLAP

ECD / Fouille de données

Couplage Fouille de données et analyse en ligne 

19 

Page 20: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

1 . Extension des opérateurs OLAP

2 . Adaptation des algorithmes de fouille de données

Couplage Fouille de données et analyse en ligne 

20 

Page 21: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

• Etendre le langage de requêtes des opérateurs OLAP pour simuler des techniques de fouille de données Han et al. (OLAM : DBMiner) Sathe et al. (Opérateur RELAX ) Sarawagi (Opérateur DIFF)

1 . Extension des opérateurs OLAP

21 

Page 22: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

• Application de la fouille au cœur des données multidimensionnelles Palpanas (Visions théoriques : processus d’analyse élaborée) Sarawagi et al. (Discovery-driven : détection des valeurs remarquables) Giacometti et al. (Recommandations de requêtes pour OLAP )

2 . Adaptation des algorithmes de fouille de données

22 

Page 23: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Conclusion 

•  Démarche pour une explora<on efficace et effec<ve des cubes de données dans les entrepôts 

•  Présente des défis intéressants dans un contexte mul<dimensionnel 

•  Peut abou<r à des connaissances fort u<les décrivant des associa<ons, des groupements ou des excep<ons au niveau des données agrégées 

•  Trouve des applica<ons dans plusieurs domaines du monde réel 

23 

Page 24: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Pistes de proposi<ons 

•  Orienter l’u<lisateur dans l’u<lisa<on des opérateurs OLAP 

•  Personnalisa<on de la défini<on d’une excep<on par l’u<lisateur 

•  Etablir de nouveaux modèles d’appren<ssage en ligne sur les données mul<dimensionnelles 

•  Créa<on de nouveaux opérateurs permefant la prédic'on…  

24 

Page 25: Collaboraon IRISA/INRA sur le transfert de nitrates et l ... · Contexte de la thèse ... et le résumé des cubes de données Entrepôt de données / OLAP ECD / Fouille de données

Je vous remercie 

25