74
Business Intelligence Chp3 – Modélisation des Données Décisionnelles Dr. Lilia SFAXI GL5 - 2013-2014 Institut National des Sciences Appliquées et de Technologie 1

Chp3 - Modélisation Multidimensionnelle

Embed Size (px)

DESCRIPTION

Visitez http://liliasfaxi.wix.com/liliasfaxi

Citation preview

Page 1: Chp3 - Modélisation Multidimensionnelle

1

Business IntelligenceChp3 – Modélisation des Données Décisionnelles

Dr. Lilia SFAXI

GL5 - 2013-2014

Institut National des Sciences Appliquées et de Technologie

Page 2: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

2Modélisation des Données Décisionnelles

Utilisation de concepts pour :

o Optimiser la restitution de données selon les axes métiers de l’entreprise

o Gérer et visualiser les données de manière rapide et intuitive

o Retrouver et analyser rapidement les données à partir de diverses sources

o Intégrer plusieurs bases de données

o Extraire, grouper, organiser et corréler et transformer les données

Deux types de modélisations: Entité-Relation et Multidimensionnelle

Page 3: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

3Modèles de Données

Page 4: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

4

Plan du Chapitre

Modélisation Entité-Relation

Modélisation Multidimensionnelle

Conception des Data Warehouses : Etapes et Exemple

Modèles d’un Data Warehouse

Aspects Fondamentaux de la Modélisation Multidimensionnelle

Page 5: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

5

Modélisation Entité-Relation

CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES

Page 6: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

6

Modélisation Entité-Relation

Discipline permettant d’éclairer les relations microscopiques entre les données

o Supprimer la redondance des données

o Simplifier le traitement des transactions

o Aider le concepteur dans la répartition des propriétés entre les entités

Principes

o Notion d’identifiant

o Dépendance fonctionnelle

o Décomposition

o Formes normales

Page 7: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

7

Normalisation dans les BDR

Forme normale :

o Type de relation particulier entre les entités

o Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des données

o Permet de vérifier la robustesse de la conception des modèles de données pour éviter les problèmes de redondance et de mise à jour du contexte

Dans le modèle OLTP, il existe 8 formes normales

o Elles s’emboitent les unes dans les autres

o Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs

o On va présenter les 3 premières (les plus utilisées)

Page 8: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

8

Première Forme Normale (1FN)

Relation dont tous les attributs :

o Contiennent une valeur scalaire (les valeurs ne peuvent pas être divisées en plusieurs sous-valeurs dépendant également individuellement de la clé primaire)

o Contiennent des valeurs non répétitives (le cas contraire consiste à mettre une liste dans un seul attribut).

o Sont constants dans le temps (utiliser par exemple la date de naissance plutôt que l'âge).

Produit Fournisseur

Téléviseur Vidéo SA, Hitek LTD

Produit Fournisseur

Téléviseur Vidéo SA

Téléviseur Hitek LTD

Problème

Solution

Page 9: Chp3 - Modélisation Multidimensionnelle

08/04/2023

9

Deuxième Forme Normale (2FN)

Les attributs d'une relation sont divisés en deux groupes :

o Le premier groupe est composé de la clé (une ou plusieurs).

o Le deuxième groupe est composé des autres attributs (éventuellement vides).

Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble (strict) d'attribut(s) du premier groupe.

o « Un attribut non clé ne dépend pas que d'une partie de la clé »

Pdt Fournisseur Adresse Fournisseur

Télé Vidéo SA 13 rue Midi

Ecran Vidéo SA 13 rue Midi

Télé Hitek LTD 25 rue Bond

Produit Fournisseur

Télé Vidéo SA

Ecran Vidéo SA

Télé Hitek LTD

Fournisseur Adresse

Vidéo SA 13 rue Midi

Hitek LTD 25 rue Bond

Problème

Solution

Page 10: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

10

Troisième Forme Normale (3FN)

Les attributs d'une relation sont divisés en deux groupes :

o Le premier groupe est composé de la clé (une ou plusieurs).

o Le deuxième groupe est composé des autres attributs (éventuellement vides).

Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble (strict) d'attribut(s) du deuxième groupe.

o « Un attribut non clé ne dépend pas d'un ou plusieurs attributs ne participant pas à la clé ».

Fournisseur

Adresse Ville Pays

Vidéo SA 13 rue Midi

Paris France

Hitek LTD 25 rue Bond

London England

Fournisseur

Adresse Ville

Vidéo SA 13 rue Midi

Paris

Hitek LTD 25 rue Bond

London

Ville Pays

Paris France

London England

Problème

Solution

Page 11: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

11

Modélisation Entité-Relation

Le succès du traitement des transactions dans les BDR est essentiellement dû à l’apport de la modélisation entité/relation

Exemple

o La transaction qui consiste à mettre à jour une adresse client peut ainsi se résumer à une simple recherche dans une table principale d'adresses clients.

o Cette recherche est contrôlée par une clé d'adresse client, qui définit l'unicité de l'enregistrement et permet une recherche indexée extrêmement rapide.

o Le respect des formes normales fait que cette mise à jour soit faite en une itération, sans risque d’oublier des enregistrements

Page 12: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

12

Limites de la Modélisation E/R

Modèle complexe

o Plusieurs tables et jointures mises en œuvre

Risque de dégradation des performances

Pas de compréhension pour l’utilisateur

Données historiques difficilement représentées

Contraire aux objectifs du DW

Page 13: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

13

Modélisation Multidimensionnelle

CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES

Page 14: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

14Modélisation Multidimensionnelle : Notions de Base

Méthode de conception logique qui vise à présenter les données sous une forme standardisée, intuitive et qui permet des accès hautement performants

Permet de considérer un sujet analysé comme point dans un espace à plusieurs dimensions

Les données sont organisées de manière à mettre en évidence:

o Le Sujet Le Fait

o Les perspectives de l’analyse La table des dimensions

Page 15: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

15

Faits – Table des Faits

Fait

o Sujet d’analyse

o Grain de mesure de l’activité

o Résultat d’une opération d’agrégation des données

o Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général : une valeur numérique

o Les mesures sont stockées dans la table des faits

Table des faits

o Clé composite référencent des clés primaires des tables de dimensions

o Contient les valeurs des mesures et des clefs vers les tables de dimensions traduit une relation (n,m) entre les dimensions

o Plusieurs tables de fait dans un DW

o Les faits les plus utiles d’une table des faits sont numériques et additifs

Page 16: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

16

Faits – Table des Faits

Exemple:

o Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin

A en général plusieurs lignes et peu de colonnes

Ventes Journalières

Clé DateClé ProduitClé MagasinQuantité vendueMontant des ventes

Date

Produit

Magasin

Faits

Table des Faits

Dimensions

Page 17: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

17

Table des Dimensions

Contient une clé primaire unique qui correspond à l’un des composants de la clé multiple de la table des faits

Les tables dimensionnelles sont les points d’entrée de l’entrepôt de données

Les dimensions

o Thème (ou axe) selon lequel les données sont analysées

o En général sous forme textuelle

o Parfois discrète (ensemble limité de valeurs): couleurs, parfums

A en général plusieurs colonnes et peu de lignes

Produit

Clé ProduitDescription produitDescription marqueDescription catégorieDescription type emballageTaille emballagePoidsUnité de mesure du poidsType de stockageType de durée rayonLargeur sur étagèreHauteur sur étagèreProfondeur sur étagère

Page 18: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

18

Vue

Représentation d’une ou plusieurs requêtes de l’utilisateur du SID

o À une requête correspond une et une seule vue

o À une vue peuvent correspondre plusieurs requêtes

Une vue correspond également à un hyper-cube dont :

o Chaque dimension est décrite par une entité dont le contenu est décrit par l’association de ces entités

o Les propriétés de l’association sont des faits ou mesures

o Les propriétés des entités intervenant dans la vue sont des conditions

Les combinaisons des conditions sont les coordonnées qui déterminent des valeurs de faits, comme une combinaison de valeurs numériques peut déterminer la position d’un point dans l’espace

Un fait n’est pas seulement un élément du résultat de la requête, mais il doit être déterminé par l’association des conditions

Page 19: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

19

Vue

Exemple 1:

o Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la région nord ayant des véhicules de 10 à 14 CV en avril 2004?

o Vue:

Frais de déplacement

Kilométrage

Par Employé (fonction)

Par Véhicule (puissance)

Par Région

Par Mois

Faits

Clé EmployéClé VéhiculeClé RégionClé MoisFrais de déplacementKilométrage

Employé

Véhicule

Région

Mois

NomFonction

MarquePuissance

Page 20: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

20

Vue

Exemple 2:

o Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah Ahmed à Hammamet durant le mois de Janvier?

o Vue:

Marge

Produit

Client

Région

Mois

Région

Mois

ClientNomFonction

ProduitNom

Marge

Vue 1

Page 21: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

21

Vue

Exemple 3:

o Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie durant l’année 2011?

o Vue:

Revenu

Marque

Pays

Année

Année

Marque

Pays Revenu

Vue 2

Page 22: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

22

Vue

Exemple 4:

o Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2 pour la région du nord ?

o Vue:

Quantité

Gamme

Trimestre

Région

Trimestre

Gamme

Région Quantité

Vue 3

Page 23: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

23

Domaine et Contexte

Domaine

o Concerne un utilisateur ou un ensemble cohérent d’utilisateurs

o Implique un vocabulaire commun et une manière commune d’appréhender l’information

Contexte

o Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de cohérence

o Caractérisé par une association unique, groupant tous les faits relevés dans les vues

Page 24: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

24

Contexte : Activité des Ventes

En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on détecte deux sortes d’éléments de rapprochement

o Certaines informations (entités ou faits) se retrouvent dans plusieurs vues

o Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les unes aux autres.

o On peut intégrer ces vues en un seul contexte comportant une association porteuse des faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes

Page 25: Chp3 - Modélisation Multidimensionnelle

08/04/2023

25

Contexte : Activité des Ventes

Contexte : Activité des Ventes

Région

Mois

Client

Produit Marge

Vue 1

Année

Marque

Pays Revenu

Vue 2

Trimestre

Gamme

Région Quantité

Vue 3

Mois

Produit

MargeRevenuQuantité

Client

Région

Année

PaysGamme

Marque

Trimestre

Page 26: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

26

Hiérarchie

Élément fondamental dans la structure d’un contexte

Représente pour l’utilisateur des chemins de consolidation d’indicateurs (faits)

Chaque niveau est représenté par une entité

Certaines entités sont rattachées à d’autres par des liens d’appartenance ou de regroupement hiérarchique

Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent être repérés par une analyse précise du vocabulaire des utilisateurs (Produit, Gamme, Marque)

Page 27: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

27

Hiérarchie : Activité des Ventes

…Mois Trimestre Année

Temps

…Produit Gamme Marque

Produit

…Région Pays

Territoire

…Client Catégorie

Client

Page 28: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

28

Granularité

Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette dimension

o Le grain de la dimension Temps est Mois

o Le grain de la dimension Territoire est Région

L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur une ou plusieurs dimensions

Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions.

Page 29: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

29

Granularité (Exemple)

Grain du contexte: combinaison Produit-Mois-Client-Région

o S’applique à tous les faits

Règle: Tous les faits d’un contexte doivent être définis pour le grain de ce contexte

o Si les 3 indicateurs marge, revenu et quantité sont dans le contexte, alors ils ont un sens à tous les niveaux.

o Exemple: si la marge n’est définie que par Pays et par Mois, alors que les autres le sont par Région et par Trimestre, il y aurait décalage de grain entre les faits

o Décalage les faits n’appartiennent pas tous au même contexte facteur d’incohérence

Page 30: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

30

Grain du contexte Vente

Mois

Produit

Client

Région

Année

PaysGamme

Marque

Catégorie

Client

Temps

Produit

Territoire

ProduitRégionMoisClientMargeRevenuQuantité

Trimestre

Page 31: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

31Modélisation Multidimensionnelle:Caractéristiques

Lisibilité

Performances (chargement + exécution des requêtes)

Évolutivité

Redondances envisageables

o Pas de mise à jour en ligne (chargement uniquement)

o Pas de problème d’intégrité des données (contrôles à l’acquisition)

o Privilégier l’accessibilité plutôt que la normalisation

Requêtes ensemblistes, portant sur de gros volumes de données

o Projections, restrictions, regroupements, agrégations

o Adaptation du modèle pour des requêtes ad-hoc

o Techniques d’optimisation basées sur les chemins d’accès

Pré-calcul de certains agrégats + dé-normalisation

Page 32: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

32Modélisation Multidimensionnelle:Avantages

Structure prévisible et standardisée

Diminution du nombre de tables et de jointures

Modèle évolutif qui peut être modifié sans peine

o Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont cohérents avec la granularité de la table des faits existante

o Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la dimension est définie pour chaque enregistrement factuel existant

o Ajout d’attributs dimensionnels nouveaux

o Changement de granularité: Décomposition des enregistrements d’une dimension existante en un niveau de détail plus fin à partir d’une date déterminée

Page 33: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

33Modélisation Multidimensionnelle:Inconvénients

Tables plus volumineuses

Fréquence d’accès très variable aux contenus des tables

Page 34: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

34Règles d’Élaboration et d’Intégration des Vues

La structure des vues externes se déduit directement des requêtes des utilisateurs, non des connexions possibles entre les entités

Dans un domaine, il existe un ou plusieurs sous-ensembles de vues liées entre elles par des critères de cohérence sémantique et structurelles. Contextes

La liste exhaustive des vues n’est jamais figée

La normalisation du MDD permet d’anticiper et d’intégrer automatiquement dans chaque contexte le plus grand nombre possible de vues probables d’après la structure vue connues.

Entre deux entités intervenant dans une vue, il doit exister un et un seul chemin de navigation sémantique et ce chemin doit être le plus court possible

Page 35: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

35Démarche de Synthèse des Vues-Contextes

Identifier les faits de l’association

Identifier les liens de dépendance entre les entités

Regrouper les entités dépendantes dans une même dimension

Nommer les dimensions

o Les dimensions pour lesquelles on trouve facilement un nom sont dites « Dimensions fortes »

o Celles pour lesquelles on doute du nom associé sont dites « Dimensions douteuses »

La structure d’une dimension douteuse peut varier à terme

Page 36: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

36

Normalisation des Contextes

Un contexte regroupant un nombre élevé de dimensions a peu de chances de correspondre à une réalité et serait d’un maniement trop complexe

o En général, le nombre de dimensions d’un contexte varie entre 4 et 12 dimensions

o Au delà de ce nombre, la probabilité de redondance dimensionnelle devient de plus en plus importante

Un contexte est dit cohérent lorsque toutes les vues qu’il autorise ont une signification dans le domaine de l’utilisateur

Page 37: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

37Règles de Normalisation Dimensionnelle

Règle 1:

o Il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des dimensions différentes d’un même contexte

o Conséquence: Regroupement des entités dépendantes dans une même dimension

Exemple: Si les produits sont organisés par région, on doit intégrer l’entité Région dans la dimension Produit

Id_produit

Produit

Région

Id_produitId_régionId_moisId_clientMargeRevenuQuantité

Id_produitrégion

ProduitId_produitId_moisId_clientMargeRevenuQuantité

Page 38: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

38Règles de Normalisation Dimensionnelle

Règle 2:

o Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les combinaisons dimensionnelles de ce contexte

o Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent l’éclatement du contexte

Exemple:

Id_produit

Produit

Région

Id_produitId_régionId_moisId_client

Marge_ventesMarge_achats

RevenuQuantité

Mois

Client

La marge des achats ne correspond pas à un client et région. Il faut donc l’intégrer dans un autre contexte

Page 39: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

39Règles de Normalisation Dimensionnelle

Règle 3:

o Tous les faits d’un contexte doivent être définis pour le grain de ce contexte

Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions

Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension

Règle 4:

o Le graphe de chaque dimension doit être acyclique

o Conséquence: Il faut rompre les cycles

Pays

Région

Id_produit

Produit

Gamme Marque

Pays Région

Id_produit

Produit

Gamme Marque

Pays

Page 40: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

40

Forme Dimensionnelle Normale

Le MDD correspond à un domaine qui se présente sous forme d’une constellation ou galaxie dans laquelle chaque étoile correspond à un contexte

Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition de conserver une définition unique

Pour ces raisons pratiques, il est préférable de représenter les contextes sous une forme déconnectée

Page 41: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

41

Modèles d’un Data Warehouse

CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES

Page 42: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

42

Modèles d’un DataWarehouse

Modèle en étoile

Modèle en flocon de neige

Modèle en constellation

Page 43: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

43

Modèle Étoile

Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs mesures

Plusieurs tables de dimension dé-normalisées: descripteurs des dimensions.

Les tables de dimension n'ont pas de lien entre elles.

Avantages

o Facilité de navigation.

o Performances : nombre de jointures limité ; gestion des données creuses.

o Gestion des agrégats

Inconvénients

o Redondances dans les dimensions.

o Alimentation complexe..

Page 44: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

44

Modèle en Étoile - Exemple

Ventes

Code_produit Code_période Code_Magasin

Unités_venduesMontant_ventesMontant_coût

ProduitCode_pdtDescriptionCouleurMarqueCréateur

PériodeCode_perAnnéeTrimestreMoisJour

Magasin

Code_magNom_magVilleTéléphoneManager

Page 45: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

45

Modèle en Flocon de Neige

Dérivé du schéma en étoile où les tables de dimensions sont normalisées

o La table des faits reste inchangée

Chacune des dimensions est décomposée selon sa (ou ses) hiérarchie(s)

Exemple : Commune, Département, Région, Pays, Continent

Utilisé lorsque les tables sont très volumineuses

Avantages

o Réduction du volume

o Permettre des analyses par pallier (drill down) sur la dimension hiérarchisée

Inconvénients

o Navigation difficile

o Nombreuses jointures

Page 46: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

46Modèle en Flocon de Neige - Exemple

Ventes

Code_produit Code_période Code_Magasin

Unités_venduesMontant_ventesMontant_coût

ProduitCode_pdtDescriptionCouleurCode_marque

PériodeCode_perAnnéeTrimestreMoisJour

Magasin

Code_magNom_magVilleTéléphoneManager

MarqueCode_marqueNomDescriptionCréateur

Page 47: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

47

Constellation

Fusionner plusieurs modèles en étoile qui utilisent des dimensions communes

Un modèle en constellation comprend donc :

o Plusieurs tables de faits

o Des tables de dimensions communes ou non à ces tables de faits.

Page 48: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

48

Modèle en Constellation - Exemple

Ventes

Code_produit Code_période Code_Magasin

Unités_venduesMontant_ventesMontant_coût

ProduitCode_pdtDescriptionCouleurMarqueCréateur

PériodeCode_perAnnéeTrimestreMoisJour

Magasin

Code_magNom_magVilleTéléphoneManager

Achats

Code_produit Code_période Code_fournisseur

Unités_achetéesMontant_achatsMontant_remises

FournisseurCode_fourNomAdresseCatégorie

Page 49: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

49

Synthèse

Modèle en étoile

o Taille de dimension plus grosse

Modèle en flocon de neige

o Jointures pour reconstruire

Modèle en étoile >> Modèle en flocon

o car tables de dimension << tables de fait

Page 50: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

50

Aspects Fondamentaux de la Modélisation MultiDimensionnelle

CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES

Page 51: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

51

Dimension

Une dimension peut être définie comme :

o un thème, ou un axe (attributs), selon lequel les données seront analysées.

Ex : Temps, Découpage administratif, Produits.

Une dimension contient des membres organisés en hiérarchie :

o Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier

o Ex : pour la dimension Temps: année –semestre – mois – jour

Page 52: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

52

Dimensions - Caractéristiques

Dimension

o Temps, Produit, Géographie, ...

Niveau : hiérarchisation des dimensions

o Temps : Année, Semestre, Trimestre, Mois, Semaine, ...

o Produit : Rayon, Catégorie, Nature,...

o Géographie : Région, Département, Ville, Magasin, …

Membres d'un Niveau

o Produit::Rayon : Frais, Surgelé, ... , Liquide

o Produit::Rayon.Catégorie : Frais.Laitage, ... , Liquide.Jus

o Produit::Rayon.Catégorie.Nature : Frais.Laitage.Yaourt, ... , Liquide.Jus.Orange

Cellule

o Intersection des membres des différentes dimensions

Formule

o calcul, expression, règle, croisement des dimensions

Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ...

Page 53: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

53

Faits

Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions

o Ex : coût des travaux, nombre d’accidents, ventes

Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre de chacune des dimensions

Exemple : o « 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux »

pour le membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du niveau « ville » de la dimension « découpage administratif »

Page 54: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

54

Faits – Table des Faits

Fait additif :

o Additionnable suivant toutes les dimensions

o Exemples: quantité vendue, chiffre d’affaire, coût

Fait semi-additif :

o Additionnable selon certaines dimensions

o Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients (excepté sur la dimension produit)

Fait non-additif :

o Non additionnable

o Exemple: attribut ratio (marge brute = 1- Coût/CA)

Page 55: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

55

Dimension Temps

Commune à tout entrepôt

Reliée à toute table de fait

2 choix d ’implantation

o Type SQL DATE

o Calendrier + Table Temps

Informations supplémentaires

Évènement (match de finale de coupe du monde)

Jours fériés, vacances, période fiscale,

saison haute ou basse, …

Page 56: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

56

Opérations OLAP

Drill Up / Drill Down

Rotate

Slicing

Scoping

Page 57: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

57

Opérations OLAP - Drill Up/Drill Down

Page 58: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

58

Opérations OLAP - Rotate

Page 59: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

59

Opérations OLAP - Slicing

Page 60: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

60

Opérations OLAP - Scoping

Page 61: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

61

Stockage

ROLAP : Relational OLAP

MOLAP : Multi-Dimentional OLAP

HOLAP : Hybrid OLAP

DOLAP : Desktop OLAP

Page 62: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

62

ROLAP (Relational OLAP)

OLAP relationnel

Données obtenues à partir de tables relationnelles et de jointures entre celles-ci

En fonction de la granularité, la requête générée est plus ou moins complexe

A chaque consultation, la requête est recalculée

o Les résultats ne sont pas stockés

Langage : SQL

Avantages

o Faible coût (car tire partie des ressources existantes)

Inconvénients

o Temps de réponse long car sollicitation de la base à chaque relance d’un rapport

Page 63: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

63

MOLAP (Multi-Dimentional OLAP)

OLAP multi-dimentionnel

Données stockées dans une base de données multi-dimentionnelle appelée CUBE

o Exemple : Essbase…

Plus de relationnel!

Tous les croisements possibles sont précalculés

o Restitution des données instantanée

Langage : MDX

Avantages

o Temps de réponse très court (toutes les données et résultats sont stockés)

Inconvénients

o Coût élevé des licences pour les bases multi-dimentionnelles

o Coût élevé de développement des cubes

o Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés

Page 64: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

64

HOLAP (Hybrid OLAP)

Association du ROLAP et du MOLAP

Concept de Drill-Through

o Accès aux données agrégées avec MOLAP (Cube)

o Accès aux détails avec le ROLAP (tables relationnelles)

Étapes :

o Données agrégées stockées dans une table multi-dimentionnelle

o Restitution de ces données à partir d’un outil de reporting

Affichage des données agrégées extraites à partir des tables multi-dimentionnelles

Affichage des détails des opérations issus des bases relationnelles

Avantages

o Temps de réponse assez court

o Moins coûteux que MOLAP car moins de développement

Inconvénients

o Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données

Page 65: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

65

DOLAP (Desktop OLAP)

Ce n’est pas une technologie de stockage, mais un mode de fonctionnement.

Base de donnée OLAP limitée en taille

Permet à l’utilisateur d’enregistrer une partie de la base de données multi-dimentionnelle en local

Page 66: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

66

H-OLAP

Nouvelles fonctions pour SQL

o BREAK BY (SAS)

o RANK : Rang d’une ligne par rapport à un agrégat

o TOP / BOTTOM : Requête de type « Top Ten » (les dix meilleurs, les dix moins bons)

o Extension du Group By (SQL99)

Grouping Sets : Partitionnement selon plusieurs dimensions

Rollup: réduire progressivement

Cube : Partitionnement selon tous les sous-ensembles possibles de Grouping Sets

MS MDX

o Langage d’expression OLAP pour MS SQL Server

o Exemples

SELECT NON EMPTY {[Time].[1997], [Time].[1998]} ON COLUMNS, [Promotion Media].[Media Type].Members ON ROWS FROM Sales

Page 67: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

67

Conception d’un Data Warehouse: Étapes et Exemples

CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES

Page 68: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

68

Conception d’un Data Warehouse

Étape 1

o Choisir le processus à modéliser

Étape 2

o Choisir le grain des faits

o Décider de ce que représente une ligne de la table de faits

Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels…

Étape 3

o Identifier les dimensions qui s’appliquent aux lignes de la table des faits

Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte…

Étape 4

o Identifier les mesures de fait qui renseignent la table de faits

De préférence des quantités numériques additives

Page 69: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

69Conception d’un Data WarehouseExemple : La Distribution

Processus :

o Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV)

o Modéliser les ventes au niveau des TPV

Etape 1 : Le premier modèle dimensionnel

o Doit répondre aux questions les plus pressantes de l’utilisateur

o Ses données doivent être les plus faciles à extraire

o Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles conditions de promotion?

Page 70: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

70Conception d’un Data WarehouseExemple : La Distribution

Etape 2 :

o Quel niveau de détail doit être disponible dans le modèle?

o Principe: Obtenir un schéma basé sur les données les plus atomiques

o Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux anticiper les requêtes ad-hoc des utilisateurs

Page 71: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

71Conception d’un Data WarehouseExemple : La Distribution

Etape 3 :

o Choix des dimensions

o Principe: l’énoncé précis du grain détermine les dimensions principales

o Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique pour chaque combinaison de valeurs des dimensions principales

Dimensions principales

o Temps

o Produit

o Magasin

o Promotion

Faits de Transaction TPV

Clé dateClé ProduitClé MagasinClé Promotion…

Date

Produit

Clé magasinAttributs

Magasin

Clé PromoAttributs

Promotion

Clé DateAttributs

Clé ProduitAttributs

Page 72: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

72Conception d’un Data WarehouseExemple : La Distribution

Etape 3 (Suite):

o Dimension Produit

Attributs obtenus à partir du fichier Produits de l’application opérationnelle

Produit

Clé ProduitDescription produitDescription marqueDescription catégorieDescription type emballageTaille emballagePoidsUnité de mesure du poidsType de stockageType de durée rayonLargeur sur étagèreHauteur sur étagèreProfondeur sur étagère…

Page 73: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

73Conception d’un Data WarehouseExemple : La Distribution

Etape 4 : Identifier les faits

o Quantité vendue, montant de la vente en euros, coût standard en euro

o Questions: stocker le bénéfice? La marge brute?

o Principe: pourcentage et ratios sont non-additifs Ne pas les stocker, mais stocker le numérateur et dénominateur

Faits de Transaction TPV

Clé dateClé ProduitClé MagasinClé PromotionNuméro de trans. TPVQuantité vendueMontant des ventesCoûtBénéfice Brut

Date

Produit

Clé magasinAttributs

Magasin

Clé PromoAttributs

Promotion

Clé DateAttributs

Clé ProduitAttributs

Page 74: Chp3 - Modélisation Multidimensionnelle

08/04/2023Business Intelligence

74

Bibliographie

Supports de Cours

o Karima Tekaya – « Informatique Décisionnelle » - INSAT

o Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT

o Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier

o E. Grislin-Le Strugeon – « Systèmes d’information décisionnels (Data Warehouse / Data Mining) » - Université de Valenciennes