View
123
Download
1
Category
Preview:
Citation preview
17 juin 2007 Yasser HACHAICHI EDA 2007
DU RELATIONNEL AU MULTIDIMENSIONNEL : CONCEPTION
DE MAGASINS DE DONNÉES
Présenté par : Yasser HACHAICHI
Sous la direction de : Mr. Jamel FEKI
27 juin 2007 Yasser HACHAICHI EDA 2007
PLAN :
1. Systèmes d’information décisionnels
2. Contexte et motivations
3. Présentation de l’approche
4. Extraction des concepts
multidimensionnels
5. Bilan & Perspectives
37 juin 2007 Yasser HACHAICHI EDA 2007
Extraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Introduction Contexte
Introduction :
• Systèmes d’information décisionnels (SID)• Dédiés au pilotage des entreprises• Basés sur des structures particulières de stockage
ED & MD
•Réduites à des MD pour des raisons telle que d’économie de coûts, de délais du projet décisionnel
•Approche quasi-automatique de construction de schémas de MD à partir de sources cible
ED
MD
MD
SOURCES
DE DONNEES
47 juin 2007 Yasser HACHAICHI EDA 2007
Contexte :Extraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction ContexteContexte
•Approches de conception de SD :– Ascendantes, Descendantes et Mixtes
– Ascendantes• Partant de diagrammes E/R
– E/R parfois non disponible ou obsolète– Double compétence en :
• Modélisation du SI,• Modélisation MD
• Génération d’un grand nombre de schémas MD• Pas de règles pour dériver automatiquement les
représentations logiques
=>Approche quasi-automatique partant d’une source relationnelle
57 juin 2007 Yasser HACHAICHI EDA 2007
Problématique : Méthode
• Objectif : Méthode et outil de conception – Élaborer une méthode quasi-automatique– Identifier les concepts multidimensionnels pertinents – Assister le concepteur décisionnel – Utiliser une version récente du schéma de la source– Préparer le passage automatique vers le niveau logique
• Proposition :– Développer un outil d’aide à la conception de MD– Définir des heuristiques d’extraction (source rela.),– Affecter un niveau de pertinence aux concepts extraits– Associer concept-source
Extraction de Concepts MD Bilan & Perspectives Présentation de l’approche Présentation de l’approcheContexteIntroduction
67 juin 2007 Yasser HACHAICHI EDA 2007
Principe de la méthode Extraction de Concepts MD Bilan & Perspectives Présentation de l’approche Présentation de l’approcheContexteIntroduction
Pré-constructionPré-construction Construction des schémas de MD
Construction des schémas de MD
ValidationValidation
Sélection des relations concernés
&Modification des classes
conceptuelles
Référentiel des schémas de MD
Validation des schémas en étoiles
Concepteur décisionnel
ENSEIGNEMENT_ASSURE
NBR_GRP_ENSNBRE_GRPVOL_HOR_ENS_MATNBRE_ETUDVOL_HOR_MATNUM_TEL_F (ENSEIGNANT)NUM_TEL_M (ENSEIGNANT)
ENSEIGNANTCOD_ENS
NOM_ENS
PRE_ENS
TYP_ENS
E_MAIL
GRAD_ENSMATIERE
COD_AUDCOD_MAT
COD_SEC
INT_SEC
INT_AUD
NUM_CYC
INT_MAT
DCS AN_UNIVAN_UNIV
DCS NAT_ENSMTNAT_ENSMT
DCS NUM_SEMNUM_SEM
ENSEIGNEMENT_ASSURE
NBR_GRP_ENSNBRE_GRPVOL_HOR_ENS_MATNBRE_ETUDVOL_HOR_MATNUM_TEL_F (ENSEIGNANT)NUM_TEL_M (ENSEIGNANT)
ENSEIGNANTCOD_ENS
NOM_ENS
PRE_ENS
TYP_ENS
E_MAIL
GRAD_ENSMATIERE
COD_AUDCOD_MAT
COD_SEC
INT_SEC
INT_AUD
NUM_CYC
INT_MAT
DCS AN_UNIVAN_UNIV
DCS NAT_ENSMTNAT_ENSMT
DCS NUM_SEMNUM_SEM
MD candidats
Identification des concepts multidimensionnels
&association de la pertinence
Modification des concepts extraits
Sourcerelationnelle
Éditeur graphique des schémas
multidimensionnels
Référentiel des schémas relationnels
extraits
Extraction du schéma de la source
&attribution de la classe
conceptuelle
Interventions du concepteur
BD
MD retenus
Attribution de pertinence
77 juin 2007 Yasser HACHAICHI EDA 2007
• travaux sur l’E/R– Associations n-aire fait (Kimball 97), (Golfarelli et al. 98), (Cabibbo et al. 98), (Soussi et al. 05)
– Entité dimension, paramètre ou fait (Moody et al 2000), (Bonifati et al 2001), (Phipps et al 2002)
• Concepts– E/R : Deux concepts – Relationnel : Un concept
Difficulté : Une relation R, Est-elle entité ? ou association ?
Identification :Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
87 juin 2007 Yasser HACHAICHI EDA 2007
Identification de la classe conceptuelle :
• Éléments de réponse (structure des rel.) :– Relation-entité : Clé primaire Clé étrangère
– Relation-association : Clé primaire Clé étrangère
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
R1(A1,A2,A3) R2(A4,A5,A6) Rn(A1#,A4#,…,A9)
Source Relationnelle
Entité Association
…
97 juin 2007 Yasser HACHAICHI EDA 2007
Extraction d’un fait : Origine
Deux niveaux de pertinence de faits
Relation Fait
Relation-Association Relation-Entité
•Origines des faits dans une source E/R :
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Relation-Association
•Origine des faits dans une source rel.
107 juin 2007 Yasser HACHAICHI EDA 2007
COMPORTE_GRP (AN_UNIV, COD_MAT#, NAT_ENSMT, NBR_GRP)
Extraction des faits : Relation-association (R-a)
Hf1 : Toute R-a contenant au moins un attribut numérique non clé est un fait candidat pertinent.
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
R-association Numérique
117 juin 2007 Yasser HACHAICHI EDA 2007
Hf2 : Toute R-e contenant au moins un attribut numérique non clé est un fait candidat de faible pertinence.
Extraction des faits : Relation-entité (R-e)
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
R-entité Numérique
AUDITOIRE (COD_AUD, INT_AUD, NUM_CYC, COD_SEC #)
127 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des mesures : Origine
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Attributs Mesures
Relation-Fait F
Relations parallèles
Deux cas :
Deux niveaux de pertinence de mesures
Relation-Fait F
137 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des mesures : Relation-fait :
Hm1 : Les attributs numériques non clés appartenant exclusivement à une relation-fait F sont des mesures candidates pour F.
COMPORTE_GRP (AN_UNIV, COD_MAT #, NAT_ENSMT, NBR_GRP)
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
NumériqueRelation fait
147 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des mesures : Relations //
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Associations parallèles
Relations parallèles
1,n
0,n
0,n
0,n
0,n
ENT_1
ID_ENT_1
ENT_2
ID_ENT_2INT_ENT_2
ENT_3
ID_ENT_3ASSOC_2
ATT_NUM2
ASSOC_1
ATT_NUM1
R1 (ID_ENT2#, ID_ENT1, ATT_NUM1)
R2 (ID_ENT2#, ID_ENT1, ID_ENT3, ATT_NUM1)
R1 (ID_ENT2#, ID_ENT1, ATT_NUM1)
R2 (ID_ENT2#, ID_ENT1, ATT_NUM1)
=
//
//
157 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des mesures : Relations // :
Hm2 : Si une relation-fait R1 est parallèle à une autre R2 alors les attributs numériques non clés appartenant à R2 constituent des mesures candidates, éventuellement agrégées, pour R1.
REGROUPE_ETUD (AN_UNIV, COD_MAT #, NBR_ETUD)
Agrégation
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
COMPORTE_GRP (AN_UNIV, COD_MAT #, NAT_ENSMT, NBR_GRP)
167 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des dimensions : Origines
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Plusieurs cas :
Deux niveaux de pertinence
Dimension (F)
Relation-EntitéDirectement liées à F
Attributs temporels ou Booléens
Attribut Entité vide
Attributs temporels ou Booléens
Relation-EntitéDirectement liées à F
177 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des dimensions : Relation
Hd1 : Toute relation-entité R directement référencée par une relation-fait F est une dimension candidate pour F. L’identifiant de cette dimension est celui de R
COMPORTE_GRP (AN_UNIV, COD_MAT #, NAT_ENSMT, NBR_GRP)
MATIERE (COD_MAT, COD_AUD #, INT_MAT, VOL_HOR_MAT)
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Dimension ID_dimension
187 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des dimensions : Attribut (1)
Hd2 : Tout attribut booléen ou temporel (Hd3) appartenant à une relation-fait donne naissance à une dimension pertinente dont il est l’identifiant.
•Attributs booléens ou temporels
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
197 juin 2007 Yasser HACHAICHI EDA 2007
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte Extraction des dimensions : Attribut (2)
Hd4 : Si un attribut de la clé primaire d'une relation-fait de classe Ra n'est pas une clé étrangère alors cet attribut construit une dimension candidate.
•Attribut clé décrivant une entité vide
1,n1,n
Ent_1
A1
Ent_2
A4A5
Assoc_1
A7
Ent_2 (A4, A5)Assoc_1 (A4#, A1, A7)
207 juin 2007 Yasser HACHAICHI EDA 2007
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte Extraction des dimensions : Attribut (3)
•Attribut non clé décrivant une entité vide
1,n1,1
Ent_1
A1A2
Ent_2
A4Assoc_1 Ent_1 (A1, A2, A4).
Problème!!
Résolu si
1,n1,1
Ent_1
A1A2
Ent_2
A4Assoc_1Ent_3
A7
Assoc_2
......
?,y?,n
Ent_1 (A1, A2, A4).
Ent_3 (A7,…, A4) (si y = 1)
Assoc_2 (A7, A4) (si y>1)
217 juin 2007 Yasser HACHAICHI EDA 2007
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte Extraction des dimensions : Attribut (3)
•Attribut non clé décrivant une entité vide
CHARGE_EXIGEE (NAT_ENSMT, GRAD_ENS, CHARG_HOR_EXI)
ENSEIGNANT (NUM_ENS, NOM_ENS, PRE_ENS, NUM_TEL_F, NUM_TEL_M, E_MAIL, TYP_ENS, GRAD_ENS)
Problème
Hd5 : Tout attribut a non clé appartenant à une relation-fait et à d’autre(s) relation(s) est un identifiant candidat d'une dimension construite sur a.
227 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des hiérarchies : Origines
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Plusieurs cas :
Deux niveaux de pertinence
Hiérarchie (Hd1)
Relation-EntitéDirectement liées à d
Attributs temporels ou Booléens
Attribut Entité vide
Attributs temporels ou Booléens
Relation-EntitéDirectement liées à d
237 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des hiérarchies : Relations
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Hh1 : Si la clé primaire PK d'une relation de classe R-e est directement référencée par une relation-dimension d alors PK est un paramètre candidat de rang 2 pour une nouvelle hiérarchie de d.
•Paramètres de rang 2
247 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des hiérarchies : Attributs (1)
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Hh2 : Tout attribut booléen ou temporel appartenant à une relation-dimension d est un paramètre candidat terminal de rang 2 d'une hiérarchie définie sur d.
•Paramètres de rang 2
257 juin 2007 Yasser HACHAICHI EDA 2007
Extraction des hiérarchies : Attributs (2)
Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
Hh3 : Tout attribut non clé appartenant simultanément à une relation-dimension d et à d'autre(s) relation(s) est un paramètre candidat de rang 2 d'une hiérarchie de d.
L'application récursive de Hh1 à Hh3 sur les relations dont la clé est un paramètre de rang i>1(Hh1) produit des paramètres de rang i+1.
•Paramètres de rang 2
•Paramètres de rang > 2
267 juin 2007 Yasser HACHAICHI EDA 2007
Illustration :Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
ENSEIGNEMENT _ASSURE
COD_MAT :NUM_ENS : NUM_SEM, NAT_ENSMT,AN_UNIV, NBR_GRP_ENS
MATIERE
COD_MATCOD_AUD :INT_MAT, VOL_HOR_MAT
ENSEIGNANT
NUM_ENS,NOM_ENS, PRE_ENS,NUM_TEL_F, NUM_TEL_M,E_MAIL, TYP_ENS,GRAD_ENS
M
P
P
PAUDITOIRE COD_AUD, INT_AUD, NUM_CYC, COD_SEC
P
SECTION COD_SEC, INT_SEC
P
CHARGE_EXIGEENAT_ENSMTGRAD_ENS, CHARG_HOR_EXI
Hf1
Hm1
Hd1
Hd1
Hd4
Hh1
Hh1
Hh4
277 juin 2007 Yasser HACHAICHI EDA 2007
Illustration :Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
ENSEIGNEMENT_ASSURE
NBR_GRP_ENSENSEIGNANT
COD_ENS
NOM_ENS
PRE_ENS
TYP_ENS
E_MAIL
GRAD_ENS
DCS_AN_UNIV
AN_UNIV
DCS_NAT_ENSMTDCS_NUM_SEM
NUM_SEM
MATIERE COD_AUD
COD_MATCOD_SEC
INT_SEC
INT_AUD
NUM_CYC
INT_MAT
NAT_ENSM
287 juin 2007 Yasser HACHAICHI EDA 2007
Evaluation :Extraction de Concepts MDExtraction de Concepts MD Bilan & Perspectives Présentation de l’approcheIntroduction Contexte
•Appliqué en plus sur des sources dans la littérature des systèmes décisionnels :
CAME : identifie automatiquement tous les faits possibles CAME : identifie toutes les mesures à l'exception des mesures calculables.CAME : identifie toutes les dimensions à l'exception des dimensions construites sur des entités vides uniquement liées au fait
Per
tinen
ce d
es M
D
obte
nus
et n
on
envi
sagé
es
Tau
x de
cou
vert
ure
des
mes
ures
et d
es
dim
ensi
ons
des
MD
ex
trai
ts
Critère
Cas
Nom
bre
de M
D p
our
le
beso
in e
nvis
agé
dans
le
cas
i
Nom
bre
de M
D e
xtra
its
pa
r C
AM
E
Tau
x de
cou
vert
ure
des
MD
E* F* Mes Dim
Activité commerciale (Golfarelli et al. 1998b)
1 3 1/1 0 2 2/2 3/3
« Flight reservation system » (Böhnlein et al.1999)
1 3 1/1 2 0 1/2 4/4
« Hospital » (Golfarelli et al. 1998a)
1 1 1/1 0 0 2/4 7/10
Répartition des charges des Enseignants (Soussi et al. 2005)
2 9 2/2 3 4 2/4 6/6
297 juin 2007 Yasser HACHAICHI EDA 2007
Bilan & Perspectives :Bilan & PerspectivesBilan & Perspectives Présentation de l’approcheIntroduction Contexte Extraction de Concepts MD
• Méthode de construction assistée de schémas de MD en étoile
• Outil CAME
• Tests de notre méthode sur plusieurs cas type de sources relationnelles
Bilan
Perspectives
•Introduction des mesures calculées
•Génération automatique des procédures de génération de schémas logiques et de chargement (Mastère qui démarre).
Finaliser CAME produit qui aide les entreprises à se doter de leur propre SD :
•Diversification des sources
307 juin 2007 Yasser HACHAICHI EDA 2007
Merci de votre attentionMerci de votre attention
Yasser Hachaichi
Département Informatique, Faculté des Sciences Economiques et de Gestion de Sfax-Tunisie
Laboratoire MIRACL
317 juin 2007 Yasser HACHAICHI EDA 2007
2007
2002, 2004 2006
JFO 2007
…
Recommended