54
Page : 1 Informatique décisionnelle Informatique décisionnelle Introduction à Introduction à l’informatique l’informatique décisionnelle décisionnelle [email protected] [email protected] MOHAMED HAMOU MOHAMED HAMOU

Informatique décisionnelle

  • Upload
    chana

  • View
    108

  • Download
    9

Embed Size (px)

DESCRIPTION

Informatique décisionnelle. Introduction à l’informatique décisionnelle. MOHAMED HAMOU. [email protected]. L’information. • Nouvelle ressource des entreprises du XXIème siècle • Avec le temps, les entreprises produisent et manipulent de très importants volumes de données - PowerPoint PPT Presentation

Citation preview

Page 1: Informatique décisionnelle

Page : 1

Informatique décisionnelleInformatique décisionnelle

Introduction à l’informatique Introduction à l’informatique décisionnelledécisionnelle

[email protected]@gmail.com

MOHAMED HAMOUMOHAMED HAMOU

Page 2: Informatique décisionnelle

Page : 2

L’informationL’information

• Nouvelle ressource des entreprises du XXIème siècle

• Avec le temps, les entreprises produisent et manipulent de très importants volumes de données

• Ces données sont stockées dans les systèmes opérationnels de l’entreprise au sein de bases de données

Page 3: Informatique décisionnelle

Page : 3

Motivations des entreprisesMotivations des entreprises

• Besoin des entreprises

– accéder à toutes les données de l’entreprise – regrouper les informations disséminées

– analyser et prendre des décisions rapidement

• Exemples d’applications concernées

– Grande distribution : marketing, maintenance, … – Bancaire : suivi des clients, gestion de portefeuilles – Télécommunications : pannes, fraudes, mobiles, …

Page 4: Informatique décisionnelle

Page : 4

La prise de décision en entrepriseLa prise de décision en entreprise

• Une décision est le résultat d'un processus comportant le choix conscient entre plusieurs solutions, en vue d'atteindre un objectif.

• L'efficacité des services d'une entreprise dépend de la qualité de ses décisions.

– Améliorer l'habilité à prendre des décisions, c'est faire usage des ressources dont dispose l'entreprise.

Page 5: Informatique décisionnelle

Page : 5

Processus décisionnelProcessus décisionnel

Peut être découpé en cinq étapes

• 1) Définir le problème

• 2) Rassembler les faits et données

• 3) Evaluer et interpréter les faits et données

• 4) Etablir plusieurs solutions

• 5) Décider (choisir une solution)

Page 6: Informatique décisionnelle

Page : 6

Informatique décisionnelleInformatique décisionnelle

• La mise en place d’un système informatique décisionnelle a pour objectif de faciliter le décideur dans son processus de prise de décision.

• L’informatique permet d’accélérer drastiquement le temps de rassemblement des faits et données et leur interprétation

• C’est un ensemble d’outils qui ne remplace en aucun cas le décideur.

Page 7: Informatique décisionnelle

Page : 7

Système d’aide à la décisionSystème d’aide à la décision

• L’objectif est toujours d’automatiser/fiabiliser les tâches répétitives

Page 8: Informatique décisionnelle

Page : 8

Architecture des systèmes décisionnelsArchitecture des systèmes décisionnels

Sources Décideurs

Entrepôt de données

Referentiel

Extracteur

ExtracteurIn

tegr

ateu

r

Extracteur

Page 9: Informatique décisionnelle

Page : 9

Entrepôt de données : définitionEntrepôt de données : définition

Définition 1 (Goglin) : un entrepôt de données est un stockage intermédiaire de données issues des applications de production, dans lequel les utilisateurs finaux puisent avec des outils de restitution et d’analyse.

Définition 2 (Bill Inmon) : Un entrepôt de données est une collection de données thématiques, intégrées, non volatiles et historisées organisées pour la prise de décision.

Inmon et Codd sont considérés comme les auteurs du concept dans le début des années 90.

Page 10: Informatique décisionnelle

Page : 10

« Thématiques »« Thématiques »

• Thématique = "Orienté sujet " .

• Orienté par thème et non plus par fonction.

• Exemples :• Dans les bases de données opérationnelles : assurance vie, assurance automobile, paye, facturation.

• Dans les bases de données décisionnelles : client, produit, réseau de distribution, médicament, marché, absences, réussite.

• Ce côté est renforcé dans les magasins.

Page 11: Informatique décisionnelle

Page : 11

« Intégrées »« Intégrées »

• L’entrepôt n’est pas une concaténation des sources, les données sont sémantiquement intégrées.

• Exemples :

• Reconnaître qu’il s’agit de la même personne malgré un déménagement

• Reconnaître qu’il s’agit du même produit malgré des codes barres différents

• Remarque : très difficile, mais indispensable.

Page 12: Informatique décisionnelle

Page : 12

« Non volatiles, historisées »« Non volatiles, historisées »

• Pas de suppressions.

• Nécessité d’un référentiel de temps.

• L’historisation permet

• l’extrapolation,

• la mesure de l’impact d’une décision par comparaison de la situation avant et après la mise en application de cette décision.

• Exemple :

• Suivi des évolutions des comportements des clients.

Page 13: Informatique décisionnelle

Page : 13

« Agrégées »« Agrégées »

• Niveau de granularité.

•Exemple :

• Stockage de tous les appels téléphoniques pour un client

APPEL_TELEPHONIQUE (n° client, horo-date, durée, correspondant, étranger, etc...)

(300 clients, 200 tuples par client, 60000 tuples d’appels).

• Stockage agrégé par client sur 1 mois

APPEL_TELEPHONIQUE (n° client, mois, nombre d’appel, durée moyenne, nombres d’appels vers l’étranger)

(300 tuples d’appels).

Page 14: Informatique décisionnelle

Page : 14

« Prise de décision »« Prise de décision »

• Les systèmes " opérationnels " (ou de " production ", ou de " gestion "  ) sont dédiés aux métiers de l’entreprise pour les assister dans leurs tâches de gestion quotidiennes (et directement opérationnels).

ERP

• Les systèmes " décisionnels "   sont dédiés au management de l’entreprise pour l’aider au pilotage de l’activité (et indirectement opérationnels).

Ils offrent au décideur une vision transversale de l’entreprise.

DW

Page 15: Informatique décisionnelle

Page : 15

ExemplesExemples

• Suivi du comportement de la clientèle dans les télécommunications

• Nombre moyen d’heures par mois et par région,

• répartition des appels clients sur la semaine,

• Répartition des appels clients sur la journée,

• nombre moyen d’appels représentant 20% d’une facture,

• Durée moyenne d’une communication urbaine,

• Durée moyenne d’une communication internationale.

• Suivi du marché (lignes installées, désinstallées, services choisis, répartition géographique)

• Comportement du réseau (pannes)

Page 16: Informatique décisionnelle

Page : 16

ExemplesExemples

• Quel est le volume des ventes par produit, par région, pour le 3ième trimestre 2009 ?

• Quel est le volume des ventes de produits laitiers, pour la région parisienne, par an, pour les 5 dernières années ?

• Quel est le type de produits dont les ventes baissent constamment dans les 6 derniers mois de l’année en cours ?

• Est-ce qu’une baisse de 10% ferait redémarrer les ventes de disques ?

Page 17: Informatique décisionnelle

Page : 17

Différences transactionnel / décisionnelDifférences transactionnel / décisionnel

Transactionnel Décisionnel

Données - sur une période courte - historisées

- détaillées - agrégées

- personnelles - peuvent être anonymes

- mises à jour - recalculées

- temps de validité, de transaction

- temps de validité, de transaction, d’extraction

Traitements - requêtes simples - requêtes complexes

- répétitives - variées

- très sensible aux performances

- échelle de performance différente

Page 18: Informatique décisionnelle

Page : 18

Différences transactionnel / décisionnelDifférences transactionnel / décisionnel

Transactionnel Décisionnel

Conception - orientée fonction - orientée sujet

- relativement statique

- évolutif

Utilisateurs - agents opérationnels - manager

Nbres :

. utilisateurs - milliers - centaines

. tuples accédés - dizaines/centaines - millions

. base de données

- centaines de MB/GB

- centaines de GB/TB

Page 19: Informatique décisionnelle

Page : 19

Les sources de donnéesLes sources de données

• En général les "legacy systems", c'est-à-dire principalement les bases de données de production.

• exemples : factures, fichier des nouveaux clients.

• On extrait justement les données pour ne pas travailler directement sur les sources.

- "Décisionnel et transactionnel ne font pas bon ménage ",

- perturbations,

- supports physiques différents,

- outils et utilisateurs différents.

Page 20: Informatique décisionnelle

Page : 20

Les sources de donnéesLes sources de données

• Mais aussi des sources extérieures :

• météo,

• calendrier des jours fériés,

• cours de la bourse,

• Géographie (études épidémiologiques, accidents de la route),

• études INSEE.

• Vieilles sources.

Page 21: Informatique décisionnelle

Page : 21

L’extraction des donnéesL’extraction des données

• a pour but d'extraire les données et de les mettre dans un format commun.

• choisit d'extraire ce qui est nécessaire

• on n'importe pas la totalité des sources,

• satisfaire les "vues utilisateurs".

• applique une stratégie de rafraîchissement

• périodicité,

• ou déclenchement.

Page 22: Informatique décisionnelle

Page : 22

L’extraction des donnéesL’extraction des données

3 principales techniques :

• Ecrire des interfaces entre les sources et l'entrepôt,

• Exploiter les fonctionnalités de réplication offertes par les SGBD,

• loader, triggers, passerelles, copies, logs, vues, etc …

• Utiliser un outil ETL

• génère les programmes d'alimentation,

• peut gérer leur déroulement,

• intégration de données.

Page 23: Informatique décisionnelle

Page : 23

L’intégration des donnéesL’intégration des données

• Intégration des données dans l'entrepôt en résolvant les conflits entre les différentes sources d'information

• codages, fautes d'orthographe, etc…

• tables de conversion, etc …

ETUDIANTS nom sexe adresseFigue 1 ParisFraise 2 Toulouse

PROF nom sexe adresseFigue M 4, av. Foch ParisFraise F 4, av. Foch Paris

Page 24: Informatique décisionnelle

Page : 24

L’intégration des donnéesL’intégration des données

•Différence de codage:• sexe = M/F sexe = 1/2

•Différence d’unité• poids = 4000poids = 4• taille = 38 taille = 7

•Différence de granularité • heures travaillées = 35 heures travaillées = 150

•Différence de fraîcheur :• âge = 20 âge = 21

•Imprécision• poids = 54,2 poids = 54

•Erreur :• nom = « Clémentine » nom = « Clémentinne »

Page 25: Informatique décisionnelle

Page : 25

L’intégration des donnéesL’intégration des données

• Différence de contenu dans les textes libres :• adresse = « Père Noël, cercle polaire, Rovaniemi, Finlande »

adresse = « cercle polaire, Rovaniemi, Finlande »

• Différence d’expression dans les textes libres :• adresse = « 4 av. du gal Leclerc »   

adresse = « 4 avenue du général Leclerc »

• Différence linguistique de niveau de perception dans les textes libres :

• couleur = « rouge » couleur = « vermillon »

• prescription = « antibiotique » prescription = «pénicilline » 

Page 26: Informatique décisionnelle

Page : 26

L’intégration des donnéesL’intégration des données

• Exercice 1

VOITURE NUM COULEUR

1 AZUR

2 VIOLET

4 VERT

VOITURE NUM COULEUR

1 BLEU

2 BLEU

3 ROUGE

4 VERT

Intégration ?

Source 1

Source 2

Page 27: Informatique décisionnelle

Page : 27

L’intégration des donnéesL’intégration des données

• Exercice 2

Intégration ?

ETUDIANT NUM NOM SEXE POIDS

1 JEAN 1 54,2

2 LAURA 2 65,6

3 HENRI 1 48,4

ETUDIANT NUM NOM SEXE POIDS

1 JEAN M 54

2 LAURA F 66

3 HENRY M 48

4 FRED M 70

Source 1

Source 2

Page 28: Informatique décisionnelle

Page : 28

L’intégration des donnéesL’intégration des données

• Exercice 3ETUDIANT NUM NOM ADRESSE

1 JEAN 4 AV GAL DE GAULLE

2 SOPHIE 13 AV DES TILLEULS

3 PAUL

ETUDIANT NUM NOM ADRESSE1 JEAN 4 AVENUE DU

GENERAL DE GAULLE

2 PAUL

3 SOPHIE 13 AVENUE DES TILLEULS

4 FRED

Page 29: Informatique décisionnelle

Page : 29

Les méta-donnéesLes méta-données

• Les méta-données regroupent l'ensemble des informations concernant l'entrepôt et les processus associés.

Destinées

Aux équipes et outils responsables du processus de transformation des données de production vers l'entrepôt.

Aux utilisateurs SGBD

Page 30: Informatique décisionnelle

Page : 30

Les méta-donnéesLes méta-données

2 principales utilités

Pour les algorithmes d'extraction, intégration, nettoyage, rafraîchissement, historisation, qualité.(localisation, règles de transformation, flux)

Responsables des processus (équipes, outils)

Carte routière pour l'interrogation

Utilisateurs

+ méta-données habituelles (types, autorisations)

SGBD

Page 31: Informatique décisionnelle

Page : 31

Les magasinsLes magasins

• sous-ensemble de l’entrepôt,

• temps d’accès réduits, volume réduit, coût réduit,

• orienté vers un sujet particulier,

• les données sont adaptées à une classe de décideurs ou à un usage particulier (ex: fortement agrégées, DM)

généralement modélisé sous forme multidimensionnelle,

• nécessité de définir une stratégie d’extraction de l’entrepôt,

• on peut avoir des sous-magasins.

Page 32: Informatique décisionnelle

Page : 32

Outils de restitutionOutils de restitution

• sur les magasins, ou directement sur l’entrepôt,

• requêtes SQL, SQL/OLAP

• tableurs,

• outils requêteurs spécialisés (outils de reporting),

• progiciels spécialisés,

• sortie web,

• logiciels de datamining,

• sortie système expert.

Page 33: Informatique décisionnelle

Page : 33

OLTP - OLAPOLTP - OLAP

OLTP : On-Line Transaction Processing

Dans une base de données de type relationnelle, les données sont stockées sous formes de tables décomposées en colonnes et en lignes, chaque ligne représente un enregistrement de la base de données.

OLAP : On-Line Analytic Processing

OLAP est un terme pour décrire l'approche dimensionnelle de l'aide à la décision.

Page 34: Informatique décisionnelle

Page : 34

OLTP - OLAPOLTP - OLAP

• Le traitement des données en mode transactionnel

(OLTP) est totalement différent du domaine des

systèmes dimensionnels (OLAP).

• Les systèmes diffèrent pour :

– Les utilisateurs

– Le contenu des données

– Les structures,

– L ’administration

Page 35: Informatique décisionnelle

Page : 35

Analyse multidimensionnelleAnalyse multidimensionnelle

• On rencontre plusieurs techniques d’analyse de données, l’analyse multi-dimensionnelle est particulièrement utilisée en informatique décisionnelle.

• L’analyse multi-dimensionnelle permet d’analyser des mesures selon différents paramètres (multiples) qui peuvent avoir un effet sur celles-ci

Page 36: Informatique décisionnelle

Page : 36

ExempleExemple

• Une société désire construire une base de données pour suivre l'évolution de ses ventes par mois et par catégories de produits de ses différents magasins.

• Pour chaque magasin, elle dispose d ’une table qui contient les ventes

Page 37: Informatique décisionnelle

Page : 37

ExempleExemple

• Pour analyser ces données, on peut par exemple placer les mois en ligne et les catégories en colonne.

• Si l ’on veut comparer les ventes par rapport aux catégories, par magasin et par mois. Il devient difficile de dessiner un simple tableau.

– On parle alors de cube

Page 38: Informatique décisionnelle

Page : 38

Représentation graphique Représentation graphique multidimensionnellemultidimensionnelle

Page 39: Informatique décisionnelle

Page : 39

Toutes les ventes pour un magasinToutes les ventes pour un magasin

Page 40: Informatique décisionnelle

Page : 40

Toutes les ventes d’une catégorie d’articleToutes les ventes d’une catégorie d’article

Page 41: Informatique décisionnelle

Page : 41

Toutes les ventes d’un moisToutes les ventes d’un mois

Page 42: Informatique décisionnelle

Page : 42

Les ventes d’un mois pour une catégorie Les ventes d’un mois pour une catégorie dans un magasindans un magasin

Page 43: Informatique décisionnelle

Page : 43

Le modèle multidimensionnelLe modèle multidimensionnel

• Souvent appelé modèle OLAP (On Line Analytical Processing) (Codd, 1993).

• Présenté comme une alternative au modèle relationnel.

• Correspond mieux aux besoins du décideur.

• "Orienté sujet".

• " Cube" centré sur une activité.

• Exemple : vente.

Page 44: Informatique décisionnelle

Page : 44

Les faitsLes faits

• Un cube relate un fait. L’activité est caractérisée par des faits qui se produisent (événements).

• Exemples :

• fait de vente,

• fait de notation,

• fait de passage de transaction boursière,

• fait de consultation médicale,

• fait de dépense dans un hôpital,

• fait d’absence de cours,

• fait de marquage de but,

• fait de fréquentation d’un cinéma.

Page 45: Informatique décisionnelle

Page : 45

Les indicateursLes indicateurs

• Les faits sont quantifiés par des indicateurs, également appelés "métriques", ou "mesures", ou "variables". Par exemple le fait de vente se caractérise par la quantité vendue et le montant de la vente.

• Ce sont les cellules du cube. Les indicateurs représentent une quantité mesurable, un fait observé.

• Chaque indicateur a une fonction d’agrégat (on peut les additionner, ou calculer le minimum, ou la moyenne).

• Ils sont généralement numériques et additifs :

Le montant des vente est additif (se somme sur toutes les dimensions), le niveau du stock est semi-additif (se somme sur les produits, mais pas sur le temps), la moyenne de fréquentation est non additive.

Page 46: Informatique décisionnelle

Page : 46

Les indicateursLes indicateurs

• Exemples :

• CA par produit/agence/dans le temps,

• coût moyen d’une hospitalisation par pathologie,

• le nombre de visiteurs moyens dans un établissement,

• taux d’occupation des lits,

• nombre d’articles en stock,

• satisfaction,

• taux de remplissage des avions par vol,

• temps d’attente moyen au supermarché,

• nombre de connexions sur un site web,

• durée des communications sur un site web.

Page 47: Informatique décisionnelle

Page : 47

Les indicateursLes indicateurs

• Formule : On appelle "formule"   une mesure non stockée, obtenue à partir des mesures stockées.

• Exemples : prix moyen = total ventes / nombre vendu

• Remarque : il existe des faits sans mesures, les "dummy measures"

• Exemple : location d'une voiture, consultation à hôpital, réservation d'un livre.

• L'agrégation sera le comptage des faits.

Page 48: Informatique décisionnelle

Page : 48

Les dimensionsLes dimensions

• Les "dimensions" sont les axes d'analyse.

• Exemples : produits, temps, région, promotion, fournisseur, joueur, élève, hôpital.

• Chaque dimension est associée à une hiérarchie.

• Exemples :

• continent -> pays -> région -> ville -> magasin

• année -> trimestre -> mois -> jour

• catégorie-> sous-catégorie -> produit

Page 49: Informatique décisionnelle

Page : 49

Modélisation en étoilesModélisation en étoiles

Fait de Vente

clé_tempsclé_produitclé_magasin

montant_ventesquantité_vendue

Temps

clé_tempsheurejoursemainemoisannéefériéévénement

Magasin

clé_magasinadressevilledépartementsecteur_ventesurface

Produit

clé_produitdescriptionmarquecatégoriesous_catégoriecouleurtaille

Page 50: Informatique décisionnelle

Page : 50

Modélisation en floconsModélisation en flocons

Fait de Vente

clé_tempsclé_produitclé_magasin

montant_ventesquantité_vendue

Magasin

clé_magasinclé_localisationsecteur_ventesurface

Produit

clé_produitdescriptionmarqueclé_sous_catégoriecouleurtaille

Sous_catégorie

clé_sous_catégoriesous_catégoriecatégorie

Localisation

clé_localisationadressevilledépartement

Temps

clé_tempsheurejoursemainemoisannéefériéévénement

Les tables de dimension sont normalisées

Page 51: Informatique décisionnelle

Page : 51

Modélisation en constellationsModélisation en constellations

Temps

clé_tempsheurejoursemainemoisannéefériéévénement

Fait de Vente

clé_tempsclé_produitclé_magasin

montant_ventesquantité_vendue

Magasin

clé_magasinclé_localisationsecteur_ventesurface

Produit

clé_produitdescriptionmarqueclé_sous_catégoriecouleurtaille

Les tables de dimensions sont partagées par plusieurs tables de faits

Page 52: Informatique décisionnelle

Page : 52

Opérateurs multidimensionnelsOpérateurs multidimensionnels

• Roll-up, ou agrégation, ou consolidation, ou drill-up, ou scale-up, ou forage vers le haut.

Agréger selon une dimension : Semaine Mois

• Drill-down, ou désagrégation, ou segmentation, ou roll_down, ou drill-trough, ou forage vers le bas.

Détailler selon une dimension : Mois Semaine

• Slice, ou projection. Projeter(Région, Produit)

• Dice, ou selection, ou filtering, ou screening. Mois = 01/01/2009

• Pivot, ou rotation. Tourne le cube pour visualiser une face.

(Région, produit) (Région, Mois)

Page 53: Informatique décisionnelle

Page : 53

ExercicesExercices

T1 2009 T2 2009 T3 2009 T4 2009

Appareil

Photo

numérique

Paris 10 12 15 23

Marseille 12 15 14 18

Lyon 7 12 9 13

Créteil 5 9 21 8

Lecteur

DVD

Paris 12 9 17 25

Marseille 18 16 19 17

Lyon 13 16 17 14

Créteil 6 12 18 21

Home

Cinéma

Paris 29 23 25 24

Marseille 19 18 23 19

Lyon 17 17 20 22

Créteil 14 17 18 17

Ecrans

plats

Paris 16 18 19 20

Marseille 15 14 17 18

Lyon 21 28 26 29

Créteil 9 8 10 9

Soit le tableau multidimensionnel suivant (Produits, Villes, Temps) :

Page 54: Informatique décisionnelle

Page : 54

ExercicesExercices

• Modèle en étoile « Fait de vente »

• Cube

• Opérateurs multidimensionnels (Roll up, Dice,…)