31
1 « Six Sigma & Big Data » Jean-Louis THERON Master Black Belt Lean 6 Sigma, Chef de projet Modélisation prédictive

« Six Sigma & Big Data - XL Consultants › sites › default › files › Documentatio… · Six Sigma : origine, raisons du succès, principe moteur, recueil et analyse de données,

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

1

« Six Sigma & Big Data »

Jean-Louis THERONMaster Black Belt Lean 6 Sigma, Chef de projet Modélisation prédictive

2

Questions / réponses4

Six Sgma : origine, raisons du succès, atous, limites, applications

Big data : origine, raisons du succès, atous, limites, applications

SOMMAIRE

Six Sigma : origine, raisons du succès, principe moteur, recueil et analyse de données, atouts, précautions, limites

1

Modélisation prédictive3

Big data : origine, raisons du succès, principe moteur, recueil et analyse de données, atouts, précautions, limites

2

3

➢ Motorola, 1979 : « Notre qualité pue ! » (Arthur Sundry, Communications Manager)

➢ 1980 : Motorola lance un plan stratégique en 4 points :

• Compétitivité globale

• Management participatif

• Amélioration qualité

• Centre de formation interne

➢ Besoin de compter les DPMO

➢ 1984 : Lancement du « Motorola Manufacturing Institute »,

mais sans métrique commun pour partager et comparer les initiatives

➢ 1986 : Naissance du Six Sigma sous l’impulsion de Bill Smith (et de Mikel Harry)

SIX SIGMA : ORIGINE

Source : Wikipédia

4

➢ Raisons méthodologiques :

• Approche scientifique

• Conduite de projet efficace

➢ Raison d’organisation humaine :

les « Belts » et les rôles managériaux

SIX SIGMA : RAISONS DU SUCCÈS

5

➢ Principe de Taguchi

SIX SIGMA : PRINCIPE MOTEUR

L’iceberg des pertes (coûts de non-qualité)

Les opportunités perdues

Rebuts

Retouches

Inspections qualité

GarantiesDéfauts

Ventes perdues

Livraisons en retard

Redéfinitions intempestives de produits

Temps de cycle excessifsCoûts d'expédition en urgence

Stocks excessifs

Coûts traditionnels de la non-qualité

(intangibles)

(tangibles)

10%

90%

(Facilement identifiables)

Pertes de crédibilité

Réglages machines plus fréquents que nécessaire

Pannes

Coûts additionnels de la non-qualité(Difficiles ou impossibles à mesurer)

Réclamations client

6

➢Nécessité d’avoir des données de qualité

➢Besoin de qualifier le processus de mesure (même s’il est supposé l’être déjà)

➢Phase « Mesurer » du DMAIC dédiée à la collecte des données

➢Recherche des biais possibles (techniques, humains, etc.)

➢Outils spécifiques : le « Measurement System Analysis » de l’AIAG :

• Etude Répétabilité & Reproductibilité (R&R)

• Analyse de concordance (Kappa de Fleiss)

SIX SIGMA : RECUEIL DE DONNÉES

7

➢ Si on ne sait pas ce qu’on cherche… on ne sait pas ce qu’on trouve !

➢Nécessité d’avoir une démarche rigoureuse mais aussi efficace :

• Rigoureuse pour tirer les bonnes conclusions

• Efficace pour parvenir à un résultat utilisable

SIX SIGMA : ANALYSE DE DONNÉES

8

➢Caractère scientifique : Fonder les décisions d’amélioration sur des FAITS, et

non plus sur des OPINIONS

➢Modélisation mathématique :

On corrèle la variation des sorties

à la variation des entrées et des

facteurs influents

➔maîtriser les variabilités

➢Pragmatisme et efficacité : jusqu’à 3 milliards de dollars de gains grâce au Six

Sigma selon General Electric

SIX SIGMA : ATOUTS DE L’APPROCHE

PROCESSUSSortiesEntrées

Facteurs influents

Sorties = f (entrées, facteurs influents) + résidu

9

➢ Réunir une équipe pluridisciplinaire

➢ Bien suivre le cycle DMAIC

➢ Efficace sur un processus déjà standardisé

➢ S’appuie intégralement sur la modélisation par

le jeu de données : il FAUT bien choisir les variables

et bien les mesurer

➢ « Corrélation n’est pas causalité » : seul l’être humain (et pas la machine) connaît

les relations de cause à effet dans le monde réel

➢ Aller sur le terrain (gemba walk) !

SIX SIGMA : PRÉCAUTIONS

10

➢ On ne trouve pas toujours (pas souvent ?) de modèle statistique satisfaisant

➢ Indicateurs « R carré » et « valeur de p » insuffisants pour la « solution pratique » :

• Intervalles de confiance trop larges (= trop d’incertitude), du fait des tailles

d’échantillon insuffisantes, du « bruit de mesure », etc.

• Effets non détectés du fait de cette incertitude

SIX SIGMA : LIMITES DE L’APPROCHE

On ne détecte pas la différence entre 75,0cl et 75,1cl On détecte la même différence !

30 valeurs 200 valeurs

11

Questions / réponses4

Six Sgma : origine, raisons du succès, atous, limites, applications

Big data : origine, raisons du succès, atous, limites, applications

SOMMAIRE

Six Sigma : origine, raisons du succès, principe moteur, recueil et analyse de données, atouts, précautions, limites

1

Modélisation prédictive3

Big data : origine, raisons du succès, principe moteur, recueil et analyse de données, atouts, précautions, limites

2

12

➢ « Le volume des données stockées est en pleine expansion : les données

numériques créées dans le monde seraient passées de 1,2 zettaoctet par an en

2010 à 1,8 zettaoctet* en 2011, puis 2,8 zettaoctets en 2012 et s'élèveront à 40

zettaoctets en 2020. À titre d'exemple, Twitter générait en janvier 2013, 7

téraoctets de données chaque jour et Facebook 10 téraoctets. En 2014,

Facebook Hive générait 4 000 To de data par jour » (Wikipédia, juillet 2019)

➢ Capacités de stockage croissant exponentiellement : du Ko au Mo au Go au To…

et ce n’est pas fini !

➢ « Véritable écosystème économique impliquant, d'ores et déjà, les plus gros

joueurs du secteur des technologies de l'information » (Wikipédia, juillet 2019) ➔

Rôle prépondérant des « GAFA » (Google, Amazon, Facebook, Apple)

BIG DATA : ORIGINE

13

➢ Application possible à de très nombreux domaines (liste proposée par Wikipédia, juillet 2019) :

• information diffusée par les médias

• analyse tendancielle et prospective (climat, environnement, sociopolitique, etc.)

• gestion des risques

• génomique ou métagénomique

• médecine (compréhension du fonctionnement du cerveau, épidémiologie)

• météorologie et adaptation aux changements climatiques

• gestion de réseaux énergétiques complexes (via les « smartgrids » ou un futur « Internet de l'énergie »)

• écologie (fonctionnement et dysfonctionnement des réseaux écologiques)

• sécurité et lutte contre la criminalité

➢ Disponibilité des données : données personnelles, Internet des objets

➢ Pas de système de mesure complexe

➢ Coût (relativement) faible des données

BIG DATA : RAISONS DU SUCCÈS

14

3 conditions sont réunies pour faciliter l’exploitation des données :

➢ Données nombreuses et collectées automatiquement

➢ Données disponibles en ligne

➢ Moteurs de recherche puissants.

BIG DATA : PRINCIPE MOTEUR

15

➢ Méthodes d’agrégation à partir des bases de données existantes

➢ Outils puissants d’analyse : exemple de Google Analytics (service gratuit d'analyse d'audience d'un

site Web ou d'applications utilisé par plus de 10 millions de sites, soit plus de 80 % du marché

mondial)

➢ Emergence de métiers nouveaux :

• « data scientist”

• “chief data officer (CDO)”

BIG DATA : RECUEIL ET ANALYSE DE DONNÉES

16

➢ Recherche de relations entre les données,

sans d’abord distinguer les entrées, les

facteurs influents et les sorties : outils de

modélisation prédictive

BIG DATA : RECUEIL ET ANALYSE DE DONNÉES

➢ Outils puissants de « reporting » :

exemple de Crystal Reports (SAP)

43210-1-2-3

2

1

0

-1

-2

Première composante

Seco

nd

e c

om

po

san

te

Valeur moy. domicile

Emplois en serv. santé

Pop. employée

Années étude après bac

Population

Diagramme de double projection de Population; ...; Valeur moy. domicile

Feuille de travail : Données zones de recensement; 06/06/2014 15:39:44

17

➢ Intérêts économiques gigantesques :

• Mondialisation (taille des marchés)

• Personnalisation possible (publicité configurée pour le prospect)

➢Réponse à l’accélération des temps de mise sur le marché (besoin d’analyser

rapidement les premières données disponibles)

➢Accès direct aux données du prospect/client/usager :

• Pas de limite sur le terminal (PC / tablette / smartphone)

• Pas de limite de débit (texte / photo / vidéo…)

➢ Simplification de la vie quotidienne du fait de l’agrégation possible de

données très nombreuses (ex : Waze, Blablacar)

BIG DATA : ATOUTS DE L’APPROCHE

18

➢Ne pas corréler tout avec n’importe quoi

➢Connaître la nature des données qu’on manipule(relation avec la réalité)

➢ S’assurer de la qualité des données

➢Eviter que « big data » ne devienne « bug data » (« Les limites du big data »,cf.

https://www.piloter.org/business-intelligence/limites-big-data.htm) :

• 1) Disposer de suffisamment de données

• 2) Mettre en œuvre une infrastructure technologique à la pointe, au top

• 3) Une direction complaisante qui ferme les yeux sur la colonne "dépenses"...

• 4) S'assurer de ne pas regarder que son nombril...

• 5)... Et s'offrir les meilleurs experts !

BIG DATA : PRÉCAUTIONS

19

➢Menaces potentielles sur la vie privée :

• Risques de perte de vie privée, d’intimité

• Risques de totalitarisme(s)

• Risques de décisions à notre insu (et sans notre plein gré)

➢Nombreuses données purement déclaratives : risques de falsification

volontaire par l’usager (adresses mails, habitudes de consommation…)

➢Données de l’utilisateur gratuites… jusqu’à ce qu’il les monnaye !

➢Relation client-fournisseur : limites à la transparence (rapport de force)

BIG DATA : LIMITES DE L’APPROCHE

20

Questions / réponses4

Six Sgma : origine, raisons du succès, atous, limites, applications

Big data : origine, raisons du succès, atous, limites, applications

SOMMAIRE

Six Sigma : origine, raisons du succès, principe moteur, recueil et analyse de données, atouts, précautions, limites

1

Modélisation prédictive3

Big data : origine, raisons du succès, principe moteur, recueil et analyse de données, atouts, précautions, limites

2

21

➢ Lorsque les modèles obtenus par les statistiques d’inférence classiques donnent des

résultats insuffisants

• Le process exemple :

• La situation : Hausse inexpliquée de la consommation d’encre, R carré total obtenu à

peine supérieur à 50%, intervalles de confiance/prédiction très larges, résidus non

normaux (et donc effets non trouvés par le modèle).

MODÉLISATION PRÉDICTIVE : IDENTIFIER LE BESOIN

Impression

Conso totale encre dans les 4 couleurs quadri-

chromiques (C, K, M, Y), en mg/mm2

Réf. client (numéro de client)

Machine

Année

Trimestre

Nombre de tours

22

➢ Construction d’un arbre en minimisant à la fois le nombre de nœuds et l’erreur relative (exemple traité

avec le logiciel SPM de Minitab) :

MODÉLISATION PRÉDICTIVE : RÉDUIRE LE NOMBRE DE FACTEURS

23

➢Détermination des variables discriminantes :

MODÉLISATION PRÉDICTIVE : ALLER PLUS LOIN QU’EN SIX SIGMA

24

Apport de ce type d’analyse :

➢ On est en mesure de créer un arbre fondé sur les variables discriminantes

(facteurs influents) et leurs valeurs-seuils

➢ Pour chaque nœud intermédiaire ou terminal, on peut connaître les paramètres

statistiques (moyenne, écart-type…) de la réponse

➢ Ceci permet d’aller plus loin qu’avec un modèle d’ANOVA ou de régression

classique

➢ Il y a, bien sûr, de nombreuses autres possibilités selon la méthode de génération

de l’arbre.

MODÉLISATION PRÉDICTIVE : ALLER PLUS LOIN QU’EN SIX SIGMA (SUITE)

25

➢ Ceci remonte aux débuts de la statistique industrielle :

les 2 sources de la variation

• Causes spéciales / assignables

• Causes communes / aléatoires

MODÉLISATION PRÉDICTIVE : COMPRENDRE LA NATURE PROFONDE DES CAUSES / DES CHOSES

Walter A. Shewhart

26

➢ Les 9 pièges cités par Olivier Sibony :

• Le piège du storytelling (« Trop beau pour être vrai »)

• Le piège de l’imitation (« Steve Jobs, ce génie… »)

• Le piège de l’intuition (« Croyez-en ma longue expérience… »)

• Le piège de l’excès de confiance (« Just do it ! »)

• Le piège de l’inertie (« Tout est sous contrôle »)

• Le piège de la perception des risques (« Soyez des entrepreneurs ! »)

• Le piège des horizons de temps (« Le long terme, c’est dans longtemps »)

• Le piège du groupe (« Puisque tout le monde le fait »)

• Le piège du conflit d’intérêts (« Je ne dis pas ça parce que… »)

MODÉLISATION PRÉDICTIVE : EVITER LES BIAIS COGNITIFS

27

➢ JMP (SAS)

MODÉLISATION PRÉDICTIVE : UTILISER DES LOGICIELS AVANCÉS

➢ SPM (Minitab)

Graph Builder:

Profiler permettant

de simuler en temps réel:Analyse Exploratoire, très

visuelle

Partition pour recherche d’optimisation:

28

MODÉLISATION PRÉDICTIVE : PRENDRE EN COMPTE LES INTERACTIONS MÉTIER / S.I.

Consulter le stock

Passer une demande d’achat (le cas échéant)

Suivre la commande

Mettre à dispo du demandeur

Processus métier Processus S.I.

Module ERP « Stock/Inventaire »

Module ERP « Demande

d’achat »

Module ERP « Affectation »

Logisticien

Acheteur

Approvi-sionneur

Logisticien

E.R.P.

Workflow

29

➢ Froomkin (Standford Law Review, 2000) se demande si la vie privée n’est

pas déjà morte

➢ Révélations d’Edward Snowden (2013)

➢ « La nouvelle servitude volontaire - Enquête sur le projet politique de la

Silicon Valley » (Vion-Dury)

➢ Analyser dans le cadre d’une démarche managériale authentique (on dit

ce qu’on va faire, et pourquoi) et respectueuse (on dit ce qu’on conclut, et

on fait partager).

MODÉLISATION PRÉDICTIVE : RESTER ÉTHIQUE

30

➢ Roadmap de modélisation prédictive :

1. Collecter les données en prenant toutes les précautions nécessaires (travail

participatif avec les acteurs du processus, analyse terrain, élimination des biais,

etc.)

2. Analyser ces données par les méthodes d’inférence classiques (corrélations

multivariées, ANOVA, plans d’expérience le cas échéant)

3. Statuer sur les insuffisances du modèle obtenu

4. Construire un arbre

5. Simplifier l’arbre, en convergeant vers le meilleur compromis simplicité/utilité

6. Déterminer les relations d’influence utiles pour améliorer le processus

7. Identifier la « solution statistique » (jeu de valeurs des paramètres influents)

MODÉLISATION PRÉDICTIVE : DÉMARCHE PROPOSÉE (RÉCAPITULATIF)