La data n’a pas besoin d’être « big » pour générer de la valeur

Preview:

DESCRIPTION

Les entreprises sont de plus en plus nombreuses à s’intéresser au big data : Beaucoup y voit le graal qui leur permettra de sortir de la crise. Oui mais voilà, les Big Data entrent dans des critères de volume, véracité, variété et de vélocité (4V) bien précis et tellement importants (voire même hors norme) qu’elles ne concernent finalement qu’une très faible partie des projets d’exploitation de données. Faut-il pour autant exclure les entreprises ou les projets dont les cas d’usage n’entrent pas dans ces critères ? Nous allons démontrer dans le cadre de cette session et sur la base d’exemples concrets comment les données, même en volume limité et aussi dispersées soient-elle, renferment un gisement de valeurs considérable pour l’entreprise : à condition de respecter certains fondamentaux et prérequis pour pouvoir les faire parler. Retour d’expérience avec Anne LAURENT, directrice du centre HPC@LR à Montpellier, centre de compétences dévolu au calcul intensif (High Performance Computing) Session présentée par le partenaire : Isiasoft. Speakers : Fabienne Amadori (Isiasoft), Anne Laurent (CNRS )

Citation preview

La data n'a pas besoin d'être « big » pour générer de la valeur

Fabienne AMADORI ISIASOFT

famadori@isiasoft.com

Anne LAURENTLIRMM (UM2 – CNRS)

laurent@lirmm.fr

Big Data,l’un des plus grands défis informatiques de la décennie

“Big data: The next frontier for innovation, competition, and productivity” (McKinsey Global Institute).

L’enjeu du Big Data,Transformer les données en savoir

Expérimentation

Théorie

Simulation

Données

http://research.microsoft.com/en-us/collaboration/fourthparadigm/

Les « autres » données,Un gisement de valeurs

“Information has become one of the most valuable assets that organizations have.” (Gartner)

Dans la suite de cette session…

Tour d’horizon

Approche, étapes clés, arbitrages et écueils à éviter

Tous concernés par le big data

Data mining

Business Intelligence

Big Data

Data Visualisation

Data Science

Réseaux de neurones

Machine learning

Arbre de décision

Régression linéaire

Régression logistique

c2

BI Reporting

Qu’est-il arrivé ? Quand? Combien ?

Analyse prédictive

Que va-t-il arriver ? Quel va être

l’impact ?

Optimisation

Quel est le meilleur choix ?

La meilleure action

Cognitif

Intuitif Evolutif

Data science, Data mining, Exploration de données,….

Quelle corrélation entre bières et couches pour bébé ?

Big data« Petite » analyse lexicale

3V+Valeur

3V : Volume, Variété, Vélocité

3V+Visualisation

3V+ Véracité

3V+ …

Le calcul intensif Un outil stratégique pour la science, l’industrie …

http://nirvacana.com/thoughts/becoming-a-data-scientist/

5. Text Mining / NLP

1. Fundamentals

4. Machine Learning

6. Visualization

9. Data Mining

8. Data Ingestion

10. Toolbox

7. BigData

3. Programming2. Statistics

Exploration des données…Retour d’expérience sur un projet

Collecter

Consolider et nettoyer les données

Explorer

Découvrir et analyser

Réinjecter la connaissance dans les process

Hétérogénéité technique

Hétérogénéité fonctionnelle

Hétérogénéité des déploiements

Véracité des données

Connaissance fonctionnelle….

Consolidation et nettoyage des données

Hétérogénéité technique

Bases de données Fichiers CSV, log… Progiciels

Web servicesRéseaux sociaux

Hétérogénéité fonctionnelle

Produit

R&D, prototypage

Design,Packaging, Marketing

ProductionMarketing,Distribution

SAV

Connaissance fonctionnelle

REGPZCV REGPATI REGUPP ... REGUCI REGGEN

56 20091213 0 4 0,256

33 20090615 1 4 0,358

… … … … … …

42 20081114 1 2 0,199

Validité des données

Consolidation et nettoyage des données

SAVR&D,

prototypage

Design,Packaging, Marketing

Production Marketing,Distribution

CharacteristicsFormulation Class

Produit Na+ K+ Cl- Claims

… … … … …

AER234 0,4087429 0,5980998 0,6190223 No

AAI254 0,3202395 0,598452 0,6179289 Yes

AAI256 0,3506248 0,60179 0,6969146 No

AAD472 0,3521515 0,6492974 0,5481292 No

… … … … …

Hétérogéniété des déploiements

SAV R&D, prototypage

Design,Packaging, Marketing

Production

Marketing,Distribution

2001

2010

20072010

2013

2006

2002Indicateurs qualité

Neural Network• MultiLayerPerceptron

Decision Tree• C4.5

Bayes Net

InfoGain

ChiSquared

Filtered

SymmetricalUncert

ReliefF

OneR

Ranking strategies Algorithms

De nombreuses stratégies, de nombreux algorithmes…..

Color

freshness & Smell

Surface Quality

Riboflavin

Choline

Folic acid

Claims

Réseau de Neurones

Algorithme génétiqueEntrainement des réseaux de neurones

Sélections des meilleurs

réseaux

Héritage par re-

combinaisonsMutation

Nouvelle génération

1ère

génération

Application spécifique développée en WPF

Axes d’améliorations identifiés

Bilan du projet

Freins levés

Démarche à moindre coût

Synergie entre monde de l’entreprise et la recherche

Enveloppe financière raisonnable

En synthèse

Démarche globale et impact sur l’organisation

Qualité des données

Compétences requises

Not so Big data : 3V + Vous…Une démarche sur mesure

Des questions ?

Vous avez d’autres questions ou vous souhaitez prolonger cet échange ISIASOFT Stand 6 bis (espace exposants) www.isiasoft.com

Recommended