Upload
liege-creative
View
433
Download
3
Embed Size (px)
DESCRIPTION
Le datamining n'est pas un domaine neuf : il est pratiqué par les grandes entreprises depuis de nombreuses années. Les outils d'analyse de données traditionnels nécessitent des compétences rares et des investissements informatiques importants qui les rendent hors de portée des petites entreprises. Des avancées technologiques récentes changent cependant la donne. Une nouvelle génération d'outils logiciels permet de mobiliser, à moindre coût, de grandes quantités de puissance de calcul et de stockage pour le traitement de données. Dans le même temps, des logiciels d'analyse plus faciles à appréhender et à la diffusion rapide (notamment grâce à l'Open Source) sont apparus.
Citation preview
Parole d’expert
Le BigData, aussi par et pour les PMEs
Stéphane MOUTON, CETIC Département Software and Services Technologies
Avec le soutien de :
© CETIC – www.cetic.be
LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs
Stéphane Mouton CETIC
1
© CETIC – www.cetic.be
Internet du Futur
Qualité Logicielle
Internet des Objets
Technologie Information Communication
Centre de recherche appliquée agréé
Méthodes & outils utilisables
Résultats innovants
2001
40 chercheurs
© CETIC – www.cetic.be
Au début, les ressources étaient rares
© CETIC – www.cetic.be
Des technologies adaptées à la rareté des ressources
ACQUISITION & EXTRACTION DES DONNEES
STOCKAGE (DATAWAREHOUSE)
PRE-TRAITEMENT & REQUETES
ANALYSE BI & VISUALISATION
WO
RKFL
OW
DONNÉES STRUCTURÉES
© CETIC – www.cetic.be
Puis le stockage est devenu abordable
© CETIC – www.cetic.be
Le Big Data vient de l’Internet
Amazon -> Données produits et clients Yahoo! -> Tracking et profilage utilisateurs Microsoft -> Stockage Facebook -> Données utilisateurs Twitter -> Messages LinkedIn -> Profils et liens entre utilisateurs Google -> A peu près tout ce qui est ci-dessus
© CETIC – www.cetic.be
Mais tout le monde n’est pas Twitter, Facebook, …
© CETIC – www.cetic.be
BigData: consensus autour d’une definition
Volume Vitesse Variété
(Valeur) (Véracité) (Visualisation) * *Ajoutez votre “V” ici
© CETIC – www.cetic.be
Un concept relatif
Volume: How big is big? Velocity: How fast is fast? Variety: How diverse is diverse? Valable maintenant et dans un futur proche …
© CETIC – www.cetic.be
Un bond technologique
Amazon -> Dynamo Yahoo! -> HBase, Hadoop Microsoft -> Azure Storage Facebook -> Cassandra -> HBASE Twitter -> Cassandra LinkedIn -> Voldemort Google -> BigTable ...
© CETIC – www.cetic.be
De nouvelles technologies de bases de données
© CETIC – www.cetic.be
Une pile logicielle Big Data
SCALABILITÉ
STOCKAGE
PRE-TRAITEMENT & REQUETES
ANALYSE BI & VISUALISATION
WO
RKFL
OW
DONNÉES STRUCTURÉES
DONNÉES NON STRUCTURÉES
ACQUISITION & EXTRACTION DES DONNEES
© CETIC – www.cetic.be
Scalabilité : distribution des calculs / traitements
Chien Ane Serpent Chat Chat Serpent
Chien Chat Ane
Chien Ane Serpent
Chat Chat Serpent
Chien Chat Ane
Chien,1 Ane, 1
Serpent, 1
Chat,1 Chat, 1
Serpent, 1
Chien,1 Chat, 1
Ane, 1
Ane, 1 Ane, 1
Chat, 1 Chat, 1
Chat, 1
Chien, 1 Chien, 1
Serpent, 1 Serpent, 1
Ane, 2
Chat, 3
Chien, 2
Serpent, 2
Ane, 2 Chat,3
Chien, 2
Serpent, 2
Input Entrée
Map Appliquer
Split Séparer
Shuffle Mélanger
Reduce Réduire
Final result Résultat final
1 machine maître, plusieurs machines esclaves
© CETIC – www.cetic.be
Une autre manière d’analyser les données
source :
© CETIC – www.cetic.be
Et pour les PME ?
© CETIC – www.cetic.be
Des outils plus abordables
Source: O’Reilly
© CETIC – www.cetic.be
Et le Cloud Computing ?
• Réduire les investissements • Déployer sur le Cloud
pour un paiement à l’utilisation
• Outils BigData prêts à l’emploi • Plateforme : pour bâtir
Exemple : Hadoop on Azure • Service : pour analyser
Exemple : Google BigQuery
• Pouvoir disposer de ressources informatiques importantes
© CETIC – www.cetic.be
Opportunités du Big Data
• Améliorer les services existants • Utiliser des données inexploitées pour améliorer les
analyses et résultats • Fournir les mêmes informations mais mieux (plus rapide, plus
précis, moins cher, …)
• Développer de nouvelles activités • Traiter des données produites par l’entreprise et
éventuellement d’autres sources pour fournir de nouveaux services.
Exemple : bookt.com service aux hôteliers
© CETIC – www.cetic.be
Définir une stratégie BigData
• Passer en revue les données Sources, Flux, Valeur
• Evaluer l’utilisation de données peu ou semi structurées Textes, graphique, images, feuilles de calcul
• Choisir les technologies appropriées Choisir l’angle d’attaque technologique du problème Réaliser une preuve de concept
• Définir une utilisation business mesurable / évaluable • Eviter de traiter la donnée pour la technologie • Eviter les « décharge de données » • Etude Wikibon : danger de retour sur investissement négatif
© CETIC – www.cetic.be
Prêts ?