Cartographie du big data

Cartographie du big data29 septembre 2015

Arnaud Cogoluègnes

Data Science

Hadoop

MapReduce

Machine Learning

Architecturelambda

Cascading

Big Data

Fondamentaux du Big Data

Retour vers le futur : SGBDR

Les garanties ACID

Standard, portable

SQL-86 ... SQL:2011

select * from Book

Un point d’intégration

Image : http://www.eaipatterns.com/SharedDataBaseIntegration.html

Une fausse bonne idée ?

Image : http://www.eaipatterns.com/SharedDataBaseIntegration.html

Casser le monolithe

Services

Application A Application B Application C

Le web, comment scaler ?

Corrélation

Prédiction

Adaptabilité

StockagePlus de données

Temps réel

Exploitation

Réactivité

Extraction

Technologies Big Data

http://crimsonrain.org/hawaii/index.php?title=File:Google-datacenter_2.jpg

Hadoop, un système distribué

Système de fichiers distribué : HDFSAPI de programmation : MapReduce, YARN

Hadoop

MapReduce, YARN

Votre application

MapReduce, YARN

Votre application

Tolérant aux pannes

Scalable

Formats de fichiers

Compression

Blocs, datanodes, namenode

file.csv B1 B2 B3 fichier composé de 3 blocs (taille par défaut d’un bloc : 128 Mo)

B1 B2 B1 B3

B1 B2 B2 B3

DN 1 DN 2

DN 4DN 3les datanodes stockent les blocs(le bloc 3 est ici sous-répliqué)

B1 : 1, 2, 3 B2 : 1, 3, 4B3 : 2, 4

Namenode

le namenode gère les méta-données et s’assure de la réplication

HDFS, les limitations

Fichiers “append-only”Bien pour “write once, read many times”

Peu de gros fichiers, bienPlein de petits fichiers, pas bien

MapReduce

Votre application

Simple

Scalable

Jointure, distinct, group by

MapReduce

file.csv B1 B2 B3

Mapper

Reducer

k1 [v1,v2]

Le code va à la donnée

file.csv B1 B2 B3

Mapper

Reducer

k1 [v1,v2]

B1 B2 B1 B3

B1 B2 B2 B3

DN 1 DN 2

DN 4DN 3

Hadoop 1

MapReduce

Hadoop 2

MapReduce Votreapplication

MapReduce, les limitations

Code bas niveauRé-utilisation difficile

Préférer les abstractions comme CascadingPeu flexible et limité

Les successeurs de MapReduce

SparkTez

Plus flexiblesPlus “simples”

Comment stocker ?

Formats de fichiers

Compression

Parquet

SequenceFile

Pas de compression

Snappy

Deflate

La panoplie

YARN/MapReduce/Tez

API-based(Spark, Cascading, Flink)

HiveSQL

PigScript ETL

Votre application

YARN Mesos Cluster natif

Apache TezMapReduce nouvelle génération

CascadingAPI Java

HiveSQL

PigScript ETL

Votre application

Cascading

Votre application

MapReduce Tez Flink Hazelcast

Production-ready En cours

Big Data in Action

Architecture lambda : objectifs

● Tolérant aux pannes● Latence faible● Scalable● Générique

● Extensible● Requêtes “ad hoc”● Maintenance minimale● Debuggable

Layers

Speed layer

Serving layer

Batch layer

Speed layer

Serving layer

Batch layer

Stockage des données.Création des vues.

Serving layer

Speed layer

Serving layer

Batch layer

Accès aux vues batch.

Speed layer

Serving layer

Batch layer

Accès temps réel.

Architecture lambda

Flux de données

Broker Traitementtemps réel

Données(append-only)

Traitement batch

Vues batch

Vues temps réel

Application

Serving

Batch layer

Speed layer

Serving layer

Batch layer

Hadoop (MapReduce, HDFS).Thrift, Cascalog.

Serving layer

Speed layer

Serving layer

Batch layer

ElephantDB, BerkeleyDB.

Speed layer

Serving layer

Batch layer

Cassandra, Storm, Kafka.

Architecture lambda complète

Flux de données

Traitement batch

Vues batch

Vues temps réel

Application

Serving

Application ETL - reporting

Flux de données

Traitement batch

Vues batch

Application

Serving

Application temps réel

Flux de données

Vues temps réel

Application

Jointure flux et référentiel

Hadoop

Traitement(jointures, transformation)Flux

Reporting,exploration

Données de référence

Gestion de données

Données brutes Données parsées

Traitement et insertion

Archives Vues Transformations

Avro, GZIPRétention permanente

Parquet, SnappyRétention 2 ans glissants Traitement (Cascading)

HDFS BD temps réel

Hive, Pig, API-based

UDF : User Defined Function

+SQL (non-standard)Prise en main rapideExtensible avec UDF

-Testabilité médiocreRéutilisabilité médiocrePas de contrôle du flotLogique disséminéeProgrammation par UDF

+Pig LatinPrise en main rapideExtensible avec UDF

-Testabilité médiocreRéutilisabilité médiocreLogique disséminéeProgrammation par UDF

API-based(Spark, Cascading, Flink)

+API JavaTestable unitairementContrôle du flotBonne réutilisabilité

-Programmation nécessaire

Les outils SQL (Hive, Spark SQL)

A utiliser une fois les données traitéesBien pour l’exploration

Ou pour les traitements très simplesConnecteurs JDBC (pour le reporting)

Outils intermédiaires (Pig)

Peut contenir de la logiquePig Latin simple d’accès

Adapté à des traitements “one-shot”...(ex. : rapports)

API-based (Spark, Cascading, Flink)

Pour les traitements plus complexesParsing, jointure, nettoyage, dé-duplication, etc

En amont de l’exploration, du reporting

Temps réel

“Stream processing”Flux d’événements

Traitements parallélisésEcriture dans une BDLatence ~ 1 seconde

Temps réel - approche “classique”

Queues et consommateurs (“workers”)Coordination des workers

Failover à implémenter

Consommateur

Topologie Storm

Source de données(ex. : Kafka)

Traitement(ex. : filtre, aggrégation,

count, etc)

TopologieSource : https://storm.incubator.apache.org/

Parallèle et tolérant à la panne

Temps réel - outils et considérations

Delivery semantics

One-at-a-time

StormSpark Streaming

Micro batch

Déploiement

Langages supportés

Maturité

Monitoring

Datacenter abstrait

Abstrait, mon datacenter?

Additionner les serveurs/VMAvoir un ensemble de ressources (CPU, RAM)Demander de la ressource pour une application

Le système se charge de la distribution

Les solutions techniques

MesosKubernetes

Optimisation des ressourcesGrande maturité de déploiement nécessaire

Projet open source, fondation ApacheMature

Utilisateurs : Twitter, Apple, Viadeo, AirbnbAdapté au Big Data et aux Microservices

Architecture de Mesos

Source : http://mesos.apache.org/documentation/latest/mesos-architecture/

Architecture de Mesos

Source : http://mesos.apache.org/documentation/latest/mesos-architecture/

“Frameworks” Mesos

Jenkins

Hadoop

StormMarathon

ElasticSearch

ChronosCassandra

Cluster Mesos

Marathon sur Mesos

Mesos and co, warning

Travail en amont nécessaire !Packaging automatiqueDéploiement automatique

Data Science

Statistiques

Médiane

Distribution

Ecart-typeTendances

Moyenne arithmétique

Five-number summary

“Scatterplot matrix”

Source : http://cdn-ak.f.st-hatena.com/images/fotolife/t/triadsou/20130124/20130124110747.png

Machine learning

Clusteringk-Nearest Neighbors

(k-NN)

ClassificationModèles

Prédiction

Régression linéaire

k-meansArbre de décisions

Big data, data science, etc!

Données brutes

Donnéestraitées

Nouveau produit

Communication

Exploration

Modèle,statistiques

Décisions

Données brutes

Donnéestraitées

Nouveau produit Communication

Exploration

Décisions

Utilisateurs, capteurs, ...

Données brutes

Donnéestraitées

Exploration

Décisions

JSON, XML, messages, etc...

Données brutes

Donnéestraitées

Exploration

Décisions

Parsées, dé-doublonnées, triées, jointées, ...

Spark, Cascading, Python

Données brutes

Donnéestraitées

Exploration

Décisions

Faire connaissance avec les données

R, Python, Spark, Hive, Notebooks (IPython, Zeppelin)

Données brutes

Donnéestraitées

Exploration

Décisions

Spark MLib, Python SciKit, R, Weka, ...

Classification, prédiction, ...

Données brutes

Donnéestraitées

Exploration

Décisions

Reporting, visualisation, ...

Données brutes

Donnéestraitées

Exploration

Décisions

Filtre anti-spam, moteur de recommandations, ...

Données brutes

Donnéestraitées

Exploration

DécisionsInfluence sur les données

Conclusion

Pour résumer

Pensez au cloud pour le prototypageHadoop n’est pas un SGBDR

Adoptez une approche agile et itérativeNe négligez pas l’industrialisation des dév.

Merci !

Questions ?

Cartographie du big data

Technology

Lancement du concours de cartographie imaginaire 2018

CONTRIBUTION DU SERVICE DE LA CARTOGRAPHIE ÉCOLOGIQUE

CARTOGRAPHIE DES RISQUES INDUSTRIELS DU …cinqcontinents.geo.unibuc.ro/5/5_12_Cherif.pdf · cartographie des risques industriels du dÉpot pÉtrolier À hussein dey, alger (algÉrie)

Cartographie de la République Démocratique du Congo Carte ...pdmaeyer/sygiap/JL_CartoGeologCongo_20060330.pdf · Cartographie de la République Démocratique du Congo GÉOLOGIE

Cartographie le cas du katanga

Cartographie du risque infectieux au bloc opératoire

working paper cartographie du flux de valeur V3 - …lysippe.com/IMG/pdf/working_paper_cartographie_du_flux_de_valeur... · Cartographie du Flux de valeur – Value Stream Mapping

Cartographie participative du quartier de Canteleu à

CARTOGRAPHIE DYNAMIQUE DU RISQUE D INONDATIONS EN …

Cartographie de l'exploitation minière artisanale du

Cartographie Du Processus GPI.1doc

Cartographie du pétrole en Afrique de l'Ouest

CENTAI : Big Data & Big Analytics...Données massives et dynamiques 10GB/s • Cartographie dynamique et passive du SI • Détection et investigation des attaques contre le SI Données

Cartographie géodynamique à grande échelle du bassin

Changements climatiques : Identification et Cartographie du degré

SOMMAIRE 1 CARTOGRAPHIE PROCESSUS DU LABORATOIRE 4

LA CARTOGRAPHIE DU PHHIE DU FINANCEMENTproxy.siteo.com.s3.amazonaws.com/... · 2011-04-19 · 22 Chapitre 2 LA CARTOGRAPHIE DU FINANCEMENT PHHIE DU GUIDE DES MISSIONS DE L’EXPERT-COMPTABLE

Intitulé du Module : Cartographie Spécialité : L3 Ecologie

CARTOGRAPHIE DU POTENTIEL RADON DES ......CARTOGRAPHIE DU POTENTIEL RADON DES FORMATIONS GEOLOGIQUES – 30 mars 2011 4/23 Contexte Cartographie du potentiel radon des formations géologiques

ANALYSE D'UNE démarche de cartographie du risque