Upload
romain-jouin
View
107
Download
0
Tags:
Embed Size (px)
Citation preview
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
Big Data l Analytics l DataViz
Introduction aux technologiesBig Data
2Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
3BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Cette année nous fêtons les 80 ans de l’informatique
• 1934 : Alan Turing
• 1968 : Intel
• 1972 : Internet
• 1977 : Oracle
• 1992 : Internet = 1 million de PCs
• 1995 : MySQL / PostGreSQL
• 1996 : Internet = 36 millions de PCs
• 2000 : Internet = 360 millions de Pcs
• 2007 : Iphone
• 2015 : 2 milliards de smartphones
• 2020 : 50 milliards d’objets connectés ?
Limit MySQL PostGreSQL MongoDB OracleDatabase Size Limité par l'OS Unlimited 128 TB
Table Size 16 TB 32 TB Row Size 65 000 bytes 1.6 TB Field Size … 0,06Mb 1 GB 16 Mb
Rows per Table illimiteds Unlimited 4b or illimited Columns per Table 85 250 - 1600 Indexes per Table Unlimited unlimited
4BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
% de personnes se connectant à internet
5BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Où vont les données ? Sur des disques !
6BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La meilleure config sur Rue du Commerce : 60 To
➢ Les interfaces de connexion au disque dur:• IDE-ATA : 133 Mo/s ( obsolète )• SCSI : de 5 à 600 Mo/s ( intelligent, plus rapide, standardisé )• S-ATA : de 150 à 600 Mo/s ( standard actuel )
➢ Carte mères : 500 eur• 2 x SATA3 6.0 Gb / s• 8 x SAS2/SATA3 6.0 Gb / s
➢ Taille des disques : 6 To – 300 euros
➢ Configuration : 60 To max / 3500 euros
➢ Temps de lecture : • Théorique : 10 000 secondes / 2.7 heures • Pratique : Deux ou trois fois plus lent : environ 9 heures
IDE-ATA
SCSI
S-ATA=> Combien de temps pour tout lire ?
7BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
IBM Benchmark ( 2011) : 480 disques !
480 disques de 146 Gb : 71 Tb
15 K RPM14 Gb / s5 000 secondes pour tout lire : 80 minutes ! => Combien de temps pour tout lire ?
=> A quel prix ?
8BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Mean Time Before Failure
100 disques | MTBF 5 ans = 20 pannes / anSoit un disque à changer toutes les 2 semaines.
Risques :1. Coût2. Instabilité du système3. Perte d’information !
Hadoop résout le MTBF en déduplicant la donnée : replication factor = 3
Si un disque tombe en panne, on retrouve l’information sur un des deux autres disques.
9BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
MTBF : Transformer un problème en atout
Lent (dédié au mode “batch”)
Pas cher(12 Keur/machine)mais redondant !
RapideMap (Sort) Reduce
mais complexe !
10BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Map-Reduce Algorihtm
MAP (MAGIC SORT) REDUCE (RESULT)
11Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
12BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des sources de plus en plus diverses
13BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La fin d’un monde
1950 - 20092015
JSON
14BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Formalisme JSON :
15BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Des caractéristiques différentes ...
1950 - 2009
2015
Online Transaction Processing
Transactions garantiesLecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / AccessPostGreSQL / MySQL
Online Analytical Processing
Pas de transactionsPrincipalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB HBase / Cassandra
16BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Pour de nouveaux usages :1950 - 2009
2015
Online Transaction Processing
Transactions garantiesLecture et écriture
Schéma défini
Banques / Systèmes de sécurité
Oracle / AccessPostGreSQL / MySQL
Online Analytical Processing
Pas de transactionsPrincipalement en lecture
Sans schéma
Sites Web / Applications non critiques
MongoDB / CouchDB HBase / Cassandra
17BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Un vocabulaire qui change :
1950 - 2009
2015
Online Transaction Processing
MCD / Schéma / RelationnelUML / MERISE
Référentiel / dictionnaires de donnéesSQL Triggers
Silos / Logiciels / Licences / BI
Online Analytical Processing
NoSQL / Schemaless
Machine Learning / PrédictifApprentissage (Non) Supervisé
Partage / API / Open Sources / Dashboard / Data Visualisation
18Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-System Hadoop4
1
19BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
La RAM est jusqu’à 70 fois plus rapide que le disque en écriture et 50 fois en lecture
20BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
21BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
22BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Support matters
x 388
x 777
x 1314
23BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
24BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
25BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
26BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
27BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
20 € / Tb
28BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
29BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Lambda architecture
9 000 € / Tb
20 € / Tb
30Copyright © Data-Business.fr. BIG DATA – ESILV – Septembre 2014
Cheminement du cours
Volume
Variété2
Vitesse3
Eco-système Hadoop 4
1
31BIG DATA – ESILV – Septembre 2014
Coordination complexe dans les Systèmes Parallèles
Loi d’Amdhal :Soit un programme :
• P = % possible en parallèle sans synchronisation (dans [ 0, 1[ )• N = nombre de processeurs• 1 = durée nécessaire pour effectuer l’algorithme avec un processeur
Gain possible en temps : • Gain sur P = P/N < P < 1• Partie sur laquelle on ne peut rien gagner : 1 – P < 1• Durée nécessaire : (1-P) + P/N <1• Accélération possible : 1 / Durée nécessaire > 1
• Exemples :• 95% parallélisable : P = 0.95• 100 processeurs : N = 100• Accélération = 1 / ( 0.05 + 0.95/100) = 16,8 fois plus rapide• Avec 50 processeurs : 1 / (0.05 + 0.95/10) = 14,5 fois plus rapide
32BIG DATA – ESILV – Septembre 2014
Rendez vos codes Parralélisables !
33BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 1.0
34BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
HADOOP 2.0
35BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Zookeeper
36BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Front - End
37BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
D3JS
38BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
Présentation de Memorandum.pro
▪ Fondateur cabinet Mémorandum▪ Alcatel-Lucent, Toshiba Services▪ ESCP, Télécom Paris
Romain Jouin
▪ Développement informatique▪ Développement commercial▪ Stratégie Big Data▪ Analyse de données
COMPÉTENCES
▪ Jaccede.com – gestion d’infrastructure▪ EDF – E-reputation▪ Toshiba –1ère plateforme de Cloud Computing▪ Alcatel – Développement commercial Ex-URSS
SELECTION DE PROJETS RECENTS
• Cabinet de conseil en Stratégie Big Data
• Expertise Usages et Applications Big Data
• Missions de conseil et formations
• Développement logiciel
• Gestion d’industrialisation Big Data
39BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
History
41BIG DATA – Meetup Introduction aux Technologies Big Data– Février 2015
La base :
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
06.52.86.87.30