38
Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO Big Data: Concepts, techniques et démonstration de Apache Hadoop Jalel Eddine HAJLAOUI [email protected] TB3C-ISSATSO 12 Décembre 2015 Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 1 / 38

Big Data: Concepts, techniques et démonstration de Apache Hadoop

Embed Size (px)

Citation preview

Page 1: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Big Data: Concepts, techniques et démonstration deApache Hadoop

Jalel Eddine [email protected]

TB3C-ISSATSO

12 Décembre 2015

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 1 / 38

Page 2: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Plan

Plan

1 Motivation et Concepts

2 Techniques

3 Démonstration de Hadoop

4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 2 / 38

Page 3: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 3 / 38

Page 4: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 4 / 38

Page 5: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

La vision d’un entrepreneur

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 5 / 38

Page 6: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

La 3ème Révolution Numérique : Vision d’expertise etde Consulting

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 6 / 38

Page 7: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

3ème Révolution Numérique

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 7 / 38

Page 8: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

Technologie de pointes [Gartner et Atos]

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 8 / 38

Page 9: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

Les nouveaux métiers de l’économie numérique : BigData, big jobs ?

Altaide : Explosion du nombre d’offres d’emploi en 2015

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 9 / 38

Page 10: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

Le TOP 10 des nouveaux métiers du digital

1- Data Scientist2- Chef de projet Web mobile3- Chef de projet e-CRM4- Responsable de la stratégie mobile5- Directeur marketing digital6- Chargé de communication Web et digital7- Consultant Web analytique8- Community manager interne et externe9- Consultant e-réputation10- Chef de projet technique Web

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 10 / 38

Page 11: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

Les métier Big Data [Altaide]

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 11 / 38

Page 12: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Motivations Big Data

Big Data: Buzz ou Sujet de fond?

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 12 / 38

Page 13: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Concepts de Big Data

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 13 / 38

Page 14: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Concepts de Big Data

Définition du Big Data

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 14 / 38

Page 15: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Concepts de Big Data

Les 5 V du Big Data [Atos]

Volume - Vélocité - Variété - Véracité - Valeur

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 15 / 38

Page 16: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Concepts de Big Data

Divers sources de données

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 16 / 38

Page 17: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Concepts de Big Data

Zoom sur la variété de données

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 17 / 38

Page 18: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Motivations et Concepts

Concepts de Big Data

Le Big Data : une notion contextuelle

La notion de Big Data présente un contexte offrant un potentield’évolution des aspects techniques et métiers (Opérationnel et BI).

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 18 / 38

Page 19: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 19 / 38

Page 20: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Évolutions Technologiques (NoSQL et NewSQL

2004: Google et Amazon font face à une croissanceexponentielle des données: Création de BigTable, GFS etMapReduce (Besoin de performance et de scalabilité-ApprocheNOSQL)

2008: Publication des codes par Google

2008-2011: Adoption par les secteurs du WEB d’un clone OpenSource nommé HADOOP à la suite de la concurrence par Google.

2011: Adaptation des offres éditeurs de solution pour lesEntreprises à HADOOP.

2012: Prise de conscience par la communauté SQL des besoinsde performance et de scalabilité (NewSQL: refonte del’architecture des bases relationnelles)

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 20 / 38

Page 21: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Hadoop et son système de fichiers distribués

Des infrastructures de serveurs pour distribuer les traitements surdes dizaines, centaines, voire milliers de noeuds.C’est ce qu’on appelle le traitement massivement parallèle. LeFramework Hadoop est constitué d’un ensemble de modulesdéveloppés pour répondre à des besoins précis :

Stockage des données : HDFS (système de fichier distribué -Hadoop Cluster)

Couche traitement de données : MapReduce (distribution destraitements), Apache Spark

Modules complémentaires : Hbase, Hive, Solr, Pig, Oozie,Impala, Mahout, Sqoop, Langage R,

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 21 / 38

Page 22: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Le système Hadoop

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 22 / 38

Page 23: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Le système Hadoop

Histoire de Hadoop et de son créateur

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 23 / 38

Page 24: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Le système Hadoop

L’incontournable Hadoop: Caractéristiques

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 24 / 38

Page 25: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Le système Hadoop

Le framework Hadoop: Ecosystème et Distributions

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 25 / 38

Page 26: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Principes et fonctionnement

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 26 / 38

Page 27: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Principes et fonctionnement

Utilisation d’un système Hadoop : les différentesétapes

1 et 2: Recopier les données/algorithmes vers HDFS

3: Démarrer le système Hadoop

4: Récupérer le résultat au disque local de l’user

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 27 / 38

Page 28: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Principes et fonctionnement

Détail de l’étape Exécution

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 28 / 38

Page 29: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Principes et fonctionnement

Détail de l’étape Exécution des calculs

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 29 / 38

Page 30: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Principes et fonctionnement

Découpage des données d’un problème dedénombrement

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 30 / 38

Page 31: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Techniques

Principes et fonctionnement

Résultats obtenus avec l’algorithme Reduce pour ledénombrement

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 31 / 38

Page 32: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Démonstration de Hadoop

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 32 / 38

Page 33: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Démonstration de Hadoop

Architecture applicative Hadoop (1)

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 33 / 38

Page 34: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Démonstration de Hadoop

Architecture applicative Hadoop (2)

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 34 / 38

Page 35: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Démonstration de Hadoop

Exemple MapReduce

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 35 / 38

Page 36: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Conclusion

Plan

1 Motivation et Concepts• Motivations de Big Data• Concepts de Big Data

2 Techniques• Le système Hadoop• Principes et fonctionnement

3 Démonstration de Hadoop4 Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 36 / 38

Page 37: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Conclusion

Exemple MapReduce

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 37 / 38

Page 38: Big Data: Concepts, techniques et démonstration de Apache Hadoop

Big Data: Concepts, techniques et démo de Apache Hadoop - TB3C-ISSATSO

Conclusion

Jalel Eddine HAJLAOUI TB3C-ISSATSO 12 Décembre 2015 38 / 38