13

Click here to load reader

Présentation Talend Open Studio

Embed Size (px)

DESCRIPTION

Présentation du concept des ETL et quelques pas avec Talend

Citation preview

Page 1: Présentation Talend Open Studio

INTÉGRATION DE DONNEES AVEC UN ETL OPEN SOURCE : OPEN STUDIO TOS

Presenté par LASSEY horacio ([email protected])

Page 2: Présentation Talend Open Studio

Agenda

� C’est quoi un ETL

� Présentation de Talend Open Studio

� Avantages des solutions ETL

� Critères de sélection d’un ETL� Critères de sélection d’un ETL

� Démo : création de quelques jobs talend

� Conclusion

Page 3: Présentation Talend Open Studio

C’est quoi un ETL

� ETL est l’acronyme de Extract Transform Load. Un ETL combine en elle seule trois fonctionnalités : extraction depuis une source de données , la transformation des données issues de l’étape précédente et enfin le load (chargement) dans une précédente et enfin le load (chargement) dans une nouvelle source de données.

� On utilise les ETL pour les projets d’intégration de données (structure BI), de synchronisation de sources de données, migration de données etc…

Page 4: Présentation Talend Open Studio

Presentation de Talend Open Studio

� TOS est un ETL de la société Talend

� C’est un projet open source

� C’est une application Eclipse plateforme

� Première version en 2005� Première version en 2005

� C’est un ETL générateur de code (Java, Perl )

Page 5: Présentation Talend Open Studio

Avantages des solutions ETL

� Dans un environnement décisionnel une partie des besoins ne survient qu’après la mise en production. Il faut pouvoir adapter rapidement son code ETL au nouveau des utilisateurs tout en gardant une bonne qualité du codequalité du code

� Nécessité de transformer certains données opérationnelles

� Il faut pouvoir stocker les metadata des transformations

� La plupart des solutions ETL propose des exécutions en parallèle et du multi-threading ce qui les rend plus performants qu’un code simple

Page 6: Présentation Talend Open Studio

Avantages des solutions ETL (suite)

� Accès à des sources de données très diversifiées et intégration des fonctions de filtre, agrégation etc.

� Gestion centralisée des metadata

� Utilisation d’interface graphique conviviale pour � Utilisation d’interface graphique conviviale pour exécuter les tâches ETL

Page 7: Présentation Talend Open Studio

Critère de sélection d’un ETL

� Type d’ETL : code generator, database-embedded, engine based

� Connecteur natif : SAP, salesforce, XML, etc

� Les temps d’exécution.� Les temps d’exécution.

� Type de déclencheur ( temps réel , sur évènement , batch)

Page 8: Présentation Talend Open Studio

Démo : création de quelques jobs talend

� Job step1

� Présentation d’un job talend

� Utilisation des statistiques

� Utilisation des traces� Utilisation des traces

Page 9: Présentation Talend Open Studio

Démo : création de quelques jobs talend(suite)

� Job step2

� Utilisation de tMap pour se connecter à des sources multiples de données

� Utilisation des métadonnées

Page 10: Présentation Talend Open Studio

Démo : création de quelques jobs talend(suite)

� Job step3

� Orchestration et gestion des flows

Page 11: Présentation Talend Open Studio

Démo : création de quelques jobs talend(suite)

� Job step4

� Gestion des erreurs et déploiement des jobs

Page 12: Présentation Talend Open Studio

Conclusion

� Le choix d’un etl est très influencé par le projet que l’on fait et le contexte

� Mais pour faire son choix il faut tenir compte :� Connecteurs natifs

� du temps de traitements� du temps de traitements

� du type d’etl ( générateur de code, moteur de transformation, etc)

� du type de déclencheur

� Il existe plusieurs ETL open source : Talend , Pentahodata Integration etc pour s’essayer et faire la preuve du concept

Page 13: Présentation Talend Open Studio

Références

� www.talend.com

� The Data Warehouse ETL Toolkit, Ralph Kimball & Joe Caserta