Upload
lyliem
View
216
Download
0
Embed Size (px)
Citation preview
1
Big DataThe Big Picture
Recolección y tratamiento de datos masivos de orígenes diversos, que representan una fuente constante para el análisis y descubrimiento de información útil para la toma de
decisiones.
2
TECNOLOGÍASTrabajaremos con las
principales tecnologías del mercado, como Apache Hadoop, Spark y Hbase o
MapReduce
INFRAESTRUCTURALlevaremos a cabo proyectos sobre Cloudera, la distribución de Hadoop más utilizada. Pero
veremos implementaciones como IBM Big Insights o MapR
ANÁLISIS Y BITrabajaremos con Python y R
como lenguajes y nos introduciremos en suites como IBM Cognos BI o herramientas de análisis estadístico como
SPSS
VISUALIZACIÓNNos adentraremos en el
mundo de la visualización avanzada de datos, y
trabajaremos con tableau, R y distintas librerías python como
NetworkX, matplotlib o geoplotlib entre otras.
ALMACENAMIENTOTendremos ocasión de trabajar
con Apache Cassandra y MongoDB y estudiaremos los Big Data tradeoffs entre Bases de datos relacionales y NoSQL.
También estudiaremos la idoneidad de las Graph
Databases como Neo4j o GraphDB
3
Data Scientist
Ordena, clasifica y modela los datos y
elabora modelos predictivos. Las
matemáticas, y las estadísticas sus
armas
Data Architect
Diseña sistemas de gestión de datos e
integra, centraliza y gestiona orígenes de
datos. El modelado de datos y los procesos ETL son su ámbito.
Data Analyst
Recolecta, procesa y realiza análisis
estadísticos para llegar a enunciados
que representen tendencias o hechos
reales.
Data Engineer
Construyen, mantienen y evalúan soluciones Big Data
diseñadas por el arquitecto.
Decision Maker
Apoyan la toma de decisiones con las
conclusiones derivadas del análisis
de datos. Las herramientas BI son
su medio
Perfiles
4
VisualizaciónTrabajaremos con las
principales librerías Python para visualización.
Comandos en R para gráficas, Tableau
AnálisisAnálisis Estadístico con R,
Python. Uso de SPSS Modeler,
IBM Cognos BI
AlmacenamientoNoSQL vs Relational
Graph DatabasesMongoDB
Apache Cassandra.
InfraestructuraImplementaciones de
Hadoop:Cloudera, Hortonworks, MapR y IBM BigInsights
Arquitectura
TecnologíasPrincipales actores en el
mercado. Apache Hadoop, Hbase, Spark, MapReduce,
Cassandra.Fundamentos
Itinerario formativoResumen
01 02
The Big PictureIntroducción al Big Data,
Usos y escenarios, aplicaciones.
Implicaciones actuales. Perspectiva y evolución.
03 04 05 06
5
Distribución del conocimientoCómo se organiza el contenido
Fundamentos y ConceptosEl objetivo será fundar una base
sólida donde los conceptos estén claros y se obtenga una visión actual y holística del Big Data.
Experiencia RealNuestros expertos están
trabajando en proyectos de Big Data en empresas de primer
nivel. Compartirán con nosotros los casos a los que se enfrentan día a día, y analizaremos juntos las lecciones que han obtenido.
Clases ÚnicasUna vez a la semana recibiremos una master class de un experto
en diferentes áreas que nos desvelarán los secretos y
conocimientos avanzados que de otra manera tardaríamos años en
adquirir.
Eminentemente prácticoLa mayor parte del programa se
dedicará a la realización tutorizada de ejercicios
prácticos. Estos ejercicios serán guiados al principio pero muchos ejercicios se realizarán en equipo
y podrán tener más de una solución.
Teoría Casos Reales Master Class Ejercicios
10% 20% 20% 50%
6
HabilidadesQué habilidades adquiriremos
Big Data Fundamentals
Analítica, Estadística y Business IntelligenceLos datos necesitan un análisis para convertirse en enunciados, trabajaremos con Python, R, SPSS y Cognos
La baseUna visión holística del Big
Data y las tecnologías y Soluciones a su alcance.
Tendencias y futuro.
Hadoop e implementacionesAdquiriremos dominio de la plataforma y estudiaremos las distribuciones más utilizadas, así como su idoneidad en cada tipo de proyecto.
Big Data StorageEstudiaremos los motores de
bases de datos en tres enfoques, noSQL,
Relacionales y GraphDatabases. Trabajaremos con
MongoDB
La representación del dato
Adquiriremos destreza en la representación de los datos
de una forma exhaustiva e intuitiva
Plataforma Hadoop
Big Data Storage
Analytics y BI
Visualization
7
Cómo nos gusta enseñarNuestra metodología
El conocimiento se transmite.
Nos apasiona nuestro trabajo y deseamos que
nuestros alumnos participen de nuestra
ilusión. El aprendizaje se potencia cuando te
diviertes…Esto es un hecho,
El conocimiento se adquiere
Nuestra filosofía es aprender haciendo. Sabemos que es ahí donde necesitas nuestra guía. No te vamos a enseñar nada que puedas buscar tu mismo en Google.
8
Herramientas
01
02
03
04
05Master ClassesY Casos reales
Pruebas de nivel y aprovechamiento
Virtual & RemoteTraining
LaboratoriosEscritoriosVirtuales
Learn by doing
9
Cómo seleccionamos a los candidatosProceso de selección
Hemos puesto mucho esfuerzo encrear estos másteres. Deseamos que
todos los participantes disfrutenaprediendo tanto como nosotros
vamos a disfrutar enseñando. Necesitamos asegurarnos que todos
los candidatos tienen las características y capacidades
necesarias para aprovechar y asimilarlos conocimientos.
Buscamos a los mejores
www.digitaltechinstitute.com/apply
10
Cómo seleccionamos a los candidatosNuestro proceso de selección
IlusiónPreferimos una persona
apasionada que cien meramente interesadas
ConocimientosNos aseguramos que el candidato disponga de los conocimientos necesarios para aprovechar el itinerario formativo.
ExpectativasValoramos las expectativas del candidato hacia el curso. Nos aseguramos de ofrecerte exactamente lo que estás buscando.
TrayectoriaValoramos la experiencia profesional y el perfil del candidato.
11
Cuándo empezamosCalendario 2017
EneroLu Ma Mi Ju Vi Sa Do
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
FebreroLu Ma Mi Ju Vi Sa Do
30 31 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 1 2 3 4 5
MarzoLu Ma Mi Ju Vi Sa Do
27 28 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 1 2
Inicio Máster
Inicio del proceso de selecciónComienza el proceso de selección de candidatos por medio de entrevistas y pruebas de nivel.
Fin del proceso de selecciónSe cierra el proceso de selección, loscandidato en lista de espera serántrasladados a la próxima edición.
Desarrollo del másterDurante 8 semanas aprenderemos las técnicas y fundamentos para convertirnos enexpertos en Big Data.
12
CalendarioCalendario 2017
AbrilLu Ma Mi Ju Vi Sa Do
27 28 29 30 31 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
Semana Santa
Desarrollo del másterDurante 8 semanas aprenderemos las técnicas y fundamentos para convertirnos enexpertos en Big Data. Terminamos el Viernes 28 de abril.
Fin del Máster
13
Dónde celebramos nuestro MásterCentros de formación
MadridRibera del Loira, 46 Edificio 2 28042
Madrid
BarcelonaCan Bruixa, 16 08028Barcelona
14
Establecemos las bases. Manejamos los términos de manera apropiada y definimos términos basándonos en
ejemplos.
Módulo 1 - Fundamentos
TECNOLOGÍASQué es Hadoop, Hive, MaReduce, HDFS. Distributed & Parallel processing y Hadoop clusters. noSQL. NewSQL. Alternativas y ecosistema Big Data.
INTRODUCCIÓNQué es Big Data y qué no es Big Data. Casos reales de uso. Definiciones. Quién utiliza Big Data. Perfiles. Por qué es importante.
PRESENTACIÓNPresentación y definición de objetivos. Descripción general de la formación. Claves para sacar el máximo provecho. Entorno de trabajo
FUNDAMENTOSQué necesitamos saber. Fundamentos de estadística. Conceptos relacionados con data management.
INFRAESTRUCTURADistribuciones Hadoop. Cloudera. Hortonworks. Isotope. IBM BigInsights.
ALMACENAMIENTOUna inmersión en el mundo del almacenamiento. Descripción general del ecosistema. Tipos de motores. Datawarehousing. OLTP vs OLAP. SQL vs NoSQL. HDFS. Cassandra.
ANALÍTICA Y VISUALIZACIÓNBusiness Intelligence & Analytics. Herramientas. Formas de representar los datos. Herramientas ara visualización de datos.
15
Conoceremos de fondo Apache Hadoop, HDFS, MapReduce y YARN
Módulo 2 - TecnologíasMAPREDUCEProcesando datos con MapReduce. Fases Map y Reduce. Flujo de datos. Implementando MapReduce en Java. Desplegar un jar en Hadoop. Monitorización.
INSTALACIÓNModos de Instalación. Modo Standalone. Modo pseudo-distribuido. Configurando SSH. Variables de Entorno. Configuración. Iniciando HDFS y YARN. Monitorización.
INTRODUCCIÓNHablamos de los distintos componentes y la función que cumple cada uno. Computación distribuida. Otras tecnologías en el ecosistema Hadoop.
ALMACENANDO DATOSAlmacenando datos con HDFS. Escritura y lectura. Comandos HDFS. Nodos. Replicación y recuperación. ETL. Ingestión de datos. Hbase.
PLANIFICACIÓN Y TAREASAnatomía de un Job Run en YARN. Parámetros. Clusterresource Allocation. Colas de trabajos. Ejecutando trabajos en colas específicas. Logs.
YARNGestión de recursos de cluster. Arquitectura. Daemons. Operación, seguridad y gobierno de datos. Fairscheduler. CPU y Memoria.
16
Trabajaremos con la distribución Hadoop más utilizada Cloudera. También profundizaremos en el conocimiento de otras distribuciones como Hortonworks , IBM BigInsights o
MapR. Trabajaremos con Impala, Pig, Hue, Spark,..
Módulo 3 - Infraestructura
INTRODUCCIÓNDistribuciones más utilizadas. Cloudera. HortonWorks, MapR. IBM BigInsights. Diferencias, escenarios de idoneidad.
APACHE SPARKIntroducción. Instalación. Lenguajes de programación. Appification, RDD. Ingesta de datos, Lambdas. Transformaciones. Acciones. Persistencia. Conversiones implícitas. Java en Spark. Instrumentación y librerías.
IMPALA & PIGInstalación de Impala y pig. Lenguajes de programación. Creando consultas con pig.
CLOUDERAInstalación y VMs. Hardware e infraestructura para un cluster. Cloudera Manager. Montar un cluster de servidor con varios nodos. Seguridad. Monitorización
HUE & OTROS CLIENTES HADOOPClientes, propósito. Instalando y configurando Hue. Autenticación y autorización.
HDFSProfundizando en HDFS. NameNode. DataNode. Creando, recuperando y manipulando archivos. Comandos HDFS. Copiando datos a Hadoop. Toleranci a fallos.
17
Estudiaremos los distintos sistemas de almacenamientomás utilizados en proyectos Big Data y sus implicaciones.
Trabajaremos con MongoDB como motor noSQL
Módulo 4 - Almacenamiento
INTRODUCCIÓNEl almacenamiento en Big Data. Problemática y soluciones. Tipos de bases de datos. noSQL vs SQL. Graph Databases. Bases de datos MPP
MONGODBIntroducción e instalación. Escalabilidad. Mongo Shell. Collections, BSON, Operadores. Insert & Updates & Queries. Encontrando documentos. Indexado. Big Data & reporting.
APACHE CASSANDRAIntroducción y casos de uso. Arquitectura. Instalación. Replicación y consistencia. Introducción a CQL. Write & read path. Multirow partitions. Compaction. Transacciones, Tipos complejos.
HIVEArquitectura. Esquema. Hive Warehouse. Lenguaje Hive. HiveQL. Ingesta de datos. Bucketing, joins, distributedcache, UDTFs. Funciones analíticas.
INGESTA DE DATOS. SQOOP Y FLUMESqoop y Flume. Ingesta de datos desde DB relacionales con Sqoop. Flume network streams. Multi-agent Flows. Sinks, Channels & Interceptors.
HBASEArquitectura. Diseño de tablas. Relaciones. Nodos de cluster. Hfiles y regions. Scaling y compaction
18
Trabajaremos con los datos para obtener correlaciones y conclusiones que nos ayuden en la toma de decisiones.
Trabajaremos con Python pero también tendremos ocasión de profundizar en R y nos indotrduciremos en
SPSS modeler y Cognos BI
Módulo 5 - Análisis
INTRODUCCIÓNLa analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación.
INTRODUCCIÓN A RIntroducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R.
ANÁLISIS DE DATOS CON PYTHONFundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis
IBM SPSS MODELERIntroducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado.
IBM COGNOS BUSINESS INTELLIGENCEConsumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos.
19
En éste módulo tendremos ocasión de profundizar más en las herramientas de análisis y proceso, con especial acento en aquellas herramientas y técnicas que nos
permiten visualizar los resultados.
Módulo 6 - Visualización
INTRODUCCIÓNLa analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación.
VISUALIZACIÓN DE DATOS CON RIntroducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R.
VISUALIZACIÓN DE DATOS CON PYTHONFundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis
PENTAHO REPORTING & DASHBOARDSConsumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos.
TABLEAUIntroducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado.