19
1 Big Data The Big Picture Recolección y tratamiento de datos masivos de orígenes diversos, que representan una fuente constante para el análisis y descubrimiento de información útil para la toma de decisiones.

Big Data€¦ · mercado, como Apache Hadoop, Spark y Hbase o MapReduce INFRAESTRUCTURA Llevaremos a cabo proyectos sobre Cloudera, la distribución de Hadoop más utilizada

  • Upload
    lyliem

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

1

Big DataThe Big Picture

Recolección y tratamiento de datos masivos de orígenes diversos, que representan una fuente constante para el análisis y descubrimiento de información útil para la toma de

decisiones.

2

TECNOLOGÍASTrabajaremos con las

principales tecnologías del mercado, como Apache Hadoop, Spark y Hbase o

MapReduce

INFRAESTRUCTURALlevaremos a cabo proyectos sobre Cloudera, la distribución de Hadoop más utilizada. Pero

veremos implementaciones como IBM Big Insights o MapR

ANÁLISIS Y BITrabajaremos con Python y R

como lenguajes y nos introduciremos en suites como IBM Cognos BI o herramientas de análisis estadístico como

SPSS

VISUALIZACIÓNNos adentraremos en el

mundo de la visualización avanzada de datos, y

trabajaremos con tableau, R y distintas librerías python como

NetworkX, matplotlib o geoplotlib entre otras.

ALMACENAMIENTOTendremos ocasión de trabajar

con Apache Cassandra y MongoDB y estudiaremos los Big Data tradeoffs entre Bases de datos relacionales y NoSQL.

También estudiaremos la idoneidad de las Graph

Databases como Neo4j o GraphDB

3

Data Scientist

Ordena, clasifica y modela los datos y

elabora modelos predictivos. Las

matemáticas, y las estadísticas sus

armas

Data Architect

Diseña sistemas de gestión de datos e

integra, centraliza y gestiona orígenes de

datos. El modelado de datos y los procesos ETL son su ámbito.

Data Analyst

Recolecta, procesa y realiza análisis

estadísticos para llegar a enunciados

que representen tendencias o hechos

reales.

Data Engineer

Construyen, mantienen y evalúan soluciones Big Data

diseñadas por el arquitecto.

Decision Maker

Apoyan la toma de decisiones con las

conclusiones derivadas del análisis

de datos. Las herramientas BI son

su medio

Perfiles

4

VisualizaciónTrabajaremos con las

principales librerías Python para visualización.

Comandos en R para gráficas, Tableau

AnálisisAnálisis Estadístico con R,

Python. Uso de SPSS Modeler,

IBM Cognos BI

AlmacenamientoNoSQL vs Relational

Graph DatabasesMongoDB

Apache Cassandra.

InfraestructuraImplementaciones de

Hadoop:Cloudera, Hortonworks, MapR y IBM BigInsights

Arquitectura

TecnologíasPrincipales actores en el

mercado. Apache Hadoop, Hbase, Spark, MapReduce,

Cassandra.Fundamentos

Itinerario formativoResumen

01 02

The Big PictureIntroducción al Big Data,

Usos y escenarios, aplicaciones.

Implicaciones actuales. Perspectiva y evolución.

03 04 05 06

5

Distribución del conocimientoCómo se organiza el contenido

Fundamentos y ConceptosEl objetivo será fundar una base

sólida donde los conceptos estén claros y se obtenga una visión actual y holística del Big Data.

Experiencia RealNuestros expertos están

trabajando en proyectos de Big Data en empresas de primer

nivel. Compartirán con nosotros los casos a los que se enfrentan día a día, y analizaremos juntos las lecciones que han obtenido.

Clases ÚnicasUna vez a la semana recibiremos una master class de un experto

en diferentes áreas que nos desvelarán los secretos y

conocimientos avanzados que de otra manera tardaríamos años en

adquirir.

Eminentemente prácticoLa mayor parte del programa se

dedicará a la realización tutorizada de ejercicios

prácticos. Estos ejercicios serán guiados al principio pero muchos ejercicios se realizarán en equipo

y podrán tener más de una solución.

Teoría Casos Reales Master Class Ejercicios

10% 20% 20% 50%

6

HabilidadesQué habilidades adquiriremos

Big Data Fundamentals

Analítica, Estadística y Business IntelligenceLos datos necesitan un análisis para convertirse en enunciados, trabajaremos con Python, R, SPSS y Cognos

La baseUna visión holística del Big

Data y las tecnologías y Soluciones a su alcance.

Tendencias y futuro.

Hadoop e implementacionesAdquiriremos dominio de la plataforma y estudiaremos las distribuciones más utilizadas, así como su idoneidad en cada tipo de proyecto.

Big Data StorageEstudiaremos los motores de

bases de datos en tres enfoques, noSQL,

Relacionales y GraphDatabases. Trabajaremos con

MongoDB

La representación del dato

Adquiriremos destreza en la representación de los datos

de una forma exhaustiva e intuitiva

Plataforma Hadoop

Big Data Storage

Analytics y BI

Visualization

7

Cómo nos gusta enseñarNuestra metodología

El conocimiento se transmite.

Nos apasiona nuestro trabajo y deseamos que

nuestros alumnos participen de nuestra

ilusión. El aprendizaje se potencia cuando te

diviertes…Esto es un hecho,

El conocimiento se adquiere

Nuestra filosofía es aprender haciendo. Sabemos que es ahí donde necesitas nuestra guía. No te vamos a enseñar nada que puedas buscar tu mismo en Google.

8

Herramientas

01

02

03

04

05Master ClassesY Casos reales

Pruebas de nivel y aprovechamiento

Virtual & RemoteTraining

LaboratoriosEscritoriosVirtuales

Learn by doing

9

Cómo seleccionamos a los candidatosProceso de selección

Hemos puesto mucho esfuerzo encrear estos másteres. Deseamos que

todos los participantes disfrutenaprediendo tanto como nosotros

vamos a disfrutar enseñando. Necesitamos asegurarnos que todos

los candidatos tienen las características y capacidades

necesarias para aprovechar y asimilarlos conocimientos.

Buscamos a los mejores

www.digitaltechinstitute.com/apply

10

Cómo seleccionamos a los candidatosNuestro proceso de selección

IlusiónPreferimos una persona

apasionada que cien meramente interesadas

ConocimientosNos aseguramos que el candidato disponga de los conocimientos necesarios para aprovechar el itinerario formativo.

ExpectativasValoramos las expectativas del candidato hacia el curso. Nos aseguramos de ofrecerte exactamente lo que estás buscando.

TrayectoriaValoramos la experiencia profesional y el perfil del candidato.

11

Cuándo empezamosCalendario 2017

EneroLu Ma Mi Ju Vi Sa Do

1

2 3 4 5 6 7 8

9 10 11 12 13 14 15

16 17 18 19 20 21 22

23 24 25 26 27 28 29

FebreroLu Ma Mi Ju Vi Sa Do

30 31 1 2 3 4 5

6 7 8 9 10 11 12

13 14 15 16 17 18 19

20 21 22 23 24 25 26

27 28 1 2 3 4 5

MarzoLu Ma Mi Ju Vi Sa Do

27 28 1 2 3 4 5

6 7 8 9 10 11 12

13 14 15 16 17 18 19

20 21 22 23 24 25 26

27 28 29 30 31 1 2

Inicio Máster

Inicio del proceso de selecciónComienza el proceso de selección de candidatos por medio de entrevistas y pruebas de nivel.

Fin del proceso de selecciónSe cierra el proceso de selección, loscandidato en lista de espera serántrasladados a la próxima edición.

Desarrollo del másterDurante 8 semanas aprenderemos las técnicas y fundamentos para convertirnos enexpertos en Big Data.

12

CalendarioCalendario 2017

AbrilLu Ma Mi Ju Vi Sa Do

27 28 29 30 31 1 2

3 4 5 6 7 8 9

10 11 12 13 14 15 16

17 18 19 20 21 22 23

24 25 26 27 28 29 30

Semana Santa

Desarrollo del másterDurante 8 semanas aprenderemos las técnicas y fundamentos para convertirnos enexpertos en Big Data. Terminamos el Viernes 28 de abril.

Fin del Máster

13

Dónde celebramos nuestro MásterCentros de formación

MadridRibera del Loira, 46 Edificio 2 28042

Madrid

BarcelonaCan Bruixa, 16 08028Barcelona

14

Establecemos las bases. Manejamos los términos de manera apropiada y definimos términos basándonos en

ejemplos.

Módulo 1 - Fundamentos

TECNOLOGÍASQué es Hadoop, Hive, MaReduce, HDFS. Distributed & Parallel processing y Hadoop clusters. noSQL. NewSQL. Alternativas y ecosistema Big Data.

INTRODUCCIÓNQué es Big Data y qué no es Big Data. Casos reales de uso. Definiciones. Quién utiliza Big Data. Perfiles. Por qué es importante.

PRESENTACIÓNPresentación y definición de objetivos. Descripción general de la formación. Claves para sacar el máximo provecho. Entorno de trabajo

FUNDAMENTOSQué necesitamos saber. Fundamentos de estadística. Conceptos relacionados con data management.

INFRAESTRUCTURADistribuciones Hadoop. Cloudera. Hortonworks. Isotope. IBM BigInsights.

ALMACENAMIENTOUna inmersión en el mundo del almacenamiento. Descripción general del ecosistema. Tipos de motores. Datawarehousing. OLTP vs OLAP. SQL vs NoSQL. HDFS. Cassandra.

ANALÍTICA Y VISUALIZACIÓNBusiness Intelligence & Analytics. Herramientas. Formas de representar los datos. Herramientas ara visualización de datos.

15

Conoceremos de fondo Apache Hadoop, HDFS, MapReduce y YARN

Módulo 2 - TecnologíasMAPREDUCEProcesando datos con MapReduce. Fases Map y Reduce. Flujo de datos. Implementando MapReduce en Java. Desplegar un jar en Hadoop. Monitorización.

INSTALACIÓNModos de Instalación. Modo Standalone. Modo pseudo-distribuido. Configurando SSH. Variables de Entorno. Configuración. Iniciando HDFS y YARN. Monitorización.

INTRODUCCIÓNHablamos de los distintos componentes y la función que cumple cada uno. Computación distribuida. Otras tecnologías en el ecosistema Hadoop.

ALMACENANDO DATOSAlmacenando datos con HDFS. Escritura y lectura. Comandos HDFS. Nodos. Replicación y recuperación. ETL. Ingestión de datos. Hbase.

PLANIFICACIÓN Y TAREASAnatomía de un Job Run en YARN. Parámetros. Clusterresource Allocation. Colas de trabajos. Ejecutando trabajos en colas específicas. Logs.

YARNGestión de recursos de cluster. Arquitectura. Daemons. Operación, seguridad y gobierno de datos. Fairscheduler. CPU y Memoria.

16

Trabajaremos con la distribución Hadoop más utilizada Cloudera. También profundizaremos en el conocimiento de otras distribuciones como Hortonworks , IBM BigInsights o

MapR. Trabajaremos con Impala, Pig, Hue, Spark,..

Módulo 3 - Infraestructura

INTRODUCCIÓNDistribuciones más utilizadas. Cloudera. HortonWorks, MapR. IBM BigInsights. Diferencias, escenarios de idoneidad.

APACHE SPARKIntroducción. Instalación. Lenguajes de programación. Appification, RDD. Ingesta de datos, Lambdas. Transformaciones. Acciones. Persistencia. Conversiones implícitas. Java en Spark. Instrumentación y librerías.

IMPALA & PIGInstalación de Impala y pig. Lenguajes de programación. Creando consultas con pig.

CLOUDERAInstalación y VMs. Hardware e infraestructura para un cluster. Cloudera Manager. Montar un cluster de servidor con varios nodos. Seguridad. Monitorización

HUE & OTROS CLIENTES HADOOPClientes, propósito. Instalando y configurando Hue. Autenticación y autorización.

HDFSProfundizando en HDFS. NameNode. DataNode. Creando, recuperando y manipulando archivos. Comandos HDFS. Copiando datos a Hadoop. Toleranci a fallos.

17

Estudiaremos los distintos sistemas de almacenamientomás utilizados en proyectos Big Data y sus implicaciones.

Trabajaremos con MongoDB como motor noSQL

Módulo 4 - Almacenamiento

INTRODUCCIÓNEl almacenamiento en Big Data. Problemática y soluciones. Tipos de bases de datos. noSQL vs SQL. Graph Databases. Bases de datos MPP

MONGODBIntroducción e instalación. Escalabilidad. Mongo Shell. Collections, BSON, Operadores. Insert & Updates & Queries. Encontrando documentos. Indexado. Big Data & reporting.

APACHE CASSANDRAIntroducción y casos de uso. Arquitectura. Instalación. Replicación y consistencia. Introducción a CQL. Write & read path. Multirow partitions. Compaction. Transacciones, Tipos complejos.

HIVEArquitectura. Esquema. Hive Warehouse. Lenguaje Hive. HiveQL. Ingesta de datos. Bucketing, joins, distributedcache, UDTFs. Funciones analíticas.

INGESTA DE DATOS. SQOOP Y FLUMESqoop y Flume. Ingesta de datos desde DB relacionales con Sqoop. Flume network streams. Multi-agent Flows. Sinks, Channels & Interceptors.

HBASEArquitectura. Diseño de tablas. Relaciones. Nodos de cluster. Hfiles y regions. Scaling y compaction

18

Trabajaremos con los datos para obtener correlaciones y conclusiones que nos ayuden en la toma de decisiones.

Trabajaremos con Python pero también tendremos ocasión de profundizar en R y nos indotrduciremos en

SPSS modeler y Cognos BI

Módulo 5 - Análisis

INTRODUCCIÓNLa analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación.

INTRODUCCIÓN A RIntroducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R.

ANÁLISIS DE DATOS CON PYTHONFundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis

IBM SPSS MODELERIntroducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado.

IBM COGNOS BUSINESS INTELLIGENCEConsumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos.

19

En éste módulo tendremos ocasión de profundizar más en las herramientas de análisis y proceso, con especial acento en aquellas herramientas y técnicas que nos

permiten visualizar los resultados.

Módulo 6 - Visualización

INTRODUCCIÓNLa analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación.

VISUALIZACIÓN DE DATOS CON RIntroducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R.

VISUALIZACIÓN DE DATOS CON PYTHONFundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis

PENTAHO REPORTING & DASHBOARDSConsumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos.

TABLEAUIntroducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado.