62
Big Data Valor estratégico para el mercado corporativo @ferparra

Big Data

Embed Size (px)

DESCRIPTION

Training introductorio de Big Data para ejecutivos de IT. Duración de la presentación: 2 horas.

Citation preview

Page 1: Big Data

Big DataValor estratégico para el mercado corporativo

@ferparra

Page 2: Big Data

A. Definición de Big Data

B. Aplicaciones

C. Tecnologías

D. Mejores prácticas

E. Reflexión final

Page 3: Big Data

• Hacia 2020, 5,200 Gigabytes de datos serán generados para cada ser humano del planeta.

• Un motor de jet en un vuelo de Londres a Nueva York genera 10 Terabytes de datos cada 30 minutos.

Page 4: Big Data

• El 90% de los datos del mundo actuales fueron generados en los últimos 2 años.

• Según MIT, las organizaciones grandes tienen en promedio 5.000 fuentes de datos, pero 1-2% terminan en su Data Warehouse.

Page 5: Big Data

• El crecimiento exponencial se torna cada vez mas difícil de administrar.

• Los datos contienen información poco obvia que las empresas podrían descubrir para mejorar sus resultados.

• Las medidas de datos son relativas. Cada industria enfrenta desafíos de distinto tamaño.

Page 6: Big Data

A. Definición de Big Data!

B. Aplicaciones

C. Tecnologías

D. Mejores prácticas

E. Reflexión final

Page 7: Big Data

¿Qué es Big Data?

¿Análisis Predictivo

¿Business Intelligence?

¿Data Discovery?

¿Visualizaciones e infografías?

Page 8: Big Data

¿Búsqueda de texto?

¿Procesamiento de eventos complejos?

¿Programación neurolingüística?

¿Aprendizaje profundo?

¿Inteligencia Artificial?

Page 9: Big Data
Page 10: Big Data

¿Cual es nuestra frontera?

MB GB TB PBtablabase de datos

fotos web audio

social video mobile

tiempo re

alca

si tie

mpo real

periodico

batch

Velocidad

Volumen

Variedad

Page 11: Big Data

El problema comienza a definirse como de Big Data

cuando la fronterase expande.

Page 12: Big Data

Nuestras arquitectura de información tradicional se torna inadecuada.

Page 13: Big Data

El ruido supera la señal

Page 14: Big Data

Hay buenos modelos…y malos modelos…

Page 15: Big Data

El 80% del esfuerzo se produce en la

integración de datos

Page 16: Big Data

La explotación de Big Data está debajo de la superficie

alias“Dark data"

Page 17: Big Data

Además, el 80% de los datos disponibles son

no estructurados, pero… ¿equivalen al 80% del valor?

Page 18: Big Data

ROB (Return on Byte)!Es el valor de un byte dividido por el costo de almacenarlo

MAX(ROB)

Page 19: Big Data

¿Alto ROB?

¿Bajo ROB?

Page 20: Big Data

Big Data es la frontera de una firma para almacenar, procesar y acceder a todos los datos que necesita para operar eficazmente, tomar decisiones, reducir riesgos y servir a los clientes.

Page 21: Big Data

A. Definición de Big Data

B. Aplicaciones!C. Tecnologías

D. Mejores Prácticas

E. Reflexión final

Page 22: Big Data

Machine learning

Procesamiento en tiempo real

Analytics exploratorio

Page 23: Big Data

Banca Bienes de Consumo IT Telcos y

comunicaciones

Servicio al consumidor

Análisis sentimental

Seguridad informática Churn

Riesgocrediticio

Recomendación de productos

Escabilidad de Infraestructura

Gestión de promociones

Detección de Transacciones fraudulentas

Predicción de demanda en tiempo real

Optimización de protocolos

Alocación inteligente de

capacidad

Upsell y cross-sell de productos

Vista 360 del consumidor

Predicción de fallos M2M

Page 24: Big Data

Gobierno y ciudad

Biología y Medicina

Energía y utilidades Internet

Predicción y prevención del

delitoGenómica Medidores

inteligentesAsistente

virtual

Ciudadinteligente

Registro de enfermedades

Redesmixtas

Contenido personalizado

Digitalización de documentos

Diagnóstico médico en la

nubePredicción de la

demandaAprendizaje

profundo

OpenGovernment “Yo” cuantificado

Gestión de energía desde el

consumidorInternet of

Things

Page 25: Big Data

A. Definición de Big Data

B. Aplicaciones

C. Tecnologías!D. Mejores prácticas

E. Reflexión final

Page 26: Big Data

Nuevas estructuras de datos para

nuevos problemas

Page 27: Big Data

No Relacional Relacional

Hadoop!Horton!

Cloudera!MapR!

Zettaset!

!!

Hadapt!!!

Teradata!Aster!EMC!

Greeplum!IBM InfoSphere!

Netezza!SAP HANA!

SAP Sybase IQ!HP Vertica!

Oracle!

Times-ten!Infobright!ParAccel!Calpoint!

VectorWise

Analíticas

Operativas Spark Oracle IBM DB2 SQLSrvr JustOneDB

Documentos

Lotus Notes

InterSystems!Progress!

Objectivity!Versant

Marklogic!McObject

CouchDB!MongoDB!RavenDB

NoSQL

Clave Valor

Big Table

Grafos

Couchbase

Riak!Redis!

Membrain!Voldemort!BerkleyDB

Cassandra

HyperTable!HBase FlockDB!

InfiniteGraph!Neo4j!

AllegroGraph

Datos en la nubeApp Engine!SimpleDB

Amazon Redshift!SQL Azure!

database.com

Xeround!FathomDB

NewSQL

Sybase ASE Ingress

MySQL

PostgreSQL

EnterpriseDB

SchoonerSQL!Tokutek!

Continuent!Translattice!

GenieDB

ScaleBase!CodeFutures!

VoltDB!ScalArc!Drizzle

HandlerSocket!Akiban!

MySQL Cluster!Clustix!

Page 28: Big Data

Tuplas "Clave": { "valor": 0.55 }

¿Lenguaje de query?

Page 29: Big Data

(C) consistencia (A) disponibilidad (P) tolerancia a particiones

¿NoSQL? Elija 2

(lo sentimos)

Page 30: Big Data
Page 31: Big Data
Page 32: Big Data

Hadoop• Almacenaje y procesamiento

barato y a escala.

• Es la tecnología dominante para procesamiento distribuido a gran escala. Crece 60% anual a tasa compuesta.

• Sin embargo su nivel de utilización se encuentra por debajo del 6% en empresas.

Page 33: Big Data
Page 34: Big Data

Hadoop instala herramientas en cada nodo:

• Librerías y scripts en Java

• Un filesystem de altadisponibilidad -> HDFS

• Una plataforma de gestiónde recursos de cómputo -> YARN

• Un motor de extracción -> Map-Reduce

Page 35: Big Data

Arquitectura básica

Fuente: Rare Mile Technologies, 26 de Junio de 2012, http://blog.raremile.com/hadoop-demystified/

Page 36: Big Data

MapReduceInput -> Map(..) -> Reduce(..) -> output

Page 37: Big Data

Nodo 2

Nodo 3

Nodo 1

Nodo 2

Nodo 3

Nodo 1

Arch

ivos

en

files

yste

mMap(..) Reduce(..)input output

Page 38: Big Data

Soy maestro primario… tengo una caja de lápices de color y cajas más pequeñas

->Caja de lápices

Un alumno: toma lápiz, le

pone etiqueta, y lo vuelca en su caja (Ejemplo:

Rojo, 1)

->Otro alumno: toma caja y suma los 1s

-> Lápicespor color

input

Map(..)Reduce(..)

output

Page 39: Big Data

Map Reduce

Storm!Drill!

HANA Spark

Alto volumen, alta latencia Alto volumen, baja latencia

Procesamiento en batch Acceso a datos en memoria

Se define proceduralmenteSon queries a bases de datos

columnares como HBase, Cassandra o MongoDB

Es adecuado para el procesamiento total de datos

Es adecuado para producir reportes ah-hoc y procesamiento

en tiempo real

Page 40: Big Data

• Persistencia Cassandra, HBase

• Manipulación de datos Pig, Pandas

• Búsqueda de textoSolr, Lucene

Tecnologías complementarias que hay que saber obligado

Page 41: Big Data

Tecnologías complementarias que hay que saber obligado

• Machine LearningMahout, R, SAS, MADLib

• Real-time processingDrill, Storm, Impala

• In-memory SAP HANA, Apache Spark

Page 42: Big Data

fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados

Consulta SQL

Clasificador

Programación neuro linguistica

Page 43: Big Data

¿Con qué sentido sumergirnos entre tanta

complejidad?

Page 44: Big Data

fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados

Microstrategy

Modelo en R

Luminoso

Page 45: Big Data

Las bases de datos columnares tienen grandes beneficios• Aprovechamiento de procesamiento

masivo en paralelo (MPP).

• Posibilitan el almacenamiento en memoria RAM.

• Fáciles de administrar y de leer(viejo y conocido SQL)

• Soportan un volumen del orden de los TBs sin problemas

Page 46: Big Data

Analytics in-database y funciones definidas por el usuario

• Ganancia cualitativa en performance.

• Compatibles con lenguajes de markup para aplicaciones de Data Mining (PMML)

• Contendientes: Aster Data, Vertica, Netezza, Greenplum (EMC), ParAccel, SAP Sybase

Page 47: Big Data

Columnar + In-Database analytics =

Page 48: Big Data

A. Definición de Big Data

B. Aplicaciones

C. Tecnologías

D. Mejores prácticas!E. Reflexión final

Page 49: Big Data
Page 50: Big Data
Page 51: Big Data

Algunas Mejores prácticas

1. Partir siempre de una hipótesis antes de actuar sobre los datos

2. No construir Legacy

3. Definir una “autopista de la información”

4. Seguir pensando en dimensiones e indicadores

Page 52: Big Data

Algunas Mejores prácticas

5. Construir una infraestructura flexible y escalable (la nube)

6. Implementar flujos conectados a las etapas de caché anteriores

7. Los datos mas próximos van a ser sucios, pero debe agregarse valor en la etapas subsiguientes

Page 53: Big Data

A. Definición de Big Data

B. Aplicaciones

C. Tecnologías

D. Kimball

E. Reflexión final

Page 54: Big Data
Page 55: Big Data

–Brett Sheppard, director de Big Data, Splunk

“2014 will be the year of the big data non-specialist. Until recently, many big data projects—including those built with Hadoop—have required the skills of highly trained data scientists. They’ve also tended to rely on fixed schemas and scheduled reporting that limit the kinds of questions the system can answer. Starting in 2014, line-of-business employees will be able to ask and answer their own questions using raw, unstructured big data from disparate sources. They won’t need to rely on specialists to unlock the value of big data. Inevitably, they’ll start using data to help make decisions they previously might have made on gut-feel alone. Decision-making will also become a more creative process, as employees of all kinds start asking questions of their data to test hypotheses and explore new approaches to old problems.”

Fuente: http://inside-bigdata.com/2013/12/09/big-data-predictions-2014/

Page 56: Big Data

Fuente: Read Write Web, 26 de Diciembre 2013, http://readwrite.com/2013/12/26/big-data-myths-reality

Page 57: Big Data

El mercado requerirá nuevos perfiles

Page 58: Big Data

Resumiendo

1. Las empresas pueden capturar más datos que nunca.

2. La explosión del social media y del Internet of Things son los principales disparadores.

Page 59: Big Data

Resumiendo

3. Identificar lo importante entre tanto ruido depende del las capacidades intuitivas y de la apertura del tomador de decisiones.

4. Hadoop es una herramienta extremadamente flexible que pocos ejecutivos entienden.

Page 60: Big Data

Resumiendo

5. El cliente va cambiando. Las gerencias de negocio son las nuevas compradoras de software.

6. La apuesta es a largo plazo, pero con foco en lo diario. Las empresas necesitan de la prueba y el error.

Page 61: Big Data

Big Data es pensar en nuevos modelos de negocio basados en las necesidades del futuro

Page 62: Big Data

¡Gracias!