Big Data

Big DataValor estratégico para el mercado corporativo

@ferparra

A. Definición de Big Data

B. Aplicaciones

C. Tecnologías

D. Mejores prácticas

E. Reflexión final

• Hacia 2020, 5,200 Gigabytes de datos serán generados para cada ser humano del planeta.

• Un motor de jet en un vuelo de Londres a Nueva York genera 10 Terabytes de datos cada 30 minutos.

• El 90% de los datos del mundo actuales fueron generados en los últimos 2 años.

• Según MIT, las organizaciones grandes tienen en promedio 5.000 fuentes de datos, pero 1-2% terminan en su Data Warehouse.

• El crecimiento exponencial se torna cada vez mas difícil de administrar.

• Los datos contienen información poco obvia que las empresas podrían descubrir para mejorar sus resultados.

• Las medidas de datos son relativas. Cada industria enfrenta desafíos de distinto tamaño.

A. Definición de Big Data!

B. Aplicaciones

C. Tecnologías

D. Mejores prácticas

E. Reflexión final

¿Qué es Big Data?

¿Análisis Predictivo

¿Business Intelligence?

¿Data Discovery?

¿Visualizaciones e infografías?

¿Búsqueda de texto?

¿Procesamiento de eventos complejos?

¿Programación neurolingüística?

¿Aprendizaje profundo?

¿Inteligencia Artificial?

¿Cual es nuestra frontera?

MB GB TB PBtablabase de datos

fotos web audio

social video mobile

tiempo re

alca

si tie

mpo real

periodico

batch

Velocidad

Volumen

Variedad

El problema comienza a definirse como de Big Data

cuando la fronterase expande.

Nuestras arquitectura de información tradicional se torna inadecuada.

El ruido supera la señal

Hay buenos modelos…y malos modelos…

El 80% del esfuerzo se produce en la

integración de datos

La explotación de Big Data está debajo de la superficie

alias“Dark data"

Además, el 80% de los datos disponibles son

no estructurados, pero… ¿equivalen al 80% del valor?

ROB (Return on Byte)!Es el valor de un byte dividido por el costo de almacenarlo

MAX(ROB)

¿Alto ROB?

¿Bajo ROB?

Big Data es la frontera de una firma para almacenar, procesar y acceder a todos los datos que necesita para operar eficazmente, tomar decisiones, reducir riesgos y servir a los clientes.


B. Aplicaciones!C. Tecnologías

D. Mejores Prácticas

E. Reflexión final

Machine learning

Procesamiento en tiempo real

Analytics exploratorio

Banca Bienes de Consumo IT Telcos y

comunicaciones

Servicio al consumidor

Análisis sentimental

Seguridad informática Churn

Riesgocrediticio

Recomendación de productos

Escabilidad de Infraestructura

Gestión de promociones

Detección de Transacciones fraudulentas

Predicción de demanda en tiempo real

Optimización de protocolos

Alocación inteligente de

capacidad

Upsell y cross-sell de productos

Vista 360 del consumidor

Predicción de fallos M2M

Gobierno y ciudad

Biología y Medicina

Energía y utilidades Internet

Predicción y prevención del

delitoGenómica Medidores

inteligentesAsistente

virtual

Ciudadinteligente

Registro de enfermedades

Redesmixtas

Contenido personalizado

Digitalización de documentos

Diagnóstico médico en la

nubePredicción de la

demandaAprendizaje

profundo

OpenGovernment “Yo” cuantificado

Gestión de energía desde el

consumidorInternet of

Things


B. Aplicaciones

C. Tecnologías!D. Mejores prácticas

E. Reflexión final

Nuevas estructuras de datos para

nuevos problemas

No Relacional Relacional

Hadoop!Horton!

Cloudera!MapR!

Zettaset!

!!

Hadapt!!!

Teradata!Aster!EMC!

Greeplum!IBM InfoSphere!

Netezza!SAP HANA!

SAP Sybase IQ!HP Vertica!

Oracle!

Times-ten!Infobright!ParAccel!Calpoint!

VectorWise

Analíticas

Operativas Spark Oracle IBM DB2 SQLSrvr JustOneDB

Documentos

Lotus Notes

InterSystems!Progress!

Objectivity!Versant

Marklogic!McObject

CouchDB!MongoDB!RavenDB

NoSQL

Clave Valor

Big Table

Grafos

Couchbase

Riak!Redis!

Membrain!Voldemort!BerkleyDB

Cassandra

HyperTable!HBase FlockDB!

InfiniteGraph!Neo4j!

AllegroGraph

Datos en la nubeApp Engine!SimpleDB

Amazon Redshift!SQL Azure!

database.com

Xeround!FathomDB

NewSQL

Sybase ASE Ingress

MySQL

PostgreSQL

EnterpriseDB

SchoonerSQL!Tokutek!

Continuent!Translattice!

GenieDB

ScaleBase!CodeFutures!

VoltDB!ScalArc!Drizzle

HandlerSocket!Akiban!

MySQL Cluster!Clustix!

Tuplas "Clave": { "valor": 0.55 }

¿Lenguaje de query?

(C) consistencia (A) disponibilidad (P) tolerancia a particiones

¿NoSQL? Elija 2

(lo sentimos)

Hadoop• Almacenaje y procesamiento

barato y a escala.

• Es la tecnología dominante para procesamiento distribuido a gran escala. Crece 60% anual a tasa compuesta.

• Sin embargo su nivel de utilización se encuentra por debajo del 6% en empresas.

Hadoop instala herramientas en cada nodo:

• Librerías y scripts en Java

• Un filesystem de altadisponibilidad -> HDFS

• Una plataforma de gestiónde recursos de cómputo -> YARN

• Un motor de extracción -> Map-Reduce

Arquitectura básica

Fuente: Rare Mile Technologies, 26 de Junio de 2012, http://blog.raremile.com/hadoop-demystified/

MapReduceInput -> Map(..) -> Reduce(..) -> output

Nodo 2

Nodo 3

Nodo 1

Nodo 2

Nodo 3

Nodo 1

Arch

ivos

en

files

yste

mMap(..) Reduce(..)input output

Soy maestro primario… tengo una caja de lápices de color y cajas más pequeñas

->Caja de lápices

Un alumno: toma lápiz, le

pone etiqueta, y lo vuelca en su caja (Ejemplo:

Rojo, 1)

->Otro alumno: toma caja y suma los 1s

-> Lápicespor color

input

Map(..)Reduce(..)

output

Map Reduce

Storm!Drill!

HANA Spark

Alto volumen, alta latencia Alto volumen, baja latencia

Procesamiento en batch Acceso a datos en memoria

Se define proceduralmenteSon queries a bases de datos

columnares como HBase, Cassandra o MongoDB

Es adecuado para el procesamiento total de datos

Es adecuado para producir reportes ah-hoc y procesamiento

en tiempo real

• Persistencia Cassandra, HBase

• Manipulación de datos Pig, Pandas

• Búsqueda de textoSolr, Lucene

Tecnologías complementarias que hay que saber obligado

Tecnologías complementarias que hay que saber obligado

• Machine LearningMahout, R, SAS, MADLib

• Real-time processingDrill, Storm, Impala

• In-memory SAP HANA, Apache Spark

fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados

Consulta SQL

Clasificador

Programación neuro linguistica

¿Con qué sentido sumergirnos entre tanta

complejidad?

fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados

Microstrategy

Modelo en R

Luminoso

Las bases de datos columnares tienen grandes beneficios• Aprovechamiento de procesamiento

masivo en paralelo (MPP).

• Posibilitan el almacenamiento en memoria RAM.

• Fáciles de administrar y de leer(viejo y conocido SQL)

• Soportan un volumen del orden de los TBs sin problemas

Analytics in-database y funciones definidas por el usuario

• Ganancia cualitativa en performance.

• Compatibles con lenguajes de markup para aplicaciones de Data Mining (PMML)

• Contendientes: Aster Data, Vertica, Netezza, Greenplum (EMC), ParAccel, SAP Sybase

Columnar + In-Database analytics =


B. Aplicaciones

C. Tecnologías

D. Mejores prácticas!E. Reflexión final

Algunas Mejores prácticas

1. Partir siempre de una hipótesis antes de actuar sobre los datos

2. No construir Legacy

3. Definir una “autopista de la información”

4. Seguir pensando en dimensiones e indicadores

Algunas Mejores prácticas

5. Construir una infraestructura flexible y escalable (la nube)

6. Implementar flujos conectados a las etapas de caché anteriores

7. Los datos mas próximos van a ser sucios, pero debe agregarse valor en la etapas subsiguientes


B. Aplicaciones

C. Tecnologías

D. Kimball

E. Reflexión final

–Brett Sheppard, director de Big Data, Splunk

“2014 will be the year of the big data non-specialist. Until recently, many big data projects—including those built with Hadoop—have required the skills of highly trained data scientists. They’ve also tended to rely on fixed schemas and scheduled reporting that limit the kinds of questions the system can answer. Starting in 2014, line-of-business employees will be able to ask and answer their own questions using raw, unstructured big data from disparate sources. They won’t need to rely on specialists to unlock the value of big data. Inevitably, they’ll start using data to help make decisions they previously might have made on gut-feel alone. Decision-making will also become a more creative process, as employees of all kinds start asking questions of their data to test hypotheses and explore new approaches to old problems.”

Fuente: http://inside-bigdata.com/2013/12/09/big-data-predictions-2014/

http://inside-bigdata.com/2013/12/09/big-data-predictions-2014/

Fuente: Read Write Web, 26 de Diciembre 2013, http://readwrite.com/2013/12/26/big-data-myths-reality

El mercado requerirá nuevos perfiles

Resumiendo

1. Las empresas pueden capturar más datos que nunca.

2. La explosión del social media y del Internet of Things son los principales disparadores.

Resumiendo

3. Identificar lo importante entre tanto ruido depende del las capacidades intuitivas y de la apertura del tomador de decisiones.

4. Hadoop es una herramienta extremadamente flexible que pocos ejecutivos entienden.

Resumiendo

5. El cliente va cambiando. Las gerencias de negocio son las nuevas compradoras de software.

6. La apuesta es a largo plazo, pero con foco en lo diario. Las empresas necesitan de la prueba y el error.

Big Data es pensar en nuevos modelos de negocio basados en las necesidades del futuro

¡Gracias!