Upload
gustavo-alzate-sandoval
View
1.531
Download
2
Tags:
Embed Size (px)
Citation preview
Big Data HDInsight
Gustavo Alzate Sandoval
Microsoft Azure
Big Data HDInsight
@ElTavoDev
www.eltavo.net
@Avanet
Agenda
Conociendo Big Data
Conceptos Básicos
Escenarios
Hadoop
HDInsight
¿Qué es Big Data?
"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.
Microsoft Azure
¿Qué es Big Data?
Big data es una colección de conjuntos de
datos tan grande y complejo que se vuelve
difícil para trabajar con el uso de
herramientas de gestión de base de datos
tradicionales. Las dificultades incluyen la
captura, almacenamiento, búsqueda,
intercambio, análisis y visualización.
Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá
Microsoft Azure
¿Qué es Big Data?
Big Data: “ Barreras para que una
organización o equipo puedan almacenar,
procesar y acceder todos los datos que
necesitan para operar con eficiencia, tomar
decisiones, reducir riesgos, etc.”
Fuente: SolidQ
Microsoft Azure
¿Por que Big Data?
Microsoft Azure
Tendencias Claves
Microsoft Azure
Big Data – La revolución en los datos
Los datos digitales crecerán40x próxima década
En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti
Microsoft Azure
¿Qué es Big Data?
Volumen
Velocidad
Variedad
Variabilidad
Microsoft Azure
Internet of Things
Audio / Video
Log Files
Text/Image
Social Sentiment
Data Market Feeds
eGov Feeds
Weather
Wikis / BlogsClick Stream Sensors / RFID / Devices
Spatial & GPS Coordinates
Modern WebMobile
Advertising CollaborationeCommerce
Digital Marketing
Search Marketing
Web Logs
Recommendations
ERP / CRM
Sales Pipeline
Payables
Payroll
Inventory
Contacts
Deal Tracking
Terabytes
(10e12)
Gigabytes
(10e9)
Exabytes
(10e18)
Petabytes
(10e15)
Velocidad | Variedad | Variabilidad
Vo
lum
en
ERP / CRM Modern Web Internet of Things
¿Qué es Big Data?
Microsoft Azure
Ejemplos de Big Data
12 Tbdía
21 PbHadoop
cluster
7 Pbmes
1 Tbtweets/dia
75
Millionscores/day
14 TbHadoop
cluster
4 BillionGraph
edg/day
7 Tbdatos/dia
Microsoft Azure
Flujo de datos de un tradicional E-Commerce
Nuevo flujo de Big Data de un E-Commerce
Conceptos básicos
Microsoft Azure
Características de Big Data
¿Qué es Hadoop?
• Plataforma de almacenamiento de datos y análisis para Big Data
• Open Source
• Optimizado para manejar
• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)
• Uso de hardware económico
• No para OLTP / OLAP
Sistema de archivos distribuidos(HDFS)
• Sistema de archivos distribuidos y escalables escrito en Java
• Replicación automática
• Optimizado para operaciones de lectura
• Distribuye y copia los ficheros en diferentes nodos para garantizarbackup y disponibilidad de la información
MapReduce
• Sistema de procesamiento distribuido (consume de datos)
• Rastreador de trabajo (Job tracker)
• Rastreador de tareas (Task tracker)
• Resolución práctica de problemas susceptibles a ser paralelizados
• Aborda problemas de set de datos de gran tamaño
RDBMS vs. Hadoop
Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
OD
BC
Legend■ Core Hadoop
■ Data processing
■ Data Movement
■ Packages
Ecosistema Hadoop
Hive
• Consultas en paralelo usando MapReduce
• Lenguaje HiveQL (Símil Sql)
• Permite procesar grandes volúmenes de datos
• Escalabilidad
• Tolerancia a fallos
Microsoft Azure
Ejemplos HiveQL
•Crear una Tabla Externa
Microsoft Azure
CREATE EXTERNAL TABLE iislogs(sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
LOCATION'wasb://[email protected]/'
select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,query_params['search_value'] as search_value
from (select *, str_to_map(csuriquery, '&', '=') as query_paramsfrom iislogs
) version_logswhere query_params['api-version'] is not null
•Ejecutar un query para retornar datos
Pig
• Lenguaje script para expresar sentencias MapReduce
• Usa paralelismo para ejecutar las sentencias
• Optimizado para grandes volumenes de datos
• Lenguaje PigLatin (Símil Sql)
Microsoft Azure
Ejemplos PigLatin
•Carga y Transformación de Datos
Microsoft Azure
A = load 'passwd' using PigStorage(':'); -- load the passwd file B = foreach A generate $0 as id; -- extract the user IDs store B into ‘id.out’; -- write the results to a file name id.out
LOGS = LOAD 'wasb:///example/data/sample.log';LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) asLOGLEVEL;FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null;GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL;FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL)as COUNT;RESULT = order FREQUENCIES by COUNT desc;DUMP RESULT;
•Ejecutar un query para retornar y procesar datos
¿Qué es HDInsight?
• Project Isotope
• HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.
• On premise: Instalación en Windows Server
• Cloud: Despliegue en la nube Microsoft Azure
Ventajas
Escale con total flexibilidad a petición
•HDInsight se ha diseñado para poder hacer frente a cualquier cantidad de datos, con la capacidad de escalar de terabytes a petabytes a petición. Solamente se cobra por los recursos de proceso y almacenamiento que realmente usa.
Ventajas
Estudie todos los datos: estructurados,semiestructurados, no estructurados
•Dado que es 100% Apache Hadoop, HDInsightpuede procesar datos no estructurados o semiestructurados desde secuencias de clics web, medios sociales, registros de servidor, dispositivos, sensores, etc.
Ventajas
Desarrolle en su lenguaje favorito
•HDInsight tiene extensiones de programación eficaces para lenguajes como C#, Java, .NET y más. Así, en Hadoop, podrá usar el lenguaje de programación de su elección para crear, configurar, enviar y supervisar trabajos de Hadoop
Ventajas
Sin hardware que comprar o mantener
•Con HDInsight, puede implementar Hadoop en la nube sin comprar nuevo hardware ni incurrir en otros costos iniciales. Además, la instalación y configuración se realizan de forma rápida. Azure se encarga de todo. Puede iniciar su primer clúster en minutos
Ventajas
Use Excel para visualizar sus datos de Hadoop
•Dado que se integra con Excel, HDInsight le permite visualizar y analizar los datos de Hadoop de nuevas y convincentes formas en una herramienta conocida para sus usuarios finales. Desde Excel, los usuarios pueden seleccionar Azure HDInsight como origen de datos
Hadoop Core +
Hive, Pig, HBase
C#, F#, .NET
Azure Storage (WASB)
Office 365 Power BI
(Excel, PowerQuery,
PowerView,
BI Sites)
World's Data (Azure Data
Marketplace)
HDInsight y Hadoop
ODBCSqoop for SQL
ServerPowerShell
Demo
HDInsight en Microsoft Azure
Ofertas detalladas
Recursos
Gracias!!
@ElTavoDev
www.eltavo.net
@Avanet
Importante
Big Data analytics
Microsoft Azure
Programando HDInsight
Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus…
C#, F# Map/Reduce, Microsoft .NET management clients
PowerShell, cross-platform CLI tools
Empleos de Autor Integración de App
Construyendo experiencias de desarrollador
Creación de frameworks and lenguajes
Conectividad
Programabilidad
Seguridad
Combinados libremente
Ligero
Bajo costo de extender
Escenario orientado
Innovación fluye hacia
arriba
Nuevos modelos de
computo
Mejoras de rendimiento
Extender la amplitud &
profundidad
Habilitar nuevos escenarios
Integrar con cadenas actuales
de herramientas
HDInsight y Hadoop
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Microsoft Azure & Windows Server
MicrosoftBI
Platform