View
0
Download
0
Category
Preview:
Citation preview
Panorámica general de Data Science y Big DataLos roles del futuro
Rodrigo AbtData Scientist / Advanced Analytics & Big Data Manager en Axity
rodrigo.abt@axity.com
Enero 2019
¿Saben quién pintó este cuadro?
El mercado para Analítica Avanzada y Big Data es una gran oportunidad
Se proyecta que en el mundo el mercado de Analítica
Avanzada crecerá de US$ 7.000 millones (2014) a más
de US$ 29.000 millones (2019), con una tasa de
crecimiento anual de 33,2%
Fuente: Markets and Research
Según IDC Chile, se estima que la inversión en Big Data & Analytics aumentará en 18% en Chile al 2018, llegando hasta los US$ 500 millones
Fuente: IDC Chile, abril 2017
¿Qué necesito saber sobre estos temas?
Actualmente hay varios conceptos en boga
Inteligencia Artificial
Analítica Avanzada Data Science
Big Data
Machine Learning
¿Qué significa cada uno?
Data Lake
Inteligencia Artificial
Máquinas que operan imitando los procesos cognitivos del ser humano
…es un aspiracional
IA no es un concepto “nuevo”
Era de los “Sistemas Expertos”
Primeros prototipos
1997: Deep Blue derrota a Gary Kasparov
2011: IBM Watson gana el Jeopardy
2017: AlphaGo vence 3 partidos seguidos al campeón de GO
Machine Learning
Aprendizaje de máquinas a través de algoritmos, sin programación previa
Hay distintos métodos de aprendizaje
La aplicación de Machine Learning requiere varios pasos…
Extracción, limpieza, preparación, selección de variables
Separación de sets de entrenamiento / prueba
Entrenamiento / Calibración
Predicción / Resultado / Evaluación
70%
30%
Data Science
Uso del método científico para generación de insights a partir de los datos
Data Science ha tenido un boom exponencial los últimos años…
Bases de datos
Estadística
Data Science es una disciplina que combina múltiples aspectos
Programación
Machine Learning
Conocimiento de negocio
Data Science
Analítica Avanzada
Patrones y tendencias con modelos
Algoritmos complejos y computación avanzada
Foco en predicción
ANÁLISIS DESCRIPTIVO¿Qué pasó? ¿Por qué?
ANÁLISIS PREDICTIVO¿Qué pasará?
DESORDEN¿Qué tenemos?
ANÁLISIS PRESCRIPTIVO¿Cómo hacemos que suceda?
Las iniciativas con Analítica Avanzada dependen del nivel de madurez
Las iniciativas de Analítica Avanzada / Data Science son iterativas
Necesidad
Exploración
Preparación
Modelado
Evaluación
Liberación
Estándar CRISP-DM
Analítica Avanzada BI Tradicional
Predicción, optimización y simulación
Estructurados y no estructurados
“Qué pasará"
Algoritmos complejos y/o
arquitecturas tecnológicas especiales
Data Scientists, Analistas de Negocio,
Usuarios finales de negocio
Foco
Uso de datos
Preguntas
Implementación
Usuarios
Uso Proactivo
Reportes y visualizaciones
Estructurados y algunos no
estructurados
"Qué pasó"
Requerimientos cuantificables y
normalmente predecibles
Usuarios finales de negocio, Analistas
Reactivo
VS
Casos de uso en Analítica Avanzada
• Predicción de fuga
• Sistemas automáticos de recomendación
• Identificación de fraudes y anomalías
• Segmentación de clientes / audiencias
• Comprensión de comportamientos
• Detección de patrones complejos
• Optimización de precios, lugares, combinaciones
• Scores de riesgo
Ejemplo: Mantenimiento predictivo
Ejemplo: Clustering y fuga de clientes
Big Data
Datos de gran…
Data Lake
Almacenamiento e integración de múltiples fuentes de información sin forzar una estructura predefinida
Arquitectura típica de Data Lake
Fuentes
Sandbox
Modelos analíticos
batch
(near) real time
Modelos de datos
Gobierno
Datos crudosLanding Zone Visualizaciones, reportes y
aplicaciones
Metadata Calidad Catálogo Seguridad
Usuarios de negocio
Analistas / Data Scientists
Data Lake Data Warehouse
Integración de datos oportuna Integración de datos correcta
Estructurados y no estructuradosEstructurados y algunos no estructurados
“Qué pasa ahora y qué pasará" "Qué pasó"
Arquitecturas especiales, escalabilidad horizontal (muchas máquinas)
Escalabilidad vertical (más memoria, más disco, misma máquina)
Data Scientists, Analistas de Negocio, Usuarios finales de negocio
Usuarios finales de negocio
Foco
Uso de datos
Preguntas
Implementación
Usuarios
Uso Proactivo Reactivo
VSVS
Hadoop: ecosistema de facto en Big Data
❖ Esquema de almacenamiento + motor de cálculo + orquestador de recursos
❖ Gratuito. Pero tiene distribuciones: Cloudera, Hortonworks, MapR
❖ Escalamiento horizontal On-Premise y/o Cloud
❖ Múltiples herramientas asociadas
Ojo, no es una base de datos!
Algunas herramientas del ecosistema Hadoop
Casos de uso en Big Data
• Analítica de Redes Sociales (Twitter, Facebook, Instagram, etc.)
• Analítica de archivos masivos (Logs, Videos, Audios, Imágenes)
• Integración operacional de sistemas
• Vistas 360º de clientes / empleados
• IoT
• Mantenimiento preventivo
• Análisis y monitoreo de actividades masivas
• Optimización de precios
• Eficiencia operacional
Inteligencia Artificial
Co
nte
xto
, a
da
pta
ció
n
Analítica Avanzada
Big Data
Data Science
Machine Learning
Optimización
¿Qué empresa y aplicaciones famosas existen con estas tecnologías?
Sistemas recomendadores
Descubrimiento y curado de contenido
Traducción, búsquedas, álbumes inteligentes (fotos)
CRM Inteligente (predicción y scoring de Leads)
Sugerencias de etiquetado, noticias personalizadas
Detección de enfermedades (ej. Cáncer)
Asistentes inteligentes (Siri, Cortana)
¿Cuáles son los roles asociados?
Aritmética básica
Copiar y pegar código de Google, Stack Overflow, Kaggle Reddit
Estadística, programación, comunicación
“Data Scientist”
El Data Scientist perfecto….
La verdad es que son temas de equipo
Rol principal: Extraer conocimiento desde los datos y agregar valor con modelos
Habilidades clave:Matemáticas, Estadística, Programación, Comunicación, Machine Learning
Programas (ej.):SQL, Python, R
Rol principal: Crear consultas y visualizaciones para entender patrones
Habilidades clave:Estadística, Comunicación, Conocimiento del Negocio, Visualización
Programas (ej.):Excel, Tableau, SQL
Rol principal: Crear interfaces de consulta a datos desde múltiples fuentes y sistemas
Habilidades clave:Programación avanzada, Sistemas distribuidos, Big Data, Flujos de información
Programas (ej.):Hadoop, NoSQL, Python
Otros roles
Machine Learning EngineerRol principal: diseñar y desarrollar sistemas y modelos basados en Machine Learning
Big Data ArchitectRol principal: diseñar componentes de almacenamiento, ingesta y consumo de datos de gran volumen, variabilidad y/o velocidad de generación
¿Dónde aplican los roles?
Almacenamiento Flujos / procesamiento / deploy Modelos / algoritmos / apps Visualización
Ingeniero de Datos
Científico de Datos
Ingeniero Machine Learning
Arquitecto Big Data Analista de Datos
¿Dónde comenzar?
• Reforzar las bases matemáticas: Cálculo, Álgebra y Estadística Inferencial
• Reforzar las bases informáticas: programación, bases de datos, SQL
• Profundizar en lenguajes de programación: Python ó R
• Aprender sobre Storytelling y visualización con datos
• Existen muchos cursos gratuitos (EdX, Coursera, Udemy)
• Focalizarse: en alguna industria y algún rol
Recomendaciones
• Estudiar (mucho)
• Practicar (mucho)
• Saber a tiempo si es esto lo mío o no
Recommended