Upload
spanishpassvc
View
456
Download
1
Embed Size (px)
Citation preview
Analizando patrones de datosSQL Server DM, Excel DM, Azure ML y R
Ana María Bisbé York@ambynet http://amby.net/
2
Temario
Introducción a Minería de datosMS Office Excel – Herramientas de tabla y Minería de datosSQL Server Data Tools – Analysis ServicesSQL Server Management Studio – Data Mining Extensions (DMX)Lenguaje RMS Azure Machine Learning
Introducción Minería de datos y Machine Learning
4
Análisis de datos para conocer ¿por qué?
Descubrir las razones del éxito y el fracaso de la gestiónEntender los productos, clientes, y a nosotros mismos En resumen:
Obtener el conocimiento para dirigir el negocio sobre la base del análisis de datos Riesgo de un crédito a un cliente Agrupación de clientes Productos o servicios que se adquieren juntos Previsión de ventas Previsión de clientes potenciales
5
La minería de datos en el proceso de búsqueda de conocimiento
http://www.csd.uwo.ca/faculty/ling/cs435/fayyad.pdf - 1997
6
El modelo CRISP
https://es.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
7
Algoritmos
Directos o supervisados Variable a predecir
Clasificación Estimación Previsión
Indirectos o no supervisados Patrones
Agrupación por afinidad Clustering Descripción
8
Herramientas
http://www.techrepublic.com/blog/big-data-analytics/data-scientists-can-find-big-money-in-open-source/
9
Explorar con TSQL
10
Papel de las estadísticas
Permiten tener una idea de los valores Media, mediana, MIN, MAX
Descubrir correlaciones sencillasValidar algunas asunciones Visualizar con precisión
Histogramas y gráficos de caja (boxplots)
11
Pasos en un proceso de minería de datos
Definir (inicializar) el modeloEntrenar el modelo
procesar un % de los casos conocidosValidar modelo para puntuar (score)
procesar un % de los casos conocidosComparar las predicciones con datos reales
MS Office Excel – Herramientas de tabla y Minería de datos
Minería de datos con MS Excel
Detección fraudes o anomalías con DM Excel
SQL Server Analysis Services Data Tools
Validar modelos
Realizar predicciones en SSAS
SQL Server Management Studio – Visores
Naive Bayes en SSAS
Redes neuronales en SSAS
Clustering en SSAS
Árbol de decisión en SSAS
Contenido Genérico del modelo
SQL Server Management Studio – Data Mining Extensions (DMX)
Contenido del modelo
Detección de fraudes o anomalías con DMX
Realizar predicciones
Lenguaje R
29
Lenguaje R
Código abierto, gratuito Disponible para Windows, Mac, Unix http://cran.r-Project.org
Comunidad enorme y muy activaTodo incluido: lenguaje e IDEMás de 5000 paquetesVisible desde Azure ML
Explorar datos con R - Raffle
Explorar datos con R - Raffle
Correlación en datos con R - Raffle
Modelado desde R - Rattle
34
R para desarrollador SQL
Paquete dplyr Ejemplos de comandos
Filter Select Arrange Mutate Summarise Group_By
Base de datos SQL Programación RTabla Data frameColumna o campo Columna o variableFila Observación
R – Estadísticas
36
R para obtener gráficos
Paquete ggplot ggplot (df_dm, aes(Región, fill=Educación)) + geom_bar() ggplot(df_dm, aes(Ocupación) ) + geom_histogram(color = "white") +
facet_grid(EstadoCivil ~ .)
MS Azure Machine Learning
Algoritmos MS Azure Machine Learning
Microsoft Azure Machine Learning
Azure ML - Cargar datos
Azure ML - Experimento
Azure ML – Explorar datos
Azure ML – Seleccionar columnas
Azure ML – Dividir la muestra
Azure ML – Algoritmos de clasificación
Azure ML – Entrenar modelos
Azure ML – Medir (score)
Azure ML – Evaluar modelos
Azure ML – Visualizar resultados
50
Conclusiones
Minería de datos Búsqueda de conocimiento
Mayor parte del proyecto Exploración de datos Limpieza Definición de atributos o variables
ModeladoEvaluaciónImplementación
Gracias por su atenciónFollow @pass24hop
Comparta sus opinions con hashtags #pass24hop & #sqlpass
¿Preguntas?