View
594
Download
0
Embed Size (px)
DESCRIPTION
Minería de Datos
Citation preview
DATA MININGMINERÍA DE DATOS
MINERIA DE DATOS“Torturar a los datos hasta que confiesen”
DATA MINING
Junior Villafuerte Beita
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data Mining
Protocolos
Introducción
Universidad Latina de Costa Rica
Definición
Técnicas y Algoritmos
Conclusión
Procesos
Software
Principales Usos
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningContenido
DATA MINING
DATA MINING
Universidad Latina de Costa Rica
INTRODUCCIÓN
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningIntroducción al DM
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningIntroducción al DM
Introducción
Era de la Información (Tecnologías de la Información y la
Comunicación) Información = Poder & Éxito
Ordenadores + Medios de Almacenamiento Masivo Enormes Cantidades de Información
Enormes Colecciones de Información = Nuevas necesidades
“Data Mining” – Minería de DatosExplorar y Analizar grandes volúmenes de InformaciónEncontrar correlaciones significativas (Tendencias &
Comportamientos)
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningIntroducción al DM
Introducción
¿Qué es la Minería de Datos?
• Deducir conocimiento examinando los datos y realizando predicciones.
• En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
• Deducimos conocimiento en: Patrones, Clusters, Reglas, Árboles de Decisión, Redes Neuronales, Reglas de Asociación,….
DATA MINING
Universidad Latina de Costa Rica
DEFINICIÓN DEL DM
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningDefinición del DM
² ² ² ² ²² ²Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningDefinición del DM
Definición del DM
Proceso de exploración y análisis de grandes volúmenes de datos para hacerlos mas comprensibles, predecir tendencias y comportamientos.
Conjunto de técnicas y herramientas usadas para encontrar y entender relaciones en grandes cantidades de datos y presentarlas en una forma útil y ventajosa.
“Encontrar pepitas de oro o diamantes en una mina de carbón”
Principios: 1. La estadística clásica2. La inteligencia artificial (AI)3. La Maquina de aprendizaje
Data Mining – Minería de Datos90’s – Gregory Platetsky-
ShapiroKnowledge Discovery in
Databases
Data Fishing
Data Dredging
Data Archaelogy
Información Discovery
DATA MINING
Universidad Latina de Costa Rica
PROCESOS PARA APLICAR DM
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningProcesos para aplicar el DM
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningProcesos para aplicar el DM
Procesos para aplicar DM
Selección del conjunto de datos
Análisis de los datos
Transformación del conjunto de datos de entrada
Seleccionar y aplicar la técnica de minería de datos
Extracción de conocimiento
Interpretación y evaluación de datos
DATA MINING
Universidad Latina de Costa Rica
Protocolo de un Proyecto de DM
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningProcesos para aplicar el DM
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningProcesos para aplicar el DM
Fases Necesarias
Comprensión: del negocio y del problema que se quiere resolver.
Determinación, obtención y limpieza: de los datos necesarios.
Creación de modelos matemáticos.
Validación, comunicación: de los resultados obtenidos.
Integración: si procede, de los resultados en un sistema transaccional o
similar.
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningProcesos para aplicar el DM
Ciclo de Vida
Formulación del Problema de Negocio Recolección de Datos Limpieza y Transformación de Datos
Transformación numérica Agrupación Agregación Manejo de valores «perdidos» Eliminar los «extremos»
Creación del Modelo Selección del Algoritmo Prueba y Error en muchos casos
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningProcesos para aplicar el DM
Ciclo de Vida
Evaluación del Modelo Evaluar la fiabilidad del modelo
dentro de nuestro negocio Reporting y Predicción Integración en Aplicaciones Gestión del Modelo
Dependiendo del escenario puede ser muy volátil
Planificar «Entrenamiento»
DATA MINING
Universidad Latina de Costa Rica
Técnicas de la Minería de Datos
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningTécnicas y Algoritmos de DM
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningTécnicas y Algoritmos de DM
Técnicas
Redes Neuronaleso Procesamiento automático inspirado en la forma en que funciona
el sistema nervioso; Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida como la percepción.
Regresión Linealo Es la más utilizada para formar relaciones entre datos. Rápida y
eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.
Modelos Estadisticoso Una ecuación que se emplea en todos los diseños experimentales y
en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningTécnicas y Algoritmos de DM
Técnicas
Árboles de Decisióno Un árbol de decisión es un modelo de predicción utilizado en el
ámbito de la inteligencia artificial Agrupamiento o Clustering
o Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.
Reglas de Asociacióno Se utilizan para descubrir hechos que ocurren en común dentro de
un determinado conjunto de datos.
DATA MINING
Universidad Latina de Costa Rica
Algoritmos de la Minería de Datos
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningTécnicas y Algoritmos de DM
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningTécnicas y Algoritmos de DM
Algoritmos de DM
IA y Estadística
Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningTécnicas y Algoritmos de DM
Tipos de Algoritmos
De Forecasting. Dada una tendencia ¿Cuál es la previsión?
Supervisados. Conocemos la respuesta ¿Qué está correlacionado?
No Supervisados. Desconocemos la respuesta ¿Cuáles son los grupos?
DATA MINING
Universidad Latina de Costa Rica
Principales Usos de DM
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningPrincipales Usos de DM
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningPrincipales Usos de DM
Principales Usos de DM
Negocios y Comercio
Empleo
Fraudes y Terrorismo
Elecciones
Medicina
Ciencia e Ingeniería
Comportamiento de Internet
Genética
Juegos
DATA MINING
Universidad Latina de Costa Rica
Software para aplicar DM
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningSoftware para aplicar DM
Universidad Latina de Costa Rica
Software para aplicar DM
Ofrecen Soporte y Facilitan la toma de decisiones.
Comerciales y Libres
Desarrollo de Modelos de Minería de Datos
Uso del Estándar: PMML (Predictive Model Markup Language)
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningSoftware para aplicar DM
Universidad Latina de Costa Rica
Top 10 DM Software en 2012
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningSoftware para aplicar DM
DATA MINING
Universidad Latina de Costa Rica
Ejemplo
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningEjemplo
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningEjemplo
Ejemplo
El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.
DATA MINING
Universidad Latina de Costa Rica
Conclusión
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningConclusión
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningConclusión
Conclusión
Una visión a grande escala de los patrones que la información oculta.
Permite tomar decisiones asertivas a problemas, o para formular estrategias de mejora. Data Mining y modelos en constante evolución.
Los patrones pueden cambiar.
DATA MINING
Universidad Latina de Costa Rica
Ingeniería de Sistemas InformáticosBase de Datos II
Data MiningGracias
AIG R CA S“Torturar a los datos hasta que confiesen”
DATA MININGMINERÍA DE DATOS