31
DATA MINING MINERÍA DE DATOS

Data Minig

Embed Size (px)

DESCRIPTION

Minería de Datos

Citation preview

Page 1: Data Minig

DATA MININGMINERÍA DE DATOS

Page 2: Data Minig

MINERIA DE DATOS“Torturar a los datos hasta que confiesen”

DATA MINING

Junior Villafuerte Beita

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data Mining

Page 3: Data Minig

Protocolos

Introducción

Universidad Latina de Costa Rica

Definición

Técnicas y Algoritmos

Conclusión

Procesos

Software

Principales Usos

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningContenido

DATA MINING

Page 4: Data Minig

DATA MINING

Universidad Latina de Costa Rica

INTRODUCCIÓN

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningIntroducción al DM

Page 5: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningIntroducción al DM

Introducción

Era de la Información (Tecnologías de la Información y la

Comunicación) Información = Poder & Éxito

Ordenadores + Medios de Almacenamiento Masivo Enormes Cantidades de Información

Enormes Colecciones de Información = Nuevas necesidades

“Data Mining” – Minería de DatosExplorar y Analizar grandes volúmenes de InformaciónEncontrar correlaciones significativas (Tendencias &

Comportamientos)

Page 6: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningIntroducción al DM

Introducción

¿Qué es la Minería de Datos?

• Deducir conocimiento examinando los datos y realizando predicciones.

• En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

• Deducimos conocimiento en: Patrones, Clusters, Reglas, Árboles de Decisión, Redes Neuronales, Reglas de Asociación,….

Page 7: Data Minig

DATA MINING

Universidad Latina de Costa Rica

DEFINICIÓN DEL DM

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningDefinición del DM

Page 8: Data Minig

² ² ² ² ²² ²Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningDefinición del DM

Definición del DM

Proceso de exploración y análisis de grandes volúmenes de datos para hacerlos mas comprensibles, predecir tendencias y comportamientos.

Conjunto de técnicas y herramientas usadas para encontrar y entender relaciones en grandes cantidades de datos y presentarlas en una forma útil y ventajosa.

“Encontrar pepitas de oro o diamantes en una mina de carbón”

Principios: 1. La estadística clásica2. La inteligencia artificial (AI)3. La Maquina de aprendizaje

Data Mining – Minería de Datos90’s – Gregory Platetsky-

ShapiroKnowledge Discovery in

Databases

Data Fishing

Data Dredging

Data Archaelogy

Información Discovery

Page 9: Data Minig

DATA MINING

Universidad Latina de Costa Rica

PROCESOS PARA APLICAR DM

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningProcesos para aplicar el DM

Page 10: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningProcesos para aplicar el DM

Procesos para aplicar DM

Selección del conjunto de datos

Análisis de los datos

Transformación del conjunto de datos de entrada

Seleccionar y aplicar la técnica de minería de datos

Extracción de conocimiento

Interpretación y evaluación de datos

Page 11: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Protocolo de un Proyecto de DM

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningProcesos para aplicar el DM

Page 12: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningProcesos para aplicar el DM

Fases Necesarias

Comprensión: del negocio y del problema que se quiere resolver.

Determinación, obtención y limpieza: de los datos necesarios.

Creación de modelos matemáticos.

Validación, comunicación: de los resultados obtenidos.

Integración: si procede, de los resultados en un sistema transaccional o

similar.

Page 13: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningProcesos para aplicar el DM

Ciclo de Vida

Formulación del Problema de Negocio Recolección de Datos Limpieza y Transformación de Datos

Transformación numérica Agrupación Agregación Manejo de valores «perdidos» Eliminar los «extremos»

Creación del Modelo Selección del Algoritmo Prueba y Error en muchos casos

Page 14: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningProcesos para aplicar el DM

Ciclo de Vida

Evaluación del Modelo Evaluar la fiabilidad del modelo

dentro de nuestro negocio Reporting y Predicción Integración en Aplicaciones Gestión del Modelo

Dependiendo del escenario puede ser muy volátil

Planificar «Entrenamiento»

Page 15: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Técnicas de la Minería de Datos

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningTécnicas y Algoritmos de DM

Page 16: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningTécnicas y Algoritmos de DM

Técnicas

Redes Neuronaleso Procesamiento automático inspirado en la forma en que funciona

el sistema nervioso; Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida como la percepción.

Regresión Linealo Es la más utilizada para formar relaciones entre datos. Rápida y

eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.

Modelos Estadisticoso Una ecuación que se emplea en todos los diseños experimentales y

en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Page 17: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningTécnicas y Algoritmos de DM

Técnicas

Árboles de Decisióno Un árbol de decisión es un modelo de predicción utilizado en el

ámbito de la inteligencia artificial Agrupamiento o Clustering

o Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.

Reglas de Asociacióno Se utilizan para descubrir hechos que ocurren en común dentro de

un determinado conjunto de datos.

Page 18: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Algoritmos de la Minería de Datos

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningTécnicas y Algoritmos de DM

Page 19: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningTécnicas y Algoritmos de DM

Algoritmos de DM

IA y Estadística

Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Page 20: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningTécnicas y Algoritmos de DM

Tipos de Algoritmos

De Forecasting. Dada una tendencia ¿Cuál es la previsión?

Supervisados. Conocemos la respuesta ¿Qué está correlacionado?

No Supervisados. Desconocemos la respuesta ¿Cuáles son los grupos?

Page 21: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Principales Usos de DM

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningPrincipales Usos de DM

Page 22: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningPrincipales Usos de DM

Principales Usos de DM

Negocios y Comercio

Empleo

Fraudes y Terrorismo

Elecciones

Medicina

Ciencia e Ingeniería

Comportamiento de Internet

Genética

Juegos

Page 23: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Software para aplicar DM

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningSoftware para aplicar DM

Page 24: Data Minig

Universidad Latina de Costa Rica

Software para aplicar DM

Ofrecen Soporte y Facilitan la toma de decisiones.

Comerciales y Libres

Desarrollo de Modelos de Minería de Datos

Uso del Estándar: PMML (Predictive Model Markup Language)

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningSoftware para aplicar DM

Page 25: Data Minig

Universidad Latina de Costa Rica

Top 10 DM Software en 2012

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningSoftware para aplicar DM

Page 26: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Ejemplo

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningEjemplo

Page 27: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningEjemplo

Ejemplo

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

Page 28: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Conclusión

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningConclusión

Page 29: Data Minig

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningConclusión

Conclusión

Una visión a grande escala de los patrones que la información oculta.

Permite tomar decisiones asertivas a problemas, o para formular estrategias de mejora.  Data Mining y modelos en constante evolución.

Los patrones pueden cambiar.

Page 30: Data Minig

DATA MINING

Universidad Latina de Costa Rica

Ingeniería de Sistemas InformáticosBase de Datos II

Data MiningGracias

AIG R CA S“Torturar a los datos hasta que confiesen”

Page 31: Data Minig

DATA MININGMINERÍA DE DATOS