24
Minería de datos Ruben Egiguren 18/06/2013

Minería de datos

  • Upload
    keopx

  • View
    226

  • Download
    0

Embed Size (px)

DESCRIPTION

Curso de Big Data

Citation preview

Page 1: Minería de datos

Minería de datos

Ruben Egiguren18/06/2013

Page 2: Minería de datos

● Introducción

● KDD: Proceso de Extracción de conocimiento

● Procesos de un proyecto de minería de datos

● Técnicas de minería de datos

● Ciclo de un Proyecto de Minería de Datos

Índice

Page 3: Minería de datos

De donde venimos y hacia dónde vamos

Page 4: Minería de datos

● La minería de datos (DM, Data Mining) consiste en la

extracción no trivial de información que reside de

manera implícita en los datos. Dicha información era

previamente desconocida y podrá resultar útil para

algún proceso. En otras palabras, la minería de datos

prepara, sondea y explora los datos para sacar la

información oculta en ellos.

¿Qué es la Minería de Datos?

Fuente: wikipedia

Page 5: Minería de datos

● Deducir conocimiento examinando los datos y realizando

predicciones

○ «examinar datos» examinar ejemplos de hechos conocidos

sobre «casos» utilizando sus atributos – «variables»

○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de

Decisión, Redes Neuronales, Reglas de Asociación,….

● OLAP: Análisis orientado al modelo

● DM: Análisis orientado al dato

● Nombres alternativos: Análisis Predictivo

¿Qué es la Minería de Datos?

Page 6: Minería de datos

● La minería de datos (es la etapa de análisis de "Knowledge Discovery in

Databases" o KDD)

● Proceso de detectar la información procesable de los conjuntos

grandes de datos.

● Utiliza el análisis matemático para deducir los patrones y tendencias

que existen en los datos.

● Estos patrones no se pueden detectar mediante la exploración

tradicional de los datos porque las relaciones son demasiado complejas o

porque hay demasiado datos.

● Estos patrones y tendencias se pueden recopilar y definir como un

modelo de minería de datos.

¿Qué es la Minería de Datos?

Page 7: Minería de datos

KDD: Proceso de Extracción de conocimiento

Como muestra la figura, las etapas del proceso KDD se dividen en 5 fases y son:

1. Selección de datos

2. Preprocesamiento

3. Transformación

4. Data Mining

5. Interpretación y Evaluación

Page 8: Minería de datos

Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:

1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos.

2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación.

3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente.

4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.

5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos.

KDD: Proceso de Extracción de conocimiento

Page 9: Minería de datos

Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente:

● Comprensión del negocio y del problema que se quiere resolver.

● Determinación, obtención y limpieza de los datos necesarios.

● Creación de modelos matemáticos.● Validación, comunicación, etc. de los resultados

obtenidos.● Integración, si procede, de los resultados en un

sistema transaccional o similar.

Procesos de un proyecto de minería de datos

Page 10: Minería de datos

● La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme.

Procesos de un proyecto de minería de datos

Page 11: Minería de datos

● Generación de Recomendaciones○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros

clientes?● Detección de anomalías

○ Detección de fraude● Análisis de Rotación

○ ¿Qué clientes son más proclives de irse a la competencia?● Gestión de Riesgos

○ ¿Debería de concederse el crédito?● Segmentación de clientes

○ Clasificación de nuestros clientes● Anuncios Orientados

○ Personalización de anuncios, contenido,…

Procesos de un proyecto de minería de datos

Page 12: Minería de datos

● Previsión○ ¿Cuánto venderemos el próximo semestre?

● Clasificación○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de

atributos uno de ellos es el atributo clase.○ Se busca un modelo que describa el atributo clase como una función

de los atributos de salida● Agrupación

○ También conocido como segmentación○ Identifica grupos naturales basándose en un conjunto de atributos

● Asociación○ También conocido como análisis de cesta de la compra

● Regresión○ Similar a clasificación pero con el objetivo de buscar patrones para

determinar un valor numérico○ Ej.: Predicción de la velocidad del viento basada en temperatura

presión de aire y humedad

Procesos de un proyecto de minería de datos

Page 13: Minería de datos

Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.

Técnicas de minería de datos

Page 14: Minería de datos

Las técnicas más representativas son● Redes neuronales

● Árboles de decisión

● Modelos estadísticos

● Agrupamiento o Clustering

● Algoritmos supervisados (o predictivos)

● Algoritmos no supervisados (o del descubrimiento

del conocimiento)

Técnicas de minería de datos

Page 15: Minería de datos

Redes neuronalesSon un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:

● El Perceptrón● El Perceptrón multicapa. ● Los Mapas Autoorganizados, también conocidos como

redes de Kohonen.

Técnicas de minería de datos

Page 16: Minería de datos

Árboles de decisiónUn árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.

Ejemplos:

● Algoritmo ID3.● Algoritmo C4.5.

Técnicas de minería de datos

Page 17: Minería de datos

Modelos estadísticos● Es una expresión simbólica en forma de

igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Técnicas de minería de datos

Page 18: Minería de datos

Agrupamiento o ClusteringEs un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.

Ejemplos:

● Algoritmo K-means.● Algoritmo K-medoids.

Técnicas de minería de datos

Page 19: Minería de datos

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

● Algoritmos supervisados (o predictivos)

○ Predicen un dato (o un conjunto de ellos)

desconocido a priori, a partir de otros conocidos.

● Algoritmos no supervisados (o del descubrimiento del

conocimiento)

○ Se descubren patrones y tendencias en los datos.

Técnicas de minería de datos

Page 20: Minería de datos

Técnicas de minería de datos

EjemploComprador potencial de bicis:

Provincia Ciudad Edad Coche Distancia trabajo Bici

Page 21: Minería de datos

Ciclo de un Proyecto de Minería de Datos

Page 22: Minería de datos

Muchas gracias por vuestra atención

Page 23: Minería de datos

● dVelox● KXEN● KNIME● Orange● Powerhouse● Quiterian● RapidMiner● R● SPSS Clementine● SAS Enterprise Miner● STATISTICA Data Miner● KEEL● mahout● Weka

Algunas herramientas

Page 24: Minería de datos

Referencias● http://www.slideshare.net/antoniosql/minera-de-datos● http://msdn.microsoft.com/es-es/library/ms174949.aspx● http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos● http://www.slideshare.net/04071977/mineria-de-datos● http://mahout.apache.org/● https://www.youtube.com/watch?v=43mS9M1ZjU8