1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005

11

DATA MININGDATA MINING

Arantza Garcia ArrastiaArantza Garcia Arrastia

Curso 2004/2005Curso 2004/2005

22

Data MiningData Mining

IntroducciónIntroducciónCaracterísticas principalesCaracterísticas principalesTécnicasTécnicasFasesFasesEjemplosEjemplosContrasContras ProsProsConclusionesConclusiones

33

1.Introducción (I)1.Introducción (I)

Data Mining, Data Mining, eses la extracción de la extracción de información información oculta y predecible de grandes bases de oculta y predecible de grandes bases de datosdatos..

Trabaja buscando patrones, comportamientos, Trabaja buscando patrones, comportamientos, agrupaciones, secuencias, tendencias y agrupaciones, secuencias, tendencias y asociaciones que pueden generar algún modelo asociaciones que pueden generar algún modelo para ayudar en la toma de decisiones y a para ayudar en la toma de decisiones y a comprender mejor el dominiocomprender mejor el dominio..

44

1.Introducción (II)1.Introducción (II)

Es una poderosa tecnología con potencial para Es una poderosa tecnología con potencial para ayudar a las compañías a concentrarse en la ayudar a las compañías a concentrarse en la información más importante de sus Bases de información más importante de sus Bases de Información (Data Warehouse).Información (Data Warehouse). Las herramientas de Data Mining predicen Las herramientas de Data Mining predicen futuras tendencias y comportamientos, futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones permitiendo en los negocios tomar decisiones proactivas . proactivas .

55

1.Introducción(III)1.Introducción(III)

Dos conceptos de Data Mining:

1 => Data Mining como un paso dentro del proceso KDD (Knowledge Discovery in Databases), o descubrimiento de conocimiento de las bases de datos. Representa la actividad que genera patrones y relaciones mediante la aplicación de algoritmos, a partir de un conjunto de datos previamente limpiados y transformados, para una etapa posterior de interpretación y análisis.

66

1.Introducción (IV)1.Introducción (IV)

=> 2. Data Mining como un Proceso Independiente de extracción de información oculta, que posee sus propias etapas:

Identificación del problema, selección de los datos, preparación de los datos, construcción del modelo, descubrimiento de patrones, despliegue de Patrones y monitoreo del modelo.

77

1.Introducción (V)1.Introducción (V)

Etapas principales :Etapas principales : Determinación de los objetivos: Delimitación de los Determinación de los objetivos: Delimitación de los

objetivos que el cliente desea.objetivos que el cliente desea. Preprocesamiento de los datos(60%): Selección, Preprocesamiento de los datos(60%): Selección,

limpieza, enriquecimiento, reducción y transformación limpieza, enriquecimiento, reducción y transformación de las bases de datos.de las bases de datos.

Determinación del modelo: análisis estadísticos y Determinación del modelo: análisis estadísticos y visualización grafica de los datos.visualización grafica de los datos.

Análisis de los resultados: Verifica si los resultados Análisis de los resultados: Verifica si los resultados son coherentes. El cliente es el que tiene la palabra son coherentes. El cliente es el que tiene la palabra final. final.

88

1.Introducción (VI)1.Introducción (VI) PROCEDIMIENTOS: PROCEDIMIENTOS:

Clasificación. Clasificación. Consiste en examinar las características Consiste en examinar las características de una entidad nueva y asignarle una clase predefinida. de una entidad nueva y asignarle una clase predefinida. Por ejemplo: Clasificar a un nuevo cliente según su Por ejemplo: Clasificar a un nuevo cliente según su riesgo de crédito (alto, medio, bajo). riesgo de crédito (alto, medio, bajo). Estimación. Estimación. Similar a lo anterior, pero aplicado a Similar a lo anterior, pero aplicado a variables continuas. Por ejemplo: ingresos, balance de variables continuas. Por ejemplo: ingresos, balance de tarjetas de crédito, etc. tarjetas de crédito, etc. Predicción. Predicción. Predicción de fidelidad de clientes. Predicción de fidelidad de clientes.

Ejemplo: predecir qué clientes nos abandonarán en los Ejemplo: predecir qué clientes nos abandonarán en los próximos 6 mesespróximos 6 meses..Grupos Afines o Reglas de Asociación. Grupos Afines o Reglas de Asociación. El objetivo de El objetivo de los grupos afines es determinar que cosas van juntas. los grupos afines es determinar que cosas van juntas. Ejemplo: productos que debieran ir juntos en un Ejemplo: productos que debieran ir juntos en un supermercado.supermercado.

99

1.Introducción (VII)1.Introducción (VII)

Clustering.Clustering. Tiene como objetivo el segmentar a un Tiene como objetivo el segmentar a un grupo diverso en un conjunto de subgrupos.No depende grupo diverso en un conjunto de subgrupos.No depende de clases . de clases .

Ejemplo: un cluster particular de síntomas puede indicar Ejemplo: un cluster particular de síntomas puede indicar una enfermedad particular .una enfermedad particular .

Descripción y Visualización. Descripción y Visualización. Algunas veces el Algunas veces el objetivo es simplemente describir qué esta ocurriendo en objetivo es simplemente describir qué esta ocurriendo en una base de datos compleja, para así aumentar nuestro una base de datos compleja, para así aumentar nuestro entendimiento de las personas, productos o procesos entendimiento de las personas, productos o procesos que generaron los datos inicialmente. que generaron los datos inicialmente.

1010



1111

2.Características principales (I)2.Características principales (I)

Predicción automatizada de tendencias y Predicción automatizada de tendencias y comportamientos:comportamientos:

Data Mining automatiza el proceso de encontrar Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. información predecible en grandes bases de datos.

Permite detectar fácilmente patrones en los datos. Permite detectar fácilmente patrones en los datos. Preguntas que tradicionalmente requerían un intenso Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. rápidamente desde los datos.

1212

2.Características principales (II)2.Características principales (II)

Descubrimiento automatizado de modelos Descubrimiento automatizado de modelos previamente desconocidos:previamente desconocidos:

Las herramientas de Data Mining barren las bases de Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar tarjetas de créditos e identificar datos anormalesdatos anormales que que pueden representar errores de tipeado en la carga de pueden representar errores de tipeado en la carga de datos. datos.

1313

2.Características principales (III)2.Características principales (III)

Las bases de datos pueden ser grandes Las bases de datos pueden ser grandes tanto en profundidad como en ancho :tanto en profundidad como en ancho :

-Más columnas. Los analistas deben limitar el número -Más columnas. Los analistas deben limitar el número de variables a examinar cuando realizan análisis de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin variables que son descartadas porque parecen sin importancia pueden proveer información acerca de importancia pueden proveer información acerca de modelos desconocidos. Un Data Mining de alto modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de de datos, sin preseleccionar un subconjunto de variables. variables.

-Más filas. Muestras mayores producen menos errores -Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes inferencias acerca de pequeños pero importantes segmentos de población.segmentos de población.

1414



1515

3.Técnicas (I)3.Técnicas (I)Las técnicas mas usadas en Data Mining son:Las técnicas mas usadas en Data Mining son:

Redes neuronales artificiales:Redes neuronales artificiales: modelos que modelos que aprenden a través del entrenamiento y semejan la aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.estructura de una red neuronal biológica.

Árboles de decisión:Árboles de decisión: estructuras de forma de estructuras de forma de árbol que representan conjuntos de decisiones. Estas árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un decisiones generan reglas para la clasificación de un conjunto de datos. conjunto de datos.

Algoritmos genéticos:Algoritmos genéticos: técnicas de optimización técnicas de optimización que usan procesos tales como combinaciones que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución. diseño basado en los conceptos de evolución.

1616

3.Técnicas (II)3.Técnicas (II)

Método del vecino más cercano:Método del vecino más cercano:

Una técnica que clasifica cada registro en un conjunto Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de datos basado en una combinación de las clases del/de los del/de los k k registro (s) más similar/es a él en un registro (s) más similar/es a él en un conjunto de datos históricos (donde conjunto de datos históricos (donde kk 1). Algunas 1). Algunas

veces se llama la técnica del vecino veces se llama la técnica del vecino kk-más cercano.-más cercano. Regla de inducción:Regla de inducción:

La extracción de reglas if-then de datos basados en La extracción de reglas if-then de datos basados en

significado estadísticosignificado estadístico..

1717



1818

4.Fases (I)4.Fases (I)

Fases de un Proyecto de Minería de DatosFases de un Proyecto de Minería de DatosLos pasos a seguir para la realización de un proyecto de Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, minería de datos son siempre los mismos, independientemente de la técnica de extracción de independientemente de la técnica de extracción de conocimiento usada. El proceso de minería de datos conocimiento usada. El proceso de minería de datos pasa por las siguientes fases:pasa por las siguientes fases:

1.Filtrado de datos 1.Filtrado de datos 2.Selección de Variables 2.Selección de Variables 3.Extracción de Conocimiento 3.Extracción de Conocimiento 4.Interpretación y Evaluación 4.Interpretación y Evaluación

1919

4.Fases (II)4.Fases (II)

Filtrado de datosFiltrado de datos El formato de los datos contenidos en la fuente de datos El formato de los datos contenidos en la fuente de datos

(base de datos, Data Warehouse...) nunca es el idóneo, y (base de datos, Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante reducen el número de valores posibles (mediante redondeo, clustering,...). redondeo, clustering,...).

2020

4.Fases (III)4.Fases (III)Selección de variablesSelección de variables

Aún después de haber sido preprocesados, en la Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una gran cantidad de mayoría de los casos se tiene una gran cantidad de datos. La selección de características reduce el tamaño datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. conocimiento obtenido del proceso de minería.

Los métodos para la selección de características son Los métodos para la selección de características son dos: dos: - Los basados en la elección de los mejores - Los basados en la elección de los mejores atributos del problema, atributos del problema, - Los que buscan variables independientes mediante - Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o tests de sensibilidad, algoritmos de distancia o heurísticos.heurísticos.

2121

4.Fases (IV)4.Fases (IV)

Algoritmos de Extracción de Conocimiento:Algoritmos de Extracción de Conocimiento:

Mediante una técnica de minería de datos, se obtiene un Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las comportamiento observados en los valores de las variables del problema o relaciones de asociación entre variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. preprocesado diferente de los datos.

2222

4.Fases (V)4.Fases (V)

Interpretación y evaluación:Interpretación y evaluación: Verifica si los resultados son coherentes. El cliente es el Verifica si los resultados son coherentes. El cliente es el

que tiene la palabra final. que tiene la palabra final.

Una vez obtenido el modelo, se debe proceder a su Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.arroja son válidas y suficientemente satisfactorias.

Si se obtienen varios modelos mediante el uso de Si se obtienen varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en distintas técnicas, se deben comparar los modelos en

busca de aquel que se ajuste mejor al problema.busca de aquel que se ajuste mejor al problema.

2323



2424

5.Ejemplos5.Ejemplos

Telefonía móvil. Telefonía móvil.

Club AC Milán Club AC Milán (prevenir lesiones)(prevenir lesiones)

FBI FBI

2525



2626

6.Contras (I)6.Contras (I)

Momento critico de la minería de datos:Momento critico de la minería de datos:Que se requiere experiencia.Que se requiere experiencia.Fáciles Equivocaciones. Fáciles Equivocaciones. Fácil hallar patrones Fácil hallar patrones equívocosequívocos, , triviales o no interesantes.triviales o no interesantes.Relación coste/Beneficio improductiva.Relación coste/Beneficio improductiva.Uso indiscriminado de datos.Uso indiscriminado de datos.Que no sea posible resolver los aspectos técnicos Que no sea posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio.de hallar patrones en tiempo o en espacio. Que exista una reacción del publico por el uso Que exista una reacción del publico por el uso indiscriminado de datos personales para ejercicios indiscriminado de datos personales para ejercicios de Minería de Datos, que obligue a los de Minería de Datos, que obligue a los legisladores a imponer restricciones exageradas (y legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la tecnología.tal vez absurdas) al uso de la tecnología.. .

2727



2828

7.Pros (I)7.Pros (I)Extrae información táctica y estratégica almacenada en sus Data Warehouse . La búsqueda de patrones la realiza en forma automatizada, generando modelos mediante la aplicación de diferentes técnicas. Existe gran diversidad de herramientas de Data Mining en el mercado, lo que facilita la aplicación de este proceso y aumenta el nivel de confianza de sus resultados. No requiere de personal experto en ciencias estadísticas o altamente entrenado. Es suficiente un especialista en análisis de datos y un experto en las áreas de la organización, que tengan conocimientos básicos en áreas estadísticas que les permita entender y aplicar los resultados.

2929



3030

8.Conclusiones (I)8.Conclusiones (I)

Nuestra capacidad para almacenar datos ha Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha capacidad para procesarlos y utilizarlos no ha ido a la par. ido a la par.

=> => data miningdata mining se presenta como una se presenta como una tecnología de apoyo para explorar, analizar, tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Descubrir usando grandes volúmenes de datos. Descubrir nuevos caminos que nos ayuden en la nuevos caminos que nos ayuden en la identificación de estructuras en los datos es identificación de estructuras en los datos es una de las tareas fundamentales en el una de las tareas fundamentales en el data data miningmining..

Documents

1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005