Upload
ines-del-rio-palma
View
219
Download
0
Embed Size (px)
Citation preview
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre
almacenes de datos
Tesis DoctoralJosé Jacobo Zubcoff Vallejo
26 de Junio de 2009Alicante, España
Grupo de Investigación LucentiaDepartamento de Lenguajes y Sistemas Informáticos
Director: Juan Carlos Trujillo Mondéjar
1
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
2 2
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
3 3
Parte I: Introducción
Minería de datos: el núcleo del descubrimiento de conocimiento
PreprocesadoIntegración
Fuentes de datos
Datos para minería
Selección
Minería de datos
Evaluación de patrones
Almacén de datos
Proceso KDD
Entre un 70% y un 90% del tiempo total (Gartner Group 2005)4 4
Técnicas básicas de minería de datos• Reglas de asociación• Clasificación• Clustering• Series Temporales
Parte I: Introducción
Minería de datos: el núcleo del descubrimiento de conocimiento
Minería de datos
Proceso KDD
5 5
Parte I: Introducción
Solución actual en la minería de datos
• Datos inicialmente recolectados con distinta finalidad• Requiere de arduas tareas de preprocesado e integración de
datos • Esta ampliamente difundido el uso de ficheros planos como
repositorio de datos• Se llevan a cabo sesiones aisladas de minería de datos
6 6
Parte I: Introducción
El problema actual en el desarrollo de modelos de minería de datos
Actualmente, “la minería de datos se lleva a cabo más como un arte que como una ciencia” (Marbán, Segovia, Menasalvas y Fernández-Baizán 2009)
Esto se debe principalmente a:• Datos poco estructurados • Ausencia de propuestas de modelos conceptuales para todas
las etapas del proceso KDD
7 7
Parte I: Introducción
El problema actual en el desarrollo de modelos de minería de datos
Desventajas relacionadas con esta perspectiva• Incapacidad para garantizar la calidad de los datos• Duplicidad de tareas de preprocesado• Imposibilidad de reutilización de modelos de minería de datos
8 8
Parte I: Introducción
El rol de los almacenes de datosUn almacén de datos es “una colección de datos
orientada a un dominio, variables en el tiempo, integrados y no volátiles que da soporte a la toma de decisiones” (Inmon 1996).
Facilita la minería de datos en los siguientes aspectos:• El preprocesado de los datos• El acceso a los mismosy si existe un modelo del almacén de datos, facilita además:• La comprensión de la estructura y relaciones en los datos
9 9
El rol de los almacenes de datosEl preprocesado de los datos
Parte I: Introducción
Fuentes de datos
OLTP
Ficheros
…
ExtracciónExtracción
LimpiezaLimpieza
Transformación
Transformación
AgregaciónAgregación
FiltradoFiltrado
UniónUnión
……
Almacén de datos
Facilita el acceso a datos preparados para el análisis
Facilita el acceso a datos preparados para el análisis
10 10
Parte I: Introducción
El rol de los almacenes de datosUn modelo conceptual facilita la comprensión de los datos
11 11
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
12 12
Parte I: Introducción
HipótesisEs factible modelar conceptualmente las técnicas
de minería dedatos de una manera integrada con el modelado del
almacén dedatos en el marco del proceso de descubrimiento
de conocimiento.
13 13
Parte I: Introducción
Objetivos• Objetivo principal: Proponer perfiles UML para el modelado
conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimientoObjetivos específicos » Objetivo 1: Analizar las propuestas existentes en el campo
del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento
» Objetivo 2: Proponer los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos
14 14
Parte I: Introducción
Objetivos» Objetivo 3: Proponer los perfiles UML para modelar
conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos
» Objetivo 4: Diseñar e implementar los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento
» Objetivo 5: Contrastar la viabilidad de la propuesta en un caso de estudio
15 15
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
16 16
Parte I: Introducción
Trabajos relacionadosFuentes de datos
OLTP
Ficheros
…
ExtracciónExtracción
LimpiezaLimpieza
Transformación
Transformación
AgregaciónAgregación
FiltradoFiltrado
UniónUnión
……
Almacén de datosOLAPOLAP
InformesInformes
What-ifWhat-if
Minería de datosMinería de datos
Conceptual
Lógico
Físico
LUCENTIA (Luján-Mora et al.)
DaWaK’05-06-07-08ECDM’07-08
DKE’07INFSOF’09
CWM CWM
DMXJDMSQL/MM
PBMS *
LUCENTIA (Trujillo et al.)
LUCENTIA (Luján-Mora et al.)
LUCENTIA (Luján-Mora et al.)
LUCENTIA (Muñoz et al.)
(Tziovara et al.)
CWM
PMML
17 17
Parte I: Introducción
Trabajos relacionadosCommon Warehouse Metamodel (CWM)• Es un metamodelo para la representación de los metadatos
usados en el ámbito de almacenes de datos • Enfocado al intercambio de metadatos a bajo nivel entre
herramientas de almacenes de datos• Dado que esta dirigido al modelado lógico de estos sistemas
es demasiado complejo para los analistas
18 18
Parte I: Introducción
Trabajos relacionadosCommon Warehouse Metamodel (CWM)• Es un metamodelo para la representación de los metadatos
usados en el ámbito de almacenes de datos • Enfocado al intercambio de metadatos a bajo nivel entre
herramientas de almacenes de datos• Dado que esta dirigido al modelado lógico de estos sistemas
es demasiado complejo para los analistas
19 19
Parte I: Introducción
Trabajos relacionadosPredictive Model Markup Language (PMML)• Facilita el intercambio de modelos usando el estándar XML• Su objetivo principal es el intercambio de modelos de minería• También para el intercambio de los resultados de minería de
datos • No está orientado al diseño de modelos conceptuales• Solo considera una única tabla como fuente de datos
20 20
Parte I: Introducción
Trabajos relacionadosPattern Base Management System (PBMS)• Propone un repositorio para patrones de conocimiento• Permite modelar los patrones resultantes de distintas técnicas
de minería de datos • No facilita el modelado conceptual de la minería de datos • No tiene en cuenta las fuentes de datos
21 21
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
22 22
Parte I: Introducción
Técnicas de minería de datos: Reglas de asociaciónSirve para ver la relaciones de asociación existentes en los datos
• Ejemplo: Análisis de la cesta de la compra
23 23
Parte II: Perfiles UML para minería de datos
Reglas de asociaciónSirve para ver la relaciones de asociación existentes en los datosAjustes básicos• Conjunto de ítems frecuentes• Soporte mínimo• Soporte máximo• Confianza mínima• Número de filas en el conjunto• Exclusiones del conjunto de ítems frecuentes• Longitud de la regla de asociación
24 24
Parte II: Perfiles UML para minería de datos
Reglas de asociaciónSirve para ver la relaciones de asociación existentes en los datos• Dominio
Ajustes
Conjunto de ítems frecuentesSoporte mínimoSoporte máximoConfianza mínimaNúmero de filas en el conjuntoExclusiones del conjuntoLongitud de la regla de asociación
Ajustes
Conjunto de ítems frecuentesSoporte mínimoSoporte máximoConfianza mínimaNúmero de filas en el conjuntoExclusiones del conjuntoLongitud de la regla de asociación
Atributos
EntradaPredicciónCaso
Atributos
EntradaPredicciónCaso
Modelo Multidimensional
Hechos DimensionesBase
Modelo Multidimensional
Hechos DimensionesBase
Resultados
AntecedenteConsecuenteSoporteConfianza
Resultados
AntecedenteConsecuenteSoporteConfianza
25 25
Parte II: Perfiles UML para minería de datos
Reglas de asociación
Basado en el Perfil UML para modelado multidimensionalPermite obtener fácilmente distintos tipos de reglas de asociación: • Simples y multi-dimensionales• Simple o múltiple predicado• Inter-dimensionales o de dimensión híbrida• De uno ó múltiples niveles
27 27
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Contribuciones de esta tesis» Trabajos futuros
28 28
Parte I: Introducción
Técnicas de minería de datos: ClasificaciónPermite conocer cuales son los factores más influyentes en una variableEjemplo: Análisis del riesgo de muerte por infarto
Presión sistólica < 91Presión sistólica > 91
Edad > 62 años
Síntoma “Taquicardia”Síntoma “Indigestión”
Colesterol < 200
Triglicéridos < 200
29 29
Parte II: Perfiles UML para minería de datos
ClasificaciónPermite conocer cuales son los factores más influyentes en una variableAjustes básicos:• Algoritmo• Soporte mínimo• Confianza mínima• Número máximo de niveles• Medida de homogeneidad• Límite para el conjunto de datos• Exclusiones del conjunto de datos
30 30
Parte II: Perfiles UML para minería de datos
ClasificaciónSirve para ver la relaciones de asociación existentes en los datos• Dominio
Ajustes
AlgoritmoSoporte mínimoConfianza mínimaNúmero máximo de nivelesMedida de homogeneidadLímite para el conjunto de datosExclusiones del conjunto de datos
Ajustes
AlgoritmoSoporte mínimoConfianza mínimaNúmero máximo de nivelesMedida de homogeneidadLímite para el conjunto de datosExclusiones del conjunto de datos
Atributos
EntradaPredicciónCaso
Atributos
EntradaPredicciónCaso
Modelo Multidimensional
Hechos DimensionesBase
Modelo Multidimensional
Hechos DimensionesBase
Resultados
AntecedenteConsecuenteSoporteConfianza
Resultados
AntecedenteConsecuenteSoporteConfianza
31 31
Parte II: Perfiles UML para minería de datos
Clasificación
Soporte mínimoConfianza mínimaNúmero máximo de nivelesMedida de homogeneidad
33 33
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
34 34
Parte I: Introducción
Técnicas de minería de datos: ClusteringDescubre “grupos” de comportamiento comúnEjemplo: Segmentación de mercado según datos de tarjetas de crédito
Nº de coches = 2Nº de hijos = 2Viajes anuales > 2Tarjeta tipo = “Oro”
Nº de coches = 2Nº de hijos = 2Viajes anuales > 2Tarjeta tipo = “Oro”
Nº de coches = 0Nº de hijos = 0Viajes anuales > 3Tarjeta tipo = “Platinum”
Nº de coches = 0Nº de hijos = 0Viajes anuales > 3Tarjeta tipo = “Platinum”
35 35
Parte II: Perfiles UML para minería de datos
ClusteringDescubre “grupos” de comportamiento comúnAjustes básicos• Soporte mínimo• Número máximo de iteraciones• Número máximo de clústers• Número de clústers• Tolerancia• Máximo número de atributos de entrada• Tamaño de la muestra• Número máximo de categorías en un atributo de entrada• Sensibilidad• Exclusiones del conjunto de datos
36 36
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
39 39
Parte I: Introducción
Técnicas de minería de datos: Análisis de series temporales
Permite conocer una variable temporal, describir sus parámetros y predecir valores futuros
Ejemplo: Estudio de cobertura de algas en el litoral Mediterráneo de Alicante
40 40
Parte II: Perfiles UML para minería de datos
Análisis de series temporalesPermite conocer una variable temporal, descubirla y predecir valores futurosCaracterísticas básicas• Período• Número de períodos• Ventana bajo análisis• Soporte mínimo• Tratamiento de valores ausentes• Restricción de valores
41 41
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
44 44
Parte III: Aspectos prácticos
Implementación: Series Temporales
Capturas de Merl por mes: AnalisisST
57 57
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
58 58
Parte III: Aspectos prácticos
Caso de estudio: Proyecto EMPAFISHEuropean Marine Protected Areas as tools for the Fishery
management and conservation • Financiado por VI Programa Marco de I+D+I de la Unión Europea • Participan catorce instituciones europeas
59 59
Parte III: Aspectos prácticos
Caso de estudio: Proyecto EMPAFISHObjetivos principales
• Investigar el potencial de los diferentes tipos de Áreas Marinas Protegidas en Europa para la protección de especies, hábitats o ecosistemas sensibles al efecto de la pesca
• Desarrollar métodos cuantitativos para evaluar el efecto de las Áreas Marinas Protegidas
• Proporcionar a la Unión Europea una serie de medidas integradas y propuestas de gestión para la implementación de las Áreas Marinas Protegidas como herramienta de gestión de pesquerías.
60 60
Caso de estudio: Proyecto EMPAFISHPreguntas que guían la búsqueda de conocimiento• ¿Es importante el tamaño de la zona protegida? • ¿La cercanía de las áreas marinas protegidas puede afectar en alguna
medida? • ¿Mejora el comportamiento de las áreas marinas protegidas a lo largo del
tiempo? • ¿Cómo afecta a la movilidad de las especies marinas? • ¿Afecta a la biodiversidad?
Parte III: Aspectos prácticos
61 61
Caso de estudioModelo conceptual para Minería de datos con Clasificación
Aspectos prácticos
63 63
Predicción
Entrada
Caso
Aspectos prácticos
Caso de estudioTransformación a código de los modelos conceptuales de minería de datos
64 64
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
66 66
Parte IV: Aspectos finales
Conclusiones• El diseño de modelos de minería con la herramienta
propuesta permite integrar el diseño de modelos conceptuales de minería de datos en un proceso global de búsqueda de conocimiento KDD
• Aprovecha el esfuerzo dedicado a las etapas previas (ETL y Almacén de datos)
• Evita duplicidades en tareas costosas• Facilita la reutilización de modelos• Provee un mecanismo de documentación
67 67
Parte IV: Aspectos finales
Conclusiones Principales aportaciones de esta tesis
• Una revisión del estado del arte para el modelado de minería de datos
• La propuesta de modelos conceptuales que facilitan el diseño de las diversas técnicas de minería de datos
• La formalización de las técnicas de minería de datos mediante el uso de metamodelos
• La extensión de UML con perfiles específicos para el dominio de las técnicas de minería de datos
• (continúa en la sig. página)
68 68
Parte IV: Aspectos finalesfinales
Conclusiones Principales aportaciones de esta tesis
• (continuación)• La creación de un entorno de modelado de las técnicas de
minería de datos• La definición e implementación de las transformaciones entre
modelo-código (para una plataforma específica)• El desarrollo de un prototipo en forma de plug-in de Eclipse
para el desarrollo de proyectos de descubrimiento de conocimiento.
69 69
Parte IV: Aspectos finales
ConclusionesPodemos verificar que se cumple la Hipótesis inicial:
Es factible modelar conceptualmente las técnicas de minería de
datos de una manera integrada con el modelado del almacén de
datos en el marco del proceso de descubrimiento de conocimiento.
70 70
Parte IV: Aspectos finales
ConclusionesVerificación del cumplimiento de los objetivos
Objetivo principal: Hemos propuesto los perfiles UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos en el marco de un proceso de descubrimiento de conocimientoObjetivos específicos Objetivo 1: Hemos analizado las propuestas existentes en
el campo del modelado conceptual de minería de datos en el contexto de descubrimiento de conocimiento
Objetivo 2: Hemos propuesto los modelos conceptuales para las técnicas de minería de datos sobre almacenes de datos
71 71
Parte IV: Aspectos finales
ConclusionesVerificación del cumplimiento de los objetivos
Objetivo 3: Hemos propuesto los perfiles UML para modelar conceptualmente las técnicas de minería de datos sobre modelos multidimensionales de almacenes de datos
Objetivo 4: Hemos diseñado e implementado los modelos conceptuales para las técnicas de minería de datos en una herramienta que pueda integrar el diseño de todo el proceso de descubrimiento de conocimiento
Objetivo 5: Hemos contrastado la viabilidad de la propuesta en un caso de estudio
72 72
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Producción científica» Trabajos futuros
73 73
Parte IV: Aspectos finales
Producción científica• Un total de 19 trabajos publicados como producción científica
de esta tesis• 2 en revistas JCR• 11 en congresos internacionales • 6 en congresos o talleres nacionales.
74 74
Contenido
• Parte I: Introducción» Conceptos básicos» Hipótesis de trabajo y objetivos» Trabajos relacionados
• Parte II: Perfiles UML para minería de datos» Reglas de asociación» Clasificación» Clustering» Análisis de series temporales
• Parte III: Aspectos prácticos» Implementación» Caso de estudio
• Parte IV: Aspectos finales» Conclusiones» Contribuciones de esta tesis» Trabajos futuros
79 79
Parte IV: Aspectos finales
Trabajos futuro• Propuestas para el diseño de técnicas de minería de datos
aplicando el paradigma del desarrollo dirigido por modelos• Estudio y posible incorporación de herramientas de modelado
conceptual para de técnicas de aprendizaje automático (machine learning ) y reconocimiento de patrones (pattern recognition o matching)
• Marco de medición de la calidad de los modelos• Validación empírica de la comprensibilidad de los modelos
propuestos
80 80
Parte IV: Aspectos finales
Trabajos futuro• Incorporación de aspectos de seguridad en minería de datos• Estudio e incorporación del modelado conceptual para la
minería de datos geográficos• Concienciación en la comunidad científica de la necesidad de
abordar la minería de datos desde etapas aún más tempranas en el diseño de un proyecto de descubrimiento de conocimiento
81 81
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre
almacenes de datos
Tesis DoctoralJosé Jacobo Zubcoff Vallejo
26 de Junio de 2009Alicante, España
Grupo de Investigación LucentiaDepartamento de Lenguajes y Sistemas Informáticos
Director: Juan Carlos Trujillo Mondéjar
82