Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
cnológico
Centro Nacional de Investigación
y Desarrollo Tecnológico
Subdirección Académica
Cuernavaca, Morelos, México. Febrero de 2013.
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Metodología de Preparación de Datos Orientada a Aplicaciones de
Epidemiología Basada en el Modelo CRISP-DM
presentada por
Ing. Gregorio Emmanuel Iturbide Domínguez
como requisito para la obtención del grado de Maestro en Ciencias en Ciencias de la Computación
Director de tesis Dr. Joaquín Pérez Ortega
Codirector de tesis
M. C. Miguel Ángel Hidalgo Reyes
Dedicatoria.
A Dios y la vida… Por permitirme llegar a este momento.
A mi familia… Dulce Ma. Domínguez y Gregorio Iturbide, gracias por su amor y apoyo
incondicional; por creer en mí y ser la fuerza que muchas veces necesito. Gracias
por no soltarme y estar para mí cuando más los he necesitado.
Evita; Wendy, Vivi y Ángeles; Ian, Jazael, Heidi y Elizabeth; siempre están en mi
mente.
Ed., gracias por aparecer en mi vida y hacer mi carga más ligera.
¡Los amo!
A mis amigos…
Bicentenarios y músicos…
A mis amigos de toda la vida… Sé que es un triunfo compartido y lo celebran
conmigo.
Agradecimientos.
Agradezco al Dr. Joaquín Pérez Ortega por todo el apoyo, la paciencia y la
confianza depositada en mí para la realización de este proyecto.
A los miembros del comité revisor de tesis: Dra. Olivia Fragoso, Dr. Moisés
González y Dr. René Santaolaya.
Al MC. Miguel Ángel Hidalgo y la Dra. Adriana Mexicano por su tiempo, ayuda y
consejos. Gracias por todo.
Mi más profundo agradecimiento a la Maestra Lupita Botello (siempre lo diré:
“Gracias por darme alas”) y la Dra. Alicia Martínez Rebollar por su apoyo, sin el
cual habría sido difícil iniciar este viaje.
A la teacher Paty Armas y a mis compañeros de la generación Bicentenario-Fin
del mundo (¡sigo pensando que somos una generación bonita!), especialmente a
Gaby, Pao, Lety, sólo Carlos, Juan C., Chi, Cruz, Rafa y Abel; me llevo mucho de
ustedes.
Al Consejo Nacional de Ciencia y Tecnología (CONACYT).
A CENIDET, al departamento de Ciencias Computacionales y la división de
Ingeniería de Software por permitirme ser parte durante este tiempo.
A mi familia y todos mis amigos, sé que están conmigo y me acompañan siempre.
¡Gracias!
I
Resumen.
En la actualidad, las metodologías de Minería de Datos son de propósito
general y no aportan el nivel de detalle suficiente para su aplicación directa en
proyectos de Minería de Datos. En contraste, en este trabajo se propone una
metodología para la fase de Preparación de Datos, con un nivel de detalle mayor
al propuesto en la metodología CRISP-DM, la cual es factible de ser aplicada
directamente a proyectos de Minería de Datos del dominio epidemiológico.
Para validar la metodología propuesta se desarrolló una aplicación en el área de
epidemiología, con resultados satisfactorios. En particular, la aplicación consistió
en la preparación de los datos de las bases de datos de los censos de los años
2000 y 2010, para las causas de mortalidad por cáncer C16 (cáncer de estómago)
y C32 (cáncer de pulmón) y diabetes E11 (diabetes mellitus no
insulinodependiente) y E14 (diabetes mellitus no especificada), ya que en México,
estas enfermedades, constituyen un problema de salud pública importante. Como
ejemplo, en el año 2005, los tumores malignos fueron la tercera causa de muerte
en el país, registrando 63,128 defunciones.
Las principales aportaciones del trabajo son las siguientes: a) se mostró que es
factible refinar el modelo CRISP-DM a un mayor nivel de detalle en la fase de
Preparación de Datos, b) se muestra que es factible, para el dominio de la
epidemiología, desarrollar metodologías con un mayor nivel de detalle, las cuales
puedan ser usadas en varias aplicaciones de dicho dominio, c) se encontró que la
Preparación de Datos en el dominio epidemiológico se puede dividir en una parte
genérica que concierne a las bases de datos involucradas y otra especifica
asociada con el objetivo de minería de datos en particular.
Finalmente, como resultado de usar un caso de estudio con datos reales, se
obtuvieron hallazgos de posible interés para los organismos encargados de la
administración de los servicios públicos de salud en México, los cuales pueden ser
usados en sus procesos de toma de decisiones, dentro de programas para la
prevención y control de enfermedades como el cáncer y la diabetes.
II
Abstract.
Currently, data mining methodologies are of general purpose and do not
provide the sufficient level of detail for their direct application in data mining
projects. In contrast, in this research we proposed a methodology for the data
preparation phase, with a higher level of detail than the CRISP-DM proposed, this
methodology is feasible to be directly applied in data mining projects to the
epidemiological domain.
In order to validate the proposed methodology an application, in the
epidemiological area, was developed, with satisfactory results. In particular, the
application consisted in the pre-processing of the censuses databases of 2000 and
2010, for the causes of death for cancer C16 (stomach cancer) and C32 (lung
cancer), and diabetes E11 (diabetes mellitus no insulin-dependent) and E14
(unspecified diabetes mellitus), as in Mexico these diseases are a major public
health problem. As an example, in 2005, malignant tumors were the third cause of
death in the country, recording 63,128 deaths.
The main contributions of this research are the following: a) it was shown that is
feasible to refine the CRISP-DM model to a higher level detail in the data
preparation phase; b) it shows that is feasible, for the epidemiological domain, to
develop methodologies with a higher level of detail, which can be used in several
applications in that domain; c) it was found that the data preparation in the
epidemiological domain can be divided into a general part concerning to the
databases involved and other specific part associated with the data mining goal in
particular.
Finally, as a result of using a case of study with real data, we obtained findings of
potential interest for the responsible of managing the public health services in
Mexico, these results can be used in their decision-making processes, within
programs for the prevention and control of diseases such as cancer and diabetes.
III
TABLA DE CONTENIDO
Página V LISTA DE FIGURAS VI LISTA DE TABLAS
Capítulo 1 INTRODUCCIÓN 1 1.1 CONTEXTO DE LA INVESTIGACIÓN. 2 1.2 JUSTIFICACIÓN 4 1.3 DESCRIPCIÓN DEL PROBLEMA DE INVESTIGACIÓN 5 1.4 OBJETIVO GENERAL. 7 1.4.1 Objetivos específicos. 7 1.5 ALCANCES Y LIMITACIONES. 8 1.5.1 Alcances. 8 1.5.2 Limitaciones. 8 1.6 ESTADO DEL ARTE. 9 1.6.1 Trabajos relacionados. 9 1.7 ORGANIZACIÓN DEL DOCUMENTO. 13 2 MARCO TEÓRICO 14 2.1 BASE DE DATOS. 15 2.1.1 Bases de datos poblacionales. 15 2.1.2 Bases de datos espaciales. 16 2.2 ALMACÉN DE DATOS. 17 2.3 MINERÍA DE DATOS. 19 2.3.1 Modelo de referencia CRISP-DM. 20 2.3.1.1 Fase de Preparación de Datos. 22 2.3.1.1.1 Complejidad de la Preparación de Datos. 23 2.3.1.2 Etapas de la Preparación de Datos. 24 2.4 EPIDEMIOLOGÍA. 25 2.4.1 Indicadores en epidemiología. 25 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS. 27 3.1 SISTEMATIZACIÓN DEL PROCESO DE PREPARACIÓN DE DATOS. 28 3.1.1 Definición de los procesos de Preparación de Datos. 29 3.1.2 Modelado de los procesos de Preparación de Datos. 30 3.2 METODOLOGÍA DE PREPARACIÓN DE DATOS. 31 3.2.1 Esquema general de la metodología propuesta. 31 3.2.2 Descripción de la metodología de Preparación de Datos propuesta 32 3.2.2.1 Preparación de Datos General (PDG). 32 3.2.2.1.1 Limpieza de datos. 32 . a) Detección errores 33 b) Corrección de errores. 33 c) Eliminación de registros o atributos con errores. 34 3.2.2.1.2 Selección de datos. 34 a) Selección vertical. 34 b) Selección horizontal. 35 3.2.2.2 Preparación de Datos Específica (PDE). 36 3.2.2.2.1 Formateo de datos. 36 a) Formateo de archivo. 36 b) Formateo de atributos. 36 3.2.2.2.2 Construcción de datos. 37 a) Verificación del conjunto de datos. 38 b) Identificación de atributos para calcular los atributos
faltantes. 38
c) Obtención de los atributos faltantes. 38 3.2.2.2.3 Integración de datos. 39 a) Análisis de las fuentes de datos. 39
IV
b) Detección de conflictos. 40 c) Corrección de conflictos. 41 d) Integración de las fuentes de datos. 42 3.2.3 Niveles de adaptabilidad. 42 3.2.3.1 Cambios en el valor de las variables. 43 3.2.3.2 Cambios en el tipo de dato de los valores. 44 3.3 SEMI-AUTOMATIZACIÓN DEL PROCESO DE PREPARACIÓN DE
DATOS. 45
3.3.1 Arquitectura del sistema de Preparación de Datos. 45 3.3.2 Implementación del prototipo de Preparación de Datos. 47 3.3.2.1 Selección de tareas automatizables. 47 3.3.2.2 Descripción de las tareas de preparación con XML. 48 3.3.2.3 Manipulación y acceso a los datos. 50 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS 51 4.1 PLAN DE PRUEBAS. 52 4.1.1 Objetivos. 52 4.1.2 Ambiente de las pruebas. 52 4.1.3 Descripción de los casos de prueba. 53 4.1.3.1 Preparación de los datos de los censos del año 2000 y
2010 de manera manual. 53
4.1.3.1 Preparación de los datos de los censos del año 2000 y 2010 de manera automática.
54
4.2 EXPERIMENTACIÓN. 54 4.2.1 Entendimiento del dominio. 55 4.2.2 Recopilación y entendimiento de los datos. 56 4.2.3 Preparación de Datos manual. 58 4.2.3.1 Preparación de Datos General. 59 4.2.3.1.1 Limpieza de datos. 59 4.2.3.1.2 Selección de datos. 61 4.2.3.2 Preparación de Datos Específica. 63 4.2.3.2.1 Formateo de datos. 64 4.2.3.2.2 Construcción de datos. 65 4.2.3.2.3 Integración de datos. 68 4.2.4 Preparación de Datos automatizada. 71 4.2.4.1 Preparación de Datos Específica. 71 4.2.4.1.1 Construcción de datos. 71 4.2.4.1.2 Integración de datos. 74 4.3 ANÁLISIS DE LOS RESULTADOS. 75 4.3.1 Comparativa de los resultados obtenidos contra los obtenidos en
investigaciones previas. 75
4.3.2 Otras causas analizadas. 79 4.3.3 Comparativa entre los tiempos obtenidos durante la Preparación
de Datos realizada manual y automáticamente. 85
4.3.3.1 Tarea: Cálculo de la incidencia de mortalidad. 85 4.3.3.2 Tarea: Cálculo de la tasa de mortalidad. 86 4.3.4 Niveles de adaptabilidad. 87 4.3.5 Almacén de Datos. 88 5 CONCLUSIONES Y TRABAJOS FUTUROS 90 5.1 CONCLUSIONES. 91 5.2 TRABAJOS FUTUROS. 93 5.3 PUBLICACIONES 93 REFERENCIAS. 94 Anexo A. Definición de procesos y diagramas de actividad 100 Anexo B. Descripción de las tareas de Preparación de Datos con XML 102 Anexo C. Diagramas de clases 105 Anexo D. Descripción del almacén de datos 119 Anexo E. Principales aportaciones al dominio epidemiológico 127
V
LISTA DE FIGURAS Página Figura 1. Problema de preparación de datos 6 Figura 2. Representación de un cubo de datos. 18 Figura 3. Niveles de abstracción CRISP-DM. 20 Figura 4. Ciclo de vida de un proyecto de Minería de Datos. 21 Figura 5. Enfoque general de la metodología de Preparación de Datos propuesta. 31 Figura 6. Paquete de Preparación de Datos General. 46 Figura 7. Paquete de Preparación de Datos Específica. 46 Figura 8. Cambios en los valores de entrada. 48 Figura 9. Esquema de descripción de tareas de Preparación de Datos. 49 Figura 10. Formato de los valores de una clave de mortalidad. 64 Figura 11. Normalización de los atributos. 67 Figura 12. Esquema del Almacén de Datos implementado. 69 Figura 13. Representación de la integración de los datos. 70 Figura 14. Operaciones realizadas por el prototipo de Preparación de Datos. 72 Figura 15. Ventana principal del prototipo de preparación de datos. 72 Figura 16. Resultado de la ejecución del prototipo de preparación de datos. 73 Figura 17. Interacción entre prototipo de Preparación de Datos y el de visualización cartográfica.
75
Figura 18. Grupos de municipios para la causa de mortalidad C34. 79 Figura 19. Grupos de municipios para la causa de mortalidad E11, año 2000. 81 Figura 20. Grupos de municipios para la causa de mortalidad E11, año 2010. 82 Figura 21. Grupos de municipios y grupos de interés para la causa de mortalidad E14, año 2000.
83
Figura 22. Grupos de municipios y grupos de interés para la causa de mortalidad E14, año 2010.
84
Figura 23. Representación del cubo de datos. 89 Figura A.1 Diagrama de actividades “Construcción de datos” 101 Figura B.1 Extracción de información desde el archivo XML 104 Figura C.1 Diagrama de clases “Paquetes de Preparación de Datos General y Específica”
105
Figura C.2 Diagrama de clases del paquete de “Preparación de Datos General (PDG)” 106 Figura C.3 Diagrama de clases del paquete de “Limpieza de datos” 107 Figura C.4 Diagrama de clases del paquete de “Selección de datos” 109 Figura C.5 Diagrama de clases del paquete de “Preparación de Datos Específica (PDE)”
111
Figura C.6 Diagrama de clases del paquete de “Formateo de datos” 112 Figura C.7 Diagrama de clases del paquete de “Construcción de datos” 114 Figura C.8 Diagrama de clases del paquete de “Integración de datos” 117 Figura D.1 Esquema del almacén de datos 119
VI
LISTA DE TABLAS
Página Tabla 1. Variables como factor de cambio. 43 Tabla 2. Tipo de dato como factor de cambio. 44 Tabla 3. Características de las bases de datos utilizadas. 57 Tabla 4. Descripción de los atributos proporcionada por INEGI. 58 Tabla 5. Número de registros y atributos después de la preparación de los datos. 68 Tabla 6. Atributos del conjunto de datos final. 74 Tabla 7. Valores de incidencia y tasa de mortalidad para el primer grupo de interés para la causa C16.
76
Tabla 8. Valores de incidencia y tasa de mortalidad para el segundo grupo de interés para la causa C16.
76
Tabla 9. Valores de incidencia y tasa de mortalidad para el segundo grupo de interés para la causa C34.
77
Tabla 10. Valores de incidencia y tasa de mortalidad para el segundo grupo de interés para la causa C34.
78
Tabla 11. Mayores tasas de mortalidad para la causa E11, año 2000. 80 Tabla 12. Mayores tasas de mortalidad para la causa E11, año 2010. 81 Tabla 13. Comparativa de tiempo manual y automático para el cálculo de la incidencia de mortalidad con datos del año 2000.
85
Tabla 14. Comparativa de tiempo manual y automático para el cálculo de la incidencia de mortalidad con datos del año 2010.
86
Tabla 15. Comparativa de tiempo manual y automático para el cálculo de la tasa de mortalidad con datos del año 2000.
86
Tabla 16. Comparativa de tiempo manual y automático para el cálculo de la tasa de mortalidad con datos del año 2010.
87
Tabla A.1 Definición del proceso de “Construcción de datos” 100 Tabla C.1 Descripción de paquetes “PDG y PDE” 105 Tabla C.2 Descripción de paquetes “Preparación de Datos General” 106 Tabla C.3 Descripción de clase “Identificación” 107 Tabla C.4 Descripción de clase “IdentificaciónValoresPerdidos” 107 Tabla C.5 Descripción de clase “detecciónValoresFueraRango” 108 Tabla C.6 Descripción de clase “Corrección” 108 Tabla C.7 Descripción de clase “CorrecciónValoresPerdidos” 108 Tabla C.8 Descripción de clase “CorrecciónValoresFueraRango” 108 Tabla C.9 Descripción de clase “selecciónHorizontal” 109 Tabla C.10 Descripción de clase “selecciónVertical” 110 Tabla C.11 Descripción de paquetes “Preparación de Datos Específica” 111 Tabla C.12 Descripción de clases “formatoArchivo” 112 Tabla C.13 Descripción de clase “formatoAtributos” 112 Tabla C.14 Descripción de clase “otrasModificaciones” 113 Tabla C.15 Descripción de clases “cambiarTipoDato” 113 Tabla C.16 Descripción de clase “Incidencia” 114 Tabla C.17 Descripción de clase “tasaMortalidad” 115 Tabla C.18 Descripción de clase “conversiónDecimal” 115 Tabla C.19 Descripción de clase “Normalización” 116 Tabla C.20 Descripción de clase “minMaxNormalización” 116 Tabla C.21 Descripción de clase “detecciónConflictos” 117 Tabla C.22 Descripción de clase “correcciónConflictos” 118 Tabla C.23 Descripción de clases “Integración” 118 Tabla D.1 Descripción de la tabla “Geográfica” 120 Tabla D.2 Descripción de la tabla “Poblacional” 120 Tabla D.3 Descripción de la tabla “Catálogo” 121 Tabla D.4 Descripción de la tabla “Mortalidad” 121 Tabla D.5 Descripción de la tabla “Hechos” 122 Tabla E.1 Decremento registrado en las tasas de mortalidad. 127 Tabla E.2 Incremento registrado en las tasas de mortalidad. 127
1
Capítulo 1 INTRODUCCIÓN.
Este capítulo presenta el panorama general de la tesis. Se presentan los motivos
que impulsaron esta investigación y se continúa con la definición del problema de
investigación. A su vez se describen los objetivos y se hace una breve
introducción al problema de la fase de Preparación de Datos dentro del proceso de
Minería de Datos. En la última sección se presenta una descripción del contenido
de cada capítulo de la tesis.
Capítulo 1 INTRODUCCIÓN
2
1.1 CONTEXTO DE LA INVESTIGACIÓN.
En la actualidad, la Minería de Datos es aplicada en muchas áreas del
conocimiento como apoyo para la solución de problemas específicos, por ejemplo,
en el dominio de la salud se han realizado varios estudios para observar el
comportamiento de ciertas enfermedades, como la diabetes, el cáncer, etc.
En México, la mortalidad por cáncer constituye un problema de salud
pública importante [1], en especial para ciertos tipos de esta enfermedad, por
ejemplo el cáncer de pulmón [2] y [3]. En el 2005, los tumores malignos fueron la
tercera causa de muerte en el país, ya que 63128 personas fallecieron a causa
éstos, lo que representa un 12.7% del total de las defunciones registradas para
ese año.
Esta investigación forma parte de un proyecto mayor en el área de Minería
de Datos el cual se desarrolla en el Centro Nacional de Investigación y Desarrollo
Tecnológico (cenidet) cuya utilidad se centra en el dominio de la salud. En este
proyecto se han realizado investigaciones encaminadas a desarrollar
metodologías y herramientas, además se han aplicado técnicas de Minería de
Datos sobre bases de datos de mortalidad con el objetivo de identificar patrones
en el comportamiento de las defunciones ocurridas por ciertas enfermedades,
directamente relacionadas al cáncer.
Como una herramienta para la identificación de estos patrones, la Minería
de Datos ha cumplido con su función dentro de las investigaciones realizadas. A
su vez, estas investigaciones han permitido identificar problemas importantes
durante el proceso de minado, particularmente en la etapa de Preparación de
Datos.
Como se menciona en [4], “a través de los años ha habido avances
significativos en las técnicas de Minería de Datos, sin embargo, este avance no ha
ido a la par con el progreso en la preparación de los datos”.
Capítulo 1 INTRODUCCIÓN
3
Y es que, la Preparación de Datos es la etapa que representa un reto mayor
para los expertos mineros, en esta etapa consume la mayor parte del esfuerzo
requerido para un proyecto de minería. Como se menciona en [5], hasta el 90%
del tiempo total requerido para un proyecto de Minería de Datos es invertido en la
etapa de Preparación de Datos.
La Preparación de Datos es una etapa importante del proceso de minería
ya que la calidad de los resultados obtenidos depende, en gran medida, de una
correcta preparación de los datos. Los sistemas de alto desempeño de Minería de
Datos requieren datos de calidad, para generar patrones de calidad.
En [4] se señala que “la diversidad de los datos y las tareas de Minería de
Datos ofrecen diversos temas de investigación para la etapa de Preparación de
Datos”, algunos de esos temas están encaminados a constituir el marco teórico de
la etapa de Preparación de Datos o bien, desarrollar sistemas y algoritmos,
eficaces y eficientes, de Preparación de Datos para fuentes de datos simples y
múltiples considerando datos internos y externos. Esto se traduce en el desarrollo
de metodologías y herramientas que faciliten el trabajo de los expertos mineros
durante esta etapa del proceso de Minería de Datos.
Capítulo 1 INTRODUCCIÓN
4
1.2 JUSTIFICACIÓN.
La Minería de Datos consiste en la extracción, no trivial, de conocimiento que
reside de manera implícita en los datos, la cual es previamente desconocida y que
puede resultar útil para la comprensión de algún fenómeno organizacional [6]. Los
retos actuales que existen en la Minería de Datos incluyen, por ejemplo, mejorar
los procesos y herramientas de Minería de Datos a través de la construcción de
metodologías que beneficien el proceso de minería y la automatización de las
tareas realizadas durante dicho proceso.
La aplicación de la Minería de Datos a problemas reales plantea la
necesidad de sistematizar y automatizar las tareas desarrolladas durante un
proyecto de Minería de Datos. En [5] se mencionan algunos de los retos actuales
que la Minería de Datos enfrenta, entre estos retos se menciona la necesidad de
unificar la teoría de Minería de Datos ya que se considera que muchas de las
técnicas están diseñadas para problemas individuales o muy “ad-hoc”. También se
destacan los problemas relacionados a los procesos, muchos investigadores
sugieren que es necesario mejorar los procesos y herramientas de Minería de
Datos a través de la automatización.
Particularmente, la Preparación de Datos es una etapa fundamental en el
proceso de Minería de Datos. Es en esta etapa donde los datos son procesados
para ser utilizados por las técnicas de minería, además, la calidad de los
resultados obtenidos por el proceso de minado depende, en gran medida, de una
correcta preparación de los datos. Adicionalmente, la Preparación de Datos
representa un problema para los expertos en minería, ya que es en esta etapa
donde se consume la mayor cantidad del tiempo requerido para un proyecto de
Minería de Datos, hasta el 90% como se menciona en [5].
La sistematización y automatización de las tareas de la fase de Preparación
de Datos, aportan un valioso beneficio en la reducción del tiempo que un experto
debe emplear en esta etapa. A su vez, esta disminución en el tiempo impacta
Capítulo 1 INTRODUCCIÓN
5
directamente en los costos del proyecto. En [5] se cita “reducir el costo de la
Preparación de Datos reducirá aún más el costo de construir el modelo y encontrar
los patrones de Minería de Datos”.
Es importante desarrollar metodologías de Preparación de Datos que sirvan
como una guía para los expertos mineros durante esta fase. Para este caso de
estudio, la aplicación de la metodología de Preparación de Datos en el dominio
epidemiológico permitió generar datos con la calidad suficiente para obtener
modelos de Minería de Datos eficaces que permitan, a quienes toman las
decisiones del área de salud, obtener una mejor perspectiva respecto a un
problema de salud y enriquecer el conocimiento que se tiene en relación a dicho
problema, p. ejemplo, el cáncer, y así generar estrategias de prevención y control.
A su vez, la automatización de las tareas de la etapa de Preparación de
Datos permite reducir los tiempos requeridos para desarrollar dichas tareas y,
como algunos autores han señalado, la automatización del proceso de Minería de
Datos es importante ya que “si automatizamos las diferentes operaciones del
proceso de Minería de Datos, se reduciría la labor humana en la medida de lo
posible”, como se señala en [5].
1.3 DESCRIPCIÓN DEL PROBLEMA DE INVESTIGACIÓN.
La Minería de Datos se ha convertido en una actividad de gran interés para
muchas organizaciones, ya que permite la exploración de grandes volúmenes de
datos con la finalidad de obtener conocimiento que soporte y mejore los procesos
de toma de decisiones.
Muchos de los proyectos actuales de Minería de Datos se desarrollan en
base a metodologías como CRISP-DM [7], en colaboración con expertos en
Minería de Datos y expertos del dominio. Sin embargo, los proyectos suelen
enfrentarse con varios problemas, como el hecho de que las metodologías
actuales abordan el proceso de minado con un nivel de detalle muy general, esto
Capítulo 1 INTRODUCCIÓN
6
hace necesario desarrollar una secuencia de pasos para resolver los aspectos
más detallados del proyecto, lo cual repercute en el tiempo requerido para su
realización.
Particularmente, en la fase de Preparación de Datos es donde se consume
la mayor parte del tiempo total requerido para un proyecto de minería. Algunos
autores opinan que el esfuerzo requerido para la Preparación de Datos oscila
entre el 50% y el 70% como se menciona en [7], pero también hay quienes opinan
que la Preparación de Datos llega a consumir el 80% o hasta el 90% del tiempo
requerido como se menciona en [4] y [5], respectivamente.
De manera específica, el problema que se aborda es el siguiente:
Para la fase de preparación de datos, el modelo de referencia CRISP-DM
aporta una metodología de cinco sub-fases, cuyo nivel de detalle es insuficiente
para guiar a los desarrolladores de proyectos de minería durante el proceso de
preparar los datos. Esto implica que los desarrolladores tengan que definir su
propia secuencia de pasos y, de este modo, dotar de un nivel de detalle más fino
cada sub-fase que CRISP-DM propone para su aplicación en un dominio
particular.
Figura 1. Problema de preparación de datos.
Capítulo 1 INTRODUCCIÓN
7
1.4 OBJETIVO GENERAL.
Contribuir a la sistematización del proceso de Minería de Datos en el dominio de la
salud, particularmente en la etapa de Preparación de Datos, mediante una
metodología definida a un nivel de detalle mayor respecto al de la metodología
CRISP-DM.
1.4.1 Objetivos específicos.
A continuación se listan los objetivos particulares:
a) Definir la etapa de Preparación de Datos a un nivel de detalle más
fino que el presentado en la metodología CRISP-DM (a nivel de tarea
genérica e instancia de proceso).
b) Identificar las tareas de Preparación de Datos factibles de ser
automatizadas.
c) Utilizar un caso de estudio con datos reales del dominio
epidemiológico para validar la propuesta de solución.
Capítulo 1 INTRODUCCIÓN
8
1.5 ALCANCES Y LIMITACIONES.
A continuación se muestran los alcances y limitaciones de esta investigación:
1.5.1 Alcances.
a) Se analizó la fase de Preparación de Datos tomando como referencia la
metodología CRISP-DM.
b) La metodología sólo se enfocó a aplicaciones de Minería de Datos en el área
de epidemiología, específicamente a bases de datos poblacionales de
mortalidad.
c) Se automatizaron cuatro de las tareas de Preparación de Datos del nivel
específico.
d) El aspecto de adaptabilidad se manejó en términos meramente exploratorios
en las variables CAUSA y AÑO.
1.5.2 Limitaciones.
a) Las bases de datos reales utilizadas para propósitos de prueba
correspondieron a información de mortalidad de los censos de los años 2000
y 2010 de México.
b) La metodología se validó con una aplicación de Minería de Datos relacionada
a defunciones producidas por dos enfermedades cáncer y diabetes.
Capítulo 1 INTRODUCCIÓN
9
1.6 ESTADO DEL ARTE.
En la siguiente sección se describe de manera breve el estado del arte y trabajos
relacionados a esta investigación. Los trabajos serán presentados de manera
cronológica, describiendo de manera breve su aportación y las principales
diferencias con este trabajo de investigación.
1.6.1 Trabajos relacionados.
Desde sus orígenes, la noción de Minería de Datos ha sido vista como el proceso
de “minar” los datos y ha surgido en muchos ámbitos, desde el campo académico
hasta actividades de negocios o médicas [8]. No obstante, este proceso de minado
ha tenido que lidiar con los problemas propios de los datos que en ocasiones se
encuentran con ruido e impurezas, y que deben ser corregidos con el fin de
obtener de ellos conocimiento veraz que sirva como soporte para la toma de
decisiones.
En el año 2000, surge la metodología CRISP-DM [7] (la cual es tomada
como base para esta investigación) que aporta una metodología flexible y sencilla
para las fases del proceso de minado y que actualmente es la más utilizada
debido a estas ventajas.
En particular, para la fase de Preparación de Datos, CRISP-DM describe
cinco sub-fases limpieza, selección, formateo, construcción e integración de los
datos, sin embargo, el nivel de granularidad que CRISP-DM tiene únicamente da
una pista de lo que se puede hacer en cada sub-fase, es decir, no describe con
detalle las acciones a seguir dentro de cada sub-fase.
A lo largo del tiempo, varias investigaciones han abordado la etapa de
Preparación de Datos con el objetivo de resolver los problemas presentes en dicha
etapa. Muchas de estas investigaciones comparten características como el
Capítulo 1 INTRODUCCIÓN
10
dominio de aplicación, en este caso el dominio de la salud, y analizan datos de
diferentes enfermedades como el cáncer o la diabetes.
Para el año 2003; investigaciones como [9], la cual forma parte del proyecto
Europeo llamado Diabcare, proponen desarrollar herramientas de Minería de
Datos para datos clínicos de diabetes, analizar la fase de Preparación de Datos y
proveer herramientas para manejo de inconsistencias y valores perdidos. En este
trabajo se propone un método de Preparación de Datos de tres fases: limpieza,
análisis de los datos faltantes y selección de la técnica de manejo de los datos
faltantes. Este trabajo está enfocado únicamente a la limpieza de los datos y
propone la automatización de dicho proceso.
Otros trabajos, como el propuesto en [10], están enfocados al manejo de los
valores perdidos, en este caso se hace uso de las técnicas de agrupamiento y
regresión para conseguir el objetivo de limpiar los datos. El método reporta
precisión en la predicción de los valores y muestra mayor exactitud al recuperar
los valores perdidos, no obstante, está enfocado sólo a la limpieza de los datos y
manejo de valores perdidos.
En el año 2005, otros trabajos de investigación son reportados, en [11] se
describe el proceso de Preparación de Datos realizado durante un caso de estudio
sobre datos de cáncer en Egipto. Durante la Preparación de Datos se ejecutaron
tareas de limpieza, selección, integración y transformación o construcción de
datos, sin embargo, este proceso de Preparación de Datos no está siendo
reportado como una metodología y proporciona poca información sobre las tareas
ejecutadas durante la preparación de los datos.
En [12] se propone un método que consiste en el reemplazo de valores
perdidos y selección de atributos consultando con expertos en el dominio. Los
datos utilizados pertenecen a registros de cáncer de mama de casos ocurridos en
Suecia. En los resultados se observó un crecimiento en la eficiencia de la
Capítulo 1 INTRODUCCIÓN
11
predicción de los valores perdidos, a pesar de la precisión, el método está
centrado únicamente en el problema de la limpieza y selección de atributos.
Los trabajos descritos en [13] y [14] están enfocados a la Preparación de
Datos espaciales. En estos trabajos se propone una metodología de tres pasos
(selección, materialización y transformación de datos) y un framework para
Preparación de Datos espaciales específicamente. Los registros utilizados en
ambos trabajos están relacionados a enfermos con padecimientos de cáncer y la
ubicación de municipios, fábricas y antenas de telefonía celular.
En [14], se utilizan bases de datos espaciales (ver sección 2.1.2) con el fin
de observar relaciones entre pacientes con padecimientos de cáncer y fábricas o
antenas de telefonía celular, de acuerdo a su ubicación geográfica. Aunque existe
mucha similitud entre estos trabajos y la presente investigación: 1) los datos que
se están manejando, espaciales y poblacionales, pertenecen a pacientes con
padecimientos de cáncer, 2) la propuesta de una metodología y 3) un software de
Preparación de Datos. El objetivo de Minería de Datos en ambas investigaciones
difiere mucho uno del otro. Adicionalmente, los enfoques de las metodologías
propuestas difieren en el nivel de detalle que aportan y el número de sub-fases
que se proponen. La metodología propuesta en [14] está estrechamente
relacionada a las operaciones requeridas en el proyecto, mientras que nuestra
propuesta conserva la flexibilidad de la metodología CRISP-DM, lo cual permite su
uso en otras aplicaciones de minería.
En 2009, el trabajo descrito en [15] propone una metodología para la
sustitución de valores perdidos y selección de atributos, los datos utilizados para
esta investigación están relacionados al dominio epidemiológico, específicamente,
cáncer de próstata. El enfoque es innovador, ya que propone manejar la limpieza y
selección de atributos, como dos fases en la misma actividad, no obstante, no
aborda otras fases del proceso de Preparación de Datos. Es una metodología
simple y genérica, que puede ser utilizada para varios dominios de aplicación.
También, resalta la necesidad de semi-automatizar los procesos de preparación.
Capítulo 1 INTRODUCCIÓN
12
Por último, dos trabajos relacionados y que son antecedentes de esta
investigación, son los propuestos en [16] y [17]; desarrollados en el año 2010.
Estos trabajos siguen el enfoque de Preparación de Datos y objetivo de Minería de
Datos de esta investigación.
En ellos se reporta un sistema para la generación de patrones geográficos y
un Almacén de Datos para diversas causas de mortalidad por cáncer, sin
embargo, el proceso de Preparación de Datos que se realizó, está descrito de
manera muy general y la aportación no supone una metodología de Preparación
de Datos, sino una aplicación de minería de datos; y los objetivos particulares
distan mucho de los planteados en esta investigación.
Adicionalmente, en estas investigaciones se ha trabajado únicamente con
datos de defunciones ocurridas por causas de mortalidad las relacionadas al
cáncer y el presente trabajo amplía la gama de enfermedades que se pueden
explorar.
Capítulo 1 INTRODUCCIÓN
13
1.7 ORGANIZACIÓN DEL DOCUMENTO.
La tesis está organizada de la siguiente manera:
El Capítulo 2 presenta el marco teórico, en éste se presentan los conceptos
básicos relacionados a Minería de Datos y la Preparación de Datos, y algunos
otros conceptos relacionados al dominio de aplicación.
El Capítulo 3 muestra la metodología de Preparación de Datos desarrollada
para su aplicación a un proyecto real de Minería de Datos dentro del dominio
epidemiológico.
El Capítulo 4 muestra la experimentación realizada para validar la
metodología de Preparación de Datos propuesta. Adicionalmente, se analizan los
resultados obtenidos.
El Capítulo 5 presenta las conclusiones y aportaciones más importantes de
esta investigación y las líneas de investigación que se identificaron en el proceso.
Se destacan también las publicaciones conseguidas como resultado de esta
investigación.
14
Capítulo 2 MARCO TEÓRICO.
Este capítulo describe el marco teórico en el que se fundamenta este trabajo de
tesis. Se presentan los conceptos básicos sobre Minería de Datos y Preparación
de Datos, así como algunos otros conceptos del dominio epidemiológico al cual
pertenece este trabajo. Por último, se incluye una sección que contiene una
descripción de los trabajos relacionados al problema de la Preparación de Datos.
Capítulo 2 MARCO TEÓRICO
15
2.1 BASE DE DATOS.
Una base de datos es una colección de datos que contiene información relevante
de una empresa, como se define en [18]. Las bases de datos son ampliamente
usadas, algunas de sus aplicaciones más representativas son la banca, las
telecomunicaciones, las finanzas, en producción, salud, etcétera.
Muchas son las organizaciones interesadas en mantener las grandes
cantidades de datos que se generan día a día sobre las operaciones que realizan,
estos datos son conocidos como datos persistentes. En [19], se define una base
de datos como un conjunto de datos persistentes que es utilizado por los sistemas
de información de alguna empresa. Dichos datos pueden contener información
sobre la producción, la contabilidad, los pacientes, la planeación, etcétera. En esta
definición, se utiliza el término “empresa”, para identificar a cualquier organización
independiente de tipo comercial, técnico, científico u otro
Como ejemplo, en la actualidad los gobiernos de muchos países, en
conjunto con sus organismos de salud, colectan información sobre diferentes
aspectos de las poblaciones de un país, la cual puede estar relacionada a
aspectos geográficos, sociales, culturales, etcétera. Dicha información es
recolectada con la finalidad de conocer estadísticamente a una población, con ella
es posible preparar informes estadísticos, cuadros y gráficas que muestren las
características y el comportamiento de las poblaciones.
Con el almacenamiento de estos datos se da origen a diferentes bases de
datos que pueden ser clasificadas de acuerdo a la información que proporcionan
los datos contenidos en ellas.
2.1.1 Bases de datos poblacionales.
Las bases de datos de tipo poblacional, la mayoría de las veces, cuentan con
información de tipo censal y pueden contener información sobre:
Capítulo 2 MARCO TEÓRICO
16
Volumen de la población total
Distribución geográfica de la población.
Población con discapacidad, tipo y número de discapacidades.
Enfermedades en una población.
Mortalidad poblacional.
Entre otros.
Los datos recolectados se analizan y organizan por temas para obtener
información estadística y sociodemográfica de éstos [20]. Muchos de los estudios
poblacionales están basados en la información contenida en estas bases de datos.
2.1.2 Bases de datos espaciales.
Una base de datos espacial contiene datos pertenecientes a un espacio
determinado, un concepto clave en las bases de datos espaciales es,
precisamente, la dimensión espacio.
Una base de datos espacial permite describir los objetos espaciales que la
forman a través de tres características básicas: atributos, localización y topología
[21]. Los atributos representan características de los objetos que nos permiten
saber lo que son. La localización, representada por la geometría del objeto y su
ubicación espacial de acuerdo a un sistema de referencia, permiten saber dónde
está el objeto y qué espacio ocupa. Finalmente, la topología definida por medio de
las relaciones conceptuales y espaciales entre objetos, permite mejorar la
interpretación semántica del contexto y establecer ciertas jerarquías de elementos
a través de sus relaciones.
En [13] se definen las características localización (direction/order) y
topografía, más una característica adicional, la distancia. Esta característica está
basada en la distancia Euclidiana (o distancia ordinaria) entre dos objetos
ubicados en un espacio.
Capítulo 2 MARCO TEÓRICO
17
La datos contenidos en una base de datos espacial resultan de importancia
cuando se requiere representar información de manera gráfica, estos datos nos
permiten visualizar formas, puntos y establecer una relación entre éstos.
2.2 ALMACÉN DE DATOS.
Según [22] un Almacén de Datos (data warehouse) es una base de datos que
integra datos procedentes de uno o varios sistemas de información de una
organización, generalmente orientado a la toma de decisiones.
En [23] se define un Almacén de Datos como un conjunto de datos
históricos, internos o externos, y descriptivos de un contexto o área de estudio;
integrados y organizados de tal forma que permite resumir, describir y analizar los
datos con el fin de ayudar en la toma de decisiones estratégicas.
Los almacenes de datos están basados principalmente en información
histórica, por lo cual, los “hechos” son su aspecto central. Los “hechos” son
variables de negocio como el tiempo, las ventas, muertes, costos, etcétera.
Los datos se organizan en torno a los “hechos”, que tienen atributos o
medidas que pueden verse en mayor o menor detalle según ciertas “dimensiones”.
El modelo conceptual de datos más extendido para los almacenes de datos,
es el modelo multidimensional. En [23] se menciona que “cuando el número de
dimensiones no excede de tres se puede representar cada combinación de niveles
de agregación como un cubo”. Cada hecho corresponde por lo tanto, a una casilla
del cubo.
Capítulo 2 MARCO TEÓRICO
18
Figura 2. Representación de un cubo de datos.
La Figura 2 muestra la representación de un cubo de datos con las
dimensiones, espacio y tiempo, relacionadas a un hecho.
Según [23], los almacenes de datos pueden implementarse utilizando dos
tipos de sistemas físicos:
ROLAP (Relational OLAP).- físicamente, el Almacén de Datos se construye
sobre una base de datos relacional. Su principal ventaja es que pueden
utilizar directamente sistemas de gestión de bases de datos genéricos y
herramientas asociadas. Generalmente su costo de implementación es
menor.
MOLAP (Multidimensional OLAP).- físicamente, el Almacén de Datos se
construye sobre estructuras basadas en matrices multidimensionales. Sus
principales ventajas son: su especialización, la correspondencia entre el
nivel lógico y el nivel físico, y lo que lo hace, generalmente, más eficiente
que un ROLAP.
En estas estructuras se construyen tres tipos de tablas:
Espacio
Capítulo 2 MARCO TEÓRICO
19
Tablas copo de nieve (snowflake tables).- Para cada nivel de agregación de
una dimensión se crea una tabla. Cada tabla tiene una clave primaria y
tantas claves ajenas como sea necesario para poder conectar con los
niveles superiores.
Tablas de hechos (fact tables).- Se crea una única tabla de hechos y se
incluye un atributo por cada dimensión.
Tablas estrella (star tables).- Se crea una tabla, para cada dimensión, que
tenga un atributo para cada nivel de agregación diferente en la dimensión.
2.3 MINERÍA DE DATOS.
La Minería de Datos es el proceso de analizar datos desde diferentes perspectivas
y resumirlos en información útil, su meta principal es convertir los datos en
conocimiento [24]. El término Minería de Datos se refiere a extraer o “minar”
conocimiento desde grandes cantidades de datos. Como una analogía a la
extracción de material precioso de las minas, el conocimiento representa “el oro”
que los datos tienen escondido.
Según [25], la Minería de Datos es el proceso de descubrir patrones de
interés y conocimiento desde grandes cantidades de datos, permite analizar datos
de diversas fuentes; estas fuentes incluyen bases de datos, almacenes de datos,
datos tomados desde la web, entre otros repositorios.
En la actualidad, la Minería de Datos se hace necesaria en importantes
áreas, tales como la economía, el cuidado de la salud, la investigación científica,
etcétera. En estas áreas existe una gran cantidad de datos que sólo han sido
analizados parcialmente, y que contienen una gran cantidad de información que
aún no ha sido explorada [8].
En [26] se mencionan dos retos que la Minería de Datos enfrenta: 1)
trabajar con grandes cantidades de datos, procedentes de sistemas de
información, con los problemas que esto representa (ruido, ausencia de datos,
Capítulo 2 MARCO TEÓRICO
20
volatilidad de los datos, etcétera), 2) la utilización de técnicas adecuadas para
analizar los datos y extraer conocimiento novedoso y útil.
2.3.1 Modelo de referencia CRISP-DM.
El modelo de referencia CRISP-DM propone una metodología de Minería de Datos
estandarizada, que es la más utilizada según [27], por su flexibilidad y capacidad
de personalizarse para su aplicación en diferentes dominios fácilmente.
Esta metodología está descrita en términos de un modelo de procesos
jerárquico, consiste de un conjunto de tareas descritas en cuatro niveles de
abstracción: fase, tarea genérica, tarea especializada e instancia de proceso [7].
Figura 3. Niveles de abstracción CRISP-DM.
La Figura 3 nos muestra los niveles de abstracción identificados por CRISP-
DM. El nivel superior está organizado en un número de fases, a su vez, cada fase
está dividida en varias tareas genéricas, que corresponden al segundo nivel en el
modelo, este nivel intenta ser lo suficientemente general para cubrir todas las
posibles situaciones de Minería de Datos. Los dos primeros niveles conforman la
parte genérica del modelo y tienen un nivel de abstracción mayor respecto a los
niveles inferiores.
Fase
Tarea genérica.
Tarea especializada
Instancia de proceso
Modelo
específico
Modelo
genérico
CRISP-DM
Proyección
Capítulo 2 MARCO TEÓRICO
21
El tercer nivel, es el nivel de las tareas especializadas, describe las
acciones que se deben realizar en situaciones específicas. El cuarto nivel,
instancias de proceso, es un registro de las acciones, decisiones y resultados de
un proyecto de Minería de Datos determinado. Estos niveles conforman la parte
específica del modelo y tienen un nivel de abstracción menor.
CRISP-DM proporciona una descripción mayor de la parte genérica del
modelo, es ahí donde se proporciona una visión general de las acciones que se
ejecutan en los niveles específicos. Resultaría muy complicado definir tareas y
procesos que se ajusten a las diferentes aplicaciones de Minería de Datos en
todos los dominios donde se utiliza.
Figura 4. Ciclo de vida de un proyecto de Minería de Datos.
La Figura 4 provee una visión general del ciclo de vida de un proyecto de
Minería de Datos, en ella se muestran las cinco fases que el modelo de referencia
de CRISP-DM detalla en [7]. Estas fases son:
Entendimiento del negocio
Entendimiento de los datos
Preparación de datos
Modelado
Evaluación
Despliegue
Datos
Capítulo 2 MARCO TEÓRICO
22
Entendimiento del negocio.- Enfocada a entender los objetivos y
requerimientos del proyecto desde la perspectiva del negocio.
Entendimiento de los datos.- Comienza con la recolección de datos. En ella,
se realizan actividades con el propósito de familiarizarse con los datos.
Preparación de Datos.- Cubre todas las actividades necesarias para
construir el subconjunto de datos final (dataset) desde los datos originales
(sin procesar).
Modelado.- Enfocada a la selección y aplicación de la técnica de minería
que servirá para obtener un modelo para representar el conocimiento.
Evaluación del modelo.- Hay que revisar los pasos ejecutados en la
construcción del modelo para asegurarse que éste alcanza los objetivos del
negocio para la toma de decisiones.
Despliegue del modelo.- La implementación de esta fase puede ser tan
simple como generar un reporte o tan compleja como implementar un
proceso de Minería de Datos repetible a través de la empresa.
En la sección siguiente se describe ampliamente la fase de Preparación de
Datos, ya que es en esta etapa donde se centra esta investigación.
2.3.1.1 Fase de Preparación de Datos.
La Preparación de Datos es la fase que cubre todas las tareas para construir el
conjunto de datos final (dataset que será utilizado por las herramientas de
modelado) a partir de los datos iniciales en bruto (sin procesar). Comúnmente las
tareas de Preparación de Datos son ejecutadas varias veces y no tienen un orden
prescrito [7].
La Preparación de Datos es una etapa fundamental en la Minería de Datos
ya que, en gran medida, la calidad de los modelos generados por el proceso de
Minería de Datos depende de la calidad de los datos utilizados.
Capítulo 2 MARCO TEÓRICO
23
Actualmente muchas organizaciones están interesadas en cómo
transformar sus datos a formas limpias, las cuales puedan ser usadas para
propósitos de alto rendimiento y como apoyo para la toma de decisiones [4].
2.3.1.1.1 Complejidad de la Preparación de Datos.
A través de los años, la Minería de Datos ha tenido avances significativos pero, a
pesar de su importancia dentro del proceso de minado, en la fase de Preparación
de Datos no ha habido un progreso similar.
La Preparación de Datos es la etapa que más tiempo consume del total
requerido para un proyecto de Minería de Datos. En [7] se menciona que el
esfuerzo requerido para la Preparación de Datos oscila entre el 50% y el 70%,
pero también hay quienes opinan que la Preparación de Datos llega a consumir
hasta el 80% [4] o el 90% [2] del tiempo total de un proyecto de Minería de Datos.
Uno de los principales problemas a los que se enfrenta esta fase, es el
volumen de datos que en ocasiones es necesario manejar, además de que las
fuentes de datos pueden ser muy diferentes, desde simples archivos hasta
grandes y complejas bases de datos. La Preparación de Datos resulta ser una
tarea compleja y laboriosa cuando nos enfrentamos a grandes volúmenes de
datos.
Adicionalmente, como se menciona en [4], la etapa de Preparación de
Datos tiene una fuerte necesidad de nuevas técnicas y herramientas
automatizadas diseñadas para que puedan asistir a los expertos en Minería de
Datos durante esta laboriosa fase, con el objetivo de reducir los costos y el
esfuerzo requerido para su desarrollo.
Y es que, aunque resulta imposible diseñar una metodología que sirva para
todos y cada uno de los dominios en los que la Minería de Datos ha encontrado
Capítulo 2 MARCO TEÓRICO
24
aplicación, es posible diseñar metodologías flexibles o adaptables a dominios que
compartan características.
Así mismo, es necesario desarrollar herramientas que automaticen las
tareas de Preparación de Datos para, de este modo, reducir la labor y el costo que
se requiere invertir durante esta fase.
La Preparación de Datos es una fase importante dentro del proceso de
Minería de Datos, ya que la calidad de los resultados del proceso de minado
depende directamente de la calidad de los datos utilizados. En [4] se señala “los
datos de calidad generan patrones de calidad”.
2.3.1.2 Etapas de la Preparación de Datos.
El modelo de referencia de CRISP-DM describe el segundo nivel de abstracción
para cada una de las fases que propone. Para la Preparación de Datos, el modelo
de referencia CRISP-DM [7] describe cinco tareas genéricas, las cuales son:
Selección de datos.- En esta tarea se eligen los datos que se utilizarán para
el análisis y, generalmente, incluye la selección de filas (registros) y
columnas (atributos). Los datos elegidos deben ser relevantes para los
objetivos del proceso de minado.
Limpieza de datos.- El objetivo de esta tarea es elevar la calidad de los
datos al nivel requerido por la técnica de análisis de datos que se haya
seleccionado. Esto puede incluir acciones como seleccionar subconjuntos
de datos limpios, insertar valores default adecuados o técnicas más
ambiciosas como la estimación de valores faltantes en un atributo.
Construcción de datos.- Incluye operaciones constructivas de Preparación
de Datos tales como la generación de atributos derivados y transformación
de valores para atributos existentes.
Integración de datos.- Son métodos a través de los cuales la información se
combina desde múltiples fuentes de datos para crear nuevos valores,
registros o incluso bases de datos completas o almacenes de datos.
Capítulo 2 MARCO TEÓRICO
25
Formateo de datos.- Se refiere a modificaciones sintácticas que no cambian
el significado de los datos, pero pueden ser requeridas por las herramientas
de modelado.
2.4 EPIDEMIOLOGÍA.
Según [28], la epidemiología es el estudio de cómo se distribuyen las
enfermedades en las poblaciones y los factores que influyen o determinan esta
distribución.
En [29], se define a la epidemiología como el estudio de la distribución y los
determinantes de los estados de salud o los eventos relacionados con la salud en
poblaciones específicas y la aplicación de este estudio al control de los problemas
de salud. Según [30], la epidemiología puede ser clasificada como:
Epidemiología analítica.- Evalúa hipótesis relacionadas con asociaciones
entre posibles exposiciones a ciertos factores de riesgo y los desenlaces de
procesos relacionados con la salud.
Epidemiología descriptiva.- Hace uso de los datos disponibles para
examinar cómo las tasas (por ejemplo de mortalidad), varían de acuerdo a
variables demográficas, como las obtenidas en los censos.
2.4.1 Indicadores en epidemiología.
En términos generales, los indicadores representan medidas que capturan
información relevante sobre distintos atributos y dimensiones del estado y del
desempeño del sistema de salud que, vistos en conjunto, intentan reflejar la
situación sanitaria de una población y sirven para vigilarla [31].
Para este estudio, son dos los indicadores que nos interesan: primero, la
incidencia de mortalidad y, segundo, la tasa de mortalidad.
Capítulo 2 MARCO TEÓRICO
26
El término “incidencia” ha sido tradicionalmente empleado para aludir a una
proporción de casos nuevos (incidentes) de una enfermedad. En rigor, el término
abarca la frecuencia de cualquier nuevo acontecimiento relacionado con la salud o
la enfermedad y, por tanto, también incluye la muerte, recaída en la enfermedad,
la curación, etcétera [30].
La estructura básica de cualquier indicador de incidencia es la siguiente: el
número de sucesos que ocurren en una población definida a lo largo de un lapso
(periodo) de tiempo determinado.
La mortalidad es claramente un índice de la gravedad de la enfermedad
desde el punto de vista clínico y de salud pública, pero también puede usarse
como un índice de riesgo de enfermedad [28].
Las tasas son valores relativos que se utilizan como indicadores de la salud
de la población, expresan la probabilidad de sufrir un riesgo como padecer cierta
enfermedad o morir por determinada causa, etcétera.
En [32], se define la tasa de mortalidad general como el volumen de
muertes ocurridas por todas las causas de enfermedad, en todos los grupos de
edad y para ambos sexos. Se dice que la tasa de mortalidad es cruda cuando
expresa la relación que existe entre el volumen de muertes ocurridas en un
periodo dado y el tamaño de la población en la que éstas se presentaron. Para
este estudio, es requerido este indicador.
(1)
La tasa cruda de mortalidad se calcula de acuerdo a la Expresión 1, donde
TM es la tasa de mortalidad, la incidencia es el número de muertes ocurridas en
un periodo, población total es el número de habitantes promedio en la población
para el mismo periodo y modificador es un valor comúnmente potencia de 10
(10n).
27
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN
DE DATOS.
Este Capítulo está conformado por tres secciones: 3.1 Sistematización del proceso
de preparación de datos, 3.2 Metodología de preparación de datos y 3.3 Semi-
automatización del proceso de preparación de datos.
La sección 3.1 describe cómo se definieron y modelaron los procesos
identificados en la fase de preparación de datos.
La sección 3.2 describe la metodología de preparación de datos propuesta,
presenta el esquema general de la metodología propuesta (3.2.1) y la descripción
de la metodología (3.2.2).
Por último, la Sección 3.3 describe la arquitectura de un sistema de
preparación de datos (3.3.1) y cómo se implementaron algunas tareas (3.3.2).
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
28
3.1 SISTEMATIZACIÓN DEL PROCESO DE PREPARACIÓN DE DATOS.
La sistematización está muy ligada al ámbito de la investigación científica y la
computación, sistematizar un proceso permite comprender mejor el mismo.
Nos referimos a la sistematización como una interpretación crítica de una o
varias experiencias que, a partir de su ordenamiento y reconstrucción, descubre o
explica la lógica de un proceso vivido, los factores que han intervenido en dicho
proceso, cómo se han relacionado entre sí y porqué lo han hecho de ese modo
[33].
En este documento, la sistematización se refiere a: establecer un
procedimiento repetible, ordenado y jerarquizado, basado en experiencias previas,
que sirva de apoyo al experto en Minería de Datos para llevar a cabo la laboriosa
tarea de preparar los datos.
Retomando lo anterior, se analizó la experiencia contenida en los trabajos
previos [34], [35], [36] y [37]; con el objetivo de identificar cuáles son las tareas y
procesos que se ejecutan durante la fase de Preparación de Datos.
Estas investigaciones están centradas al análisis de datos epidemiológicos
para diversas causas de mortalidad por cáncer, sin embargo, cada una de ellas
tienen el mismo objetivo de Minería de Datos: identificar grupos de municipios en
México con altas tasas de mortalidad para las diferentes causas de mortalidad por
cáncer.
Se identificaron las tareas y procesos de Preparación de Datos que se
realizaron en cada uno de los trabajos previos y se procedió a definirlos,
modelarlos y unificarlos para poder generar un proceso único de Preparación de
Datos.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
29
3.1.1 Definición de los procesos de Preparación de Datos.
El objetivo de definir los procesos de la etapa de Preparación de Datos es,
conseguir el mayor nivel de detalle posible en cada una de las tareas realizadas
durante dicho proceso.
Para describir dichas tareas se tomaron en cuenta algunos de los
elementos sugeridos por el patrón de procesos definido en [38]. A continuación se
listan los elementos tomados en cuenta para definir las tareas de Preparación de
Datos:
1) Nombre del proceso,
2) responsable,
3) descripción,
4) objetivo,
5) entrada,
6) salida,
7) actividades,
8) subprocesos relacionados.
El Anexo A, contiene un ejemplo de las tablas de definición de procesos
que fueron creadas utilizando los elementos que se listaron anteriormente. Las
tareas descritas en estas tablas corresponden a las tareas de la sub-fase de
construcción de datos.
Se describen a detalle las tareas de cálculo de la incidencia de mortalidad y
cálculo de la tasa de mortalidad por ser de especial interés para los fines de esta
investigación. Después de describir del proceso realizado para ambas tareas, se
procedió al modelado de éste.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
30
3.1.2 Modelado de los procesos de Preparación de Datos.
La definición de los procesos de Preparación de Datos muestra una visión más
clara del orden en el que éstos se ejecutan durante la fase de preparación, el
modelado nos presenta una visión más simplificada de dichos procesos.
En [39], se dice que los modelos de un sistema de software capturan
requisitos sobre el dominio de aplicación, la interacción con los usuarios, los
módulos que lo constituyen, entre otras cosas; para el modelado de los procesos
de la fase de Preparación de Datos se utilizaron diagramas de actividad (Anexo
A).
Los diagramas de actividad nos permitieron representar dos tipos de tareas:
compuestas (actividades) y simples (acciones). Las tareas compuestas están
conformadas por la ejecución de varias tareas simples. Por otro lado, una tarea
simple nos indica acciones concretas, es decir, un paso determinado que se
realiza dentro de un proceso. Las tareas compuestas pueden mapearse a tareas
genéricas o especializadas, mientras que las tareas simples pueden ser vistas
como instancias del proceso, según lo propuesto en la metodología CRISP-DM.
Uno de los propósitos en esta investigación es la implementación de
algunos de los procesos de Preparación de Datos, por ello, es necesario modelar
dichos procesos apoyándose de herramientas como UML.
En la sección siguiente se describe la metodología de Preparación de Datos
que se obtuvo como resultado del análisis y definición de los procesos de la fase
de Preparación de Datos.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
31
3.2 METODOLOGÍA DE PREPARACIÓN DE DATOS.
En esta sección del documento se presenta la metodología de Preparación de
Datos que resultó del análisis realizado a trabajos de investigación previos
desarrollados en CENIDET.
3.2.1 Esquema general de la metodología propuesta.
El principal objetivo de esta investigación fue desarrollar una metodología de
Preparación de Datos, para su aplicación en el dominio epidemiológico, definida
con un nivel de detalle mayor al propuesto por CRISP-DM.
Figura 5. Esquema general de la metodología de Preparación de Datos propuesta.
La Figura 5 muestra el esquema general de la aportación de esta
investigación. En color verde, se observa la metodología de Preparación de Datos
propuesta por CRISP-DM, la cual está compuesta de cinco sub-fases: limpieza,
selección, formateo, construcción e integración de datos; estas sub-fases fueron
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
32
clasificadas dentro de los dos niveles de Preparación de Datos que se proponen
en esta investigación (PDG y PDE). En color azul, se muestra la metodología
particularizada al dominio epidemiológico, la cual define con mayor detalle cada
una de las sub-fases de Preparación de Datos que CRISP-DM propone.
Por último, en color rojo, observamos dos niveles de Preparación de Datos,
que constituyen un nuevo enfoque propuesto por esta investigación, a los cuales
hemos denominado: Preparación de Datos General (PDG) y Preparación de Datos
Específica (PDE).
3.2.2 Descripción de la metodología de Preparación de Datos propuesta.
En los párrafos siguientes se describe la metodología que se propone para la fase
de Preparación de Datos, la cual enfocada al dominio epidemiológico, según el
esquema presentado en la sección 3.2.1.
3.2.2.1 Preparación de Datos General (PDG).
La Preparación de Datos General, se refiere a un conjunto de tareas
“independientes” del objetivo de Minería de Datos que se desea alcanzar. En este
nivel se intenta homogeneizar y seleccionar desde diferentes fuentes, los datos
que serán utilizados.
La Preparación de Datos General agrupa tareas que presentan mayor
flexibilidad, una característica que las hace generales, es decir, pueden ser
aplicadas en otros dominios con mayor facilidad. En este nivel hemos incluido
aquellas tareas que tienen que ver con la limpieza y la selección de los datos.
3.2.2.1.1 Limpieza de datos.
En esta tarea se intenta elevar la calidad de los datos al nivel requerido por la
técnica de análisis seleccionada. Esto puede incluir la selección de subconjuntos
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
33
de datos limpios, inserción de valores default adecuados o la aplicación de
técnicas de limpieza más ambiciosas como la estimación de valores faltantes [7].
a) Detección errores.
Se debe realizar una revisión exhaustiva de los datos con el fin de identificar
posibles errores en los valores de los datos (valores vacíos, valores fuera del
rango permitido por el atributo, etc), por ejemplo, para la detección de valores
erróneos en atributos numéricos, se suele buscar outliers (valores anómalos,
atípicos o extremos), también llamados datos aislados.
Se debe destacar que no detectar un valor anómalo puede ser un problema
importante si el atributo se normaliza posteriormente, ya que la mayoría de los
datos estarán en un rango muy pequeño y puede haber poca precisión o
sensibilidad [23].
Otro tipo de error comúnmente presente en los datos son los valores
faltantes, perdidos o ausentes (missing values). La detección de valores faltantes
puede parecer sencilla, si los datos proceden de una base de datos, basta con
mirar la tabla de resumen de atributos y ver la cantidad de valores nulos que tiene
cada atributo [23].
b) Corrección de errores.
Se corrigen los errores identificados en los registros o atributos. Las técnicas de
tratamiento de errores en los datos pueden variar dependiendo del error
identificado, una alternativa puede ser, por ejemplo, el reemplazo del valor. Se
puede intentar reemplazar el valor (o corregirlo) de manera manual, si no son
muchos los errores identificados, o de manera automática utilizando un valor que
preserve la media o la varianza, posiblemente, hacer una sustitución por un valor
que represente la moda. También es posible sustituir por un valor máximo o
mínimo o, incluso, predecir el valor a partir de otros datos. En [23] se describen
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
34
algunas técnicas de tratamiento de errores en los datos para outliers y missing
values.
c) Eliminación de registros o atributos con errores.
Si no fue posible corregir el error identificado aplicando alguna técnica de
corrección de errores, se eliminan los registros o atributos que aún contengan
errores. En este caso, la solución se considera extrema y se debe ser muy
cuidadoso al realizar la eliminación, ya que esto puede sesgar los datos.
3.2.2.1.2 Selección de datos.
En esta tarea se eligen los datos que se utilizarán para el análisis, generalmente
incluye la selección de filas (registros) y columnas (atributos) [7]. Los criterios de
selección incluyen: la calidad de los datos, qué tan importante es el atributo o
registro para los objetivos del proceso de minería (los datos seleccionados deben
ser relevantes para dicho proceso), también aparecen restricciones como el
volumen de los datos.
Dada la definición anterior, podemos decir que es posible dividir la selección
de datos en:
a) Selección vertical.
Es la selección de aquellos atributos que representan información de interés para
los objetivos del proyecto de Minería de Datos que se esté desarrollando.
Podemos listar una serie de tareas que se ejecutan durante la selección vertical:
I. Eliminación de atributos vacíos.- Se eliminan aquellos atributos cuya
proporción de valores nulos es tan alta que no se puede arreglar la
columna.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
35
II. Eliminación de claves primarias.- Por regla general, se eliminan aquellos
atributos que son claves primarias, clave candidatas o incluso, parte de la
clave candidata total o parcialmente. Por ejemplo, hay que eliminar
números de documentos de identificación, códigos internos, teléfonos,
etcétera [23].
III. Eliminación de atributos dependientes.- se eliminan aquellos atributos que
presentan información redundante o aquellos que tienen dependencia
funcional.
IV. Eliminación de atributos con valores nulos.- Si el atributo posee el mismo
valor para todas sus instancias, se elimina.
V. Eliminación de atributos que no son de interés.- Por último, se eliminan
aquellos atributos que, aunque no hayan clasificado en los puntos
anteriores, no aportan información de interés que contribuya para alcanzar
el objetivo de Minería de Datos planteado.
b) Selección horizontal.
Se refiere a la selección de aquellos registros que representan información de
interés para los objetivos de Minería de Datos que se está desarrollando [34]. Las
acciones que se ejecutan durante la selección horizontal son las siguientes:
I. Eliminación de registros con valores fuera de rango.- Se eliminan los
registros cuyos valores se encuentran fuera del rango (o clasificación) de
elementos que se estudian, por ejemplo, si se estudian los elementos de
una población cuyas edades van de los 30 a los 50 años, los elementos
adicionales que no cumplen con esta condición se eliminan.
II. Eliminar registros que no son de interés.- Se eliminan aquellos registros que
no aportan información de interés que contribuya a alcanzar el objetivo de
Minería de Datos planteado, por ejemplo, si adicionalmente se desea que
los elementos que se estudian sean del género masculino, todos los que no
son de este género deben ser eliminados.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
36
3.2.2.2 Preparación de Datos Específica (PDE).
La Preparación de Datos Específica, agrupa un conjunto de tareas que guardan
una estrecha relación con el objetivo de Minería de Datos que se desea alcanzar.
En la Preparación de Datos Específica se desarrollan tareas que están
enfocadas a alcanzar un objetivo de Minería de Datos en particular, estas tareas
varían significativamente de un proyecto de Minería de Datos a otro. En este nivel
hemos incluido las tareas que tienen que ver con el formateo, la construcción y la
integración de los datos.
3.2.2.2.1 Formateo de datos.
Se refiere principalmente a modificaciones sintácticas (hechas a los datos) que no
cambian su significado, pero pueden ser requeridas por las herramientas de
modelado.
a) Formateo de archivo.
Las modificaciones al formato del archivo tienen que ver directamente con la
extensión que éste tiene. Es decir, algunas herramientas requieren que el archivo
de entrada tenga una extensión específica (ej. Weka utiliza la extensión .arff,
Attribute-Relation File Format), por lo cual es necesario pasar los datos de una
base de datos a un archivo de formato específico o viceversa si las herramientas
que utilizamos así lo requieren.
b) Formateo de atributos.
El formateo de atributos implica realizar varias de las modificaciones que se listan
a continuación:
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
37
I. Modificar el tipo de dato de un atributo.- En ocasiones es necesario realizar
modificaciones al tipo de dato de cada atributo, especialmente si el tipo de
dato no está acorde a los valores que maneja la columna, por ejemplo,
podríamos encontrar una columna cuyos valores son numéricos, pero el
tipo de dato del atributo es cadena de caracteres, si requerimos realizar
operaciones con estos valores, es necesario cambiar el tipo de dato del
atributo.
II. Ordenar los atributos.- Algunas herramientas tienen requerimientos en
relación al orden de los atributos, por ejemplo, que el primer campo sea un
identificador único para cada registro [7].
III. Modificaciones adicionales.- Existen modificaciones puramente sintácticas
hechas para satisfacer los requerimientos de una herramienta de modelado
en específico [7], por ejemplo, remover comas de un campo de texto en un
archivo de datos delimitado por coma, recortar todos los valores a un
máximo de 32 caracteres, etcétera.
3.2.2.2.2 Construcción de datos.
Incluye operaciones constructivas de Preparación de Datos tales como la
generación de atributos derivados y transformación de valores para atributos
existentes [7].
La construcción de datos engloba cualquier proceso que modifique la forma
de los datos. Prácticamente todos los procesos de Preparación de Datos entrañan
algún tipo de transformación de los datos [23].
La construcción de datos se refiere a derivar atributos que no existen en el
conjunto de datos original, desde otros existentes; por ejemplo, el cálculo de la
edad a partir de la fecha de nacimiento. Durante esta tarea se deben realizar las
acciones que se describen a continuación:
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
38
a) Verificación del conjunto de datos.
Se realiza una revisión del conjunto de datos con la finalidad de detectar la
ausencia de valores o atributos que son necesarios para alcanzar los objetivos del
proyecto de Minería de Datos, pero que no se encuentran entre los atributos del
conjunto original.
b) Identificación de atributos para calcular los atributos faltantes.
Se identifican aquellos atributos con los que es posible calcular los atributos
faltantes. En [23] se menciona que, en algunos casos, es necesario el uso de uno
o más atributos para producir un único atributo derivado.
c) Obtención de los atributos faltantes.
Se realizan las operaciones necesarias con la finalidad de estimar los valores
faltantes, estas operaciones pueden ser de tipo aritmético para los atributos
numéricos u operaciones como la concatenación en el caso de atributos de tipo
cadena o carácter.
En [23] se mencionan algunas de las operaciones que transforman
atributos, algunas de ellas transforman un conjunto de atributos en otros, o bien
derivan nuevos atributos o cambian el tipo (mediante numerización o
discretización) o el rango (mediante escalado).
La creación o agregación de características consiste en crear nuevos
atributos para mejorar la calidad, visualización o comprensibilidad del
conocimiento extraído; la mayoría o todos los atributos originales se preservan. La
importancia de añadir atributos se demuestra cuando existen patrones complejos
en los datos que no pueden ser adquiridos por el método de Minería de Datos
utilizado [23].
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
39
3.2.2.2.3 Integración de datos.
La integración de datos se refiere a la utilización de métodos a través de los
cuales la información se combina desde múltiples tablas o registros para crear
nuevos registros, tablas o, incluso, bases de datos [7].
Según [23], uno de los objetivos de la integración de datos es entender el
potencial de los datos. Existen proyectos encaminados a entender qué existe en
los datos, qué tan confiables son esos datos y qué datos adicionales son
necesarios para responder preguntas complejas; ejemplo, los proyectos
relacionados con la epidemiología donde se analiza cómo afectan las
enfermedades a ciertos sectores de la población.
En [25] se menciona que una integración de datos cuidadosa puede ayudar
a reducir y evitar redundancias e inconsistencias en el conjunto de datos final.
Esto ayuda a mejorar la velocidad y exactitud de los procesos de Minería de Datos
subsecuentes.
a) Análisis de las fuentes de datos.
Es necesario analizar las diversas fuentes de datos que se desean integrar con el
objetivo de entender sus elementos. Este análisis nos dará un panorama de las
posibles maneras en las que los datos se pueden integrar. Adicionalmente, el
análisis de las fuentes de datos nos dará una perspectiva de los posibles conflictos
que podríamos enfrentar al momento de integrar los datos.
El análisis de la estructura de las fuentes de datos originales tiene el
objetivo de identificar qué atributos nos permitirán establecer una relación entre
éstas. En [25] se menciona “cuando se hacen coincidir atributos de una base de
datos con los de otra durante la integración, es necesario poner atención especial
en la estructura de los datos”.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
40
b) Detección de conflictos.
Existen algunos problemas en los datos que pueden verse agravados por el
proceso de integración de distintas fuentes, especialmente si este proceso no es
cuidadoso. En [40], [41] y [42] se mencionan algunos de estos conflictos presentes
al momento de integrar datos, las acciones a seguir son:
I. Detectar diferencias de nombre (o conflictos de nombre).- Se refiere a
términos léxicos distintos denotando los mismos objetos semánticos, por
ejemplo “costo” y “precio”. Otras diferencias se caracterizan por la
disparidad de símbolos utilizados para denotar sinónimos, por ejemplo “NC”
y “NO_Control”. Los conflictos de nombres pueden estar presentes tanto en
tablas, como en atributos.
II. Detectar diferencias estructurales (o conflictos estructurales).- Una de las
razones por las que los esquemas resultan con estructuras diferentes, tiene
que ver con el nivel de detalle requerido por quien diseña el esquema, es
decir, desde dos perspectivas diferentes, un concepto puede ser modelado
como una entidad o simple y sencillamente como un atributo. También,
existen diferencias estructurales que tienen que ver con la buena o mala
normalización de las tablas, atributos que no son atómicos, dos entidades
que han sido resumidas en una misma tabla, etcétera. En [23] se muestra
como ejemplo el proceso de descomposición de claves, el cual se refiere a
claves internas de sistemas mal diseñados que puede entrañar información
no normalizada y es preciso detectar durante el proceso de integración.
III. Detectar diferencias de contenido.- Ocurren cuando los datos
representados en una base de datos no son directamente representados en
otra. Estos datos pueden ser implícitos (son constantes que son asumidas
“por defecto” en un contexto local, pero no global), derivables (atributos que
se pueden obtener por medio de otros atributos) o simplemente perdidos
(cuando no pueden ser asumidas por defecto o derivadas desde otros
atributos).
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
41
En [25] se mencionan varios de estos conflictos y se proponen algunas
alternativas para solucionarlos.
c) Corrección de conflictos.
La corrección de los conflictos detectados puede ser muy simple en algunos
casos, pero a la vez, muy compleja o imposible en otros. Las acciones son:
I. Corregir diferencias de nombre (o conflictos de nombre).- La corrección de
las diferencias de nombres se realiza homogeneizando los términos
utilizados para referirnos a las tablas y atributos que manejan datos
equivalentes.
II. Corregir diferencias estructurales (o conflictos estructurales).- Las
diferencias estructurales son un poco más complejas de resolver. En
algunos casos esto significa agregar o eliminar atributos, hasta conseguir
homogeneizar los datos, si el nivel de detalle es diferente. Otras acciones
consisten en atomizar los atributos o descomponer las tablas de forma
vertical u horizontalmente para separar los conceptos que se encuentran
unidos.
III. Corregir diferencias de contenido.- La corrección varía dependiendo del
caso observado, por ejemplo, cuando los valores son constantes asumidas
“por defecto” basta con conocer el valor default del contexto local. Por otro
lado, si los valores pueden ser derivados desde otros atributos, se deben
realizar las operaciones necesarias para obtener estos valores. Por último,
si hablamos de valores perdidos se deben analizar las opciones, de manera
que el objetivo que se persigue no se vea afectado por la ausencia de
valores que son requeridos para alcanzarlo.
En [23] se menciona que “la integración produce disparidad de formatos, nombres,
rangos, etcétera; que podría no existir, o en menor medida, en las fuentes
originales. Esto dificulta en gran medida los procesos de análisis y extracción de
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
42
conocimiento”. También se propone una serie de consejos para la integración de
los datos de manera que éstos, sean lo más apropiados para la minería.
d) Integración de las fuentes de datos.
La heterogeneidad semántica y de estructura de los datos supone grandes retos
en la integración de los datos [25], teniendo homogeneizadas las fuentes de datos,
la integración de éstas puede resultar simple. Los datos pueden quedar integrados
en una tabla, base de datos o incluso una forma más compleja como un Almacén
de Datos, esto depende de las necesidades del proyecto de Minería de Datos que
se está realizando. La integración de los datos requiere:
I. Diseñar el esquema de integración.- Se debe modelar el esquema en el
cual se integrarán los datos, es necesario plasmar la estructura que
deseamos obtener, definir sus elementos y cómo se relacionan unos con
otros.
II. Implementar el esquema.- Una vez definido el esquema, su
implementación puede requerir de herramientas que, mediante el uso de
sentencias y comandos, nos permita generar la estructura que hemos
definido.
III. Poblado del esquema.- Por último, se deben cargar los datos que han sido
preparados desde las diversas fuentes que se desean integrar.
3.2.3 Niveles de adaptabilidad.
En esta sección se plantean dos casos de adaptabilidad con el fin de analizar, de
manera exploratoria dicha característica y, basados en la metodología descrita en
la sección 3.2.2, ubicar ambos casos dentro del proceso de Preparación de Datos.
En muchos dominios, los problemas cambian constantemente, no son
estacionarios; es ahí donde la computación adaptativa es de utilidad. Es
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
43
importante que los procesos, en especial si están automatizados, sean flexibles y
tengan la capacidad de soportar variaciones ocurridas en los valores o su tipo.
En un sentido más informático, la adaptabilidad es la habilidad de un
sistema para cambiar su comportamiento en presencia de una perturbación [43].
Los sistemas adaptables dan la posibilidad al usuario de cambiar ciertos
parámetros del sistema con el fin de personalizar y adaptar su comportamiento.
Los beneficios de estas aplicaciones se ven reflejados al conseguir mejoras
en el tiempo de respuesta o rendimiento, reduciendo el trabajo que el usuario debe
realizar, siendo más consistente, flexible en su comportamiento y requiriendo
menos tiempo en el entrenamiento del usuario con el sistema [44]. Desde el
enfoque de esta investigación, la adaptabilidad será vista de manera exploratoria y
estará basada en dos niveles en particular:
a) Cambios en el valor de las variables.
b) Cambios en el tipo de dato de los valores
3.2.3.1 Cambios en el valor de las variables.
En este nivel hay que analizar variaciones en los valores de los datos, dos fueron
las variables de interés que se analizaron: AÑO y CAUSA; sus valores fueron el
factor de cambio considerado.
Tabla 1. Variables como factor de cambio.
AÑO CAUSA
2000 2049 causas de
muerte 2010
En la Tabla 1 se muestran las dos variables que serán utilizadas para
probar la adaptabilidad como factor de cambio en los valores de las variables:
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
44
Para la variable AÑO.- Probar que el proceso de Preparación de Datos se
adapta para realizar la preparación de los datos de mortalidad de los
censos oficiales del año 2000 y 2010.
Para la variable CAUSA.- Probar que el proceso de Preparación de Datos
se adapta para una familia de neoplasias (causas de cáncer: C16, C34) y,
posteriormente, analizar otras causas de muerte (diabetes: E11 y E14).
3.2.3.2 Cambios en el tipo de dato de los valores.
En este nivel hay que analizar variaciones en el tipo de dato de los atributos. En
ocasiones, el tipo de dato de los atributos contenidos en una base de datos puede
sufrir modificaciones, esto puede producirse por alguna variación sintáctica en los
valores o formato de almacenamiento de alguna variable.
En este sentido, hay que probar que el proceso de Preparación de Datos
puede adaptarse a los cambios ocurridos en el tipo de dato de un atributo.
Tabla 2. Tipo de dato como factor de cambio.
CAUSA
TIPO NUMERICO TIPO CADENA
34 C34
La Tabla 2 se muestra la variación en el tipo de dato del atributo CAUSA.
Para una familia de casos, podemos referenciar una causa de muerte como C34
(cadena de caracteres) o simplemente como 34 (numérico).
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
45
3.3 SEMI-AUTOMATIZACIÓN DEL PROCESO DE PREPARACIÓN DE DATOS.
La automatización es el proceso de seguir una secuencia predeterminada de
operaciones con muy poca o nula labor humana, usando equipos y dispositivos
especializados [45]. En informática, los programas son los encargados de
automatizar las operaciones que se llevan a cabo.
Podemos decir que la automatización es un buen medio para controlar la
evolución del software, ayuda a aplicar buenas prácticas, a evaluar
sistemáticamente la calidad [46]. Sin embargo, a pesar de los importantes avances
de la ingeniería de software, existen muchas tareas cuya automatización sigue
resultando difícil debido a la naturaleza de éstas.
En este sentido, las tareas de la fase de Preparación de Datos representan
un reto difícil de automatización ya que, en algunas tareas, el número de
decisiones que el experto en minería debe tomar para solucionar un problema en
los datos, resulta una cuestión no trivial. En general, el proceso de Minería de
Datos puede ser automático o (más usual) semi-automático [47].
Retomando la idea anterior, hablamos de un proceso semi-automatizado
cuando no se ha conseguido la automatización del proceso en su totalidad. En la
siguiente sección, se muestra la arquitectura de un sistema de Preparación de
Datos que incluye todas las sub-fases de Preparación de Datos.
3.3.1 Arquitectura del sistema de Preparación de Datos.
La arquitectura está basada principalmente en paquetes que implementan los
diferentes procesos identificados. A continuación se describen, de manera
general, algunos de los diagramas de paquetes pertenecientes a dicha
arquitectura:
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
46
class generalMod
DLimpieza DSelección
PDG
<<use>>
class specificMod
DConstrucción DIntegración DFormateo
PDE
<<use>>
Dentro de cada paquete se encuentran agrupadas las clases que
corresponden a las tareas realizadas en cada una de las sub-fases de preparación
que CRISP-DM propone.
Figura 6. Paquete de Preparación de Datos General.
La Figura 6 nos muestra la estructura generada para el conjunto de tareas
definido como Preparación de Datos General (PDG), el cual incluye los paquetes
para limpieza y selección de datos.
Figura 7. Paquete de Preparación de Datos Específica.
La Figura 7 nos muestra la estructura generada para el conjunto de tareas
definido como Preparación de Datos Específica (PDE), el cual incluye los
paquetes para formateo, construcción e integración de datos.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
47
La descripción de los paquetes y las clases que integran cada paquete se
ha incluido en el Anexo C.
3.3.2 Implementación del prototipo de Preparación de Datos.
La implementación del prototipo combina tres potentes tecnologías: Java, XML y
SQL. Las tareas seleccionadas para automatizarse fueron codificadas utilizando el
lenguaje de programación Java. XML fue utilizado con el propósito de describir las
tareas de Preparación de Datos y, principalmente, el orden en el que éstas se
ejecutan. Por último, se requirió MySQL como herramienta de manipulación y
acceso a los datos.
3.3.2.1 Selección de tareas automatizables.
Las tareas automatizadas corresponden a tareas del conjunto denominado
Preparación de Datos Específica, las tareas seleccionadas son:
Del paquete de Construcción de datos:
1. Cálculo de la incidencia de mortalidad.
2. Cálculo de la tasa de mortalidad.
3. Cálculo de la tasa de mortalidad normalizada.
Del paquete de Integración de datos:
1. Construcción del dataset final.
Éstas son las tareas que representan el mayor esfuerzo dentro del proceso
de Preparación de Datos que se realizó para este dominio en particular, de todo el
proceso, son las tareas que se repiten con mayor frecuencia, lo cual supone
realizar los cálculos para cada CAUSA de mortalidad, por cada AÑO que se desea
analizar.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
48
Figura 8. Cambios en los valores de entrada.
La Figura 8 representa que al realizar un cambio en los valores de las
variables CAUSA y AÑO, éste repercute en los resultados de ejecución ya que al
variar estos valores, los resultados de incidencia y tasa de mortalidad son
diferentes, por lo tanto el conjunto de datos generado y el modelo desplegado,
serán diferentes.
3.3.2.2 Descripción de las tareas de preparación con XML.
En [48] se propone el esquema de metadatos, mostrado en la Figura 9, utilizado
para describir cómo proceder con la ejecución de las tareas durante el proceso de
Preparación de Datos.
El esquema permite describir el orden en el que las tareas de preparación
de datos se van ejecutando, esta descripción se realiza con el fin de automatizar la
fase de Preparación de Datos y así, conseguir reducir el tiempo invertido durante
esta fase.
El esquema categoriza la información que se necesita para describir las
tareas de Preparación de Datos con el objetivo de clasificar los requerimientos y, a
su vez, documentar dicha tarea.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
49
Figura 9. Esquema de descripción de tareas de Preparación de Datos.
El esquema de metadatos de la Figura 9 permite definir una tarea (o
conjunto de tareas) a través del MetadataSet, y a su vez, por medio del
MetadataItem las acciones relacionadas durante dicha tarea. También, permite
especificar el orden de ejecución utilizando el MetadataFlow.
El Anexo B muestra un ejemplo de la descripción de tareas de preparación
de datos que se puede realizar siguiendo el esquema de metadatos de la Figura 9.
El esquema tiene la capacidad de describir tareas simples como el cálculo
de la incidencia de mortalidad, mostrada en el Anexo C, o tan complejas como la
tarea de integrar los datos desde distintas fuentes en un almacén de datos. Los
nombres de los metadatos son asignados de acuerdo a la acción que describen,
así que el número de éstos dependerá de las acciones que se describirán.
Capítulo 3 METODOLOGÍA PROPUESTA PARA LA PREPARACIÓN DE DATOS
50
3.3.2.3 Manipulación y acceso a los datos.
Por último, se utilizó la herramienta MySQL para la implementación del Almacén
de Datos de modelo multidimensional ROLAP (Relational OLAP). MySQL es un
sistema de administración de bases de datos (Database Management System,
DBMS) para bases de datos relacionales.
MySQL ofrece la capacidad para manejar los almacenes de datos más
comunes [49]:
Data marts.
Almacenes de datos tradicionales.
Grandes almacenes de datos históricos/archivo.
Almacenes de datos de tiempo real.
Con respecto a esto último, MySQL nos ofrece las ventajas necesarias para
la implementación del Almacén de Datos y permite una manipulación sencilla de
los datos, además facilita el acceso a éstos.
51
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y
RESULTADOS.
Este Capítulo contiene tres secciones: 4.1 Plan de pruebas, 4.2 Experimentación y
4.3 Análisis de los resultados.
La Sección 4.1 describe el plan de pruebas utilizado para validar la
metodología propuesta.
La Sección 4.2 describe la experimentación realizada, describe las acciones
realizadas durante las fases de Entendimiento del dominio (4.2.1), Recopilación y
entendimiento de los datos (4.2.2) y Preparación de datos (4.2.3). Por último, se
describe la Preparación de datos realizada de manera automatizada (4.24).
La Sección 4.3, presenta el análisis de los resultados obtenidos, presenta
una comparativa de los resultados obtenidos en esta investigación, contra los
resultados obtenidos en investigaciones previas (4.3.1). Muestra los resultados del
análisis realizado para otras causas de mortalidad (4.3.2) y finaliza con una
comparativa entre el tiempo requerido para realizar, de manera manual y
automatizada, las tareas de cálculo de la incidencia de mortalidad y cálculo de la
tasa de mortalidad.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
52
4.1 PLAN DE PRUEBAS.
A continuación se describe el plan de pruebas seguido para la metodología de
Preparación de Datos que se propone.
4.1.1 Objetivos.
1. Aplicar la metodología propuesta para preparar los datos poblacionales y
espaciales del año 2000 y 2010; y así, verificar que la sistematización del
proceso sea adecuada.
2. Comparar el tiempo ocupado al preparar los datos de manera manual
contra el tiempo ocupado para la preparación que se hizo automáticamente.
3. Comprobar la capacidad de adaptabilidad, de la metodología y el prototipo
de Preparación de Datos, a los cambios realizados en las variables AÑO y
CAUSA.
4.1.2 Ambiente de las pruebas.
Las pruebas se realizaron en un equipo portátil con las siguientes características
en el hardware:
Procesador AMD E-450 a 1.65 GHz.
Memoria RAM de 2 GB.
Las características del software:
Sistema operativo Windows 7 Ultimate.
MySQL versión 5.5.
Microsoft Excel 2007.
Prototipo de Preparación de Datos.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
53
Los datos utilizados son:
Base de datos espaciales: posición geográfica de los municipios de México.
Bases de datos poblacionales: mortalidad por diversas causas, población
total por municipio en México y el catálogo internacional de enfermedades.
4.1.3 Descripción de los casos de prueba.
Para validad la metodología propuesta se utilizaron los datos de los censos
oficiales del año 2000 y 2010, en ambos casos de prueba, la adaptabilidad está
dada en relación al cambio en el valor de las variables CAUSA y AÑO de
mortalidad.
A continuación se describen los dos casos de prueba sobre los cuales se
aplicó la metodología de Preparación de Datos y el prototipo de Preparación de
Datos descritos en las secciones 3.2 y 3.3 respectivamente. Estos son:
Preparación de datos manual (4.1.3.1) y Preparación de datos automatizada
(4.1.3.2):
4.1.3.1 Preparación de los datos de los censos del año 2000 y 2010 de
manera manual.
Este caso de prueba consistió en realizar de manera manual el proceso de
Preparación de Datos, se utilizaron los datos de los años 2000 y 2010. La
Preparación de Datos se realizó con ayuda del paquete Microsoft Excel con el fin
de facilitar la manipulación de los datos y de que el proceso fuese lo más manual
posible.
El proceso de Preparación de Datos se repitió completamente de manera
manual, se generaron los conjuntos de datos (dataset) para diferentes causas de
mortalidad, entre ellas, mortalidad por cáncer de estómago (C16) y cáncer de
pulmón (C34), las cuales habían sido analizadas en los trabajos de [34] y [35]; con
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
54
el objetivo de comparar los resultados actuales, con los obtenidos previamente y
así, obtener la certeza de la fiabilidad de estos resultados.
Adicionalmente, se generaron los conjuntos de datos para analizar las
causas de mortalidad por diabetes mellitus no insulinodependiente (E11) y
diabetes mellitus no especificada (E14).
Para cada tarea realizada, se registró el tiempo que llevó su ejecución con
el propósito de comprobar la reducción del tiempo al utilizar el prototipo de
preparación.
4.1.3.2 Preparación de los datos de los censos del año 2000 y 2010 de
manera automática
Este caso de prueba consistió en repetir el proceso de Preparación de Datos de
manera automática utilizando los datos de los años 2000 y 2010, pero, a diferencia
del proceso manual, únicamente se ejecutaron las tareas automatizadas por el
prototipo descrito en la Sección 3.3. Éstas son:
Cálculo de la incidencia de mortalidad.
Cálculo de la tasa de mortalidad.
Cálculo de la tasa de mortalidad normalizada.
Construcción del conjunto de datos final (dataset).
Este proceso se realizó para las mismas causas de mortalidad que se
utilizaron en el caso de prueba manual, éstas son: C16, C34, E11 y E14;
relacionadas a mortalidad por cáncer y diabetes mellitus.
4.2 EXPERIMENTACIÓN.
Como se ha descrito en las secciones previas, la experimentación consistió
en realizar el proceso de Preparación de Datos para las bases de datos espaciales
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
55
y poblacionales de los años 2000 y 2010; el proceso se realizó de manera manual
y automática para dichos datos. Diversas causas de mortalidad, relacionadas a
mortalidad por cáncer y diabetes mellitus, sirvieron como casos de prueba
específicos.
Aun cuando la investigación está enfocada a analizar el proceso de la fase
de Preparación de Datos, fue necesario recurrir a otras fases del proceso de
minería, esto se debe a la dependencia que la fase de preparación tiene con las
fases previas y la necesidad (posterior) de conseguir el objetivo de desplegar y
visualizar modelos que sirvan como apoyo para la toma de decisiones.
En las secciones siguientes se describe de manera breve el proceso de
minería, las acciones realizadas durante otras fases y, con mayor amplitud, el
proceso realizado durante la fase de Preparación de Datos.
4.2.1 Entendimiento del dominio.
Es la primera fase del proceso de Minería de Datos, está enfocada a familiarizarse
con el dominio al que pertenece la aplicación de Minería de Datos que se
desarrollará.
Se revisaron algunas fuentes con el fin de recabar información relacionada
a los problemas de salud en el dominio epidemiológico, por ejemplo:
1) el INSP (Instituto Nacional de Salud Pública, [50]),
2) el INCan (Instituto Nacional de Cancerología, [51])
3) y la SS (Secretaría de Salud, [52]), por mencionar algunos.
Las actividades se realizaron con la finalidad de conocer los problemas
existentes en el dominio y cuáles se encuentran directamente relacionados con los
datos e información que está disponible. Se realizó una búsqueda y recopilación
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
56
de información (artículos, libros, revistas, etcétera) relacionada al dominio que
sirvió como apoyo para entender de manera clara los datos con los que se cuenta.
En esta fase, también, se planteó el objetivo que se pretenden alcanzar con
el proyecto de Minería de Datos, se evaluaron las condiciones del proyecto y las
metas o criterios de éxito del proyecto.
En este caso, el objetivo de Minería de Datos es “identificar regiones o
grupos de municipios con alta incidencia de mortalidad por diversas causas de
mortalidad en México”.
4.2.2 Recopilación y entendimiento de los datos.
La recopilación de los datos se hizo desde diversas fuentes, en este caso, los
datos fueron obtenidos desde distintas fuentes oficiales. A continuación se listan
las bases de datos con una breve descripción y el nombre de la fuente de donde
fueron descargadas:
Base de datos de mortalidad: registros de las defunciones por diferentes
causas de muerte ocurridas en los años 2000 y 2010. Fuente: SINAIS
(Sistema Nacional de Información en Salud), disponible en [53].
Base de datos geográfica: registros de la ubicación de los municipios de
México. Fuente: SIMBAD (Sistema Municipal de Base de Datos), disponible
en [54].
Base de datos poblacional: registros de la población total por municipio en
México para los años 2000 y 2010. Fuente: INEGI (Instituto Nacional de
Estadística y Geografía), disponible en [55].
Catálogo Internacional de Enfermedades (CIE-10): clasificación de las
enfermedades, causas externas de daños y circunstancias sociales de
mortalidad; incluye 2049 causas de muerte diferentes. Fuente: CEMECE
(Centro Colaborador para la Familia de Clasificadores Internacionales de la
OMS en México), disponible en [56].
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
57
Tabla 3. Características de las bases de datos utilizadas.
Base de datos Número de
atributos
Número de
registros
Formato de
archivo
Geográfica 11 2475 XLS
Mortalidad 2000 38 437,667
DBF 2010 40 592,018
Poblacional 2000
3 2475 XLS 2010
Catálogo de
enfermedades 24 14,259 XLS
La Tabla 3 nos muestra las características más importantes de las bases de
datos, éstas tienen que ver con el tamaño y volumen de datos que se manejan, así
como el formato de archivo que hay que manipular para cada una de las bases de
datos.
Posterior al acopio de los datos, éstos fueron analizados con el fin de
entender su estructura, significado, tipos de datos, valores, rangos, etcétera. En
[34] se menciona que el entendimiento de los datos está guiado por el interés y las
necesidades establecidas en el entendimiento del dominio, esto, con el fin de
saber qué datos son de interés y qué tareas son útiles para su preparación.
Los datos extraídos desde las fuentes anteriormente mencionadas,
contienen un archivo de descripción. Este archivo describe cada uno de los
atributos presentes, así como los valores y rangos relacionados a cada atributo.
Por ejemplo:
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
58
Tabla 4. Descripción de los atributos proporcionada por INEGI.
Atributo Tipo Etiqueta Valores
MPORES Numérico Municipio de
residencia
1 … 570
(según la entidad)
La Tabla 4 muestra un ejemplo de la descripción de los atributos
proporcionada para la base de datos de mortalidad. Los archivos de descripción
contienen una definición similar para cada atributo contenido en las bases de
datos utilizadas.
Por último, cabe resaltar que el entendimiento de los datos es importante ya
que nos permite identificar cuáles son los datos que nos servirán para alcanzar el
objetivo de Minería de Datos que se haya planteado.
4.2.3 Preparación de Datos manual.
El proceso de Preparación de Datos se realizó de manera manual, utilizando el
paquete Excel, para abrir y manipular los archivos de datos espaciales y
poblacionales, de los años 2000 y 2010, siguiendo la metodología que se
desarrolló en esta investigación.
Para los datos de población y el CIE-10, el proceso de preparar los datos
requirió de la ejecución de un menor número de tareas, para generar las
condiciones que se requerían en los datos.
La preparación de los datos de mortalidad y los datos de población se
realizó dos veces: 1) para los datos del año 2000 y 2) para los datos del año 2010,
esto se debe a que los datos, para cada año, se encontraban en archivos
separados, con la información respectiva para cada año. El número de
defunciones y el número de habitantes por municipio en el año 2000 varía
respecto a los del año 2010. Por último, los datos geográficos se prepararon una
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
59
única vez para ambos años, ya que la posición y el número de municipios no
cambiaron.
A continuación se describen las tareas de Preparación de Datos ejecutadas
durante el proceso manual:
4.2.3.1 Preparación de Datos General.
En este nivel de Preparación de Datos se realizaron las tareas de limpieza y
selección de datos. Después de haber analizado los datos, estas tareas resultan
más sencillas, ya que el reconocimiento de los datos nos permite identificar
posibles errores en los datos y, a su vez, identificar cuáles de ellos representan
información de interés para el objetivo de minería que se haya planteado.
4.2.3.1.1 Limpieza de datos.
En esta primera etapa, la limpieza de los datos consistió en detectar, corregir o
eliminar aquellos registros o atributos con valores anómalos. Según [23], las
anomalías en los registros se refieren a registros con valores fuera de contexto, o
que no concuerdan con los valores de los demás registros.
Durante esta fase, es importante resaltar tres acciones:
a) Detectar los errores en los datos (registros o atributos).
b) Corregir los errores identificados en los datos.
c) Eliminar aquellos (registros o atributos) que no se hayan podido corregir.
Al revisar los archivos de datos, fue posible detectar los siguientes errores:
En el caso de la base de datos de mortalidad del año 2000, se registraron
381 registros con errores en los atributos CVE_JUR, FECH_REG, GÉNERO,
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
60
E_LETRA, E_NUM, CAUSA, E_CIVIL, FECH_DE, LUG_DEF, PRES, TRABAJA_
EDAD, VIOLENCIA. El error se produjo por la ausencia de valores en la columna
CVE_JUR, lo cual propició que el resto de los valores de los atributos se
recorrieran y ocuparan los espacios de los valores ausentes. Para corregir este
error, fue necesario desplazar los valores de cada uno de los 381 registros, hacia
a la derecha, y posicionarlos en su columna original. Se corrigieron los 381
registros con errores que habían sido identificados, no fue necesario eliminar
registros después de realizar las acciones de corrección.
En los datos de mortalidad del año 2010, se identificaron 322 registros con
valores no especificados (cero) en el atributo SEXO, pero esto no representa un
obstáculo en el objetivo de minería, ya que las defunciones se contabilizarán
indistintamente del sexo, por lo tanto, no fue necesario eliminar los registros.
Los archivos de datos de población, para ambos años, y el archivo CIE-10
(Catálogo Internacional de Enfermedades) contenían encabezados con una
pequeña descripción, información que no representa datos o valores de los
atributos o registros del archivo, por lo tanto, dichos encabezados fueron
eliminados.
Por último, para los datos geográficos, se encontraron 135 registros cuya
información no estaba completa, los registros correspondían a los estados de
Quintana Roo (8 registros), Campeche (11 registros) y Yucatán con 116 registros
incompletos. Para corregir la ausencia de valores identificada, fue necesario
recurrir a los Anuarios Estadísticos de los Estados (AEE) [57] para obtener la
información faltante en los registros. Se completó la información faltante de los
135 registros, después de completar la información de los registros no se
realizaron eliminaciones.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
61
4.2.3.1.2 Selección de datos.
Durante la fase de selección de datos, las acciones más importantes que se
realizaron son dos:
a) Seleccionar los datos horizontalmente, es decir aquellos registros que son
de interés.
b) Seleccionar los datos verticalmente, es decir, aquellos atributos que
representan información de interés.
Durante la selección horizontal (registros) se realizaron las siguientes acciones:
Originalmente, para los datos de población del año 2000 y 2010 se contaba
con 2475 registros, de éstos se seleccionaron aquellos registros de municipios con
un número de habitantes mayor a 100,000, los registros que no cumplían esta
condición fueron eliminados. Se eliminaron 2307 registros (el 93.22%)
conservando 168 registros para los datos el año 2000. Para los datos del año
2010, se eliminaron 2271 registros (91.76%) conservando 204 registros.
La selección de los registros en el archivo geográfico se hizo tomando como
referencia los municipios con más de 100,000 habitantes identificados para el año
2010, esto significa que se sumaron 34 nuevos en el año 2010, a los 168 que se
identificaron en el año 2000, obteniendo un total de 204 registros.
En el caso de los datos de mortalidad, dos condiciones importantes debían
cumplirse:
Que las defunciones hayan ocurrido durante los años 2000 o 2010.
Que los registros correspondieran a defunciones ocurridas en el territorio
Mexicano.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
62
A través del atributo ANODEF se verificó que los registros cumplieran con la
primer condición, se eliminaron un total de 8,297 registros (el 1.89% del total) que
no correspondían a defunciones ocurridas durante el año 2000 (condición
conocida como sub-registro [58]). En el caso de los datos de mortalidad del año
2010, 12,317 registros (el 2.08% del total) fueron eliminados.
Por último, el atributo ENTRES fue utilizado para verificar la segunda
condición, se eliminaron aquellos registros cuyos valores correspondían a 33, 34 o
35; estos códigos corresponden a defunciones que ocurrieron fuera del territorio
Mexicano, es por ello que esos registros son eliminados.
Del archivo CIE-10, que contiene la clasificación de las enfermedades, de
un total de 14,259 registros, se eliminaron 12,210 (el 85.63%) cuyo valor en el
atributo CAUSA excedía tres caracteres, esto, debido a que el cuarto dígito
representan la causa o ubicación explícita de la enfermedad y, en este caso, sólo
se requiere saber la causa general. El número final de registros fue de 2049.
Después de haber eliminado aquellos registros que no representaban
información de interés, se procedió a realizar la selección vertical (de atributos),
las acciones que se realizaron fueron:
Para el archivo de datos del CIE-10, de un total de 29 atributos, se
identificaron como atributos de interés los atributos CAUSA y NOMBRE, los 27
restantes (el 93.1%) fueron eliminados por no aportar información de interés para
lograr el objetivo de minería planteado.
Para la base de datos de mortalidad, se eliminaron los atributos nulos, es
decir, aquellos que tienen un valor constante en toda la columna, por ejemplo:
E_LETRA, PRES, LUGAR, TRABAJA, NECROP, NACION, CON_EMB y
REL_EMB; esta eliminación representa el 21.05% de un total de 38 atributos en el
año 2000, para el año 2010 representa el 20% de un total de 40 atributos.
También, para ambos años, se identificaron los atributos que tenían dependencia
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
63
con otros atributos, por ejemplo, ENT_RES, MPO_RES y ENT_DEF, MPO_DEF,
éstos últimos se preservaron para su uso posterior en otras operaciones.
También, se eliminaron aquellos atributos que servían como identificadores
o llaves primarias, por ejemplo, el atributo CONTROL, presente en los datos de
mortalidad del año 2000, el número de atributos para el año 2000 se redujo a 29.
Por último, se eliminaron todos aquellos atributos que no representaban
información de interés, éstos son DIA_DEF, MES_DEF, DIA_NAC, MES_NAC y
TLOC; esta eliminación representa el 17.24% de un total de 29 atributos en el año
2000, para el año 2010 representa el 15.62% de un total de 32 atributos.
Por último, para los datos de mortalidad de ambos años, del conjunto
resultante se analizaron y seleccionaron un total de 10 atributos considerados de
interés, entre éstos están ENT_RES, MPO_RES, GÉNERO, CAUSA, E_CIVIL,
ENT_DEF, MUN_DEF, ESCO, OCUPA y EDAD; se conservaron el 41.66% de un
total de 24 atributos en el año 2000, para el año 2010, se conservaron el 37.03%
de un total de 27 atributos.
Para los datos geográficos, de un total de 11 atributos, se eliminaron 3
atributos (el 25.27%) MUNICIPIO, CABECERA y ALTITUD, se preservaron 8
atributos.
4.2.3.2 Preparación de Datos Específica.
En este nivel de Preparación de Datos se realizaron las tareas de formateo,
construcción e integración de datos. Estas tareas representan las operaciones que
están estrechamente ligadas al objetivo de Minería de Datos. Una vez que los
datos se han homogeneizado y se encuentran en condiciones óptimas son
utilizados para realizar cálculos durante éstas tres últimas sub-fases. Las
operaciones incluidas en este nivel, se realizaron sobre los datos de ambos años
2000 y 2010 indistintamente.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
64
4.2.3.2.1 Formateo de datos.
Es necesario homogeneizar el formato de los archivos de datos que se están
utilizando y los tipos de los atributos en cada archivo. En este punto, se realizaron
acciones para modificar el formato de los archivos y corregir errores en los tipos
de datos de los atributos.
Las acciones realizadas para el formateo de atributos fueron:
Se modificaron los tipos de datos de los atributos con el fin de que éstos
correspondieran a la información contenida en la columna. Podríamos mencionar,
por ejemplo: en el caso de los datos de mortalidad, en modificar los tipos de datos
en los atributos GÉNERO, E_CIVIL, ESCOLARIDAD, OCUPACION y EDAD; los
cuales estaban siendo manejados como tipo cadena o carácter, cuando la
información contenida en cada una de esas columnas representa información
numérica, el tipo de datos se convirtió a entero.
Otra modificación consistió en cambiar los nombres de los identificadores
de cada atributo, por otro que fuese más representativo o explicara mejor el
contenido de los datos, por ejemplo, los atributos ESCO y OCUPA; fueron
renombrados como ESCOLARIDAD y OCUPACIÓN respectivamente.
Una modificación más se realizó sobre los datos de mortalidad, ésta fue, la
reducción hecha al número de caracteres que utiliza el atributo CAUSA:
Figura 10. Formato de los valores de una clave de mortalidad.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
65
Este atributo contiene una sucesión de caracteres que representan una
clave, la cual identifica a una enfermedad determinada, la Figura 10 nos muestra
esta sucesión. El cuarto carácter indica la sub-localización de una enfermedad, sin
embargo, este carácter no representa información que sea relevante para el
objetivo de minería, ya que sólo se requiere saber la causa general, más no la
específica. Por lo tanto, una causa de muerte C34x puede ser manejada
simplemente como C34.
Para los datos geográficos, el número de decimales en los atributos
LAT_GRADOS, LAT_MIN, LONG_GRADOS y LONG_MIN; fue modificado, ya que
la herramienta de modelado que se utilizará, requiere una exactitud de catorce
decimales.
Posteriormente, se reordenaron los atributos contenidos en cada archivo de
datos, para el archivo de datos poblacionales el orden de los atributos es CLAVE,
MUNICIPIO y POBLACIÓN; para los datos geográficos CLAVE, LAT_GRADOS,
LAT_MIN, LONG_GRADOS y LONG_MIN. Por último, el orden de los atributos de
mortalidad es ENTRH, MUNRH, GÉNERO, CAUSA, E_CIVIL, ENT_OCU,
MUN_OCU, ESCOLARIDAD, OCUPACIÓN y EDAD.
Todos los archivos fueron convertidos a formato CVS, formato requerido por
el manejador de base de datos para que los datos se puedan cargar en las tablas.
4.2.3.2.2 Construcción de datos.
Durante esta etapa, se realiza una nueva revisión de los datos disponibles, con el
fin de verificar e identificar cuáles son los atributos que servirán para obtener
nuevos atributos necesarios para alcanzar el objetivo de Minería de Datos. Las
operaciones de construcción de datos incluyeron desde simples acciones para
concatenar dos cadenas hasta operaciones más complejas donde se requirieron
varios atributos para realizar cálculos matemáticos.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
66
Las acciones realizadas durante la construcción de datos son:
En el caso de los datos de mortalidad, se realizó la concatenación de los
atributos ENT_RES y MPO_RES para generar el atributo CLAVE. También se
concatenaron los atributos ENT_DEF y MPO_DEF para generar el atributo
LUG_DEFUNCIÓN.
Otras operaciones realizadas sobre los datos de mortalidad incluyeron el
cálculo de la incidencia y tasa de mortalidad. Las operaciones realizadas son:
(2)
La Expresión 2 anterior nos indica que para obtener la incidencia de
mortalidad, es necesario contabilizar el número de defunciones que se
presentaron en cada municipio para año determinado, en este caso 2000 o 2010,
relacionadas a una causa en particular. Como resultado se obtiene el atributo
adicional INCIDENCIA.
Los atributos CLAVE (clave del municipio) y CAUSA (causa de mortalidad)
fueron utilizados para realizar filtros sobre los datos, utilizando Excel, y contabilizar
el número de defunciones que se presentaron por municipio para una causa
determinada.
Para calcular la tasa de mortalidad, las operaciones realizadas son:
(3)
La Expresión 3 describe el cálculo de la tasa de mortalidad, esto requiere
de utilizar el atributo derivado INCIDENCIA y el atributo POBLACIÓN (presente en
los datos poblacionales) referente al número de habitantes en un municipio;
posteriormente calcular la tasa de mortalidad para cada municipio.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
67
Para los datos geográficos, se realizaron operaciones para convertir las
coordenadas de latitud y longitud, originalmente en grados sexagesimales, a
grados decimales:
(4)
La Expresión 4 nos muestra las operaciones requeridas para realizar esta
conversión. Es necesario cambiar el formato de las coordenadas geográficas de
latitud y longitud en grados sexagesimales a grados decimales con el fin de poder
representar estas coordenadas como puntos en el plano (x,y), esta información es
utilizada por los Sistemas de Información Geográfica (SIG) para representar
puntos sobre los mapas.
Por último, se realizó la normalización de los atributos derivados
LAT_DECIMAL y LONG_DECIMAL (presentes en los datos geográficos); y
TASAMORTALIDAD (presente en los datos de mortalidad). Este cálculo, llamado
normalización lineal, permite establecer los valores en un rango definido [59]:
(5)
En la Expresión 5, AV se refiere al valor actual que se desea normalizar,
mV es el valor mínimo presente en el atributo, MV es el valor máximo presente en
el atributo y valorN es el valor normalizado resultante.
Figura 11. Normalización de los atributos.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
68
La Figura 11 esquematiza la operación de normalización. La normalización
es necesaria cuando los valores de un atributo van a ser analizados por un
algoritmo de agrupamiento [23].
Los cálculos de construcción de datos se realizaron para diferentes causas
de mortalidad por ejemplo: C16 y C34 (correspondientes al mortalidad por cáncer);
y, E11 y E14 (correspondientes a mortalidad por diabetes).
Tabla 5. Número de registros y atributos después de la preparación de los datos.
Poblacionales Geográficos Mortalidad CIE-10
Registros
2000 168
204
2000 250,593
2049 2010 204 2010 355,091
Atributos 3 7 8 2
La Tabla 5 nos muestra el número de atributos y registros para cada una de
las fuentes de datos. Después de aplicar la Preparación de Datos General (PDG) y
el formateo y construcción de datos, el número de atributos y registros se redujo
en las fuentes de datos originales.
4.2.3.2.3 Integración de datos.
Se realizó un último análisis de los datos contenidos en las fuentes de datos.
Basados en este análisis, se seleccionó el atributo CLAVE con el fin de establecer
una relación entre los datos geográficos y los poblacionales. Por otro lado, el
atributo CAUSA se utilizó para establecer una relación entre los datos contenidos
en el Catalogo Internacional de Enfermedades (CIE-10) y los datos de mortalidad.
Adicionalmente se detectaron y resolvieron algunos conflictos de
integración, por ejemplo, se cambió el nombre al atributo CLAVECAUSA,
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
69
contenido en los datos del CIE-10, se renombro como CAUSA para que hubiese
concordancia con el atributo, del mismo nombre, de los datos de mortalidad.
Otro conflicto que se presentó al intentar establecer la relación entre los
datos de mortalidad y los del CIE-10, fue un conflicto de contenido, es decir, en los
datos del año 2010 existen registros de defunciones ocurridas por una nueva
enfermedad conocida como AH1N1 o influenza porcina [60], fue necesario buscar
la clave y el nombre para esta causa de mortalidad y añadirla a los registros del
CIE-10 desde una versión más reciente, la 2009.
Una vez resueltos los conflictos de integración, se diseñó un esquema para
integrar los datos, el cual originalmente consistía en un Almacén de Datos tipo
estrella, ya que sólo contenía los datos de mortalidad del año 2000. Fue necesario
cambiar este esquema y rediseñarlo para poder incluir los datos de mortalidad del
año 2010.
Figura 12. Esquema del Almacén de Datos implementado.
El esquema de la Figura 12 conserva similitudes con el esquema propuesto
en [37]. Se manejan tres dimensiones relacionadas a causa de muerte o
defunción (círculo rojo), espacio o lugar de la defunción (circulo azul) y tiempo o
año de la defunción (recuadro verde). En [61] se considera que un país tiene como
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
70
hecho básico, decesos, los cuales pueden tener atributos asociados como el
número de casos, la tasa de mortalidad, etcétera.
La implementación final se describe en el Anexo D, se hizo sobre un
esquema tipo copo de nieve (snowflake) utilizando el manejador MySQL, se
crearon las tablas MORTALIDAD (para los datos de mortalidad), CATALOGO
(para los datos del CIE-10), GEOGRÁFICA (para los datos geográficos) y
POBLACIONAL (para los datos de población).
Adicionalmente se creó una tabla de HECHOS en la cual se almacenan los
datos de los atributos derivados INCIDENCIA y TASAMORTALIDAD, entre otros.
En las tablas MORTALIDAD, POBLACIONAL y HECHOS, se agregó el atributo
AÑO para diferenciar los datos del año 2000, de los del año 2010.
Figura 13. Representación de la integración de los datos.
La Figura 13 representa la integración de los datos. El poblado de las tablas
se realizó utilizando una sentencia de MySQL que permite cargar los datos, desde
archivos CSV a tablas que tienen una estructura idéntica a la del archivo, incluidas
en el Anexo D.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
71
4.2.4 Preparación de Datos automatizada.
El proceso de Preparación de Datos se realizó de manera automática utilizando
los datos de mortalidad y poblacionales para los años 2000 y 2010. Se utilizó un
prototipo de Preparación de Datos que implementa tareas del nivel específico, de
las sub-fases de construcción e integración.
A continuación se describen las tareas de Preparación de Datos ejecutadas
durante el proceso automatizado:
4.2.4.1 Preparación de Datos Específica.
Las tareas automatizadas corresponden a tareas de la sub-fases de construcción
e integración de datos. Estas tareas constituyen las operaciones que representan
el mayor esfuerzo realizado durante el proceso de Preparación de Datos manual,
por otro lado, éstas son las operaciones donde es posible verificar la adaptabilidad
del proceso a cambios en los valores de las variables.
La implementación de las tareas se realizó con el lenguaje Java y se utilizó
SQL como método de acceso a los datos. Estas operaciones se automatizaron y
ejecutaron sobre los datos de los años 2000 y 2010.
4.2.4.1.1 Construcción de datos.
El prototipo implementa tres de las tareas de esta sub-fase. Las tareas
automatizadas son las siguientes:
Cálculo de la incidencia ( ).
Cálculo de la tasa de mortalidad (
).
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
72
Cálculo de la tasa de mortalidad normalizada (
).
Figura 14. Operaciones realizadas por el prototipo de Preparación de Datos.
La Figura 14 representa las operaciones realizadas por el prototipo en la
sub-fase de construcción, para la ejecución de estas tareas únicamente se
requiere como entrada los valores de CAUSA y AÑO de mortalidad.
Figura 15. Ventana principal del prototipo de Preparación de Datos.
La Figura 15 muestra la ventana principal del prototipo de Preparación de
Datos, el cual tiene dos modos de ejecución:
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
73
1. Desde XML.- Abre un cuadro de diálogo para buscar el archivo XML que
contiene la descripción de las tareas de Preparación de Datos (ejemplo:
Anexo B), lee el archivo XML y toma los valores de entrada.
2. Desde ventana.- Visualiza dos recuadros donde es posible introducir los
valores de entrada.
En ambos casos, el prototipo recibe los valores de CAUSA y AÑO,
posteriormente solicita al Almacén de Datos los registros relacionados a los
valores introducidos y realiza las operaciones para calcular los valores de
incidencia, tasa de mortalidad y tasa de mortalidad normalizada de manera
automática. Una vez que obtiene los resultados, éstos se almacenan en la tabla
HECHOS en los atributos: INCIDENCIA, TASAMORTALIDAD Y
TASAMORTALIDADNORMALIZADA.
Figura 16. Resultado de la ejecución del Prototipo de Preparación de Datos.
La Figura 16 muestra un ejemplo de los mensajes desplegados en pantalla
al término de la ejecución de las tareas, el prototipo despliega el tiempo que se
requirió para la ejecución de cada una de las tareas.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
74
La ejecución manual de estas tareas requiere realizar los cálculos uno a
uno para cada municipio con población mayor a 100,000 habitantes, lo cual
representa una tarea laboriosa. En contraste con la ejecución manual de las
tareas, el prototipo ejecuta de principio a fin la secuencia de tareas y realiza los
cálculos con sólo introducir los valores de CAUSA y AÑO de muerte, simplificando
la labor del experto minero.
4.2.4.1.2 Integración de datos.
Por último, el prototipo de Preparación de Datos, también automatiza la creación
del conjunto de datos final (data set). Este conjunto de datos está compuesto
únicamente de cuatro atributos, los cuales se describen a continuación:
Tabla 6. Atributos del conjunto de datos final.
CAUSA LATITUD_NORM LONGITUD_NORM TASAM_NORM
Causa de muerte
que se desea
analizar
Latitud del
municipio al cual
pertenecen las
defunciones
Longitud del
municipio al cual
pertenecen las
defunciones
Tasa de
mortalidad del
municipio
Este conjunto de datos contiene un máximo de 168 registros (cuando es
generado para los datos del 2000) o de 204 (cuando es generado para los datos
del año 2010). La Tabla 6 describe los cuatro atributos que integran el conjunto de
datos final que es utilizado como entrada por el visualizador cartográfico [17].
El conjunto de datos es almacenado en un archivo con extensión .TXT y
sirve como entrada para una herramienta de modelado que genera mapas donde
se visualizan grupos de municipios con alta incidencia de mortalidad para
diferentes causas.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
75
Figura 17. Interacción entre prototipo de Preparación de Datos y el de visualización
cartográfica.
La Figura 17 muestra la interacción que se da a través del conjunto de
datos final que genera como salida del prototipo de Preparación de Datos y, a su
vez, sirve como entrada al prototipo de visualización cartográfica.
4.3 ANÁLISIS DE LOS RESULTADOS.
En las secciones siguientes se describen los resultados obtenidos durante esta
investigación.
4.3.1 Comparativa de los resultados obtenidos contra los obtenidos en
investigaciones previas.
Parte de esta investigación está basada en la experiencia contenida en
investigaciones previas, realizadas dentro del dominio epidemiológico, enfocadas
específicamente a causas de mortalidad por cáncer. Por ejemplo, en los trabajos
[34] y [35] se analizaron causas de mortalidad por cáncer de estómago (C16) y
cáncer de pulmón (C34) respectivamente.
La primera fase de esta investigación consistió en repetir el proceso de
Preparación de Datos que se realizó en estas investigaciones, generar los
conjuntos de datos para cada enfermedad y visualizar los grupos de municipios
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
76
para esas mismas causas de mortalidad. Es importante que los resultados
numéricos obtenidos concuerden para ambos casos.
Los resultados obtenidos para la causa de mortalidad por cáncer de
estómago (C16) fueron comparados con los resultados reportados en [17] y [35].
Se compararon los valores de incidencia y tasa de mortalidad obtenidos para los
grupos de municipios reportados como patrones de interés y los resultados
obtenidos fueron exactos.
Tabla 7. Valores de incidencia y tasa de mortalidad del primer grupo de interés para la causa
C16.
Municipio Incidencia Tasa de mortalidad
Minatitlán 14 9.15
Comalcalco 14 8.5
Tapachula 21 7.73
San Cristóbal de
las casas 9 6.8
Macuspana 9 6.72
Tuxtla Gutiérrez 28 6.45
Para el primero de los grupos, ubicado en la zona sur del país, entre los
estados de Chiapas, Tabasco y Veracruz, los valores obtenidos son los que se
muestran en la Tabla 7.
Tabla 8. Valores de incidencia y tasa de mortalidad del segundo grupo de interés para la
causa C16.
Municipio Incidencia Tasa de mortalidad
Guaymas 15 11.52
Hermosillo 48 7.87
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
77
La Paz 14 7.11
Los Cabos 7 6.64
El segundo grupo, está ubicado en la zona norte del país, entre los estados
de Sonora y Baja California Sur, los valores obtenidos se muestran en la Tabla 8.
Respecto a los resultados obtenidos para la causa de mortalidad por cáncer
de pulmón (C34), los valores fueron comparados con los obtenidos en [35]. Los
valores de incidencia y tasa de mortalidad reportados son:
Tabla 9. Valores de incidencia y tasa de mortalidad del primer grupo de interés para la causa
C34.
Municipio Incidencia Tasa de mortalidad
Río Bravo 14 13.43
Matamoros 54 12.91
Torreón 65 12.27
Monterrey 113 11.97
Piedras negras 15 11.7
San Nicolás de los
Garza 53 10.67
Reynosa 42 9.98
Gómez Palacio 27 9.88
Santa Catarina 21 9.25
Para el primero de estos grupos, ubicado en la zona norte entre los estados
de Coahuila, Nuevo León y Tamaulipas, los municipios y valores obtenidos son los
que se muestran en la Tabla 9.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
78
Tabla 10. Valores de incidencia y tasa de mortalidad para el segundo grupo de interés para
la causa C34.
Municipio Incidencia Tasa de mortalidad
Cájeme 67 18.8
Hermosillo 104 17.05
Hidalgo del parral 16 15.86
Culiacán 113 15.15
Navojoa 21 14.93
Ahome 52 14.47
Guasave 39 14.05
Delicias 16 13.74
La Paz 27 13.71
Mazatlán 51 13.4
Guaymas 17 13.04
Cuauhtémoc 14 11.25
Chihuahua 75 11.16
Para el segundo de los grupos, ubicado en la zona Noroeste entre los
estados de Sinaloa, Chihuahua, Sonora y Baja California Sur, los resultados
obtenidos son mostrados en la Tabla 10.
Adicionalmente, los resultados obtenidos para cada uno de los 168
municipios registrados con número de habitantes mayor a 100,000 en el año 2000,
fueron comparados.
Como método de comprobación, era de importancia que los resultados
obtenidos por el prototipo de Preparación de Datos coincidieran con los valores
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
79
reportados previamente, en especial para los grupos reportados como patrones de
interés, ya que los resultados previos fueron validados por expertos en el área de
epidemiología.
Figura 18. Grupos de municipios para la causa de mortalidad C34.
La Figura 18 muestra los grupos de municipios identificados como patrones
de interés, estos grupos fueron reportados en [35] para la causa de mortalidad
C34 (o cáncer de pulmón).
4.3.2 Otras causas analizadas.
La integración del Almacén de Datos también nos permitió observar el número de
defunciones ocurridas por otras causas de muerte, en los años 2000 y 2010. Las
tres primeras causas de muerte, en ambos años, están relacionados a: infarto
agudo de miocardio, diabetes mellitus no especificada y diabetes mellitus no
insulinodependiente. Actualmente, la diabetes representa un problema de salud
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
80
importante, existen estudios que lo demuestran [62] y [63], por esta razón, estas
causas también fueron analizadas.
Se realizó la preparación de los datos de las causas de mortalidad
relacionadas a diabetes. Estas causas son la E11 (diabetes mellitus no
insulinodependiente) y E14 (diabetes mellitus no especificada).
Para la causa de mortalidad E11, se graficaron los mapas con los datos
obtenidos para las tasas de mortalidad de los años 2000 y 2010, adicionalmente,
se identificaron los diez municipios con las mayores tasas de mortalidad.
Tabla 11. Mayores tasas de mortalidad para la causa E11, año 2000.
Municipio Incidencia Tasa de mortalidad
Venustiano
Carranza 247 57.31
Orizaba 66 55.7
Iztacalco 177 46.05
Cuauhtémoc 236 45.71
Azcapotzalco 164 39.55
Piedras negras 49 38.24
Miguel Hidalgo 134 38
Gustavo A.
Madero 449 37.87
Nezahualcóyotl 417 37.55
Benito Juárez 128 35.51
La Tabla 11 muestra los municipios con las mayores tasas de mortalidad
para la causa de mortalidad E11 en el año 2000.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
81
Figura 19. Grupos de municipios para la causa de mortalidad E11, año 2000.
La Figura 19 muestra los grupos generados por el visualizador cartográfico
para los datos de mortalidad del año 2000 para la causa E11.
Tabla 12. Mayores tasas de mortalidad para la causa E11, año 2010.
Municipio Incidencia Tasa de mortalidad
Iztacalco 350 91.07
Cuauhtémoc 465 90.07
Poza Rica 136 88.98
Orizaba 105 88.54
Gustavo A.
Madero 1028 86.7
Venustiano
Carranza 373 86.55
Apatzingan 102 86.45
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
82
San Martín
Texmelucan 104 85.9
Azcapotzalco 355 85.6
Macuspana 114 85.08
La Tabla 12 muestra los municipios con las mayores tasas de mortalidad
para la causa E11 en el año 2010.
Figura 20. Grupos de municipios para la causa de mortalidad E11, año 2010.
La Figura 20 muestra los grupos generados por el visualizador cartográfico
para los datos de mortalidad del año 2010 para la causa E11.
Los valores nos revelan un incremento en las tasas de mortalidad para la
causa E11. Adicionalmente, las imágenes generadas por el visualizador
cartográfico nos permiten observar un mayor número de municipios con una tasa
de mortalidad elevada para esta causa. Esta información representa un aporte
importante para la comunidad científica del dominio epidemiológico.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
83
Para la causa de mortalidad E14, se generaron los mapas con los grupos
de municipios, pero en este caso, se identificaron aquellos grupos que representan
información de interés
Grupo 1
Grupo 2
Grupo 3
Grupo 4
Grupo 5
Figura 21. Grupos de municipios y grupos de interés para la causa de mortalidad E14, año
2000.
La Figura 21 muestra, en la parte superior, el total de grupos generados por
el visualizador cartográfico y, en la parte inferior, los cinco grupos identificados
como los grupos de municipios con las mayores tasas de mortalidad para la causa
E14. Estos grupos fueron generados con la información sobre las defunciones
ocurridas en el año 2000.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
84
Grupo 1
Grupo 2
Grupo 3
Grupo 4
Figura 22. Grupos de municipios y grupos de interés para la causa de mortalidad E14, año
2010.
La Figura 22 muestra, en la parte superior, el total de grupos generados por
el visualizador cartográfico y, en la parte inferior, los cinco grupos identificados
como los grupos de municipios con las mayores tasas de mortalidad para la causa
E14. Estos grupos fueron generados con la información sobre las defunciones
ocurridas en el año 2010.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
85
4.3.3 Comparativa de los tiempos obtenidos durante la Preparación de Datos
realizada manual y automáticamente.
Durante el proceso de Preparación de Datos que se llevó a cabo de manera
manual, se registró el tiempo requerido en cada una de las tareas de preparación
realizadas. A su vez, el prototipo de Preparación de Datos es capaz de reportar el
tiempo que le llevó ejecutar las acciones de manera automatizada.
En este punto, realizamos una comparativa entre los tiempos requeridos al
realizar la Preparación de Datos de manera manual y automatizada.
Enfocándonos en dos de las tareas automatizadas por el prototipo de Preparación
de Datos. Esta comparativa tiene el objetivo de mostrar el porcentaje de tiempo
que se redujo en la ejecución de estas tareas.
Ambas tareas se realizaron de manera manual y automatizada, las causas
de mortalidad para las cuales se ejecutaron dichas tareas son: C16 (cáncer de
estómago), C34 (cáncer de pulmón), E11 (diabetes mellitus no
insulinodependiente) y E14 (diabetes mellitus no especificada), para los datos de
los años 2000 y 2010.
4.3.3.1 Tarea: Cálculo de la incidencia de mortalidad.
Los tiempos requeridos para calcular los valores de incidencia de mortalidad para
el año 2000 se muestran a continuación:
Tabla 13. Comparativa de tiempo manual y automático para el cálculo de la incidencia de
mortalidad con datos del año 2000.
Causa Tiempo manual Tiempo
automatizado % de reducción
C16 33.53 mins 0.058 mins 99.83%
C34 49.04 mins 0.034 mins 99.93%
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
86
E11 39.98 mins 0.13 mins 99.67%
E14 40.64 mins 0.042 mins 99.89%
La Tabla 13 nos muestra los tiempos registrados para realizar el cálculo de
la incidencia de mortalidad de manera manual y automatizada, adicionalmente, se
muestra el porcentaje de reducción entre una y otra.
Tabla 14. Comparativa de tiempo manual y automático para el cálculo de la incidencia de
mortalidad con datos del año 2010.
Causa Tiempo manual Tiempo
automatizado % de reducción
C16 40.69 mins 0.075 mins 99.81%
C34 59.54 mins 0.24 mins 99.59%
E11 64.26 mins 0.05 mins 99.92%
E14 48.53 mins 0.04 mins 99.91%
La Tabla 14 nos muestra los tiempos registrados para realizar el cálculo de
la incidencia de mortalidad de manera manual y automatizada, para los datos del
año 2010, y el porcentaje de reducción conseguido.
4.3.3.2 Tarea: Cálculo de la tasa de mortalidad.
Los tiempos requeridos para calcular los valores de la tasa de mortalidad para el
año 2000 se muestran a continuación:
Tabla 15. Comparativa de tiempo manual y automático para el cálculo de la tasa de
mortalidad con datos del año 2000.
Causa Tiempo manual Tiempo
automatizado % de reducción
C16 5.16 mins 0.33 mins 93.61%
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
87
C34 5.14 mins 0.335 mins 93.49%
E11 5.1 mins 0.473 mins 90.73%
E14 5.7 mins 0.413 mins 92.76%
La Tabla 15 nos muestra los tiempos registrados para realizar el cálculo de
la incidencia de mortalidad de manera manual y automatizada, adicionalmente, se
muestra el porcentaje de reducción entre una y otra.
Tabla 16. Comparativa de tiempo manual y automático para el cálculo de la tasa de
mortalidad con datos del año 2010.
Causa Tiempo manual Tiempo
automatizado % de reducción
C16 5.45 mins 0.435 mins 92.02%
C34 5.47 mins 0.863 mins 84.23%
E11 5.50 mins 0.441 mins 91.98%
E14 5.58 mins 0.435 mins 92.2%
La Tabla 16 nos muestra los tiempos registrados para realizar el cálculo de
la incidencia de mortalidad de manera manual y automatizada, para los datos del
año 2010, y el porcentaje de reducción conseguido.
4.3.4 Niveles de adaptabilidad.
Desde el enfoque de esta investigación, la adaptabilidad se vio de manera
exploratoria y se basó en dos niveles en particular: cambios en el valor de las
variables y cambios en el tipo de dato de los valores.
En el primer nivel de adaptabilidad, se analizaron los cambios en relación a
dos variables importantes AÑO y CAUSA de mortalidad. Se verificó que el
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
88
prototipo de Preparación de Datos tuviera la flexibilidad para generar información
al variar los valores de estas variables.
Se consiguió que el prototipo fuese flexible a los cambios relacionados a
estas dos variables. En relación a la CAUSA de mortalidad tiene la capacidad de
adaptarse a 2049 diferentes causas de mortalidad y, en relación al AÑO, se
validaron los cambios para los años 2000 y 2010, pero es posible agregar
información al Almacén de Datos que corresponda a defunciones ocurridas en
otros años, siempre y cuando se respete el esquema de almacenamiento de datos
propuesto.
En relación a cambios en el tipo de dato de los atributos, no se presentaron
ocurrencias de este tipo adaptabilidad, pero fue posible identificar que en la sub-
fase de formateo de datos es donde se pueden resolver este tipo de conflictos.
Se pueden realizar cambios al tipo de dato de un atributo, para
homogeneizar los valores de los atributos, sin importar el momento en el que el
problema se presente, ya que por sí misma, la metodología CRISP-DM
proporciona una flexibilidad que nos permite volver entre las sub-fases.
4.3.5 Almacén de Datos.
Por último, se consiguió poblar un Almacén de Datos que contiene la información
oficial de las defunciones ocurridas en los años 2000 y 2010, para 204 municipios
diferentes cuya población es mayor de 100,000 habitantes, con el cual es posible
analizar 2049 causas de mortalidad, registradas en el Catalogo Internacional de
Enfermedades (CIE-10), incluida la AH1N1 de reciente aparición.
Capítulo 4 VALIDACIÓN DE LA METODOLOGÍA PROPUESTA Y RESULTADOS
89
Figura 23. Representación del cubo de datos.
La Figura 23 nos muestra la representación del cubo de datos generado por
la relación de los datos utilizados en esta investigación. Sus dimensiones LUGAR
y TIEMPO en relación a un HECHO que son las defunciones ocurridas por una
determinada CAUSA de muerte (ver detalle en Anexo D).
Todos los datos contenidos en el almacén provienen de fuentes oficiales y
censos como el de población y vivienda de los años 2000 y 2010. A diferencia de
las investigaciones previas, este almacén no sólo contiene información para las
causas de mortalidad por cáncer, sino para muchas otras causas de muerte
relacionadas a otras enfermedades como la diabetes, hipertensión, fallos
cardíacos, etcétera; o de hechos sociales como la muerte por violencia, aborto,
etcétera.
90
Capítulo 5 CONCLUSIONES Y TRABAJOS FUTUROS.
Este capítulo presenta las aportaciones de esta investigación y se sugieren tópicos
para trabajos futuros.
Capítulo 5 CONCLUSIONES Y TRABAJOS FUTUROS
91
5.1 CONCLUSIONES.
En este trabajo se mostró que es factible el desarrollo de una metodología para la
fase de Preparación de Datos, definida con un nivel de detalle mayor al propuesto
en la metodología CRISP-DM, para su aplicación directa a proyectos de Minería
de datos del dominio epidemiológico.
Para validar el enfoque de solución se usó un caso de estudio con datos
reales del dominio epidemiológico, con información de los censos oficiales de los
años 2000 y 2010; esto nos permitió validar la metodología de Preparación de
Datos propuesta y obtener resultados de interés, los cuales pueden ser utilizados
por el sector salud como apoyo para la toma de decisiones en sus procesos de
prevención y control de ciertas enfermedades.
Las principales aportaciones de esta tesis son las siguientes:
a) Se definió una metodología de Preparación de Datos con un nivel de detalle
mayor que el propuesto por otras metodologías como CRISP-DM, para su
aplicación directa a proyectos de Minería de Datos del dominio
epidemiológico. Dicha metodología se validó utilizando datos del censo
oficial del año 2000. Se realizaron pruebas para las causas de mortalidad
C16 y C34, los resultados obtenidos fueron equivalentes a los resultados
obtenidos por investigaciones previas en el 100% de los casos.
b) Se identificaron dos niveles dentro de la fase de Preparación de Datos:
Preparación de Datos General (PDG) y Preparación de Datos Específica
(PDE). Las tareas relacionadas a la Preparación de Datos General son un
conjunto de tareas “independientes” del objetivo de minería que se desea
alcanzar. Las tareas del nivel específico constituyen operaciones concretas,
estrechamente relacionadas con el objetivo de Minería de Datos que se
desea alcanzar y, en este caso, se repiten para cada causa de mortalidad
que se desee analizar.
Capítulo 5 CONCLUSIONES Y TRABAJOS FUTUROS
92
c) Se realizó la preparación de los datos del censo del año 2010 y fueron
anexados a los datos preparados del año 2000; se ejecutaron pruebas para
dos causas de muerte por cáncer (C16 y C34) y dos causas de muerte por
diabetes (E11 y E14) para ambos años. Con esto, comprobamos la
capacidad del prototipo de adaptarse a cambios en los valores de entrada
para las variables CAUSA y AÑO de mortalidad.
d) Se desarrolló un prototipo de un sistema de Minería de Datos que consta de
un almacén de datos y una herramienta de Preparación de Datos que
generan un data set que sirve como entrada al visualizador cartográfico.
e) Se implementó una herramienta de preparación de datos que automatiza
las tareas de cálculo de la incidencia, tasa de mortalidad, tasa de
mortalidad normalizada y la creación del data set; con esto pudimos
observar una reducción en el tiempo invertido en cada tarea, desde un 90%
o hasta un 99%, en comparación con su ejecución manual (ver sección
4.3.3).
f) Por último, un aporte importante es la integración de un almacén de datos
preparados que integra datos de mortalidad, extraídos de los censos
oficiales de los años 2000 y 2010, relacionados a 2049 causas de
mortalidad diferentes, para los municipios con un número de habitantes
mayor a los 100,000.
La metodología para la fase de Preparación de Datos propuesta, representan un
beneficio importante para los expertos en Minería de Datos, ya que permite reducir
la labor que el experto en minería invierte durante esta fase del proceso de
Minería.
Finalmente, como resultado de usar un caso de estudio con datos reales, se
obtuvieron hallazgos de posible interés para los organismos encargados de la
administración de los servicios públicos de salud en México, los cuales pueden ser
usados en sus procesos de toma de decisiones, dentro de programas para la
prevención y control de enfermedades como el cáncer y la diabetes. Estos
resultados se muestran en el Anexo E.
Capítulo 5 CONCLUSIONES Y TRABAJOS FUTUROS
93
5.2 TRABAJOS FUTUROS.
Como resultado de esta investigación, se han identificado otras áreas de
oportunidad para continuar esta investigación. A continuación se listan algunas de
las alternativas identificadas:
a) Extender el modelo de referencia CRISP-DM en la fase de preparación de
datos, particularmente en la tarea genérica de integración de datos.
b) Aprovechar la infraestructura creada para desarrollar metodologías de
preparación de datos para su aplicación en otros dominios.
c) Desarrollar un sistema de Minería de Datos mediante la integración de los
prototipos de Preparación de Datos y el prototipo de visualización
cartográfica.
5.3 PUBLICACIONES.
Como resultado de esta investigación, se realizaron las siguientes publicaciones:
a) “An Epidemiological Data Mining Application Based on Census Databases”,
International Conference on Advances in Databases, Knowledge and Data
Applications (DBKDA, Enero de 2013), Sevilla, España. Publicado en
ThinkMind (TM) Digital library.
94
REFERENCIAS.
[1] Instituto Nacional de Estadística y Geografía (INEGI). “Estadística a
propósito del día mundial contra el cáncer”. Fecha de consulta: Junio 2012.
Disponible en: http://www.inegi.org.mx/inegi/contenidos/espanol/prensa/cont
enidos/estadisticas/2011/cancer11.asp?s=inegi&c=2781&ep=51.
[2] L. M. Ruiz-Godoy, et al. “Lung cancer mortality in Mexico”. BioMed Central,
vol. 7. pp. 29, Febrero 2007.
[3] V. J. Tovar-Guzmán, et al. “Tendencias de la mortalidad por cáncer
pulmonar en México 1980-2000”. Panam Salud Pública, vol. 17, pp. 254-
262, Enero 2005.
[4] S. Zhang, et al., "Data preparation for data mining". International Journal of
Applied Artificial Intelligence, vol. 17, pp. 375-381, 2003.
[5] Q. Yang and X. Wu, "10 Challenging problems in data mining research",
International Journal of Information Technology & Decision Making, vol. 5,
pp. 597-604, 2006.
[6] W. Fraley et al. “Knowledge discovery in databases: an overview”. AI
Magazine, pp. 213 – 228, 1992.
[7] C. Pete, et al., "CRISP-DM 1.0 Step-by-step data mining guide," IBM SPSS,
2000.
[8] F. Gorunescu, Data mining: Concepts, Models and Techniques, vol. 12:
Springer-Verlag Berlin Heidelberg, 2011.
[9] A. Duhamel, et al., "A preprocessing method for improving data mining
techniques: Application to a large medical diabetes database". The new
navigators: from professionals to patients, vol. 95, pp. 269-274, 2003.
[10] T. Shin-Mu, et al., "A pre-processing method to deal with missing values by
integrating clustering and regression techniques", International Journal of
Applied Artificial Intelligence, vol. 7, pp. 535-544, 2003.
[11] N. M. Labib and M. N. Malek, "Data mining for cancer management in Egypt
case study: Childhood acute lymphoblastic lukemia", Transaction on
Engineering Computing and Technology, vol. 8, pp. 309-314, 2005.
95
[12] R. Amir, et al. (2005) “A data pre-processing method to increase efficiency
and accuracy in data mining”. Proceedings of the 10th Conference on
Artificial Intelligence in Medicine. Aberdeen, Escocia, pp.434-443.
[13] V. Bogorny, et al., “A reuse-based spatial data preparation framework for
data mining", Proceedings of the 17th International Conference on Software
Engineering and Knowledge Engineering, Taipei, Taiwan, pp. 649-652,
2005.
[14] V. Bogorny, et al., "Spatial data preparation for knowledge discovery".
Presentado en: IFIP Academy on the states of Software Theory and
Practices, Porto Alegre, Brazil, 2005.
[15] C. V. Bratu and R. Potolea, "Towards a unified strategy for the
preprocessing step in data mining". International Conference on Enterprise
Information systems (ICEIS), Milan, Italia, pp. 230-235, Mayo 2009.
[16] J. Pérez-Ortega, et al., "Spatial data mining of a population-based data
warehouse of cancer in Mexico" International Journal of Combinatorial
Optimization Problems and Informatics, vol. 1, pp. 61-67, Mayo 2010 2010.
[17] J. Pérez-Ortega, et al., "A data mining system for the generation of
geographical C16 cancer patterns" International Conference on Software
Engineering Advances (ICSEA), Nice, Francia, pp. 417-421, Agosto 2010.
[18] A. Silberschatz, et al., Fundamentos de bases de datos, 4a edición. Madrid:
McGraw-Hill, 2002.
[19] C. J. Date, Introducción a los sistemas de bases de datos, 7a edición.
México: Pearson Educación, 2001.
[20] Instituto Nacional de Estadística y Geografía (INEGI). “Población de
México”. Fecha de consulta: Mayo 2012. Disponible en:
http://cuentame.inegi.org.mx/poblacion/default.aspx?tema=P
[21] M. Gutiérrez, "El rol de las bases de datos espaciales en una infraestructura
de datos", Proceedings of the 9th Conference Global Spatial Data
Infrastructure, Santiago, Chile, 2006.
[22] J. M. Rubia. “Introducción a los almacenes de datos (Introduction to Data
Warehousing)”. Anales de mécanica y electricidad. 2009, pp. 42-47.
96
[23] J. H. Orallo, et al., Introducción a la Minería de Datos, 1a edición. España:
Pearson/Prentice Hall, 2004.
[24] Q. Luo, "Advancing knowledge discovery and data mining", Workshop on
Knowledge Discovery and Data Mining, Adelaide, Australia, 2008, pp. 3-5.
[25] J. Han, et al., Data mining: Concepts and Techniques, 3a edición. Waltham,
Ma. USA: Morgan Kaufman/Elsevier, 2012.
[26] A. B. Michael and S. L. Gordon, “Data mining techniques for marketing,
sales and customer relationship management, The role of Data
Warehousing”, 2a edición. Indiana, USA: Wiley Publishing, 2004.
[27] KDnuggets. “Data mining methodology”. Fecha de consulta: Mayo 2012.
Disponible en: http://www.kdnuggets.com/polls/2007/data_mining_methodo
logy.htm
[28] L. Gordis, Epidemiología, 3a edición. España: Elsevier, 2005.
[29] J. M. Last, A dictionary of epidemiology, 4a edición. New York: Oxford
University Press, 2000.
[30] M. Szklo and J. Nieto, Epidemiología intermedia: conceptos y aplicaciones.
España: Díaz de Santos, 2003.
[31] Organización Panamericana de la Salud (OPS). “Indicadores de salud:
Elementos básicos para el análisis de la situación de salud”. Fecha de
consulta: Mayo 2012. Disponible en: http://www.paho.org/spanish/sha/EB_
v22n4.pdf
[32] Instituto Nacional de Salud Pública (INSP). “Principales medidas en
epidemiología”. Fecha de consulta: Mayo 2012. Disponible en:
http://bvs.insp.mx/rsp/articulos/articulo.php?id=000641
[33] O. J. Holliday, “Guía para sistematizar experiencias”, pp. 1-15, 2006.
[34] A. Mexicano, "Desarrollo de una metodología para la selección de atributos
y generación de indicadores para la aplicación de Minería de Datos a una
base de datos real de registros de cáncer en base poblacional," Maestría,
Ciencias computacionales, CENIDET, Cuernavaca, México, 2007.
[35] J. Salinas, "Adecuación de una metodología de Minería de Datos para su
aplicación a una base de datos real de registros de cáncer de base
97
poblacional," Maestría, Ciencias computacionales, CENIDET, Cuernavaca,
México, 2007.
[36] M. A. Barrón, "Desarrollo de un prototipo para la aplicación de técnicas de
Minería de Datos sobre una base de datos real de base poblacional de
cáncer," Maestría, Ciencias computacionales, CENIDET, Cuernavaca,
México, 2008.
[37] R. Boone, "Identificación de regiones con altas tasas de incidencia de
cáncer mediante la integración y uso de técnicas de la Minería de Datos;
almacenes de datos, agrupamiento y sistemas de información geográficos"
Maestría, Ciencias computacionales, CENIDET, Cuernavaca, México, 2011.
[38] H. Oktaba, et al., "Modelo de procesos para la industria de software"
Secretaría de Economía, México, 2005.
[39] J. Rumbauh, et al., El lenguaje unificado de modelado: Manual de
referencia. Madrid, España: Pearson Educación, 2000.
[40] W. Sujansky, "Heterogeneous database integration in biomedicine"
Biomedical informatics, vol. 34, pp. 285-298, Enero 2002.
[41] M. P. Reddy, et al., "A methodology for integration of heterogeneus
databases" International Journal of Transactions on Knowledge and Data
Engineering, vol. 6, pp. 920-933, Diciembre 1994.
[42] L. Mong-Li and L. T. Wang, "Resolving structural conflicts in the integration
of entity-relationship schemas" Lecture Notes in Computer Science, vol.
1021, pp. 424-433, 1995.
[43] Universidad Nacional Autónoma de México (UNAM). “Computación
adaptativa”. Fecha de consulta: Julio 2011, Disponible en:
http://turing.iimas.unam.mx/SAAO/?q=node/1
[44] A. F. Quintero-Osorio, "Adaptatividad: Su conveniencia en el desarrollo de
software," Licenciatura, Universidad Tecnológica de Pereira, Pereira,
Colombia, 2009.
[45] A. K. Gupta and S. K. Arora, Industrial Automation and Robotics. 2a edición,
New Delhi, India: Ajit Press, Enero 2007.
[46] C. Calero, et al., Calidad del producto y proceso de software. 1a edición.
Madrid, España: Ra-Ma, 2010.
98
[47] I. H. Witten, et al., Data mining: practical machine learning tools and
techniques, 3a edición. Burlington, EU: Elsevier, 2011.
[48] M. Hidalgo, et al., "Definition of a metadata schema for describing data
preparation tasks" Proceedings of the 11th European Conference on
Machine Learning and Principles and Practice of Knowledge Discovery in
Databases, Bled, Eslovenia, 2009, pp. 64-75.
[49] MySQL. “MySQL in data Warehousing and Business Intelligence”. Fecha de
consulta: Agosto 2012. Disponible en: http://www.mysql.com/why-
mysql/data-warehouse.html
[50] Instituto Nacional de Salud Pública. Salud Pública de México. Fecha de
consulta: Mayo 2012. Disponible en: http://bvs.insp.mx/rsp/inicio/
[51] Instituto Nacional de Cancerología. Revista del Instituto Nacional de
Cancerología. Fecha de consulta: Mayo 2012. Disponible en:
http://www.incan.salud.gob.mx/
[52] Secretaría de Salud. Sistema Único de Información en Epidemiología.
Fecha de consulta: Mayo 2012. Disponible en: http://www.salud.gob.mx/
[53] Sistema Nacional de Información en Salud. “Bases de datos sobre
defunciones”. Fecha de consulta: Mayo 2012. Disponible en:
http://www.sinais.salud.gob.mx/basesdedatos/estandar.html
[54] Sistema Estatal y Municipal de Bases de Datos. (SIMBAD). “Área
geográfica”. Fecha de consulta: Enero 2012. Disponible en:
http://sc.inegi.org.mx/sistemas/cobdem/contenido-arbol.jsp
[55] Instituto Nacional de Estadística y Geografía (INEGI).“Censo de Población y
Vivienda”. Fecha de consulta: Enero 2012. Disponible en:
http://www.inegi.org.mx/sistemas/olap/Proyectos/bd/censos/cpv2010/PT.asp
?s=est&c=27770&proy=cpv10_pt
[56] Centro Colaborador para la Familia de Clasificadores Internacionales de la
OMS en México. ”Clasificación Estadística Internacional de Enfermedades y
Problemas Relacionados con la Salud, Décima Revisión (CIE-10)”. Fecha
de consulta: Mayo 2012. Disponible en: http://www.cemece.salud.gob.mx/fic
/cie/index.html
99
[57] Instituto Nacional de Estadística y Geografía. “Anuarios Estadísticos de los
Estados (AEE)”. Fecha de consulta: Enero 2012. Disponible en:
http://www.inegi.gob.mx/est/contenidos/espanol/sistemas/aee05/nacional/in
dex.htm
[58] Secretaría de salud (SS). “Causas y consecuencias del sub-registro de
defunciones”. Fecha de consulta: Mayo 2012. Disponible en:
http://www.clarciev.com/cms/wp-content/Secretar%C3%ADa_de_Salud_-
_M%C3%A9xico.pdf
[59] L. A. Shalabi, et al., "Data mining: A preprocessing engine" Journal of
Computer Science, vol. 2, pp. 735-739, 2006.
[60] Secretaría de salud (SS). “Influenza: preguntas frecuentes”. Fecha de
consulta: Mayo 2012. Disponible en: portal.salud.gob.mx/contenidos/notici
as/influenza/preguntas_frecuentes_ah1n1.html
[61] J. Pérez-Ortega, et al., "Data warehouse development to identify regions
with high rates of cancer incidence in Mexico through a spatial data mining
clustering task", Workshop on Semantic Web and New Technologies,
Puebla, México, 2010, pp. 37-47.
[62] C. González-Villalpando, et al. “The status of diabetes care in Mexican
population: Are we making a difference? Results of the National Health and
Nutrition Survey 2006”. Salud Pública de México, vol. 52, pp. 36-46, Abril
2010.
[63] S. Villalpando, et al. “Trends for type 2 diabetes and other cardiovascular
risk factors in Mexico from 1993-2006”. Salud Pública de México, vol. 52,
pp. 72-79, Abril 2010.
ANEXO A
100
Anexos.
Anexo A. Definición de procesos y diagramas de actividad.
Las tablas y los diagramas de actividad que se muestran a continuación
corresponden a aquellas tareas de Preparación de Datos seleccionadas para su
automatización.
Tabla A.1 Definición del proceso de “Construcción de datos”.
Tabla de definición de proceso. Fecha de creación: 30/10/2011
Nombre del proceso
Construcción de datos.
Responsable Minero de datos (MoD).
Descripción Incluye la ejecución de operaciones para construir nuevos atributos y/o transformar los valores de atributos existentes.
Objetivo Obtener atributos que son necesarios para alcanzar el objetivo de minería planteado.
Entradas Nombre Descripción
Datos de mortalidad, población Registros y valores numéricos.
Salidas
Nombre Descripción
Cálculo de la incidencia y tasa de mortalidad
Valores resultados de calcular la tasa de mortalidad e incidencia de mortalidad.
Actividades
Responsable Descripción
MoD
Verificación del conjunto de datos.- revisión del conjunto de datos con la finalidad de identificar la ausencia de valores o atributos que son necesarios para alcanzar el objetivo de minería planteado. Cálculo de la incidencia.- Esta operación es de importancia en el dominio epidemiológico, nos permite conocer el número de defunciones ocurridas en un determinado municipio, para un año especificado. Atributo derivado: INCIDENCIA. Cálculo de la tasa de mortalidad.- Esta operación es de importancia en el dominio epidemiológico, nos permite conocer la proporción de defunciones ocurridas para un año especificado en municipios con población mayor a los 100,000 habitantes. Atributo derivado: TASAMOR.
MoD
Identificación de atributos para calcular los atributos faltantes.- Se identifican cuales atributos del conjunto nos permiten calcular los atributos faltantes. Para el cálculo de la INCIDENCIA los atributos son: CLAVE (clave del municipio) y CAUSA (causa de muerte) Para el cálculo de la TASAMOR los atributos son: INCIDENCIA (atributo calculado) y POBLACION (número de habitantes por municipio).
MoD
Obtención de los atributos faltantes.- se realizan las operaciones necesarias para estimar los valores faltantes. Estas operaciones pueden ser la concatenación en el caso de atributos de tipo carácter u operaciones aritméticas, como las que se muestran a continuación:
ANEXO A
101
Para el cálculo de la Incidencia: 1. Leer la causa de muerte para la cual se calculara la
incidencia. 2. Leer la clave de cada municipio. 3. Generar consulta SELECT (count) para contabilizar el
número de casos. 4. Ejecutar SELECT. 5. Almacenar valor calculado de la incidencia. Para el cálculo de la Tasa de mortalidad:
1. Leer clave de cada municipio 2. Seleccionar los valores de INCIDENCIA 3. Seleccionar valores de POBLACIÓN (número de
habitantes por municipio). 4. Sustituir valores en la fórmula para el cálculo de la tasa
de mortalidad. 5. Guardar valores de las tasas de mortalidad calculadas.
Figura A.1 Definición del proceso de “Construcción de datos”.
act Construcción de datos
Identificar atributos
faltantes (INCIDENCIA y
TASAMORTALIDAD)
Identificar atributos para
realizar operaciones
Calcular INCIDENCIA
Leer CAUSA
de muerte
Leer CLAVE
del
municipio
Calcular
INCIDENCIA
Último municipio
Calcular
TASAMORTALIDAD Leer CLAVE
del
municipio
Seleccionar
INCIDENCIA
Seleccionar
POBLACION
Calcular
TASAMORTALIDAD
Último municipio
Leer AÑO de
muerte
Verificación del conjunto
de datos.
ANEXO B
102
Anexo B. Descripción de las tareas de Preparación de Datos con XML.
Con el fin de automatizar la fase de Preparación de Datos y así, conseguir reducir
el tiempo invertido en esta tarea, se utilizó el esquema de metadatos propuesto en
[48].
A continuación se muestra un ejemplo de la descripción, realizada con el esquema
XML, para la tarea de cálculo de la incidencia de mortalidad.
<metadataDictionary> <metadataSet setID="prep_01" setName="calculoIncidencia" processPhase="preparacionDatos"> <metadataItem itemID="prep_01_1" subPhase="construccionDatos" itemName="calculo" itemValue="true" itemDescription="Cálculo de la incidencia de mortalidad para una causa determinada"> <metadataSubject> <subjectID>1</subjectID> <subjectName>Task</subjectName> </metadataSubject> <metadataCategory> <categoryID>3</categoryID> <categoryName>definition</categoryName> </metadataCategory> <managementUnit> <unitID>01</unitID> <unitName>creationDate</unitName> <unitValue>15-13-2012</unitValue> <unitType>static</unitType> </managementUnit> </metadataItem> <metadataFlow> <flowID>1</flowID> </metadataFlow> <metadataItem itemID="prep_01_2" subPhase="construccionDatos" itemName="causa" itemValue="C34" itemDescription="Clave de la causa de mortalidad de la cual se calculara la incidencia"> <metadataSubject> <subjectID>2</subjectID> <subjectName>Activity</subjectName> </metadataSubject> <metadataCategory> <categoryID>5</categoryID> <categoryName>content</categoryName> </metadataCategory> <managementUnit> <unitID>01</unitID> <unitName>creationDate</unitName> <unitValue>15-13-2012</unitValue> <unitType>static</unitType> </managementUnit> </metadataItem> <metadataFlow> <flowID>2</flowID> </metadataFlow> <metadataItem itemID="prep_01_3" subPhase="construccionDatos" itemName="año" itemValue="2000" itemDescription="Año del cual se calculara la incidencia de mortalidad"> <metadataSubject> <subjectID>2</subjectID>
ANEXO B
103
<subjectName>Activity</subjectName> </metadataSubject> <metadataCategory> <categoryID>5</categoryID> <categoryName>content</categoryName> </metadataCategory> <managementUnit> <unitID>01</unitID> <unitName>creationDate</unitName> <unitValue>15-13-2012</unitValue> <unitType>static</unitType> </managementUnit> </metadataItem> <metadataFlow> <flowID>3</flowID> </metadataFlow> <metadataItem itemID="prep_01_4" subPhase="construccionDatos" itemName="tablaOrigen" itemValue="mortalidad" itemDescription="Tabla donde se encuentran los datos de mortalidad"> <metadataSubject> <subjectID>2</subjectID> <subjectName>Activity</subjectName> </metadataSubject> <metadataCategory> <categoryID>4</categoryID> <categoryName>control</categoryName> </metadataCategory> <managementUnit> <unitID>01</unitID> <unitName>creationDate</unitName> <unitValue>15-13-2012</unitValue> <unitType>static</unitType> </managementUnit> </metadataItem> <metadataFlow> <flowID>4</flowID> </metadataFlow> <metadataItem itemID="prep_01_5" subPhase="construccionDatos" itemName="tablaDestino" itemValue="hechos" itemDescription="Tabla donde se guardaran los resultados de los cálculos"> <metadataSubject> <subjectID>2</subjectID> <subjectName>Activity</subjectName> </metadataSubject> <metadataCategory> <categoryID>4</categoryID> <categoryName>control</categoryName> </metadataCategory> <managementUnit> <unitID>01</unitID> <unitName>creationDate</unitName> <unitValue>15-13-2012</unitValue> <unitType>static</unitType> </managementUnit> </metadataItem> <metadataFlow> <flowID>5</flowID> </metadataFlow> </metadataSet> </metadataDictionary>
ANEXO B
104
act Lectura del XML
Identificar
elemento
Identificar
v alor del
elemento
Guardar
v alor del
elemento
Fin XML
Leer
siguiente
elemento
Abrir archiv o
XML
Buscar
archiv o XML
Ejecutar calculo de
Incidencia y Tasa de
mortalidad
Pasar
v alores
obtenidos
del XML
Los valores que la herramienta de Preparación de Datos toma desde el archivo
XML corresponden a: CAUSA (para este ejemplo: C34), AÑO (para este ejemplo:
2000), la tabla de origen (desde donde se extraerá la información) y la tabla
destino (donde se almacenaran los resultados).
Figura B.1 Extracción de información desde archivo XML.
El prototipo de Preparación de Datos utiliza el archivo que contiene la descripción
del XML para leer los valores que requiere para su ejecución. La Figura B.1
describe brevemente la secuencia seguida, durante la ejecución, para la
extracción de dichos valores.
ANEXO C
105
Anexo C. Diagramas de clases.
Figura C.1 Diagrama de clases “Paquetes de Preparación de Datos General y Específica”.
Tabla C.1Descripción de paquetes “PDG y PDE”.
Paquete Responsabilidades
PDG PDG (Preparación de Datos General), agrupa los paquetes de limpieza y selección de datos. Son un conjunto de tareas “independientes” del objetivo de minería que se desea alcanzar.
PDE PDE (Preparación de Datos Específica), agrupa los paquetes de formateo, construcción e integración de datos. Son un conjunto de tareas que guardan una estrecha relación con el objetivo de minería que se desea alcanzar.
oO
pe
raci
on
es
ANEXO C
106
class generalMod
DLimpieza DSelección
Clases para limpieza
de datosClases para selección
de datos.
PDG
<<use>>
Figura C.2 Diagrama de clases del paquete de “Preparación de Datos General (PDG)”.
Tabla C.2Descripción de paquetes “Preparación de Datos General”.
Paquete Responsabilidades
DLimpieza Contiene las clases que permiten realizar acciones de identificación y limpieza de errores en los datos.
DSelección Contiene las clases que permiten realizar acciones para selección de atributos y registros de interés.
oOperaciones
ANEXO C
107
class DLimpieza
Operaciones
Identificación
+ ejecutarIdentificación() : void
Corrección
+ ejecutarCorrección() : void
correcciónValoresPerdidos
+ ejecutarCorrección() : void
correcciónValoresFueraRango
+ ejecutarCorrección() : void
identificaciónValoresPerdidos
+ ejecutarIdentificación() : void
deteccionValoresFueraRango
+ ejecutarIdentificación() : void
Figura C.3 Diagrama de clases del paquete de “Limpieza de datos”.
Tabla C.3Descripción de clase “Identificación”.
Clase Responsabilidades
Identificación Permite identificar errores en los datos, tales como, identificación de valores perdidos o valores fuera de rango. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
ejecutarIdentificación()
Llama a los métodos especializados en la identificación de valores perdidos o fuera de rango.
Ninguno. Ninguno.
Tabla C.4Descripción de clase “IdentificaciónValoresPerdidos”.
Clase Responsabilidades
IdentificaciónValoresPerdidos
Permite ejecutar métodos de identificación de valores perdidos. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
ejecutarIdentificación()
Ejecuta las acciones de identificación de valores perdidos.
Ninguno. Ninguno.
ANEXO C
108
Tabla C.5Descripción de clase “detecciónValoresFueraRango”.
Clase Responsabilidades
detecciónValoresFueraRango
Llama a las clases que ejecutan métodos de identificación de valores fuera de rango. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
ejecutarIdentificación()
Ejecuta las acciones de identificación de valores fuera de rango.
Ninguno. Ninguno.
Clases relacionadas
Responsabilidades
análisisMedia Ejecuta un análisis de media para identificar aquellos valores que se encuentran fuera de rango.
análisisModa Ejecuta un análisis de moda para identificar aquellos valores que se encuentran fuera de rango.
análisisMediana Ejecuta un análisis de mediana para identificar aquellos valores que se encuentran fuera de rango.
identificaciónBoxPlot Los datos son representados en una “caja” para identificar aquellos valores que se encuentran fuera de rango.
Histagramas Los datos son representados en una gráfica para identificar aquellos valores que se encuentran fuera de rango.
Tabla C.6Descripción de clase “Corrección”.
Clase Responsabilidades
Corrección Permite corregir errores en los datos, tales como valores perdidos o valores fuera de rango. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
ejecutarCorrección() Llama a los métodos especializados en la corrección de valores perdidos o fuera de rango.
Ninguno. Ninguno.
Tabla C.7Descripción de clase “CorrecciónValoresPerdidos”.
Clase Responsabilidades
correcciónValoresPerdidos
Permite ejecutar métodos de corrección de valores perdidos. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
ejecutarCorrección() Ejecuta las acciones de corrección de valores perdidos.
Ninguno. Ninguno.
Tabla C.8Descripción de clase “CorrecciónValoresFueraRango”.
Clase Responsabilidades
correcciónValoresFueraRango
Llama a las clases que ejecutan métodos de corrección de valores fuera de rango. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
ejecutarCorrección() Ejecuta las acciones de corrección de valores fuera de rango.
Ninguno. Ninguno.
ANEXO C
109
class DSelección
selecciónHorizontal
+ seleccionarRegistros() : void
+ eliminarRegistros() : void
selecciónVertical
+ eliminarAtributos() : void
+ crearTablaNueva() : void
Selección o
eliminación de
registros.
Selección o
eliminación de
atributos.
Operaciones
Figura C.4 Diagrama de clases del paquete de “Selección de datos”.
Tabla C.9Descripción de clase “selecciónHorizontal”.
Clase Responsabilidades
selecciónHorizontal
Permite ejecutar métodos para seleccionar atributos de interés. Esta selección se puede realizar generando nuevas tablas con una sentencia SELECT o alterando la tabla actual utilizando la sentencia ALTER TABLE. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
seleccionarRegistros
Ejecuta una sentencia para seleccionar únicamente aquellos registros que son de interés
Valores a seleccionar.
Registros seleccionados
eliminarRegistros Ejecuta una sentencia para eliminar todos aquellos registros que no son de interés.
Valores a eliminar.
Registros seleccionados
ANEXO C
110
Tabla C.10Descripción de clase “selecciónVertical”.
Clase Responsabilidades
selecciónVertical Permite ejecutar métodos para seleccionar atributos de interés. Esta selección se puede realizar generando nuevas tablas con una sentencia SELECT o alterando la tabla actual utilizando la sentencia ALTER TABLE. (No implementado)
Métodos Descripción Datos de entrada Datos de salida
eliminarAtributos Ejecuta las sentencias para eliminar atributos que no son de interés, la tabla de la cual se desean eliminar los atributos es alterada.
Nombre de los atributos
Tabla reducida
crearNuevaTabla Ejecuta las sentencias y mediante una selección de atributos, se genera una nueva tabla que contiene únicamente los atributos que son de interés.
Nombre tabla y atributos
Tabla nueva
ANEXO C
111
class específicaMod
DConstrucción DIntegraciónDFormateo
PDE
Clases para
construcción de datos.
Clases para
integración de datos.
Clases para formateo
de datos.
<<use>>
Figura C.5 Diagrama de clases del paquete de “Preparación de Datos Específica (PDE)”.
Tabla C.11Descripción de paquetes “Preparación de Datos Específica”.
Paquete Responsabilidades
DFormateo Contiene las clases que permiten realizar acciones para cambiar el formato (extensión) del archivo u operaciones relacionadas al formateo de atributos.
DConstrucción Contiene las clases que permiten realizar acciones para construir nuevos atributos, desde los ya existentes, o modificar los que ya existen.
DIntegración Contiene las clases que permite realizar acciones de detección de conflictos de integración de datos y algunas operaciones adicionales que tienen que ver con la unificación de las fuentes de datos.
oOperaciones
ANEXO C
112
Figura C.6 Diagrama de clases del paquete de “Formateo de datos”.
Tabla C.12Descripción de clases “formatoArchivo”.
Clase Responsabilidades
formatoArchivo Llama a las clases que ejecutan métodos de para modificar la extensión del archivo de datos. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
cambiarFormato() Ejecuta las acciones para modificar el formato del archivo.
Ninguno. Ninguno.
Clases relacionadas Responsabilidades
aCSV Ejecuta la conversión de la extensión del archivo a formato CSV.
aBaseDatos Ejecuta la conversión de la extensión del archivo a una base de datos.
aXLS Ejecuta la conversión de la extensión del archivo a formato XLS (archivo de Excel).
aARFF Ejecuta la conversión de la extensión del archivo a formato ARFF (requerido por Weka).
aDBF Ejecuta la conversión de la extensión del archivo a formato DBF.
Tabla C.13Descripción de clase “formatoAtributos”.
Clase Responsabilidades
formatoAtributos Llama a las clases que ejecutan los métodos para realizar diversas modificaciones sobre los atributos. (No implementado)
class DFormateo
Operaciones
formatoArchiv o
+ cambiarFormato() : void
aCSV
+ cambiarFormato() : void
aBaseDatos
+ cambiarFormato() : void
aXLS
+ cambiarFormato() : void
aARFF
+ cambiarFormato() : void
aDBF
+ cambiarFormato() : void
formatoAtributos
cambiarTipoDato
+ cambiarTipoDato() : void
otrasModificaciones
ANEXO C
113
Tabla C.14 Descripción de clase “otrasModificaciones”.
Clase Responsabilidades
otrasModificaciones Realiza modificaciones sobre los atributos de una fuente de datos (ver sección de Formato de atributos). (No implementado)
Tabla C.15 Descripción de clases “cambiarTipoDato”.
Clase Responsabilidades
cambiarTipoDato Llama a las clases que ejecutan métodos de para modificar el tipo de dato de los atributos. (No implementado)
Métodos Descripción Datos de entrada Datos de salida
cambiarTipoDato() Ejecuta las acciones para modificar el tipo de dato de un atributo.
Atributo y tipo de dato.
Atributo modificado.
Clases relacionadas Responsabilidades
aEntero Ejecuta la conversión del tipo de dato de un atributo a tipo entero.
aCadena Ejecuta la conversión del tipo de dato de un atributo a tipo cadena de caracteres.
aCaracter Ejecuta la conversión del tipo de dato de un atributo a tipo caracter.
aFlotante Ejecuta la conversión del tipo de dato de un atributo a tipo flotante.
aDoble Ejecuta la conversión del tipo de dato de un atributo a tipo doble.
ANEXO C
114
Figura C.7 Diagrama de clases del paquete de “Construcción de datos”.
Tabla C.16 Descripción de clase “Incidencia”.
Clase Responsabilidades
Incidencia Ejecuta las operaciones para realizar el cálculo de la incidencia de mortalidad. (Implementado)
Métodos Descripción Datos de entrada
Datos de salida
calcularIncidencia() Ejecuta el cálculo de la incidencia de mortalidad.
causaMortalidad Año
Valor calculado de la incidencia
Atributos Tipo de dato Descripción
causaMortalidad Cadena de caracteres Valor que identifica una causa de muerte, el valor comprende un carácter y dos números (ej. C34).
Año Int Se refiere al año de defunción. Los valores corresponden a 2000 y 2010, ya que los datos contenidos en el almacén corresponden a censos de esos años.
class DConstrucción
Normalización
+ calcularNormalización() : void
minMaxNormalización
- valorMáximo: double
- valorMínimo: double
- valorActual: double
- rango: int
+ calcularNormalización() : void
zScoreNormalización
+ calcularNormalización() : void
escalaDecimalNormalización
+ calcularNormalización() : void
OperacionesIncidencia
- causaMortalidad: Varchar
- año: int
+ calcularIncidencia() : void
tasaMortalidad
- modificador: int
- incidencia: int
- población: int
- año: int
+ calcularTasaMortalidad() : void
cov ersiónDecimal
- valorGrados: int
- valorMinutos: int
- valorSegundos: int
+ carcularValorDecimal() : void
ANEXO C
115
Tabla C.17 Descripción de clase “tasaMortalidad”.
Clase Responsabilidades
tasaMortalidad Ejecuta las operaciones para realizar el cálculo de la tasa de mortalidad. (Implementado)
Métodos Descripción Datos de entrada
Datos de salida
calcularTasaMortalidad() Ejecuta el cálculo de la tasa de mortalidad.
Modificador Incidencia Población Año
Valor calculado de la tasa de mortalidad
Atributos Tipo de dato Descripción
Modificador Int Se refiere a un número potencia de 10 (10
n), en este
caso 100,000.
Incidencia Int Valor calculado.
Población Int Número de habitantes por municipio para un año determinado.
Año Int Se refiere al año de defunción 2000 o 2010.
Tabla C.18 Descripción de clase “conversiónDecimal”.
Clase Responsabilidades
conversiónDecimal Ejecuta las operaciones para realizar la conversión de los valores de latitud y longitud sexagesimales a un valor decimal. (No implementado)
Métodos Descripción Datos de entrada
Datos de salida
calcularValorDecimal() Ejecuta las operaciones para calcular el valor decimal de la latitud y longitud.
valorGrados valorMinutos valorSegundos
Valor decimal de la latitud y longitud
Atributos Tipo de dato Descripción
valorGrados Int Los valores sexagesimales de latitud y longitud presentan una triada, los grados corresponden al primer par de esta triada de valores.
valorMinutos Int Los minutos corresponden al segundo par de esta triada de valores.
valorSegundos Int Los segundos corresponden al tercer par de esta triada de valores.
ANEXO C
116
Tabla C.19 Descripción de clase “Normalización”.
Clase Responsabilidades
Normalización Ejecuta las operaciones para realizar la conversión de los valores de un atributo a un valor normalizado en un rango específico. Existen tres métodos de normalización que se pueden ejecutar: normalización por máximos y mínimos, normalización z-Score y normalización por escala decimal.
Métodos Descripción Datos de entrada
Datos de salida
calcularValorDecimal() Ejecuta los métodos de normalización (máximos y minimos, zScore o normalización por escala decimal).
Ninguno Ninguno
Tabla C.20 Descripción de clase “minMaxNormalización”.
Clase Responsabilidades
minMaxNormalización Ejecuta las operaciones para realizar la conversión de los valores de un atributo a un valor normalizado en un rango específico a través del método de máximos y mínimos. (Implementado)
Métodos Descripción Datos de entrada
Datos de salida
calcularValorDecimal() Ejecuta las operaciones para calcular el valor normalizado de un atributo.
valorMáximo valorMínimo valorActual rango
Valores normalizados
Atributos Tipo de dato Descripción
valorMáximo Double Valor máximo encontrado entre todos los valores del atributo que se desea normalizar.
valorMínimo Double Valor mínimo encontrado entre todos los valores del atributo que se desea normalizar.
valorActual Double Valor actual, se refiere al valor que se está normalizando.
Rango Int Valor entre los cuales estarán normalizados los valores del atributo, es decir, si rango es igual a 10, los valores estarán normalizados de cero a diez.
ANEXO C
117
Figura C.8 Diagrama de clases del paquete de “Integración de datos”.
Tabla C.21 Descripción de clase “detecciónConflictos”.
Clase Responsabilidades
detecciónConflictos Llama a las clases que ejecutan métodos de para identificar posibles conflictos de integración. (No implementado)
Clases relacionadas Responsabilidades
conflictosNombres Detectar el uso de términos diferentes para referirse a los mimos objetos.
conflictosEstructurales Identificar el uso indebido de las tablas, posibles errores como la mala normalización de tablas, atributos no atómicos, etc.
conflictosContenido Identificar posible ausencia de información.
class DIntegración
Operaciones
detecciónConflictos
correcciónConflictos
implementaciónEsquema
Integración
pobladoDatos
conflictosNombres conflictosEstructurales
conflictosContenido corConflictosNombres corConflictosEstructurales
corConflictosContenido
ANEXO C
118
Tabla C.22 Descripción de clase “correcciónConflictos”.
Clase Responsabilidades
correcciónConflictos Llama a las clases que ejecutan métodos de para solucionar los conflictos de integración identificados. (No implementado)
Clases relacionadas Responsabilidades
corConflictosNombres Corregir el uso de términos diferentes para referirse a los mimos objetos.
corConflictosEstructurales Corregir el uso indebido de las tablas, posibles errores como la mala normalización de tablas, atributos no atómicos, etc.
corConflictosContenido Corregir la ausencia de información.
Tabla C.23 Descripción de clases “Integración”.
Clase Responsabilidades
Integración Ejecuta las acciones necesarias para conseguir la unificación de las fuentes de datos utilizadas. (No implementado)
Clases relacionadas Responsabilidades
implementaciónEsquema Utilizar herramientas como un lenguaje SQL para conseguir la integración de las fuentes de datos de acuerdo a una estructura definida.
pobladoDatos Cargar los datos desde las diversas fuentes en el esquema de datos que se ha definido.
ANEXO D
119
Anexo D. Descripción del almacén de datos. Diseño del almacén de datos.
El almacén de datos implementado obedece a un esquema tipo ROLAP
(Relational OLAP). El almacén de datos está construido sobre una base de datos
relacional. La Figura D.1 muestra el esquema para el almacén de datos.
Figura D.1 Esquema del almacén de datos.
ANEXO D
120
Tabla D.1 Descripción de la tabla “Geográfica”.
Tabla Descripción
geográfica Contiene los registros de la posición (altitud, longitud) de los municipios de México con poblaciones mayores a los 100,000 habitantes.
Atributos Tipo de dato Descripción
Clave Int Clave del municipio (identificador)
Lat_decimal Decimal Valor decimal para la latitud del municipio.
Long_decimal Decimal Valor decimal para la longitud del municipio.
Lat_normalizada Decimal Valor normalizado para la latitud del municipio.
Long_ normalizada Decimal Valor normalizado para la longitud del municipio.
Lat_pixel Decimal Valor en pixeles para la latitud del municipio.
Long_pixel Decimal Valor pixeles para la longitud del municipio.
Tabla D.2 Descripción de la tabla “Poblacional”.
Tabla Descripción
Poblacional Contiene los registros relacionados al número de habitantes de los municipios de México con poblaciones mayores a los 100,000 habitantes.
Atributos Tipo de dato Descripción
Clave Int Clave del municipio (identificador)
Municipio Varchar Nombre del municipio.
Año Int Año al que pertenecen los datos, puede ser 2000 o 2010.
Población Int Número de habitantes para el municipio en determinado año.
ANEXO D
121
Tabla D.3 Descripción de la tabla “Catálogo”.
Tabla Descripción
Catalogo Contiene los registros de las 2049 enfermedades registradas en el Catalogo Internacional de Enfermedades (CIE-10), actualizado a Octubre de 2009.
Atributos Tipo de dato Descripción
ClaveCausa Varchar Valor de tres dígitos correspondiente a la clave (identificador) utilizado por el CIE-10 para las enfermedades.
NombreEnfermedad Varchar Nombre de la enfermedad.
Tabla D.4 Descripción de la tabla “Mortalidad”.
Tabla Descripción
Mortalidad Contiene los registros de las defunciones de los municipios de México para los años 2000 y 2010.
Atributos Tipo de dato Descripción
Clave Int Clave del municipio (identificador)
Causa Varchar Valor de tres dígitos correspondiente a la clave (identificador) utilizado por el CIE-10 para las enfermedades.
Genero Int Género del finado (masculino o femenino).
E_Civil Int Estado civil del finado.
Lug_Defunción Int Lugar donde ocurrió la defunción.
Escolaridad Int Escolaridad del finado.
Ocupación Int Ocupación del finado.
Edad Int Edad del finado.
Año Int Año en el que ocurrió la defunción.
ANEXO D
122
Tabla D.4 Descripción de la tabla “Hechos”.
Tabla Descripción
Hechos La tabla de hechos almacena la información relacionada a los cálculos de la incidencia y tasa de mortalidad para cada municipio con población mayor a los 100,000 habitantes para un año, ya sea 2000 o 2010.
Atributos Tipo de dato Descripción
Clave Int Clave del municipio (identificador)
Causa Varchar Valor de tres dígitos correspondiente a la clave (identificador) utilizado por el CIE-10 para las enfermedades.
Incidencia Int Valor calculado. Número de muertes registradas en un municipio, para un año especificado.
Año Int Año para el que se realizaron los calculos.
TasaMortalidad Decimal Valor calculado. Relación entre el número de defunciones registradas y el total de la población para un municipio en un año determinado.
TasaMortalidadNormalizada
Decimal Valor normalizado de la tasa de mortalidad.
ANEXO D
123
Implementación del almacén de datos.
La implementación del almacén de datos se realizó utilizando MySQL, el almacén
de datos integrado contiene datos de mortalidad para los años 2000 y 2010
(censos oficiales).
Se crearon varias tablas para almacenamiento de las diferentes fuentes de datos:
geográfica, poblacional, catalogo, mortalidad y hechos. A continuación se describe
cada una de estas tablas y la sentencia SQL utilizada para su creación:
Tabla de datos geográficos.- contiene los registros relacionados a la posición de
los municipios de México con poblaciones mayores a 100,000 habitantes. Su
estructura es la siguiente:
CREATE TABLE geografica (clave INT NOT NULL, lat_decimal DECIMAL (18,14),
long_decimal DECIMAL (18,14), lat_normalizada DECIMAL (18,14),
long_normalizada DECIMAL (18,14), lat_pixel DECIMAL (18,14), long_pixel
DECIMAL (18,14), PRIMARY KEY(clave));
Tabla de datos poblacionales.- contiene los registros relacionados al número de
habitantes por municipio para los años 2000 y 2010, únicamente de aquellos
municipios con número de habitantes mayor a 100,000. Su estructura es la
siguiente:
CREATE TABLE poblacional (clave INT NOT NULL, municipio VARCHAR(50),
año INT, poblacion INT, FOREIGN KEY(clave) REFERENCES geografica(clave));
Tabla de datos catálogo de enfermedades (CIE-10).- contiene los registros de
las 2049 enfermedades contenidas en el Catalogo Internacional de Enfermedades
(CIE-10), actualizado al 2009. Su estructura es la siguiente:
ANEXO D
124
CREATE TABLE catalogo (claveCausa VARCHAR(3), nombreEnfermedad
VARCHAR(200), PRIMARY KEY(claveCausa));
Tabla de datos de mortalidad.- contiene los datos relacionados a las defunciones
ocurridas en municipios con número de habitantes mayor a 100,000 en los años
2000 y 2010. Su estructura es la siguiente:
CREATE TABLE mortalidad (clave INT NOT NULL, causa VARCHAR(3), genero
INT, e_civil INT, lug_defuncion INT, escolaridad INT, ocupacion INT, edad INT,
año INT, FOREIGN KEY(causa) REFERENCES catalogo(claveCausa));
Tabla de datos hechos.- En esta tabla se almacenan los valores arrojados para
los cálculos de los valores de incidencia y tasa de mortalidad. Su estructura es la
siguiente:
CREATE TABLE hechos (clave INT NOT NULL, causa VARCHAR(3), año INT,
incidencia INT, tasaMortalidad DECIMAL (18,14), tasaMortalidadNormalizada
DECIMAL (18,14), FOREIGN KEY(clave) REFERENCES geografica(clave),
FOREIGN KEY(causa) REFERENCES catalogo(claveCausa));
ANEXO D
125
Poblado del almacén de datos.
Para el poblado del almacén de datos, se realizó la conversión de los archivos de
datos a formato CSV, esto con el fin de facilitar la importación de los datos de
mortalidad, poblacionales y geográficos; mediante el uso de las sentencias
siguientes:
Tabla de datos de geográfica:
LOAD DATA INFILE 'C:/Users/Emmanuel/Desktop/OtrosTesis/1-
BDFinales/datos2000/Finales(mortalidad,poblacional,geografico)2000/CSVFiles/ge
ografica2000Final.csv' INTO TABLE geografica FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';
LOAD DATA INFILE 'C:/Users/Emmanuel/Desktop/OtrosTesis/1-
BDFinales/datos2010/Finales(mortalidad,poblacional,geografico)2010/CSVFiles/ge
ografica2010Adicionales.csv' INTO TABLE geografica FIELDS TERMINATED BY
',' LINES TERMINATED BY '\n';
Tabla de datos de poblacional:
LOAD DATA INFILE 'C:/Users/Emmanuel/Desktop/OtrosTesis/1-
BDFinales/datos2000/Finales(mortalidad,poblacional,geografico)2000/CSVFiles/po
blacional2000Final.csv' INTO TABLE poblacional FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';
LOAD DATA INFILE 'C:/Users/Emmanuel/Desktop/OtrosTesis/1-
BDFinales/datos2010/Finales(mortalidad,poblacional,geografico)2010/CSVFiles/po
blacional2010Final.csv' INTO TABLE poblacional FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';
ANEXO D
126
Tabla de datos catálogo:
LOAD DATA INFILE 'C:/Users/Emmanuel/Desktop/OtrosTesis/1-
BDFinales/datos2010/Finales(mortalidad,poblacional,geografico)2010/CSVFiles/ca
talogo2010Final.csv' INTO TABLE catalogo FIELDS TERMINATED BY ',' LINES
TERMINATED BY '\n';
Tabla de datos de mortalidad:
LOAD DATA INFILE 'C:/Users/Emmanuel/Desktop/OtrosTesis/1-
BDFinales/datos2000/Finales(mortalidad,poblacional,geografico)2000/CSVFiles/m
ortalidad2000Final.csv' INTO TABLE mortalidad FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';
LOAD DATA INFILE 'C:/Users/Emmanuel/Desktop/OtrosTesis/1-
BDFinales/datos2010/Finales(mortalidad,poblacional,geografico)2010/CSVFiles/m
ortalidad2010Final.csv' INTO TABLE mortalidad FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';
ANEXO E
127
Anexo E. Principales aportaciones al dominio epidemiológico.
a) Se generaron los mapas con los grupos de municipios con altas tasas de
mortalidad para las causas relacionadas a diabetes mellitus E11 y E14; y para
las causas C16 (cáncer de estómago), C34 (cáncer de pulmón), para los años
2000 y 2010.
b) Para la causa de mortalidad C16, se observó un decremento que va desde el
17.4% hasta el 87.48%, en la tasa de mortalidad del año 2010 respecto a la
del año 2000, para el grupo de interés ubicado en la zona norte del país,
integrado por los siguientes municipios:
Tabla E.1 Decremento registrado en las tasas de mortalidad.
Municipio Tasa (año
2000)
Tasa (año
2010)
% de reducción
respecto al año 2000
Guaymas 11.50 5.35 53.48
Hermosillo 7.87 6.5 17.4
La Paz 7.1 3.97 44.08
Los Cabos 6.63 0.83 87.48
c) Para la causa de mortalidad E11, se observó un incremento considerable en el
número de municipios con altas tasas de mortalidad y una mayor
concentración de éstos en la región centro de país (ver Figuras 18 y 19,
sección 4.3.2).:
Tabla E.2 Incremento registrado en las tasas de mortalidad
Delegación Tasa (año
2000)
Tasa (año
2010)
% de incremento
respecto al año 2000
Iztacalco 46.05 91.06 97.74
Cuauhtémoc 45.71 90.07 97.04
Azcapotzalco 39.54 85.6 114.97
Gustavo A. Madero 37.86 86.69 128.97
ANEXO E
128
Podemos observar varias delegaciones del Distrito Federal ubicadas dentro de
los diez primeros y los incrementos en las tasas de mortalidad que van desde
el 97.74% hasta el 128.97%.
d) Para la causa de mortalidad E14, se identificaron grupos de interés. Para el
año 2000, son cinco los grupos que se visualizan en la Figura 20. Para el año
2010, la Figura 21 muestra los cuatro grupos principales que fueron
identificados.