52
APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA Autor: Alex Ariel Arias Ríos Director: Ing. Blanca Elvira Oviedo Msc. Aplicación Práctica

APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Embed Size (px)

Citation preview

Page 1: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN ATMOSFÉRICA LOCALIDAD DE PUENTE ARANDA

Autor:Alex Ariel Arias Ríos

Director:Ing. Blanca Elvira Oviedo

Msc.

Aplicación Práctica

Page 2: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Agenda

Contextualización y ProblemáticaSolución propuestaObjetivos TGDesarrollo y ContribucionesConclusiones Trabajos futurosDemo

Page 3: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

• Contextualización

Contextualización y Problemática

• Problemática

Page 4: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Contexto

Puente Aranda:

• Localidad ubicada al occidente de Bogotá.

• Tiene aproximadamente 288.890 habitantes.

• Se caracteriza por ser el centro de actividades industriales en Bogotá.

• Ranking de las ciudades más contaminadas de Colombia [1].

• Instituto de Hidrología, Meteorología y Estudios Ambientales

Page 5: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Red de Monitoreo de Calidad del Aire Bogotá (RMCAB)

Contexto

Base de datos de Registros Históricos

• Ozono troposférico (• Material Particulado ()• Dióxido de Nitrógeno ()• Oxidos de Nitrógeno ()• Partículas Suspendidas Totales (PST)• Dióxido de Azufre (

Concentraciones de los contaminantes

• Temperatura• Velocidad de los Vientos• Radiación Solar• Precipitación• Presión atmosférica• Humedad Relativa• Fecha y hora del día

Variables climatológicas Y temporales

Page 6: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

• Contextualización

Contextualización y Problemática

• Problemáticao Perspectiva Ambientalo Perspectiva Tecnológica

Page 7: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Problemática – Perspectiva Ambiental

En Latinoamérica, cada año más de 70.000 personas mueren a consecuencia de la contaminación aérea por falta de conocimiento o prevención.

En Colombia cerca de 6.000 personas mueren al año por la contaminación del aire, se afirma que el alto costo de la contaminación no solo deja pérdidas humanas sino también económicas. [5]

Estudios realizados en diferentes partes del mundo demuestran que la exposición a mediano, corto o largo plazo a contaminantes como PM10 y O3 afectan la salud en ámbito cardiovascular y respiratorio, aumentando así la mortalidad prematura[5][6][7].

Estadísticas en Latinoamérica

Page 8: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

• Contextualización

Contextualización y Problemática

• Problemáticao Perspectiva Ambientalo Perspectiva Tecnológica

Page 9: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

• En la actualidad la RMCAB genera reportes e informes diarios del estado de contaminación en cada estación. Sin embargo estos reportes se muestran de forma numérica y no se sabe si es peligroso o no este reporte y como prevenirlo.

• Se han utilizado técnicas estadísticas (S.D) enfocadas en ST que son de tipo confirmatorio, requieren de un experto para su posterior análisis e implementación.

• Actualmente no hay ningún SI que genere pronóstico y alertas tempranas a la comunidad en Bogotá.

Problemática – Perspectiva Tecnológica

Page 10: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Solución propuesta

Page 11: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Solución propuesta

SI de Alertas tempranas

ContaminantesPM10

O3Pronóstico

• Temperatura• Velocidad de los

Vientos• Radiación Solar• hora del día• Mes • NOX• NO2

Variables de entradaAlertas acerca del estado

Modelos de MD

Page 12: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Modalidad que abarca

Investigativa

Aplicativa

Page 13: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

• Objetivo General

Objetivos TG

• Objetivos Específicos

Page 14: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Objetivo General

Encontrar y aplicar técnicas de minería de datos, que permitan hacer relaciones entre variables atmosféricas y variables contaminantes (ozono y material Particulado) para la localidad de Puente Aranda con el fin de definir los valores asociados a eventos extremos de contaminación y desarrollar un prototipo de Sistema de Información de alertas tempranas de contaminación atmosférica a partir de las relaciones encontradas.

Page 15: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Objetivos específicos por fases metodológicas

Objetivos TG

Meto

dolo

gía

CR

ISP D

M

Fase 1 - 2Entender los

datos y el problema

Determinar la información de calidad del aire pertinente para este proyecto, de acuerdo con los datos suministrados por la SDA.

Fase 3 Preparar los datos

Establecer una vista minable, enfocándose en los rezagos en el tiempo que este acentuando la relación entre una variable y otra.

Fase 4 Modelar

Determinar los modelos apropiados de minería de datos para buscar la relación entre las variables atmosféricas y los contaminantes.

Fase 5Evaluar

Validar los resultados que provea el entrenamiento de los modelos de minería de datos con los resultados esperados y seleccionar los modelosde minería con más precisión.

Fase 6Desarrollo Crear un prototipo de Sistema de Información que se integre

con los resultados de los modelos de minería de datos seleccionada.

Page 16: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Metodología CRISP DM

Fase 1 de entender el problema• Plan del proyecto

Fase 2 entender los datos

• Resultados de correlaciones entre los atributos de la BD.• Resultados de las auto-correlaciones entre los contaminantes• Listado de los atributos mas influyentes de la BD.

Fase 3 Preparar los datos

• Listado de las técnicas de minería seleccionadas• Vista Minable de cada técnica

Page 17: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Metodología CRISP DM

Fase 4 Modelar• Modelos generados y aprobados

Fase 5 Evaluar

• Listado de los modelos seleccionados• Creación de la base de conocimiento

Fase 6 Desarrollo• SI Alertas tempranas

Page 18: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Contexto (Background) :

• Definir los stakeholders

• Investigar los recursos disponibles

• Identificar la situación actual

• Investigación de trabajos relacionados.

• Recopilación de información acerca de la calidad del aire.

• Recopilación de información acerca de los conceptos básicos de MD.

• Definir y planear la solución a los riesgos del proyecto

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 19: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Recopilación de la base de datos con los registros históricos

Descripción de los datos pertenecientes a los RH

Exploración de los datos

Control de calidad de los datos

Page 20: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Descripción de los datosNombre del Atributo Tipo de variable Tipo de Medición y/o formato

Fecha & Hora Datos Temporales dd/mm/aaaa h:mm

Ozono Continua Partes por billón (Ppb)

PM10 Continua Microgramos por metro cubico (µg/m3)

Velviento Continua Metros por segundo (m/s)

Temperatura Continua Grados celsius (°C)

Lluvia Continua Milímetros (mm)

NO2 Continua Partes por billón (Ppb)

NOX Continua Partes por billón

R_S Global Continua Watts por metro cuadrado ()

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 21: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Valores de cada atributo

Atributos de la base de datos Valores ejemplo

Ozono 123.65 – 123.64 ppb

PM10 223 – 224 µg/m3

Velocidad de los vientos 1.2 – 1.3 m/s

Temperatura 12.2 – 12.3 ºc

Radiación solar global 123-124

Precipitación 0 – 0,1 mm

NOX 123.65 – 123.64 ppb

NO2 12.12 – 12.13 ppb

Fecha&Hora 01/01/2002 13:00

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 22: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Exploración de los datos

Ozono 𝑃𝑀10

Correlaciones con rezagos de 1 y 2 horas

RadiaciónSG

Temperatura Velocidad de los Vientos

NOX y NO2

Velocidad de los Vientos

Temperatura

RadiaciónSG

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 23: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Verificar la calidad de los datos

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Atributo% Campos no

validos % Valores únicos

Ozono 10% 1%

PM10 6% 0%

Vel vientos 2% 0%

Temperatura 1% 0%

Lluvia 4% 0%

R_S Global 6% 0%

NO2 6% 1%

NOX 6% 4%

Objetivo 1 Cumplido

Page 24: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Fase preparación de los datos

Page 25: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Actividades

Integración de la base de datos

Limpieza de datos

Recopilación y selección de las técnicas de MD

Definir conjunto de preparación

Creación de variables derivadas

Creación del formato de los datos para cada técnica de MD

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 26: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Criterios de selección de las técnicas de MD usadas

Tipo de información obtenida

Cuál técnica contribuye a cumplir el objetivo

Investigar cuales técnicas no han sido trabajadas comúnmente

Las técnicas son de fácil representación

Forma de validar los resultados

Cubren las tareas de minería.

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 27: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Reglas de Asociación (Descriptiva)

Agrupamiento (Descriptiva)

Clasificación por Arboles de decisión (Predictiva)

Técnicas de minería seleccionadas

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 28: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

ClasificacionHora (madrugada, mañana, mediodía, tarde y noche)

PromRadiacionSG (mayor a promedio , menor a promedio, promedio)

Hora Pico (si o no)

Fin de semana (si o no)

Trimestres del año (4)

Creación de las variables derivadas

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 29: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Variables Ozono, PM10 y NO2 - Índice de la Agencia de protección Ambiental. (Bueno, Moderado y Desfavorable).

Velocidad de los vientos - Escala Beaufort (suave, ventolina, leve, regular y fuerte)

Lluvia - Escala de precipitación

Temperatura - índice de Missenard (Frio, menos tibio y tibio)

Radiación solar y NOX (Categorías de la funcionalidad de Analysis Services)

ClasificacionHora

Trimestres del Año

Formato de los datos para las técnicas de CA y RA

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 30: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Vista Minable para reglas de asociación y clasificación

Page 31: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Normalización lineal Uniforme ( 0 y 1)

v’ = (v - min)/ (max – min).

Discretización de los atributos continuos.

Formato de los datos para la técnica de Agrupamiento

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 32: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Vista Minable para Agrupamiento

Objetivo 2 cumplido

Page 33: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Fase Modelar

o Selección de los atributos de entrada de la VM

o Configuración de parámetros*

o Ejecución de los algoritmos de cada técnica*

Page 34: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Selección de los atributos de entrada

Función del método de selección de características

Función del método red de dependencias

Consultas con expertos en calidad del aire.

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 35: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Método de selección de características

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Variable Objetivo : PM10 Variable Objetivo : Ozono

Page 36: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Modelos generados

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Objetivo 3 cumplido

Page 37: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Fase de Evaluación

Evaluación de cada modelo

Seleccionar los modelos apropiados para implementar la aplicación

Analizar los resultados de los patrones generados

Creación de la base de conocimiento

Page 38: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Evaluación de los modelos

Se dividió el total de registros, en el conjunto de prueba y entrenamiento para conocer la precisión del modelo.(80%)

Los registros históricos del 2013 como segundo conjunto de prueba.

Analizar los resultados generados (comunes) con la experta en calidad del aire.

Se compararon algunos patrones generados por las técnicas con hipótesis de trabajos relacionados con calidad del aire validados previamente.

Se identificaron los patrones comunes extraídos de los modelos creados. Reafirmas la validez de los patrones.

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 39: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Selección de los modelos apropiados

Pruebas de rendimiento

Criterio de evaluación calificado en una escala de 1 a 10 teniendo en cuenta que 1 es la puntuación más baja y 10 la más alta.

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 40: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

• Vista detallada

Visualización de los patrones encontrados

• Vista gráfica

Page 41: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Visualización detallada

Page 42: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Vista previa modelo CAO3

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 43: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Vista previa modelo CAO3

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 44: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Modelo CAPM10

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Page 45: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Resultados del conjunto de pruebas

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Objetivo 4 cumplido

Page 46: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Fase de desarrollo

Definir los requerimientos de la aplicación

Crear el prototipo de alertas tempranas

Realizar pruebas funcionales, de usabilidad y de aceptación

Page 47: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Arquitectura MVC

Fase 1 Entender el problema

Fase 2 Entender los datos

Fase 3 Preparar los datos

Fase 4 Modelar Fase 5 Validación Fase 6 Desarrollo

Objetivo 5 cumplido

Page 48: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Conclusiones TG

Page 49: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Conclusiones

El objetivo general y los objetivos específicos se cumplieron a cabalidad y esto se ve reflejado en el desarrollo de cada fase metodológica.

Se observó que se pueden encontrar relaciones entre variables que responden a series de tiempo utilizando técnicas descriptivas y predictivas de minería de datos.

En el impacto económico hace que ofrecer un modelo de minería de datos que implica menos costo de operación que otros sea de utilidad para cualquier entidad que tome medidas políticas.

En el impacto tecnológico se basa en el uso de técnicas de Minería de Datos con series de tiempo como una alternativa viable para encontrar relaciones entre variables y pronosticar comportamientos de las mismas.

El impacto ambiental se enfoca en la prevención y cuidado del medio ambiente por medio del SI.

Page 50: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Trabajos futuros

Page 51: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Trabajos futuros

Analizar y si es el caso incluir como atributos de entrada tanto al modelo de minería como al prototipo la humedad relativa.

Replicar los modelos a todas las estaciones de medición de la RMCAB.

Conectar los modelos creados con la base de datos de la RMCAB que guarda los datos en tiempo real.

Page 52: APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA BÚSQUEDA DE RELACIONES ENTRE VARIABLES QUE RESPONDEN A SERIES DE TIEMPO, CASO DE ESTUDIO CONTAMINACIÓN

Prototipo