Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
INTEGRACIÓN DEL CONCEPTO DE VARIABILIDAD HIDROCLIMÁTICA EN PRONÓSTICOS HIDROLÓGICOS DE LARGO PLAZO DE RESOLUCIÓN MENSUAL
EN COLOMBIA
por:
Andrés Norberto Velasco Sánchez Ingeniero Civil
Trabajo de grado presentado como requisito para optar al título de Magíster en Hidrosistemas
Pontificia Universidad Javeriana Facultad de Ingeniería
Maestría en Hidrosistemas Bogotá, junio de 2.016
INTEGRACIÓN DEL CONCEPTO DE VARIABILIDAD HIDROCLIMÁTICA EN PRONÓSTICOS HIDROLÓGICOS DE LARGO PLAZO DE RESOLUCIÓN MENSUAL
EN COLOMBIA
Director:
Efraín Antonio Domínguez Calle Ingeniero Hidrólogo, MSc. en Ecología Hidrometeorológica
PhD. en Ciencias Técnicas
Evaluadores:
Hebert Gonzalo Rivera Ingeniero Hidrólogo, MSc. en Ecología Hidrometeorológica
PhD. en Ciencias Técnicas
Juan Diego Giraldo Osorio Ingeniero Civil, MSc. en Ingeniería Civil
PhD. en Gestión de Recursos Hídricos
Emel Enrique Vega Rodríguez Hidrometeorólogo
MSc. en Meteorología PhD. (c) en Ciencias de la tierra, el universo y el medio ambiente
Aprobada en Bogotá, a los 30 días del mes junio de 2.016
A Lizeth y Mariana por su tiempo y su amor.
A mi madre y mis hermanas por toda su ayuda.
AGRADECIMIENTOS
Quiero dar mi más profundo agradecimiento al profesor Efraín Domínguez por su dedicación en
este trabajo de grado, por la confianza depositada en mí y por todas las enseñanzas impartidas a
nivel académico, profesional y personal.
A cada uno de los profesores de la maestría que aportaron sus conocimientos para mi formación
académica. A mis compañeros de estudio con los que hemos crecido académicamente,
especialmente a John Chavarro, Miguel Ángel Cañón, David De León, al estudiante de ecología
Diego Soler y a Juan Felipe Martínez, egresado de la maestría.
Finalmente, quiero agradecer a la Facultad de Estudios Ambientales y Rurales y a EMGESA,
quienes me permitieron participar como investigador en el convenio PRONOS II: ADAPTACIÓN
Y EXPANSIÓN DEL SISTEMA PRONOS A CONDICIONES DE OPERACIÓN EN CASCADA Y
ANÁLISIS DE VARIABILIDAD DE PRONÓSTICO BAJO ALTA PRESIÓN ANTRÓPICA Y A
HORIZONTES DE LARGO PLAZO, donde serán aplicados los hallazgos de este trabajo.
This research is partially supported by the Programmatic Cooperation between the Directorate-General for International Cooperation (DGIS) of the Dutch Ministry of Foreign Affairs and IHE Delft in the period 2016 - 2020, also called DUPC2.
i
TABLA DE CONTENIDO
INTRODUCCIÓN ........................................................................................................................ 1
1 MARCO CONCEPTUAL ...................................................................................................... 3
1.1 VARIABILIDAD HIDROCLIMÁTICA ........................................................................................ 4
1.1.1 VARIABILIDAD CLIMÁTICA .................................................................................................. 4
1.1.2 VARIABILIDAD HIDROLÓGICA .............................................................................................. 4
1.1.3 ANÁLISIS DE LA VARIABILIDAD ........................................................................................... 5
1.2 CLIMA Y ESTADO DEL TIEMPO .............................................................................................. 8
1.3 RÉGIMEN HIDROLÓGICO Y ESTADO DE LOS RÍOS ................................................................. 9
1.4 PRONÓSTICOS HIDROLÓGICOS ............................................................................................ 10
1.5 MÉTRICAS DE DESEMPEÑO .................................................................................................. 11
1.5.1 COEFICIENTE DE DETERMINACIÓN ...................................................................................... 11
1.5.2 INERCIA DE LA RAÍZ DEL ERROR CUADRÁTICO MEDIO......................................................... 12
1.5.3 ERROR MEDIO ABSOLUTO RELATIVO .................................................................................. 12
1.5.4 CRITERIO DEL SERVICIO DE PRONÓSTICO HIDROLÓGICO RUSO .......................................... 13
1.6 TELECONEXIONES ................................................................................................................ 13
2 METODOLOGÍA ................................................................................................................. 17
2.1 ÁREA DE ESTUDIO ................................................................................................................ 17
2.2 RECOLECCIÓN Y ANÁLISIS DE INFORMACIÓN HIDROMETEOROLÓGICA ............................ 18
2.2.1 INFORMACIÓN DISPONIBLE ................................................................................................. 18
2.2.2 DETECCIÓN DE DATOS ANÓMALOS ..................................................................................... 20
2.2.3 COMPLEMENTACIÓN DE DATOS FALTANTES ....................................................................... 23
2.2.4 SELECCIÓN DE SERIES HIDROLÓGICAS REPRESENTATIVAS .................................................. 25
2.2.5 ANÁLISIS MORFOMÉTRICO DE LAS UNIDADES DE ANÁLISIS ESPACIAL ................................. 32
ii
2.3 ANÁLISIS COMO VARIABLE ALEATORIA .............................................................................. 35
2.3.1 PRUEBAS DE ALEATORIEDAD .............................................................................................. 35
2.3.2 AJUSTE DE FUNCIÓN DE DENSIDAD DE PROBABILIDAD ...................................................... 36
2.3.3 PRIMER MOMENTO ESTADÍSTICO ........................................................................................ 36
2.4 ANÁLISIS COMO SERIE DE TIEMPO ...................................................................................... 37
2.4.1 FUNCIÓN DE AUTOCORRELACIÓN ....................................................................................... 38
2.4.2 DETECCIÓN DE ESTACIONALIDAD ....................................................................................... 38
2.5 CORRELACIÓN CRUZADA CON PREDICTORES EXÓGENOS .................................................. 39
2.6 ANÁLISIS DE TELECONEXIONES ........................................................................................... 39
2.7 CONCEPTO DE VARIABILIDAD HIDROCLIMÁTICA ............................................................... 40
2.7.1 COMPONENTE ALEATORIO ................................................................................................. 41
2.7.2 COMPONENTE ESTACIONAL ................................................................................................ 42
2.7.3 COMPONENTE INERCIAL ..................................................................................................... 43
2.7.4 TENDENCIA ........................................................................................................................ 44
2.7.5 CICLOS SECULARES ............................................................................................................ 44
2.7.6 FENÓMENOS RECURRENTES ................................................................................................ 45
2.8 MODELOS DE PRONÓSTICO .................................................................................................. 47
2.8.1 SELECCIÓN DE PREDICTORES .............................................................................................. 48
2.8.2 MODELOS AUTO-REGRESIVOS Y DE MEDIA MÓVIL (ARMA) ............................................ 50
2.8.3 MÁQUINAS DE SOPORTE VECTORIAL (SVM) ..................................................................... 50
2.8.4 COMBINACIONES LINEALES ADAPTATIVAS Y ÓPTIMAS (CLAO) ....................................... 50
2.9 EXPERIMENTOS NUMÉRICOS ............................................................................................... 52
3 ANÁLISIS DE RESULTADOS ........................................................................................... 57
3.1.1 ANÁLISIS COMO VARIABLE ALEATORIA .............................................................................. 57
3.1.2 ANÁLISIS COMO SERIE DE TIEMPO ...................................................................................... 63
3.1.3 ANÁLISIS DE CORRELACIÓN CRUZADA ............................................................................... 65
3.1.4 ANÁLISIS DE TELECONEXIONES .......................................................................................... 66
3.1.5 MODELOS DE PRONÓSTICO ................................................................................................. 67
4 CONCLUSIONES ................................................................................................................. 74
iii
BIBLIOGRAFÍA......................................................................................................................... 76
iv
LISTA DE TABLAS
Tabla 1. Descripción de los Índices Climáticos analizados .......................................................... 14
Tabla 2. Series disponibles por área hidrográfica ......................................................................... 24
Tabla 3. Matriz de correlaciones series área Caribe ..................................................................... 28
Tabla 4. Conexiones de las correlaciones series área Caribe ........................................................ 29
Tabla 5. Series seleccionadas por unidad de análisis espacial ...................................................... 31
Tabla 6. Parámetros morfométricos analizados ............................................................................ 32
Tabla 7. Parámetros morfométricos de las áreas aferentes de las series seleccionadas ................ 34
Tabla 8. Modelos utilizados en experimentos numéricos ............................................................. 53
Tabla 9. Códigos internos de las series hidrológicas seleccionadas ............................................. 55
Tabla 10. Codificación tratamiento de series ................................................................................ 55
Tabla 11. Codificación selección de predictores .......................................................................... 56
Tabla 12. Codificación modelos de pronóstico ............................................................................. 56
Tabla 13. Codificación horizontes de pronóstico ......................................................................... 56
Tabla 14. Evolución del promedio del r2 ...................................................................................... 70
Tabla 15. Evolución del promedio del s/ .................................................................................. 71
Tabla 16. Evolución del promedio del MARE ............................................................................. 72
Tabla 17. Evolución del promedio del SHPR ............................................................................... 72
v
LISTA DE FIGURAS
Figura 1. Diagrama conceptual propuesto de variabilidad hidroclimática ..................................... 5
Figura 2. Relaciones entre la media, la mediana y la moda ............................................................ 7
Figura 3. Zonas Niño .................................................................................................................... 14
Figura 4. Áreas Hidrográficas de Colombia ................................................................................. 17
Figura 5. Series hidrometeorológicas disponibles ........................................................................ 18
Figura 6. Problemas típicos encontrados en series de tiempo hidrometeorológicas ..................... 20
Figura 7. Diagrama de flujo detección de datos anómalos ........................................................... 22
Figura 8. Salidas gráficas detección de datos anómalos ............................................................... 23
Figura 9. Diagrama de flujo de complementación de información .............................................. 24
Figura 10. Estaciones hidrológicas disponibles ............................................................................ 25
Figura 11. Varianza explicada Análisis de Componentes Principales área Caribe ...................... 27
Figura 12. Componente 1 y 2 para series del área Caribe ............................................................ 27
Figura 13. Conexiones de las correlaciones series área Caribe .................................................... 30
Figura 14. Análisis de componentes principales para la morfometría de las series seleccionadas
....................................................................................................................................................... 33
Figura 15. Esquema de caracterización como variable aleatoria .................................................. 35
Figura 16. Función de autocorrelación para la serie de caudal 13077060 .................................... 38
Figura 17. Correlación cruzada serie hidrológica 13077060 con series de precipitación y caudal
....................................................................................................................................................... 39
Figura 18. Concepto de variabilidad hidroclimática ..................................................................... 41
Figura 19. Ajuste de PDF a la serie de abriles de la serie de caudal 13077060 ........................... 42
Figura 20. Valores esperados para la serie de caudal 13077060 .................................................. 43
Figura 21. Función de autocorrelación para la serie desestacionalizada de caudal 13077060 ..... 44
Figura 22. Curva de Diferencias Integradas para la serie de caudal 13077060 ............................ 45
Figura 23. Correlación cruzada entre la serie de caudal 13077060 e IOA ................................... 46
Figura 24. Correlación cruzada entre la serie desestacionalizada de caudal 13077060 e IOA .... 47
Figura 25. Modelos de pronóstico empleados .............................................................................. 48
Figura 26. Emisión pronóstico para serie 24017600 (ene – 2.004) .............................................. 53
Figura 27. Experimentos numéricos desarrollados ....................................................................... 54
vi
Figura 28. Codificación de los resultados obtenidos en los experimentos numéricos .................. 54
Figura 29. Ajuste de funciones de densidad de probabilidad ....................................................... 58
Figura 30. Componente Estacional Series Zona Caribe ............................................................... 59
Figura 31. Componente Estacional Series Alto y Medio Magdalena ........................................... 60
Figura 32. Componente Estacional Series ríos Saldaña y Sogamoso ........................................... 60
Figura 33. Componente Estacional ríos Cauca y Nechí ............................................................... 61
Figura 34. Componente Estacional Zona Bajo Magdalena – Cauca ............................................ 61
Figura 35. Componente Estacional Zona Magdalena – Costa ...................................................... 62
Figura 36. Componente Estacional zonas Orinoco y Amazonas .................................................. 62
Figura 37. Componente Estacional Zona Pacífico ........................................................................ 63
Figura 38. Funciones de autocorrelación de las series hidrológicas, 6 estaciones ....................... 64
Figura 39. Análisis de correlación cruzada para la serie 13077060 y otras series de caudal y
precipitación .................................................................................................................................. 65
Figura 40. Caracterización de los fenómenos macroclimáticos en la hidrología colombiana ...... 67
Figura 41. Resultados pronósticos para la serie hidrológica 13077060 ........................................ 69
Figura 42. Evolución de las métricas de desempeño para los pronósticos de la serie 13077060 . 70
Figura 43. Evolución de la media y la variabilidad del r2 ............................................................. 71
Figura 44. Evolución de la media y la variabilidad del s/ ......................................................... 71
Figura 45. Evolución de la media y la variabildad del MARE ..................................................... 72
Figura 46. Evolución de la media y la variabilidad del SHPR ..................................................... 73
vii
LISTA DE ACRÓNIMOS
ACF: Función de autocorrelación 42
CDI: Curva de diferencias integradas 16
DEM: Modelo de elevación digital 18
DMAD: Doubles Median Absolute Deviation 21
El Niño Oscilación del Sur 2
IDEAM: Instituto de Hidrología, Meteorología y Estudios Ambientales. 18
KNN: K-Nearest Neighbor 21
MAD: Median Absolute Deviation 21
MARE: Error medio absoluto relativo 12
NOAA: Administración Nacional Oceánica y Atmosférica de los Estados Unidos de América 45
Organización Meteorológica Mundial 1
PCA: Análisis de componentes principales 25
SPHR: Criterio del Servicio Hidrológico Ruso 13
Temperatura Superficial del Océano 2
Zona de Confluencia Intertropical 58
1
INTRODUCCIÓN
Los resultados de la predicción de variables hidrológicas a múltiples escalas de tiempo se han
utilizado ampliamente en diferentes áreas como protección ambiental, prevención de
inundaciones, protección ante sequías, operación de embalses y gestión del recurso hídrico.
Usualmente, estas predicciones se realizan con enfoques deterministas o estocásticos dependiendo
de la finalidad de los pronósticos y de los requerimientos planteados por el usuario final (D.
Koutsoyiannis 2003). Otro aspecto tomado en consideración es la inclusión explícita de los
factores que caracterizan la variabilidad climática, pretendiendo con ello ampliar los horizontes de
pronóstico a mayores plazos, pero sin definir claramente este concepto y los métodos que se
requieren para cuantificarlo. Esto plantea un vacío conceptual y metodológico que debe ser llenado
para considerar la variabilidad climática como un factor primordial para mejorar la predictibilidad
de sistemas hidrológicos, caracterizar la incertidumbre de los mismos y apoyar su gestión
operativa.
El trabajo de la Organización Meteorológica Mundial (OMM) (IPCC 2007) señala que la
comprensión de la variabilidad hidroclimática constituye la clave para la adaptación a procesos de
cambio climático global, por ello recomienda entenderla como estrategia para la reducción de
riesgos. En este sentido, la formalización de este concepto y su inclusión manifiesta en pronósticos
hidrológicos de largo plazo resulta prometedora.
El trabajo de Katz & Brown (1992) reporta que para la formulación de escenarios de largo plazo
la caracterización de extremos es más importante que la evolución de los valores promedio. Esto
permite inferir que la inclusión del concepto de variabilidad climática en pronósticos hidrológicos
de largo plazo podría reducir la incertidumbre de los mismos.
Para el caso específico de Colombia, se ha estudiado la viabilidad de realizar pronósticos
hidrológicos a niveles horario, diario y decadiario, a través de Combinaciones Lineales
Adaptativamente Óptimas (CLAO) (Domínguez Calle et al. 2010). En este estudio se utiliza un
enfoque determinista para la validación de dicha metodología a la escala temporal planteada, sin
validar su uso en pronósticos de largo plazo. Poveda et al. (2002) encuentran algunas relaciones
entre fenómenos de gran escala entre algunos índices climáticos y variables hidrológicas en
2
diferentes zonas de Colombia, permitiendo pensar que se pueden realizar pronósticos hidrológicos
de largo plazo utilizando los índices macroclimáticos como predictores.
De Viron et al. (2013) determinaron que existe correlación significativa entre la mayoría de 25
índices macroclimáticos (SOI, TNA, TSA, MJO, NAO, entre otros) analizados a escalas de tiempo
interanuales; se encontró que en promedio las dos terceras partes de la variabilidad de cada índice
puede ser descrita por los cuatro primeros componentes principales de todo el conjunto de índices
rezagados. También se encontró que la mayor parte de la variabilidad está asociada con la
Temperatura Superficial del Océano (SST), lo que sugiere encontrar las relaciones de estos índices
con la variabilidad en la hidroclimatología colombiana a diferentes escalas de tiempo. En este
mismo sentido, en un caso de estudio realizado para el pronóstico de la precipitación en la cuenca
del embalse de Warragamba en Australia, se encontró que utilizando como predictores los índices
climáticos que tienen que ver con el fenómeno de El Niño Oscilación del Sur (ENSO) y los valores
de la SST se obtienen resultados satisfactorios para pronósticos de largo plazo (Sharma 2000),
dejando planteada la opción de utilizar estos predictores en forma combinada, con el fin de mejorar
el desempeño de los pronósticos hidrológicos.
Aunque los trabajos mencionados muestran desarrollos de métodos de pronóstico de largo plazo,
estos no definen de forma clara el concepto de variabilidad hidroclimática y no establecen los
mecanismos necesarios para su caracterización y utilización como predictores en pronósticos de
este tipo. En ese sentido, este documento propone una alternativa de análisis del concepto de
variabilidad hidroclimática desde un enfoque integral que es descrito a través de diferentes
componentes que pueden caracterizarla, además, se evalúa la precisión y predictibilidad de
métodos de pronóstico que pueden o no permitir la incorporación explícita de elementos de
variabilidad hidroclimática bajo el esquema propuesto.
3
1 MARCO CONCEPTUAL
El marco conceptual de este trabajo está basado en una amplia revisión bibliográfica, en la cual se
identificaron los estudios realizados con respecto a variabilidad hidroclimática y a pronósticos
hidrológicos de largo plazo. Adicionalmente, la teoría de procesos estocásticos aportó gran parte
al entendimiento del problema planteado, especialmente en lo referente a la caracterización del
proceso que se conoce como caudal, objeto de los pronósticos que se van a evaluar en este
documento.
A continuación, se presentan algunos conceptos clave para el entendimiento del presente trabajo
de investigación, estos conceptos fueron tomados del Glosario hidrológico internacional
(UNESCO & WMO 2012):
Tiempo atmosférico: Estado de la atmósfera en un instante dado, definido por los diversos
elementos meteorológicos.
Clima: Síntesis de las condiciones meteorológicas en un lugar determinado, caracterizada
por estadísticas a largo plazo de los elementos meteorológicos en dicho lugar.
Variabilidad climática: Desviación de las estadísticas del clima de un determinado periodo
(mes, estación o año) respecto de las estadísticas de largo plazo de dicho periodo.
Cambio climático: Modificación a largo plazo del clima producida por uno o más de los
siguientes factores: i) cambios internos dentro del sistema climático; ii) interacción entre
componentes climáticos; iii) cambios en fuerzas extremas originadas por fenómenos
naturales o por actividades humanas.
Variabilidad hidrológica: Desviación de las estadísticas de las mediciones hidrológicas en
un determinado periodo respecto de las estadísticas de largo plazo de dicho periodo.
Por las definiciones presentadas, se aprecia que la variabilidad hidrológica y climática se enmarca
principalmente en el espacio y el tiempo, sin embargo, existen factores como el antropogénico que
afectan vastamente a las magnitudes hidrológicas. Si bien estos otros factores son importantes para
el entendimiento de la variabilidad hidrológica y climática, este estudio se enfoca principalmente
en los componentes espaciales y temporales, aunque se presentan componentes de la variabilidad
4
que podrían relacionarse con estos otros factores, los cuales pueden ser estudiados con más detalle
con posterioridad a este estudio, tomando como base los avances aquí presentados.
Finalmente, el enfoque presentado para el análisis de la variabilidad hidrológica y climática es el
estadístico ya que, a juicio del investigador, brinda la posibilidad de dar una definición objetiva de
la variabilidad a partir de diferentes técnicas que presentan resultados unívocos.
1.1 Variabilidad Hidroclimática
Los fenómenos hidroclimáticos tienen componentes deterministas y de aleatoriedad; de este modo,
se tiene un sistema gobernado por la física, en el cual, iguales estados del sistema pueden generar
resultados distintos. Esa posibilidad de distintos resultados es entendida desde la estadística y la
física como variabilidad.
Estadísticamente, la variabilidad se puede identificar como qué tan cerca, o lejos, se encuentran
los datos en un conjunto estadístico con respecto a un valor central, entre más grande es esta, menor
representatividad o confianza brinda el valor esperado; por el contrario, si esta es pequeña, existe
una gran uniformidad en el conjunto de datos (Mendoza & Bautista 2002).
1.1.1 Variabilidad Climática
La variabilidad climática se refiere a las variaciones en el estado medio y otras estadísticas del
clima, en diferentes escalas espaciales y temporales. Esta puede obedecer a procesos internos
naturales dentro del sistema climático (variabilidad interna), o a variaciones en fuerzas externas
de origen antropogénico o natural (variabilidad externa) (IPCC 2013). Los componentes de la
variabilidad climática pueden agruparse en dos tipos principales: aleatorio y determinístico. En el
trópico, la variabilidad climática a diferentes escalas temporales está dominada por patrones
cíclicos (MJO, Ondas Ecuatoriales, ENSO, QBO, AMO) (Laing & Evans 2015).
1.1.2 Variabilidad Hidrológica
De acuerdo con Woods (2006), los fenómenos hidrológicos tienen variaciones significativas en
tiempo y espacio. Estas variaciones están influenciadas por diferentes factores fisiográficos, así
como también por actividades humanas y animales. Estos factores externos se propagan a través
de los sistemas hidrológicos, resultando un gran espectro de variabilidad hidrológica en diferentes
5
escalas espaciales y temporales. Cualquier enfoque al problema de la variabilidad requiere la
selección adecuada de escalas temporales y espaciales para diferentes configuraciones físicas. La
selección de la escala tendrá un resultado directo sobre la forma en que la variabilidad es percibida.
De acuerdo con Doménech et al. (2015), la variabilidad climática no implica variabilidad
hidrológica, esto debido al rol que cumple la cuenca en el proceso hidrológico.
La principal causa de variabilidad hidrológica temporal puede estar asociada a procesos
meteorológicos que controlan la precipitación y la evaporación. Los otros factores comunes de
variabilidad hidrológica temporal son el manejo del agua y la tierra que le dan los humanos. La
variabilidad hidrológica espacial está gobernada externamente por patrones espaciales del clima,
suelos, vegetación, topografía y geología. Sin embargo, a escalas muy grandes, se desarrollan
organizaciones espaciales complejas las cuáles son creadas por la dinámica interna del sistema
hidrológico.
En la Figura 1, se propone un diagrama conceptual para los componentes de la variabilidad
climática para zonas tropicales, como es el caso de Colombia. A través de esta caracterización, se
pretende explicar cuál es la influencia que tiene cada fenómeno en la variabilidad climática. Para
poder discernir un evento actual, y explicar cómo y por qué se desenvuelve, es necesario recurrir
a herramientas que nos permitan establecer conexiones entre las características de una realización
completa contra los factores que influyen sobre el sistema, estas relaciones pueden ayudar en el
pronóstico, también.
Figura 1. Diagrama conceptual propuesto de variabilidad hidroclimática
1.1.3 Análisis de la Variabilidad
En estadística descriptiva se tienen básicamente dos tipos de medidas de dispersión: absolutas y
relativas. Las absolutas se caracterizan por ser números concretos, es decir, valores expresados en
6
las mismas unidades que la variable en estudio y, por lo tanto, no admiten comparaciones o análisis
con variables expresadas en otras unidades (varianza, desviación estándar, rango intercuartílico).
1.1.3.1 Medias de tendencia central
Las medidas de tendencia central permiten indicar un valor central en torno al cual tienden a
acumularse los datos, sin embargo, estas medidas no dan información detallada contenida en los
mismos, para esto se hacen necesarias las medidas de variabilidad.
Las medidas de tendencia central más usadas en climatología son: la media aritmética, más
conocida como el promedio, sin embargo, esta medida no es representativa de la tendencia central
de distribuciones sumamente asimétricas; otra medida de la tendencia central es la media
ponderada, la cual se obtiene asignando diferente nivel de importancia a las observaciones, aquí la
clave es encontrar una ponderación adecuada dependiendo del problema al que se esté enfrentando.
Un problema de utilizar las medias como medida de tendencia central, es que son muy sensibles a
los valores inusuales, unas pocas observaciones extremas pueden destruir el carácter representativo
de las medias.
Otro valor de medida de tendencia central es la mediana, la cual corresponde al medio de una
distribución de frecuencias acumulativas, la mitad de los datos están por encima de la mediana y
la otra mitad está por debajo; las variaciones extremas influyen menos en la mediana que en la
media porque esta es una medida de posición, por lo tanto, las observaciones extremas no influyen
sobre esta.
La moda es el valor que más se presenta en el conjunto de datos y, al igual que la mediana, es una
medida posicional, esta no se ve afectada ni por el valor (como le sucede a la media) ni por la
posición de otras observaciones (como le ocurre a la mediana); esta medida puede aplicar muy
bien a medidas circulares, como la dirección del viento.
En una distribución de frecuencias perfectamente simétrica con una moda, tal como la distribución
gaussiana, los valores de la media, la mediana y la moda serán exactamente los mismos. Si la
distribución de frecuencias presenta un sesgo hacia los valores elevados, el valor más alto será el
de la media, seguido por el de la mediana y luego el de la moda. Esta secuencia se revierte si la
distribución de la frecuencia presenta un sesgo hacia los valores bajos (WMO 2011).
7
Figura 2. Relaciones entre la media, la mediana y la moda
Fuente: OMM (WMO 2011).
1.1.3.2 Medidas de variabilidad
Con una medida de tendencia central establecida, es posible medir la variabilidad de las
observaciones con respecto a ese valor. La variabilidad puede medirse en términos absolutos o
relativos. La medida más simple de variabilidad absoluta es el rango de observaciones, el cual es
la diferencia existente entre los valores más altos y más bajos; el rango presenta muchas
limitaciones, por ejemplo, este no ofrece información sobre el carácter de la distribución de
frecuencias dentro de los límites extremos. El rango intercuartil es otra medida de la variabilidad
absoluta, se calcula como la diferencia entre el primer y el tercer cuartil, es decir, es el rango del
50% central de las observaciones ordenadas. También es posible calcular otros rangos centrales
de manera similar.
Otra medida de variabilidad es la desviación media, correspondiente a la media del valor absoluto
de todas las desviaciones de las distintas observaciones respecto de la medida de tendencia central
escogida. Si bien es posible calcular las desviaciones a partir de la media, la mediana o la moda,
en principio, deberían calcularse a partir de la mediana, puesto que la suma de las desviaciones
absolutas respecto de la mediana es menor o igual que la suma de la media o de la moda.
8
La desviación estándar es la raíz cuadrada de la media del cuadrado de todas las distintas
desviaciones respecto de la media, las desviaciones se toman a partir de la media en vez de la
mediana o de la moda debido a que la suma de los cuadrados de la media es un mínimo. Si las
desviaciones se elevan al cuadrado, hay una mayor ponderación de las variaciones extremas. La
desviación estándar se utiliza para deducir muchas medidas estadísticas, también se usa
ampliamente como cantidad normativa para normalizar diferentes distribuciones con el fin de
establecer comparaciones (WMO 2011).
La desviación estándar es usada ampliamente para identificar cambios en la variabilidad de series
de tiempo hidrometeorológicas (Dai et al. 1997; Jacob et al. 2007; van Oldenborgh et al. 2005;
Rajeevan et al. 2008).
Un problema de utilizar las desviaciones como medida de variabilidad tiene que ver con las
comparaciones. Las comparaciones deberían hacerse solo si los promedios respecto de los que se
han medido las desviaciones tienen un valor aproximadamente igual y cuando las unidades de
medición sean las mismas. Si se requieren hacer comparaciones, lo más útil es encontrar una
medida de variabilidad de carácter relativo, una de esas medidas es el coeficiente de variación, que
es la relación entre la desviación estándar y la media de un conjunto de datos.
El coeficiente de variación también es utilizado para estimar la variabilidad en series de tiempo
(Déry et al. 2012; Li et al. 2005).
Otras técnicas usadas para el análisis de la variabilidad hidrológica, climática, o hidroclimática
son: Análisis de Wavelet (Massei & Fournier 2012), Transformada de Hilbert Huang (HHT)
(Huang & Wu 2008; Baines 2005) y Funciones Empíricas Ortogonales (Wu et al. 2015; Bowden
& Semazzi 2007; Rajeevan et al. 2008).
1.2 Clima y estado del tiempo
Se considera estado del tiempo al estado de la atmósfera en un instante dado, definido por
diferentes elementos meteorológicos (UNESCO & WMO 2012).
De acuerdo con la Organización Meteorológica Mundial (WMO 2011): “en sentido estricto, se
entiende por clima las condiciones meteorológicas normales correspondientes a un lugar y
período de tiempo determinados. El clima puede explicarse mediante descripciones estadísticas
9
de las tendencias y la variabilidad principales de elementos pertinentes, como la temperatura, la
precipitación, la presión atmosférica, la humedad y los vientos, o mediante combinaciones de
elementos, tales como tipos y fenómenos meteorológicos, que son característicos de un lugar o
región, o del mundo en su conjunto, durante cualquier período de tiempo.”
Usualmente, el clima es definido someramente como el valor esperado del estado del tiempo, o
más rigurosamente, como la descripción estadística en términos de valores medios y variabilidad
de cantidades relevantes sobre un periodo de tiempo que puede ir desde meses hasta millones de
años. El periodo clásico para promediar esas variables es de 30 años, tal como lo definió la
Organización Meteorológica Mundial. Las cantidades relevantes, generalmente, son variables
superficiales como precipitación, temperatura y viento. El clima, en un sentido más amplio, es el
estado, incluyendo una descripción estadística, del sistema climático, el cual se puede definir como
el sistema de alta complejidad compuesto por 5 grandes componentes: la atmósfera, la hidrósfera,
la criósfera, la litósfera y la biósfera, y las interacciones entre ellos (IPCC 2013).
1.3 Régimen hidrológico y estado de los ríos
El régimen hidrológico de un río se refiere al comportamiento predominante de los caudales en un
periodo de tiempo determinado (Richter et al. 1997). De acuerdo con Proff y otros (Poff et al.
1997) el régimen de hidrológico de un río puede y debe ser descrito a través de ciertos atributos
fundamentales: la magnitud, duración, frecuencia, estacionalidad, predictibilidad y tasa de cambio.
Para la evaluación de pronósticos hidrológicos es necesario tener claro el régimen hidrológico del
curso de agua con el fin de conocer aproximadamente el comportamiento natural del río. El
conocimiento del régimen natural debe ser complementado con el conocimiento del estado el río,
es decir saber cuan afectada se encuentra la cuenca de aportes al río, por ejemplo, un embalse
produce una regulación de los caudales que la cuenca descarga aguas abajo del mismo.
Conocer el régimen y el estado de los ríos sirve de información de entrada para el análisis de los
pronósticos hidrológicos ya que estos se ven afectados por la presión antrópica, la cual, muestra
dos extremos de comportamiento diferencial: el primero en las épocas de sequía, cuando la presión
antrópica sobre el cauce del río exacerba los efectos de la sequía debido al incremento del uso
precisamente por la disminución del recurso hídrico; el segundo extremo es en las épocas húmedas
donde el incremento de las precipitaciones genera una disminución en la presión antrópica sobre
10
el cauce del río debido al efecto mismo de la mayor disponibilidad del recurso (Angarita et al.
2013).
Teniendo en cuenta esto, se hace necesaria la evaluación de pronósticos hidrológicos preparados
técnicamente, incorporando el conocimiento del régimen hidrológico y el estado del río a fin de
desarrollar predicciones más aproximadas a la realidad.
1.4 Pronósticos hidrológicos
En la guía de prácticas hidrológicas de la Organización Meteorológica Mundial (WMO 2008) se
define la predicción hidrológica como la estimación del estado futuro de los fenómenos
hidrológicos. El desarrollo de un país se encuentra estrechamente ligado con los recursos hídricos
para conocer la influencia que estos pueden tener en la sociedad y en cada una de las actividades
que desarrolla el ser humano ya que permite la prevención de catástrofes y el aprovechamiento de
los recursos de una mejor manera (WMO 2008).
Las predicciones hidrológicas pueden ser desarrolladas en el tiempo a corto, mediano, largo y ultra
largo plazo de acuerdo a las necesidades o al proyecto que se esté desarrollando, por ejemplo, los
sistemas de alerta temprana en los cuales el periodo de predicción hidrológico es corto, pero con
una alta influencia para desarrollos sociales que se ubican en las riberas de los cuerpos de agua.
En cuanto a las predicciones a mediano plazo se puede resaltar la evaluación de ciclos estacionales
de la precipitación con el cual se tiene una idea bastante aproximada de los ciclos húmedos y secos
que tiene una región de estudio determinada.
La evaluación de predicciones hidrológicas a largo plazo las podemos observar en la factibilidad
de embalses de producción energética, en los cuales se evalúan ciclos estacionales en ventanas de
tiempo que permitan calcular la relación costo/beneficio para el inversor, determinando si el
proyecto es rentable o no. El caso de los ciclos seculares nos permite hacer pronósticos o
previsiones a ultra largo plazo, ya que se puede observar (de existir) la recurrencia de fenómenos
de baja frecuencia que describen cierta estructura de fondo en el comportamiento de las variables
hidrológicas que no se detecta a simple vista en las series de tiempo observadas.
Existe una diferencia clara entre el cálculo estadístico en hidrología y la predicción hidrológica,
mientras que el cálculo estadístico sirve al hidrólogo para evaluar la probabilidad esperada de
ocurrencia de una magnitud hidrológica específica, la predicción hidrológica permite calcular las
11
magnitudes de un evento del régimen hidrológico para una ventana de tiempo determinada hacia
el futuro, sin embargo ambos tipos de cálculo o evaluación resultan aproximados y manejan cierto
grado de incertidumbre (WMO 2008).
La fiabilidad de las predicciones se encuentra directamente relacionada con la incertidumbre del
proceso, la cual puede ser vista desde tres diferentes puntos de vista: ontológico (Física del
proceso), epistemológico (Conocimiento del proceso) y metrológico (Medición de variables del
proceso).
1.5 Métricas de desempeño
En hidrología existen una gran cantidad de métricas de desempeño que permiten evaluar y
comparar las salidas y el funcionamiento de los modelos hidrológicos. Sin embargo, la selección
de una métrica de desempeño apropiada, es una tarea difícil debido a su semejanza, restricciones
y criterios que tiene cada métrica. Un sitio web estandarizado y abierto que facilita los cálculos de
las métricas es www.hydrotest.org.uk (Dawson et al. 2007).
Dada la cantidad de métricas disponibles, Domínguez y otros (Domínguez et al. 2011) realizaron
un análisis de ortogonalidad de varias métricas con el fin de identificar cuáles de estas serían
redundantes, cómo se agrupaban, cuáles eran ortogonales, entre otras. A partir de este estudio se
seleccionaron algunas métricas de desempeño que van a permitir evaluar diferentes aspectos de
los modelos de pronóstico de largo plazo en Colombia. Estas métricas se describen a continuación:
1.5.1 Coeficiente de determinación
El coeficiente de determinación ( ) es una métrica adimensional que describe la proporción de la
varianza estadística en el conjunto de datos observados que pueden explicar el modelo. El rango
varía entre cero y uno, los valores cercanos a cero indican modelos pobres y los valores cercanos
a uno indican modelos perfectos. Presenta mucha imprecisión y defectos que han sido ampliamente
estudiados en la literatura, un ejemplo es la sensibilidad que tiene la métrica a los valores atípicos
(eventos extremos). Se calcula mediante la siguiente fórmula:
∑
∑ ∑
12
Donde:
Valor observado.
Valor pronosticado.
Media valores observados.
Media valores pronosticados.
Esta notación aplica para todas las métricas.
1.5.2 Inercia de la raíz del error cuadrático medio
La inercia de la raíz del error cuadrático medio ( / ∆) es una métrica adimensional que compara
el desempeño del modelo contra el pronóstico inocente, el cual es el pronóstico basado únicamente
en la tendencia del modelo sin aplicar ningún operador matemático. No tiene un límite superior y
para modelos perfectos el valor es cero. Como valor aceptable se tiene 0.8.
∆
∆1
∆
∆∑ ∆ ∆
∑
1.5.3 Error medio absoluto relativo
El error medio absoluto relativo ( por sus siglas en inglés) Es una métrica relativa que
comprende la media del error absoluto convertida en relativa para el registro observado. No tiene
un límite superior y para modelos perfectos el valor es cero.
1 | |
13
1.5.4 Criterio del Servicio de Pronóstico Hidrológico Ruso
El criterio del Servicio de Pronóstico Hidrológico Ruso (SPHR) calcula el error medio de los
pronósticos para el 70% de los aciertos. Esta métrica permite evaluar la efectividad del pronóstico,
no tiene límite superior y su valor, para un modelo perfecto, es cero.
1.6 Teleconexiones
Las teleconexiones se pueden definir como una asociación estadística entre variables climáticas
separadas ampliamente, en puntos del espacio geográfico fijos (IPCC 2013). La integración
espacio-temporal de la variabilidad no es tan sencilla, en este proyecto se tratará de lograr a través
de teleconexiones, las cuales pueden ser visualizadas calculando la matriz de correlación . Los
elementos de son los coeficientes de correlación , entre la serie de tiempo de una variable de
interés en el punto con la serie de tiempo en el punto . Estos patrones representan como cada
punto en la grilla está conectado con sus vecinos (von Storch & Navarra 1999).
Con el fin de establecer la afectación de fenómenos regionales como el Niño sobre la oferta hídrica
local, se debe determinar el grado de asociación entre distintos índices que monitorean oscilaciones
en el clima a nivel global y regional (ver Tabla 1), con las series hidrológicas y meteorológicas
representativas seleccionadas para el proyecto.
Los indicadores seleccionados para este análisis corresponden a los que pueden tener influencia
sobre el país, principalmente están relacionados con el océano Pacífico y el océano Atlántico. El
primer grupo de índices consiste en las distintas regiones de muestreo de la Temperatura de la
Superficie del Mar (Sea Surface Temperature SST por sus siglas en inglés) para monitoreo del
ENSO (El Niño Southern Oscillation por sus siglas en inglés) en el Pacífico tropical, las cuales
han sido divididas en un numero de zonas llamadas Niño 1, 2, 3, 4, y 3.4 (el cual es un traslape de
las regiones 3 y 4). El Niño 1 está definido en el área comprendida entre las coordenadas 80W-
90W y 5S-10S, Niño 2 entre 80W-90W y 0S-5S, Nino 3 entre 90W-150W y 5N-5S, Niño 4 entre
150W-160E y 5N-5S, y Niño 3.4 entre 120W-170W y 5N-5S (Figura 3).
14
Fuente: http://ggweather.com/enso/nino_regions.gif
Figura 3. Zonas Niño
El Centro de Predicciones Climáticas (CPC - The Climate Prediction Center) de la Administración
Nacional Oceánica y Atmosférica de los Estados Unidos (NOAA - National Oceanic and
Atmospheric Administration) ha generado información semanal de estos índices a partir de 1990
y mensual desde 1950, mientras la División de Ciencias Físicas (PSD - Physical Sciences Division)
de la NOAA, tiene información mensual de las regiones conjuntas Niño 1 y 2 desde 1948 (Niño
1+2).
El segundo grupo de índices son construcciones calculadas a través de distintos productos
climáticos como la presión del aire, la temperatura superficial del mar y sus anomalías, la
temperatura del aire en superficie y la nubosidad, entre otros, los cuales permiten también el
monitoreo del Fenómeno del Niño y sus posteriores consecuencias.
Tabla 1. Descripción de los Índices Climáticos analizados
Siglas Descripción Resolución Desde Estacionalidad
AMO Índice de temperaturas del Atlántico Norte Mensual 1948 No
BEST Combinación del SOI estandarizado y las SST de
la zona niño 3-4 estandarizadas Mensual 1948 No
MEI
Índice de intensidad de El Niño combinando las
series variables más relevantes: presión al nivel
del mar, componentes del viento superficial zonal
y meridional, SST, temperatura del aire
superficial, fracción de nubosidad total del cielo.
Mensual 1950 No
15
Siglas Descripción Resolución Desde Estacionalidad
NAO
Se define tradicionalmente como el gradiente de
presión normalizado entre una estación en los
Azores y otra en Islandia
Mensual 1948 No
Niño 1+2 SST en el extremo oriental del pacifico tropical Mensual 1948 12 meses
Niño 3 SST en el oriente del pacifico tropical Mensual 1948 12 meses
Niño 4 SST en el centro tropical del pacifico Mensual 1948 12 meses
Niño 3.4 SST en el occidente del pacifico tropical Mensual 1948 No
ONI
Media móvil de las anomalías en la SST en la
zona 3-4 basado en un promedio de referencia
dado por 30 años, esta referencia tiene 5 años
de vigencia
Mensual 1950 No
PDO
Series de componentes principales
estandarizados de la SST (anomalías) en el
pacifico norte.
Mensual 1948 No
PNA
Patrón de alternancia entre las presiones
atmosféricas en el océano pacifico central y
centros de acción en el océano occidental de
Canadá y el suroriental estadounidense.
Mensual 1948 No
QBO
La Oscilación Cuasi Bienal es una oscilación del
sentido de la componente zonal del viento en
alturas entre los 30 y los 50 Hpa, que cambia de
sentido aproximadamente cada dos años. Esta
oscilación está limitada latitudinalmente entre los
12ºN y los 12ºS, aunque se puede identificar en
latitudes fuera de ese intervalo
Mensual 1948 No
SOI Presión al nivel del mar, diferencias entre
anomalías en Tahití y Darwin, estandarizadas Mensual 1948 No
Solar
Flux
Reporte del flujo solar - National Research
Council of Canada Mensual 1948 No
TNA
Anomalías del promedio mensual de SST entre
5.5 N, 23.5 N y 15 W a 57.5 W. Los conjuntos de
datos de HadlSST y NOAA OI 1x1 se usan para
crear un índice.
Mensual 1948 No
TNI Diferencia estandarizada entre SST niño 1-2 y
niño 4 con una media móvil de cada 5 meses. Mensual 1948 No
TSA
Anomalía del promedio de la SST mensual entre
Eq-20s y 10E - 30W. Su usan los conjuntos de
datos HadlSST y NOAA 1x1 para crear el índice.
Mensual 1948 No
16
Siglas Descripción Resolución Desde Estacionalidad
WHWP
Anomalía mensual del área de la superficie del
mar con temperaturas mayores a 28.5 ºC en el
atlántico y pacifico nororiental.
Mensual 1948 12 meses
WP
El patrón WP es una forma primaria de
variabilidad de baja frecuencia sobre el pacifico
norte en todos los meses.
Mensual 1948 No
Las series de estos indicadores fueron obtenidas en la página web de la Administración Nacional
Oceánica y Atmosférica (NOAA) http://www.esrl.noaa.gov/psd/data/climateindices/list/.
Con el fin de establecer los ciclos de humedad de las estaciones hidrológicas es necesario construir
las curvas de diferencias integradas ( ) (CDI), las cuales representan un balance de masa en el
tiempo. Este balance muestra la dinámica de rachas de incrementos positivos o negativos cuya
secuencialidad conforma los ciclos de humedad que caracterizan el régimen hidrológico de cada
cuenca . Estas curvas muestran la persistencia de los incrementos de caudales en las series
registradas en las estaciones hidrométricas, fenómeno que de otro modo también se puede estudiar
mediante el exponente de Hurst (Demetris Koutsoyiannis 2003; Hurst 1951). La curva de
diferencias integradas de una se puede construir con diferente resolución (diaria, decadal, mensual,
anual), sin embargo, el análisis de ciclos y fases no depende de la resolución temporal escogida.
17
2 METODOLOGÍA
2.1 Área de estudio
Para el desarrollo de este proyecto, y de acuerdo con lo planteado en la propuesta presentada, el
área de estudio corresponde al territorio Colombia. De este modo, se realizó una serie de análisis
que permitieron identificar las series de tiempo más representativas a nivel país.
De acuerdo con la distribución espacial de las corrientes del país, se han definido cinco áreas
hidrográficas denominadas: 1-Caribe, 2-Magdalena-Cauda, 3-Orinoco, 4-Amazonas y 5-Pacífico.
La Figura 4 presenta las áreas hidrográficas de Colombia.
Figura 4. Áreas Hidrográficas de Colombia
18
2.2 Recolección y análisis de información hidrometeorológica
El primer paso es realizar una búsqueda de información hidrometeorológica disponible para el
país, así que se buscó información disponible en el Instituto de Hidrología, Meteorología y
Estudios Ambientales (IDEAM), el cual es la entidad oficial para el manejo de los datos
hidrológicos y meteorológicos del país, en su catálogo de estaciones se puede encontrar
información de otras entidades que reportan a este.
Como modelo de elevación digital del terreno (DEM) se empleó el de 90 m obtenido en la misión
SRTM (Shuttle Radar Topographic Mission) de la NASA, el cual se puede descargar desde el
enlace http://srtm.csi.cgiar.org/. Este modelo fue utilizado para realizar la delimitación de las
cuencas de interés, así como el análisis de morfometría de las mismas.
2.2.1 Información disponible
Figura 5. Series hidrometeorológicas disponibles
Se realizó una búsqueda de información hidrometeorológica disponible a nivel país en el IDEAM,
esta búsqueda arrojó un total de 8.494 estaciones con información disponible. A través de una
consulta al IDEAM, se solicitó el total de la información hidrometeorológica disponible para el
país, ante lo cual el IDEAM entregó un total de 5.697 series de tiempo hidrológicas (1.198) y de
precipitación (4.499) con información a resolución mensual. De este conjunto de series, se
extrajeron aquellas que tenían una longitud igual o mayor a 40 años de registros y con menos de
30% de datos faltantes, este filtro arrojó como resultado 152 series hidrológicas y 614 series de
19
precipitación, para un total de 766 series. Estas series son presentadas en el Anexo 1.1, el análisis
de completitud se presenta en el Anexo 1.2.
Como primer paso dentro del análisis de la información hidrometeorológica disponible, se realizó
una inspección visual de cada una de las series, aquí se detectaron algunas inconsistencias en los
registros, así mismo se ajustaron las fechas de inicio y fin de los registros. En la Figura 6 se pueden
apreciar algunos de los problemas típicos detectados en la inspección visual de las series de tiempo
que, debido al volumen de información manejada, causaron la exclusión de algunas de estas del
conjunto de series disponibles; en las figuras (a) y (b) se aprecian cambios en la estructura de las
series de tiempo, en estos casos, las series fueron descartadas para continuar dentro del conjunto
de datos disponibles. El caso de las figuras (c) y (d) corresponde a falsos inicios de las series de
tiempo, a cada una de las series de tiempo que presentaban este problema se les ajustó la fecha de
inicio y se validó que cumplieran con el criterio establecido de tener al menos 40 años de registros
y menos del 30% de datos faltantes. En el Anexo 1.3 se pueden encontrar las gráficas de las 766
estaciones disponibles.
(a) (b)
20
(c) (d)
Figura 6. Problemas típicos encontrados en series de tiempo hidrometeorológicas
2.2.2 Detección de datos anómalos
Un dato anómalo o atípico (“outlier” en inglés) es una observación que se desvía notablemente de
las otras observaciones que conforman el conjunto estadístico (NIST 2013). El tema del
tratamiento de datos anómalos no ha sido un nuevo tema de análisis (Orr et al. 1991) básicamente
por la radical importancia y su influencia en los resultados derivados del análisis de datos. La
identificación de dichos potenciales valores atípicos radica en:
Un valor atípico puede indicar errores en los datos. Por ejemplo, errores en transcripción
de los datos o una mala ejecución del experimento. Por lo tanto, si es posible determinar
que dicho valor es un “mal” dato, este valor deberá ser eliminado, o de ser posible
corregido.
En algunos casos, puede que no sea posible determinar los valores atípicos, ya que estos
pueden deberse a la variación aleatoria del proceso, o en dado caso, pueden indicar algo
científicamente interesante. En tal caso, el dato atípico no deberá eliminarse, pero deberán
utilizarse técnicas estadísticas más robustas, en particular cuando los datos contienen
valores extremos.
Las pruebas clásicas de evaluación de datos anómalos asumen que los conjuntos de datos siguen
una distribución normal (NIST 2013), sin embargo el etiquetado del dato anómalo y su posterior
identificación (o rectificación) dependen de la distribución subyacente de los datos a evaluar.
21
Un número de pruebas para la detección de datos anómalos puede ser encontrada en la literatura,
dichas pruebas pueden ser agrupadas de acuerdo a la distribución que siguen los datos pero que en
general están sesgadas hacia distribuciones que siguen normalidad. De esta manera, pruebas como
las de Grubbs (Grubbs 1950), Tietjen-Moore (Tietjen & Moore 2012) y Generalized Extreme
Studentized Deviate (ESD) (Rosner 1983) siguen la clasificación descrita.
Otro problema que se tiene con los métodos para la detección de anómalos es la definición del
valor de corte de los mismos, que se delimita a partir de algunos criterios estadísticos o se establece
por el autor del método. Este problema afecta la detección de datos anómalos en las series
hidroclimáticas, ya que la presencia de valores extremos no puede ser confundida con la existencia
de datos anómalos en la serie, además, la variabilidad presente en las series de los diferentes
parámetros monitoreados (caudal, precipitación, temperatura, humedad relativa, etc.) no permite
establecer un valor de corte homogéneo para todos.
Dentro del presente trabajo de investigación, en conjunto con algunos compañeros de la Maestría
en Hidrosistemas y bajo la dirección del Profesor Efraín Domínguez, se desarrolló una
metodología para la detección de datos anómalos basada en la métrica de Desviaciones Absolutas
de la Mediana (MADs por sus siglas en inglés) aplicada en distribuciones asimétricas (Double
MADs - DMADs) (Rosenmai 2013), acompañado de un entrenamiento basado en conocimiento
experto para atacar el problema del valor de corte, y finalizando con la técnica de clasificación no
paramétrica K-Vecinos más Cercanos (KNN por sus siglas en inglés) (Silverman & Jones 1989).
Este procedimiento planteado contempla las fases de etiquetado, evaluación e identificación de
valores atípicos, planteados por Iglewicz and Hoaglin (Iglewicz & Hoaglin 1993). El documento
que sustenta el método de detección de anómalos propuestos se encuentra en construcción y
próximamente será sometido para su divulgación. La Figura 7 presenta el diagrama de flujo de la
metodología propuesta.
Para el desarrollo del método, se selecciona aleatoriamente el 30% de las series del conjunto total
que se tiene para la detección de datos anómalos. A cada una de las series de este conjunto se le
calculan los DMAD, se estima un valor de referencia para la serie (diario, mensual, anual), se
grafica la serie y el DMAD (ver Figura 8-a), se presentan la información geográfica de la estación
de medición de la serie y el valor de referencia calculado anteriormente (ver Figura 8-b). En esta
gráfica el experto marca los datos que son considerados como anómalos y sospechosos, estos datos
22
con las etiquetas puestas por el experto son almacenados. En seguida, se calculan los valores
modularizados de la serie a través de la siguiente ecuación:
Se aplica el método de clasificación KNN al conjunto de aplicación (70% de datos que no son de
entrenamiento) con base en los datos de entrenamiento. Se grafican los valores modularizados
contra los DMADs para los datos de entrenamiento (ver Figura 8-c) y para los datos de apliación
(ver Figura 8-d). Finalmente, se borran los datos detectados como anómalos de los dos conjuntos
y se guarda la serie sin datos anómalos.
Como se puede apreciar en los resultados del método (ver Figura 8-d), se logran clasificar los datos
anómalos sin la necesidad de establecer un valor de corte único, ya que el método de clasificación
define este límite a partir de los datos de entrenamiento etiquetados a través de juicio de experto,
en este caso, el valor de corte se encontró alrededor de diez.
Figura 7. Diagrama de flujo detección de datos anómalos
23
(a) (b)
(c)
(d)
Figura 8. Salidas gráficas detección de datos anómalos
2.2.3 Complementación de datos faltantes
Existen múltiples razones por las cuales las entidades encargadas de la operación de las estaciones
hidrometeorológicas dejan de reportar información de las variables medidas durante algunos
periodos de tiempo. La ausencia de estos datos, denominados datos faltantes, dificulta el análisis
de las series de tiempo de las variables medidas, por lo tanto, se convierte en una tarea importante
buscar un mecanismo adecuado que permita “complementar” estos datos faltantes, de tal forma
que se refleje lo que pudo haberse registrado en esos periodos de tiempo.
24
La metodología empleada para la complementación de datos faltantes en las series hidrológicas
está basada en regresiones lineales múltiples, tomando como base los datos de otras series
hidrológicas y de precipitación.
Figura 9. Diagrama de flujo de complementación de información
El periodo de tiempo de complementación de información corresponde a los meses comprendidos
entre enero de 1.974 y diciembre de 2.013, el resultado de la complementación de datos faltantes
se encuentra en el Anexo 1.8.
Una vez realizado el proceso de detección de datos anómalos y la complementación de información
faltante, el número total de series hidrológicas disponibles se redujo a 146, y las de precipitación
a 546, para un total de 692. De acuerdo con la ubicación de estas series en las áreas hidrográficas
del país, se tienen las siguientes:
Área hidrográfica Hidrológicas Meteorológicas
1 – Caribe 13 75
2 – Magdalena – Cauca 109 361
3 – Orinoco 14 54
4 – Amazonas 7 11
5 – Pacífico 3 45
Total 146 546
Tabla 2. Series disponibles por área hidrográfica
25
La Figura 10 presenta la ubicación de las series hidrometeorológicas disponibles. Como se puede
apreciar, la mayor parte de las series se encuentran ubicadas en el área hidrográfica Magdalena –
Cauca.
Figura 10. Estaciones hidrológicas disponibles
2.2.4 Selección de series hidrológicas representativas
La selección de series hidrológicas representativas a nivel país se realizó con el fin de obtener un
conjunto relevante de series que incorporen la variabilidad de las series hidrológicas a nivel país.
Para esta tarea se empleó el Análisis de Componentes Principales (PCA por sus siglas en inglés),
26
acompañado de un análisis de correlación lineal que permitió definir cuáles series representan
mejor el conjunto de datos disponibles por zona hidrográfica.
En el análisis de correlación lineal que se realizó, se tuvieron en cuenta las series que presentaban
correlaciones estadísticamente significativas con las demás, y la magnitud de estas correlaciones.
De este modo se obtuvo una correlación media que permitió cuantificar cuáles series representaban
mejor al conjunto de series de la misma área hidrográfica. A continuación, se presenta el desarrollo
de la selección para el área Caribe.
El análisis de componentes principales se planteó tomando las series como entidades y sus valores
temporales como variables. Previo al análisis, las variables se estandarizaron con la siguiente
ecuación:
Donde:
: Dato estandarizado.
: Dato de la serie.
: Media de la seria.
: Desviación estándar de la serie.
Con los datos estandarizados se procede a realizar el PCA, de acuerdo con el resultado obtenido
para las series del área Caribe, el primer componente explica más del 90% de la varianza del
conjunto de datos.
27
Figura 11. Varianza explicada Análisis de Componentes Principales área Caribe
De este modo, se grafican los dos primeros componentes del análisis, como se muestra en la Figura
12.
Figura 12. Componente 1 y 2 para series del área Caribe
28
Aquí se puede observar la formación de cuatro grupos, de cada uno de estos se extrae una serie
hidrológica (la serie que se encuentra marcada). En los casos donde hay múltiples series
aglutinadas, se realiza el análisis de conexiones entre correlaciones significativas, para lo cual, se
toma la matriz de correlaciones y se extraen las correlaciones que son estadísticamente
significativas, calculadas así:
Donde:
: Correlación mínima significativa.
: Valor de la prueba con una significancia de 0.05.
En la Tabla 3 se muestra la matriz de correlación de las series hidrológicas del área Caribe, se
marcan las correlaciones que no son estadísticamente significativas.
Tabla 3. Matriz de correlaciones series área Caribe
Serie 110170
10
110470
10
110570
20
110770
10
110770
20
111170
10
111170
50
130670
20
130770
60
150270
10
150370
10
150370
20
110170
10 1.00 0.43 0.39 0.38 0.24 0.28 0.31 0.22 0.22 0.24 0.08 0.08
110470
10 0.43 1.00 0.82 0.82 0.51 0.55 0.55 0.51 0.50 0.45 0.36 0.26
110570
20 0.39 0.82 1.00 0.93 0.57 0.60 0.58 0.54 0.55 0.46 0.33 0.30
110770
10 0.38 0.82 0.93 1.00 0.61 0.64 0.62 0.55 0.57 0.49 0.39 0.37
110770
20 0.24 0.51 0.57 0.61 1.00 0.70 0.68 0.54 0.53 0.40 0.35 0.36
111170
10 0.28 0.55 0.60 0.64 0.70 1.00 0.76 0.47 0.48 0.45 0.48 0.47
111170
50 0.31 0.55 0.58 0.62 0.68 0.76 1.00 0.48 0.48 0.48 0.41 0.36
130670
20 0.22 0.51 0.54 0.55 0.54 0.47 0.48 1.00 0.93 0.56 0.44 0.44
130770
60 0.22 0.50 0.55 0.57 0.53 0.48 0.48 0.93 1.00 0.64 0.48 0.53
150270
10 0.24 0.45 0.46 0.49 0.40 0.45 0.48 0.56 0.64 1.00 0.59 0.60
150370
10 0.08 0.36 0.33 0.39 0.35 0.48 0.41 0.44 0.48 0.59 1.00 0.64
29
Serie 110170
10
110470
10
110570
20
110770
10
110770
20
111170
10
111170
50
130670
20
130770
60
150270
10
150370
10
150370
20
150370
20 0.08 0.26 0.30 0.37 0.36 0.47 0.36 0.44 0.53 0.60 0.64 1.00
Para cada una de las series se calcula la suma de las correlaciones significativas, el número de
conexiones significativas y, con estos dos valores, la correlación promedio. La Tabla 4 presenta
los resultados para las series hidrológicas del área Caribe.
Tabla 4. Conexiones de las correlaciones series área Caribe
Serie Suma
Correlaciones
Número de
Conexiones
Correlación
Promedio
11077010 6.358 11 0.578
13077060 5.191 9 0.577
11057020 6.069 11 0.552
13067020 5.447 10 0.545
11117010 5.405 10 0.541
11077020 5.247 10 0.525
11047010 5.758 11 0.523
11117050 5.714 11 0.519
15027010 5.131 10 0.513
15037010 4.006 9 0.445
15037020 3.856 9 0.428
11017010 1.786 5 0.357
Esta misma información se puede apreciar gráficamente en la Figura 13, donde se resaltan las
series seleccionadas de acuerdo con los análisis descritos, aquí, el tamaño de los nodos muestra la
correlación promedio de la serie.
30
Figura 13. Conexiones de las correlaciones series área Caribe
Este mismo análisis se realizó para cada una de las áreas hidrológicas del país, para el área
Magdalena Cauca, dada la cantidad de series, se dividió en ocho zonas hidrológicas las cuales se
les aplicó el mismo análisis. Las zonas hidrológicas del área Magdalena – Cauca se presentan a
continuación:
Alto Magdalena
Magdalena Medio
Bajo Magdalena
Costa
Cuenca del Río Cauca
Cuenca del Río Nechí
Cuenca del Río Saldaña
Cuenca del Río Sogamoso
31
Los resultados de estos análisis para cada una de las áreas y las zonas propuestas se presentan en
el Anexo 1.9.
Finalmente, en la siguiente tabla se encuentran las series seleccionadas para cada una de las
unidades espaciales de análisis propuestas (son 26).
Tabla 5. Series seleccionadas por unidad de análisis espacial
Unidad Espacial Código Estación Corriente
Amazonas 44037090 Larandia Orteguaza
Caribe
11057020 San Antonio de Padua Atrato
11077010 Bellavista Atrato
11117010 El Añil Río Sucio
13077060 Cotoca abajo Sinú
Alto Magdalena
21047010 Puente Balseadero Magdalena
21137050 Angostura Magdalena
21237010 Nariño Magdalena
Bajo Magdalena 25027020 El Banco Magdalena
29037020 Calamar Magdalena
Costa 29067120 Fundación Fundación
Magdalena Medio
23037010 Puerto Salgar Magdalena
23057140 San Miguel La Miel
23087210 Canteras Nare
Río Cauca
26207080 Bolombolo Cauca
26237040 Puerto Valdivia Cauca
26247020 La Coquera Cauca
Río Nechí 27037010 La Esperanza Nechí
Río Saldaña 22057060 La Muralla Saldaña
Río Sogamoso 24017600 Moniquirá Moniquirá
Orinoco
35017020 Puente Lleras Meta
35087040 Los Cedros Tunjita
35197040 Puente Chartre Chartre
Pacífico
52047010 Universidad Pasto
52057040 Carlosama Blanco
53077010 Angostura Micay
32
2.2.5 Análisis morfométrico de las unidades de análisis espacial
Las características de una cuenca y de las corrientes que forman el sistema hidrográfico pueden
representarse cuantitativamente mediante índices de forma y relieve de la cuenca y de la conexión
con la red fluvial. Horton estableció en 1945 las leyes estadísticas de la composición de las redes
de drenaje en las que relacionaba la categoría, número, longitud y área de drenaje de las corrientes.
La morfometría hidrográfica actual tiende a centrarse en el área, longitud, forma, atributos del
relieve y densidad de drenaje de las cuencas. La importancia de este tipo de caracterizaciones
radica en el poder de inferencia que genera sobre fenómenos de inundaciones, por ejemplo. Para
las cuencas de estudio los parámetros fueron obtenidos con base en el modelo digital de elevación
de terreno de resolución aproxima de 90 metros y la base hidrográfica IGAC utilizada a escala
1:100.000. Dentro de los índices morfométricos estimados para las cuencas seleccionadas en este
trabajo de investigación se pueden nombrar (Domínguez C. 2010): área aferente, perímetro de la
cuenca, longitud del cauce principal, densidad de la red hidrográfica, ancho medio de la cuenca,
elongación o coeficiente de forma de la cuenca, coeficiente de compacidad, perfil longitudinal del
cauce, altura ponderada del cauce, pendiente ponderada del cauce principal, curva hipsométrica,
altura ponderada de la cuenca, pendiente ponderada de la cuenca, profundidad de disección, nivel
de disección, número de orden máximo de la red de drenaje de la cuenca (Strahler), radio o tasa
de bifurcación t tiempos de concentración por al menos 5 metodologías distintas (Ver Anexo 1.10
para mayor detalle).
En la Figura 14 se presenta el análisis de componentes principales para los diferentes parámetros
morfométricos calculados (ver Tabla 6), los valores a partir de los cuales se realizó el análisis son
presentados en la Tabla 7. Aquí se puede apreciar la diversidad morfométrica de las cuencas
seleccionadas para el desarrollo de este trabajo (ver Figura 14).
Tabla 6. Parámetros morfométricos analizados
Ítem Descripción Unidad 1 Altura Ponderada de la Cuenca msnm 2 Altura Ponderada Cauce Principal msnm 3 Ancho Medio de la Cuenca Km 4 Área Km2 5 Coeficiente Sinuosidad Adimensional 6 Coeficiente de Compacidad Adimensional 7 Coeficiente de Forma Adimensional 8 Densidad de Drenaje Km / Km2
33
Ítem Descripción Unidad 9 Longitud Cauce Más Largo Km
10 Longitud Lineal del Cauce Más Largo Km 11 Longitud Media de Laderas Km2 / Km 12 Nivel de Disección del Relieve Adimensional 13 Pendiente Ponderada de la Cuenca % 14 Pendiente Ponderada Cauce Principal % 15 Perímetro Km 16 Profundidad de Disección de la Cuenca m 17 Tiempo Concentración - Bransby-Williams Horas 18 Tiempo Concentración - Dir. Gen. Carreteras Horas 19 Tiempo Concentración - Giandotti Horas 20 Tiempo Concentración - Kirpich Horas 21 Tiempo Concentración - Temez Horas
Figura 14. Análisis de componentes principales para la morfometría de las series seleccionadas
34
Tabla 7. Parámetros morfométricos de las áreas aferentes de las series seleccionadas
Corriente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
11057020 498.11 438.39 129.17 10,560.23 3.58 2.22 0.63 0.43 292.32 81.75 1.16 0.05 37.36 1.67 816.17 59.72 61.73 14.24 9.01 26.06 45.69
11077010 684.13 381.26 142.55 15,520.44 3.30 2.08 0.76 0.42 359.65 108.88 1.19 0.25 37.23 0.96 924.49 302.87 81.59 17.34 10.47 37.79 59.18
11117010 1,958.84 1,611.14 16.65 715.11 1.47 1.80 2.58 0.38 63.04 42.95 1.33 0.26 40.29 5.31 171.97 347.70 13.82 3.43 3.27 5.12 11.64
13077060 331.76 127.40 99.30 13,360.56 2.31 2.63 1.35 0.43 311.33 134.55 1.17 0.17 14.37 0.73 1,084.33 204.36 75.66 18.44 14.26 37.51 55.86
21047010 1,897.65 1,411.19 53.84 5,653.63 1.76 2.14 1.95 1.03 185.10 105.02 0.49 1.00 27.34 1.94 575.13 486.47 40.38 9.15 6.65 17.30 31.54
21137050 1,736.84 939.71 101.56 22,286.31 1.79 2.64 2.16 1.02 393.43 219.44 0.49 1.63 29.19 1.09 1,405.20 797.13 84.02 18.38 10.98 38.66 61.89
21237010 1,810.99 768.61 151.44 48,140.49 1.76 2.71 2.10 1.01 560.85 317.88 0.50 2.10 29.45 0.96 2,120.29 1,042.37 113.60 25.62 14.36 53.20 82.58
22057060 2,525.52 1,605.93 60.49 4,407.00 1.40 1.87 1.20 0.95 102.26 72.86 0.52 1.75 43.82 4.26 442.99 919.58 19.54 5.18 5.17 8.09 17.43
23037010 1,737.67 629.98 131.98 56,521.12 1.70 2.71 3.25 1.02 729.86 428.27 0.49 2.25 29.42 0.61 2,297.90 1,107.69 159.35 32.77 16.23 77.64 109.58
23057140 1,283.76 763.95 37.11 2,475.75 1.55 2.12 1.80 0.97 103.64 66.71 0.52 1.01 36.69 5.30 375.90 519.81 20.08 5.30 4.64 7.52 16.90
23087210 1,539.70 564.08 56.75 4,709.82 1.40 2.25 1.46 0.88 116.57 83.00 0.57 1.72 25.96 3.51 550.90 975.62 22.99 6.09 5.86 9.64 19.94
24017600 2,565.23 2,123.81 22.84 1,178.18 1.49 1.74 2.26 1.06 77.12 51.59 0.47 0.93 20.20 3.19 213.39 441.42 17.81 4.51 4.57 7.28 14.89
25027020 1,297.44 420.44 195.57 159,256.49 1.54 3.32 4.16 0.95 1,251.58 814.30 0.52 1.67 829.04 0.46 4,727.74 877.00 260.41 54.34 23.83 130.86 172.98
26207080 1,850.76 1,043.62 71.93 30,962.25 1.65 2.95 5.99 1.02 712.06 430.48 0.49 1.65 618.63 0.54 1,856.02 807.14 169.09 33.89 16.31 79.76 110.00
26237040 1,794.42 907.53 64.25 37,459.29 1.58 3.49 9.07 1.01 921.09 583.01 0.49 1.79 618.62 0.44 2,414.38 886.90 223.99 42.22 17.99 105.60 138.90
26247020 1,708.74 852.79 62.10 41,027.88 1.56 3.69 10.64 1.00 1,030.07 660.71 0.50 1.72 38.73 0.41 2,671.56 855.95 251.45 46.72 19.04 117.99 152.89
27037010 1,054.71 704.72 60.84 14,369.36 1.43 2.75 3.88 0.96 338.92 236.20 0.52 0.67 21.05 2.47 1,178.39 349.99 64.17 16.64 10.40 25.12 47.44
29037020 1,174.64 365.23 279.25 256,999.74 1.69 2.58 3.30 0.94 1,558.24 920.33 0.53 1.53 829.03 0.42 4,662.70 809.41 315.78 66.85 28.22 161.46 208.03
29067120 1,371.55 894.13 13.99 1,009.29 1.58 2.33 5.15 1.04 114.09 72.12 0.48 0.99 34.19 3.24 264.45 477.42 26.68 5.83 4.12 9.78 19.92
35017020 1,195.15 230.01 82.33 8,063.44 1.70 2.83 1.19 0.48 166.63 97.94 1.05 0.92 22.20 0.17 908.52 965.14 57.34 13.67 18.59 41.09 46.19
35087040 2,255.34 1,984.14 9.85 213.16 1.21 1.62 2.20 0.30 26.22 21.64 1.67 0.16 29.41 8.83 84.33 271.20 5.86 1.55 2.07 2.14 5.48
35197040 1,080.89 1,033.06 11.69 325.68 1.38 1.97 2.38 0.40 38.46 27.86 1.24 0.04 31.23 8.39 127.17 47.83 8.33 2.13 2.32 2.94 7.37
44037090 1,261.74 942.58 32.41 2,343.35 1.71 1.93 2.23 0.38 123.64 72.29 1.31 0.24 29.03 2.79 333.71 319.16 27.39 6.36 5.04 11.03 21.77
52047010 2,982.81 2,775.44 12.45 215.67 1.34 1.88 1.39 0.35 23.15 17.32 1.42 0.15 20.64 5.22 98.58 207.36 5.74 1.57 2.57 2.38 5.51
52057040 3,382.50 3,203.09 8.38 223.34 1.37 2.12 3.18 0.43 36.60 26.66 1.17 0.15 16.77 3.56 113.39 179.41 9.76 2.41 2.98 3.93 8.34
53077010 1,472.98 738.74 33.31 2,377.76 1.54 1.99 2.14 0.34 109.95 71.38 1.46 0.50 46.81 3.95 346.30 734.24 22.69 5.59 4.68 8.81 18.67
35
2.3 Análisis como variable aleatoria
El análisis como variable aleatoria consiste en obtener algunos parámetros y características que
describen el comportamiento de los conjuntos estadísticos de manera probabilística o aleatoria.
Este análisis comprende una serie de pruebas estadísticas que permiten describir la variable
aleatoria a través de sus comportamientos en términos de probabilidad de ocurrencia de ciertas
magnitudes (Anon 2006).
El análisis como variable aleatoria apunta entonces (para los propósitos de esta investigación) a
capturar el componente aleatorio y estacional del concepto de variabilidad hidroclimática
propuesto en el diagrama conceptual presente en la Figura 1. En términos de pronóstico resulta
fundamental considerar dichos componentes, ya que permiten identificar ciertos atributos de la
distribución temporal de la variable.
Dentro del marco metodológico apropiado y aplicado en el presente estudio se consideran entonces
las pruebas de aleatoriedad, el ajuste de las funciones de densidad de probabilidad, y a partir de
esta la obtención de la esperanza matemática, valor esperado o primer momento estadístico (Haan
2002; Sveshnikov 1966).
El análisis como variable aleatoria se aplica a conjuntos estadísticos válidos, estos comprenden
registros o mediciones de la variable bajo las mismas condiciones, en este caso de distancia al sol,
dado esta es la principal reguladora del comportamiento hidroclimático.
Figura 15. Esquema de caracterización como variable aleatoria
2.3.1 Pruebas de aleatoriedad
La prueba de aleatoriedad permite identificar los conjuntos estadísticos que operan como variable
aleatoria, es decir que no responden a ningún tipo de patrón. Para variables hidroclimáticas suele
utilizarse la prueba de rachas (Bendat & Piersol 1986).
36
Las variables hidroclimáticas suelen comportarse aleatoriamente, con algunas excepciones como
la temperatura, cuyas magnitudes registran un patrón ascendente en los últimos años (Hansen et
al. 2010). Sin embargo, puede que algunos conjuntos no se comporten aleatoriamente a la luz de
esta prueba, resultado que debe ser tenido en cuenta y tratarse con precaución para las posteriores
pruebas y análisis.
2.3.2 Ajuste de Función de Densidad de Probabilidad
La prueba de ajuste consiste en confirmar o refutar si la distribución empírica (de los datos
observados) se ajusta a una distribución teórica testeada. La prueba de hipótesis utilizada en este
estudio es la propuesta por Kolmogorov – Smirnov (Mathematics 2012), y los criterios de
selección de la distribución, en caso tal de que varias distribuciones pasen la prueba, son el error
medio y el error máximo.
Para variables hidroclimáticas se han probado 12 distribuciones teóricas dentro de las cuales se
encuentran la normal, log-normal, exponencial, gamma, log gamma, valor extremo generalizado,
Weibull máxima, Weibull mínima, Gumbel sesgada a la izquierda, Gumbel sesgada a la derecha,
gamma generalizada y potencial.
El tener la variable ajustada una distribución teórica, permite aproximarse al universo completo de
magnitudes, con sus probabilidades, que puede tomar nuestra variable aleatoria (Mathematics
2012). Adicionalmente nos permite obtener unos parámetros de comportamientos mucho más
cercanos a lo observado en la realidad, estos parámetros se conocen como momentos estadísticos.
2.3.3 Primer momento estadístico
El primer momento estadístico, también conocido como valor esperado o esperanza matemática,
es el valor de tendencia central de las variables aleatorias. Para variables discretas, este resulta ser
análogo al promedio ponderado, mientras que para variables continuas, tal como las distribuciones
a las que se ajustan las variables de este estudio, se describe con la siguiente ecuación (Ross 2007):
Ε X
37
Así pues, el valor esperado representa la magnitud con mayor probabilidad de ocurrencia para cada
conjunto estadístico, es decir para cada mes en cada una de las series analizadas. Este valor
comprende el componente estacional, aquel que dentro del modelo conceptual propuesto (Figura
1) representa parcialmente el patrón principal.
2.4 Análisis como serie de tiempo
El análisis como serie de tiempo permite evidenciar diferentes fenómenos que ocurren en la
evolución temporal de las variables hidroclimáticas. Entre ellos se encuentran los ciclos, las
tendencias y la estacionalidad, entre otras (Bowerman et al. 2007).
Según Yaffe y Mcgee (2000) los ciclos se refieren a recurrencias de baja periodicidad superiores
a las anuales (para el caso de variables hidroclimáticas), las tendencias, como se mencionó
anteriormente se refieren a patrones de aumento o disminución de las magnitudes en el largo plazo
(ultra largo para pronósticos de variables hidrológicas) y la estacionalidad se presenta con
periodicidades más cortas (de un año para variables hidrológicas).
Para los propósitos de esta investigación el análisis de las variables como series de tiempo se
realiza con el fin de identificar dichos patrones estacionales. Para ello se utiliza la función de
autocorrelación y un análisis visual de detección de estacionalidad.
En este punto se introduce el concepto de desestacionalización, lo cual es remover el componente
estacional de la serie de tiempo analizada, para lo cual se estandariza la serie a través de la siguiente
fórmula:
Donde:
Variable estandarizada.
Variable a estandarizar.
Valor esperado de la variable a estandarizar.
Raíz de la varianza de la variable a estandarizar.
El proceso de desestacionalización debe realizarse sobre los conjuntos estadísticos definidos con
anterioridad.
38
2.4.1 Función de autocorrelación
La función de autocorrelación de las series desestacionalizadas permite evidenciar parte de la
inercia del proceso o fenómeno aleatorio, lo cual resulta clave a la hora de identificar predictores
endógenos para el pronóstico (Yaffee & McGee 2000).
La autocorrelación consiste en realizar la prueba de correlación de una seria contra sí misma pero
rezagada la cantidad de periodos de tiempo que se requiera y que se permita según la longitud de
la misma siendo que a cada rezago realizado debe restarse un dato para que la longitud de ambas
series sea la misma (Bowerman et al. 2007). Una vez realizada la prueba, los predictores endógenos
obtenidos serán aquellos cuya correlación sea significativa.
2.4.2 Detección de estacionalidad
La detección de la estacionalidad es un proceso de análisis visual de los resultados gráficos de la
función de autocorrelación realizada para las series estacionarias.
Figura 16. Función de autocorrelación para la serie de caudal 13077060
Como se puede observar, la serie presenta unos picos de correlación repetitivos con un periodo de
12 meses, en este caso se puede decir que la serie es estacional.
39
2.5 Correlación cruzada con predictores exógenos
Finalmente, para mejorar el desempeño del pronóstico y aumentar el conjunto de predictores se
utilizan las estructuras de correlación cruzada. Estas se realizan aplicando la prueba de correlación
de las series a pronosticar contra otras series de precipitación y caudal. También se consideran los
efectos no simultáneos de unas contra otras por lo cual la prueba se aplica contra varios rezagos
de las series a pronosticar.
Para los experimentos numéricos que consideran el concepto de variabilidad hidroclimática se
desestacionalizaron tanto las series a pronosticar como las series exógenas, mientras que para los
métodos que no involucran el concepto no se desestacionalizó ninguna de las series.
Los resultados de los análisis de correlación cruzada entre las series hidrológicas seleccionadas y
series de precipitación y caudales se encuentran en el Anexo 3.3, tanto con su componente
estacional (serie cruda) como desestacionalizadas. A continuación, se presenta el resultado del
análisis de correlación cruzada entre la serie 13077060 desestacionalizada y algunas series de
precipitación (izquierda) y otras series de caudales (derecha), aquí se encuentran marcados los
valores con correlación significativa:
Figura 17. Correlación cruzada serie hidrológica 13077060 con series de precipitación y caudal
2.6 Análisis de teleconexiones
Para el análisis de teleconexiones se utilizaron las series de 19 indicadores macroclimáticos que
son actualizados periódicamente, estos se encuentran disponibles en la página web de la NOAA
http://www.esrl.noaa.gov/psd/data/climateindices/list/.
40
A estas series se les realizó el análisis de autocorrelación con el fin de identificar la estructura de
las series. Se evidenció la presencia de estacionalidad en algunas series, principalmente
relacionadas con la temperatura del océano pacífico (Nino 1+2, Nino 3, Nino 3.4 y WHWP). A
estas series a las que se les encontró estacionalidad fueron desestacionalizadas para los análisis
siguientes que se realizaron.
2.7 Concepto de variabilidad hidroclimática
Uno de los objetivos de este proyecto es tratar de explicar objetivamente la variabilidad
hidroclimática, de tal forma que se pueda aportar al entendimiento de esta y evaluar su influencia
en los pronósticos hidrológicos en el país.
La variabilidad hidroclimática se puede ver como el resultado de la composición de un conjunto
de elementos que se encuentran presentes en el proceso hidroclimático, entendiendo este como el
acople de los diferentes elementos del balance hídrico. La Figura 18 presenta la propuesta una
propuesta del concepto de variabilidad hidroclimática, explicada desde los distintos factores que,
a nuestro entendimiento, son sus principales descriptores.
Se puede hablar, entonces, de que la variabilidad hidroclimática está compuesta por dos elementos:
el patrón principal y la desviación del patrón principal. El patrón principal se puede entender como
aquel mecanismo que está presente en el sistema hidroclimático y que está fuertemente marcado a
través de ciclos de baja o alta frecuencia (estacionalidad, ciclos seculares) y a través de procesos
que se pueden detallar por medio del mismo proceso (inercia y tendencia). La desviación del patrón
principal se ve reflejada a través de la influencia que tienen algunos fenómenos recurrentes en el
comportamiento del proceso hidroclimático en estudio, estos fenómenos pueden variar con
respecto a la localización espacial y temporal, y a diferencia de los elementos del patrón principal,
estos no están presentes en proceso per sé. Finalmente, se tiene dentro de la variabilidad
hidroclimática un componente de aleatoriedad en el que se enmarcan aquellos elementos que
obedecen al azar, y que no pueden ser explicados a través de los demás elementos.
41
Figura 18. Concepto de variabilidad hidroclimática
El entendimiento de los procesos hidroclimáticos reflejados a través de estos componentes, van a
permitir el mejoramiento del pronóstico hidrológico.
2.7.1 Componente Aleatorio
En el componente aleatorio se realiza la caracterización del proceso hidrológico como variable
aleatoria, aquí se obtiene la función de densidad de probabilidad teórica que presenta mejor ajuste
con las observaciones registradas. Si bien este componente no se incorpora explícitamente al
pronóstico hidrológico, es la base para el tratamiento de la serie en los componentes de
estacionalidad e inercia y fenómenos recurrentes.
42
Figura 19. Ajuste de PDF a la serie de abriles de la serie de caudal 13077060
2.7.2 Componente estacional
La estacionalidad se puede entender a través de las fluctuaciones presentes en los sistemas
hidroclimáticos que se reflejan en repeticiones en un periodo menor o igual a un año y que pueden
ser predichas. La rotación de la tierra sobre sí misma, así como su traslación alrededor del sol y la
inclinación de su eje, son algunos de los elementos que explican este componente.
Para la determinación de un factor estacional en series de tiempo hidrológicas, se utilizó la función
de autocorrelación (ACF por sus siglas en inglés). En esta se pueden identificar picos recurrentes
de correlación, los cuales se pueden entender como un ciclo con periodo de doce meses.
La Figura 16 muestra la función de autocorrelación para la serie hidrológica 13077060 (Cotoca
Abajo), ubicada en la parte baja del río Sinú. En esta se pueden observar los picos repetitivos de
correlación positiva significativa con un periodo de doce meses.
43
Este primer componente de la variabilidad hidroclimática, se representa a través del valor esperado
para cada uno de los meses del año, de este modo será incorporado en los métodos de pronóstico
propuestos.
Figura 20. Valores esperados para la serie de caudal 13077060
2.7.3 Componente inercial
Una vez identificado el componente estacional en la serie de tiempo, se continúa con la
identificación del componente inercial, el cual se puede entender como la memoria de corto plazo
que tiene el proceso hidroclimático. Para capturarlo, se debe remover el componente estacional de
la serie hidrológica, tal y como se describió en el título 2.4.
Al aplicar la función de autocorrelación a la serie desestacionalizada, se puede observar que el
ciclo de los picos de correlación desparece y únicamente quedan unas correlaciones significativas
en los primeros rezagos de la variable. Para el caso de la Figura 21, se aprecia que la
autocorrelación significativa para la serie desestacionalizada de caudal de la estación 13077060 se
presenta hasta un rezago de 3 meses, lo que indica que el estado de la variable para un mes está
relacionado con los estados de la variable en los meses 1, 2 e 3, por lo que estos rezagos
de la variable serán incorporados en los predictores de los métodos de pronóstico.
44
Figura 21. Función de autocorrelación para la serie desestacionalizada de caudal 13077060
2.7.4 Tendencia
La caracterización de la tendencia puede ser obtenida a través de un análisis de regresión lineal,
prueba de Mann-Kendall (Mann 1945; Kendall 1975) u otras más sofisticadas. Debido al periodo
de tiempo en el que se analizan las tendencias, este componente no fue incluido en los pronósticos
hidrológicos de largo plazo, ya que su análisis obedece al ultra largo plazo.
2.7.5 Ciclos seculares
Los ciclos seculares representan ciclos de baja frecuencia en las variables hidroclimáticas. Para su
tratamiento se calcularon las CDI (Domínguez 2015), que como se mencionó anteriormente,
identifican ciclos de baja y alta humedad en la serie. En la Figura 22 se presenta la CDI de la serie
de caudal de la estación 13077060, así mismo, se incluye el MEI con el fin de relacionar las CDI
con la presencia de fenómenos recurrentes como El Niño. Aquí se puede observar que en la serie
hidrológica mostrada ha predominado un periodo de baja humedad, sin embargo, no se ve
claramente una influencia del fenómeno de El Niño en la serie hidrológica, lo que permite inferir
que este no es el único fenómeno macroclimático que pueda tener influencia en la
hidroclimatología del país.
45
Figura 22. Curva de Diferencias Integradas para la serie de caudal 13077060
Al igual que en el caso de las tendencias, este componente no se incorpora a los pronósticos de
largo plazo ya que su análisis identifica ciclos de una frecuencia muy baja, que obedece a análisis
de ultra largo plazo.
2.7.6 Fenómenos recurrentes
Para el entendimiento de los fenómenos recurrentes se utilizó el análisis de teleconexiones, en el
cual se pretende identificar relaciones entre fenómenos macroclimáticos y los procesos
hidrológicos en el país.
Como primera medida, se realiza un análisis de correlación cruzada entre la serie de caudales
objetivo y los indicadores océano atmosféricos que son reportados recurrentemente por la NOAA.
Los resultados se pueden apreciar en la Figura 23, donde se ve la relación que existe entre la serie
de caudales y algunos IOA a través de las correlaciones estadísticamente significativas (aquellas
que presentan su valor en el gráfico), básicamente los que miden la temperatura superficial del
océano Pacífico en las zonas El Niño (ver Figura 3) y el correspondiente a la Oscilación
Multidecadal del Atlántico. Aquí se puede ver cómo la correlación es más alta en la zona Niño
1+2 y va disminuyendo a medida que se aleja de la zona continental (zona Niño 4). También se
aprecia cómo se intercalan las correlaciones positivas y negativas en el eje temporal, lo cual puede
46
ser un reflejo de la estacionalidad de la serie hidrológica y de la serie de temperaturas, aunque
también puede deberse a la influencia del acople de la dinámica océano-atmosférica sobre la
hidrología del país.
Por otro lado, si se realiza este mismo análisis, pero esta vez con la serie desestacionalizada de
caudales el resultado cambia drásticamente (ver Figura 24). Si bien los indicadores de la
temperatura superficial del océano siguen mostrando correlaciones significativas, los rezagos con
los que se presentan ya no son cíclicos, además aparecen otros indicadores con correlaciones
significativas en el análisis. Se debe tener en cuenta que en el caso del análisis de teleconexiones
con las series desestacionalizadas, los indicadores océano atmosféricos también fueron
desestacionalizados de ser posible (ver Tabla 1).
Figura 23. Correlación cruzada entre la serie de caudal 13077060 e IOA
47
Figura 24. Correlación cruzada entre la serie desestacionalizada de caudal 13077060 e IOA
La incorporación de este componente al pronóstico se realizó a través de las series de los IOA en
los rezagos en los que presentaron correlación significativa con la serie hidrológica
desestacionalizada (marcados con valor en los gráficos).
2.8 Modelos de pronóstico
Con el fin de evaluar la ganancia de predictibilidad y precisión al incorporar explícitamente
elementos de variabilidad hidroclimática en pronósticos hidrológicos de largo plazo de resolución
mensual, se evaluaron tres métodos de pronóstico usados comúnmente en hidrología: (i)
Autorregresivo y de Media Móvil (ARMA), (ii) Combinaciones Lineales Adaptativamente
Óptimas (CLAO) y (iii) Máquinas de Soporte Vectorial (SVM), estos modelos pueden o no admitir
la incorporación de variables exógenas. Para efectos de esta investigación, a los modelos ARMA
y CLAO no se les incorporó explícitamente elementos de variabilidad hidroclimática y los métodos
CLAO y SVM sí se les incorporaron estos elementos. La Figura 25 presenta un esquema de los
modelos empleados en este proyecto.
48
Figura 25. Modelos de pronóstico empleados
2.8.1 Selección de predictores
La selección de predictores, también conocida como selección de variables o características, es un
proceso mediante el cual se reduce la cantidad de variables independientes que puedan predecir
una variable dependiente (Genaro 2015).
Las variables, o predictores potenciales para el sistema de pronósticos a largo plazo que se
implementó cuentan con diferentes magnitudes, es decir, diferentes escalas de análisis, por esto,
resulta necesario, para los métodos que involucran el concepto de variabilidad desestacionalizar
las series.
Los métodos de selección de predictores utilizados se basan inicialmente en el método de
Selección de Subconjuntos de Predictores Basados en Correlación, este, ha demostrado ser uno
de los más robustos y capaces de obtener los predictores de mayor relevancia, entendiendo la
relevancia como el grado de influencia que tiene una variable independiente en el resultado del
pronóstico final (Genaro 2015).
Los métodos a los cuales hacemos referencia son el Análisis de Componentes Principales (PCA)
y el método de Informatividad.
2.8.1.1 Selección de predictores por PCA
Este método no es precisamente un método de selección, se le conoce como método de extracción
de predictores y consiste en la transformación de un conjunto de predictores a partir del PCA, esto
49
con el fin de reducir la dimensionalidad de dicho conjunto y agrupar parte de la varianza del mismo
en un conjunto más reducido conformado por componentes (Genaro 2015).
El conjunto inicial de predictores a los cuales se les extraen los componentes principales se
conforma mediante correlación, filtrando así un primer conjunto según este criterio de relevancia
para la serie a pronosticar. Este es un método de extracción agrupado, ya que los predictores no se
obtienen uno a uno sino que se extraen todos de manera agrupada (Genaro 2015).
2.8.1.2 Selección de predictors por Informatividad
El método de informatividad (Kolmogorov 1965), es por el contrario un método de selección (no
extracción como el PCA) y además de selección individual (no agrupado como el PCA). Este, al
igual que el de PCA empieza por seleccionar un subconjunto inicial a partir del criterio de
correlación. Posteriormente se obtiene la informatividad de dichos predictores y se filtran al lograr
una saturación en la informatividad acumulada del conjunto. Para finalizar dicho subconjunto se
filtra por la validez estadística de cada predictor y por el criterio de colinealidad.
El cálculo de la informatividad se realiza, para cada predictor, con la siguiente ecuación:
0.5 ln1
1
Donde:
representa la matriz de predictores .
coeficiente de determinación de la regresión entre el conjunto de predictores j y la variable
a pronosticar.
Así pues, este método propone realizar regresiones lineales hasta que se alcance una asíntota en la
informatividad del subconjunto. Empezando por la variable con mayor correlación como primer
elemento del conjunto de predictores y agregando una a una las que le sigan en ese orden.
De esta forma, al conjunto de predictores se va agregando una a una las variables y evaluando la
cantidad de información que aportan al modelo de regresión lineal múltiple. El criterio de parada
de este método es cuando no se presenta un aumento significativo en la informatividad del conjunto
(menos del 1%).
50
2.8.2 Modelos Auto-Regresivos y de Media Móvil (ARMA)
Los modelos que se estudian por la técnica de Box-Jenkins pueden o no incluir variaciones
estacionales y operan sobre series estacionarias, es decir, series en las cuales el promedio y la
varianza permanecen relativamente constantes a través del tiempo. Cuando las series de tiempo no
cumplen con tales características suelen emplearse transformaciones que las tornan en
estacionarias.
La gráfica de la variable objeto de estudio a través del tiempo, generalmente permite reconocer la
presencia o ausencia de estacionariedad. A grandes rasgos, una serie de registros que muestre
tendencia denota variaciones del promedio, y una que exhiba mayor o menor amplitud, cambios
de la varianza; en uno u otro caso la serie no es estacionaria.
También se puede evaluar dicha propiedad a través de la función de autocorrelación muestral
(ACF; o parcial –ACFparcial-); una extinción rápida de ésta sugiere que la serie es estacionaria, una
extinción lenta que no lo es.
Adicionalmente, hay que tener en cuenta que las gráficas de la ACF y la ACFparcial permiten
reconocer la presencia de la estacionalidad como por ejemplo anual, pues se visualizan picos cada
12 meses y, en tanto dichos picos reduzcan su altura rápidamente, sugieren que la serie es
estacionaria, si no lo hacen, que no lo es.
2.8.3 Máquinas de Soporte Vectorial (SVM)
Las SVM son un conjunto de algoritmos de aprendizaje supervisado. Las máquinas de soporte
vectorial (SVM) con núcleo de función de base radial (RBF) funciona igual, o mejor, que las redes
neuronales artificiales (ANN) (Aggarwal et al. 2012; Behzad et al. 2009; LIN et al. 2006).
2.8.4 Combinaciones Lineales Adaptativas y Óptimas (CLAO)
El concepto de operador adaptativo óptimo - AOM propuesto por (Domínguez et al. 2010;
Dominguez 2005), fue originalmente desarrollado con fines de mejoramiento de las capacidades
de pronóstico en tiempo real de niveles y caudales en corrientes naturales, cuya dinámica no
estacionaria limita la capacidad de pronóstico a ciertas escalas temporales. De manera general, el
AOM es similar a otros enfoques de modelación de sistemas dinámicos en tiempo discreto basados
51
en el concepto de espacio de fase, por ejemplo, el filtro Kalman (1960) y también a métodos de
análisis de series de tiempo como AR, ARX, ARMAX (Box, Gwilym et al. 2008). La diferencia
fundamental consiste en que el AOM explota las dinámicas locales de las señales observadas, que
pueden proveer una aproximación eficiente desde un punto de vista computacional para el análisis
de sistemas sujetos a condiciones no estacionarias y con componentes periódicos que ocurren a
diferentes frecuencias. En esencia, el AOM consiste en adaptar continuamente modelos
matemáticos simples tipo AR o VAR a la geometría y la cinemática observable localmente en el
espacio de fase de un sistema.
Según lo descrito por Domínguez (Dominguez 2005), las CLAO (Combinaciones Lineales
Adaptativamente Optimas) requieren de cuatro parámetros para su implementación: Los vectores
con los radios de autocorrelación y correlación cruzada, el horizonte de pronóstico y el ancho de
la ventana de entrenamiento.
Este método, originalmente pensado para pronósticos a corto plazo y con resoluciones inferiores
a las mensuales (Domínguez et al. 2010) cuya naturaleza es no estacionaria, es para esta caso
aplicado a pronósticos de largo plazo y con resoluciones mensuales, cuya dinámica si es
estacionaria. Para los pronósticos que no involucran el concepto de variabilidad hidroclimática,
las variables utilizadas fueron estacionales, mientras que para aquellos en los que si se involucró
las variables utilizadas fueron desestacionalizadas evitando así el carácter estacionario de dichas
series y recogiendo así la naturaleza conceptual del método.
El método adaptado parte de un subconjunto de predictores seleccionados por correlación y a partir
de este pueden filtrarse dichos predictores ya sea por extracción mediante PCA o por selección
mediante el método de informatividad. Estos subconjuntos pueden ser muy numerosos, lo cual
implica unos costos computacionales importantes, razón por la cual este método puede llegar a
reducir la cantidad de predictores sin generar pérdidas significativas en el desempeño del producto.
Una vez obtenido dicho subconjunto de predictores se procede a realizar progresivamente una serie
de regresiones lineales múltiples en las cuales se va eliminando una a una las variables cuyo
coeficiente no es significativamente diferente de 0. Este método elimina una variable en cada
regresión realizada; aquella que presente el mayor de los p valores en su coeficiente. Este método
resulta análogo al explicado por Genaro (2015) como Selección Secuencial Hacia Atrás.
52
Es importante mencionar también que a mayor cantidad de variables predictoras, mayor es la
incertidumbre del pronóstico y mayor es la probabilidad de propagación de los errores en el mismo,
razón por la cual los predictores se van eliminando hasta alcanzar dos criterios de parada: un
numero de condición de 30 y un mayor a 0.6. El número de condición pretende evitar la
propagación de los errores y el reducir el ruido y aumentar la precisión del pronóstico.
Una vez obtenido un modelo lineal que cumpla con dichas condiciones se procede a generar los
pronósticos pertinentes, que son posteriormente evaluados (al igual que todos los otros) con las
métricas de desempeño previamente mencionadas.
2.9 Experimentos numéricos
Los experimentos numéricos que se plantearon para el desarrollo del proyecto se basaron en la
información disponible. Se utilizaron las 26 series hidrológicas seleccionadas previamente (ver
numeral 2.2.4), las cuales cumplieron criterios de longitud y completitud (consistencia). Dado que
se pretenden evaluar los pronósticos de largo plazo a nivel país, se escogió un periodo común para
realizar simulaciones de pronósticos, desde enero de 2.004 hasta diciembre de 2.013, con lo cual
se cuenta con 120 meses de pronóstico. Además, para cada emisión de pronóstico se generaban
pronósticos a 1, 3, 6, 9 y 12 meses. La Figura 26 muestra un ejemplo de pronóstico para la serie
24017600, emitido en enero de 2.004, aquí se puede observar en línea negra continua el valor
observado y, en colores, algunos otros métodos de pronóstico que, pueden involucrar o no, el
concepto de variabilidad hidroclimática.
53
Figura 26. Emisión pronóstico para serie 24017600 (ene – 2.004)
Los experimentos numéricos se dividieron en dos grupos, experimentos con modelos en los que
no se incorporó el concepto de variabilidad climática y aquellos en los que sí se incorporó el
concepto. Los modelos empleados para realizar los pronósticos fueron CLAO, ARMA y SVM con
núcleo RBF. Cuando se hace referencia a modelos “con concepto de variabilidad” se están
incluyendo aquellos modelos que tienen explícitos elementos de variabilidad climática, tal como
se explicó en el título 2.7.
Tabla 8. Modelos utilizados en experimentos numéricos
Modelo Con Concepto
Variabilidad
Sin Concepto
Variabilidad
ARMA No admite Sí
CLAO Sí Sí
SVM-RBF Sí No
En el siguiente renglón aparecen los métodos empleados para la selección de los predictores que
se incorporarán a los modelos, para el proyecto se tuvo en cuenta dos métodos para seleccionar
predictores, el primero es al Análisis de Componentes Principales y el método de informatividad
(ver título 2.8.1).
54
Las combinaciones de todas las alternativas de pronóstico dan lugar a la Figura 27, aquí se puede
observar el abanico de pronósticos realizados. En total se emitieron 58.200 pronósticos para cada
una de las series seleccionadas.
Figura 27. Experimentos numéricos desarrollados
Para manipular los resultados se diseñó un sistema de codificación de los archivos de salida de los
experimentos numéricos, el cual se compone de una cadena de once caracteres, la cual está
codificada de la siguiente forma:
Figura 28. Codificación de los resultados obtenidos en los experimentos numéricos
Cada uno de los componentes del código se presenta en las siguientes tablas.
55
Tabla 9. Códigos internos de las series hidrológicas seleccionadas
Unidad Espacial Código
Interno Código Estación Corriente
AMAZONAS 401 44037090 Larandia Orteguaza
Caribe
102 11057020 San Antonio de Padua Atrato
101 11077010 Bellavista Atrato
103 11117010 El Añil Río Sucio
104 13077060 Cotoca abajo Sinú
Alto Magdalena
204 21047010 Puente Balseadero Magdalena
202 21137050 Angostura Magdalena
201 21237010 Nariño Magdalena
Bajo Magdalena 222 25027020 El Banco Magdalena
221 29037020 Calamar Magdalena
Costa 223 29067120 Fundación Fundación
Magdalena Medio
211 23037010 Puerto Salgar Magdalena
213 23057140 San Miguel La Miel
212 23087210 Canteras Nare
Río Cauca
234 26207080 Bolombolo Cauca
233 26237040 Puerto Valdivia Cauca
232 26247020 La Coquera Cauca
Río Nechí 231 27037010 La Esperanza Nechí
Río Saldaña 203 22057060 La Muralla Saldaña
Río Sogamoso 214 24017600 Moniquirá Moniquirá
Orinoco
301 35017020 Puente Lleras Meta
302 35087040 Los Cedros Tunjita
303 35197040 Puente Chartre Chartre
Pacífico
501 52047010 Universidad Pasto
502 52057040 Carlosama Blanco
503 53077010 Angostura Micay
Tabla 10. Codificación tratamiento de series
Con estacionalidad Desestacionalizados
Código 1 2
56
Tabla 11. Codificación selección de predictores
Informatividad PCA
Código 3 4
Tabla 12. Codificación modelos de pronóstico
CLAO SVM ARMA
Código 1 2 3
Tabla 13. Codificación horizontes de pronóstico
t=01 t=03 t=06 t=09 t=12
Código 01 02 06 09 12
Finalmente, las ventanas de entrenamiento de los pronósticos se incorporan de acuerdo con su
valor, iniciando en 060 y terminando en 240 con paso de 12 meses, para un total de 16 ventanas.
Por ejemplo, el archivo 20323103240 corresponde a la serie de pronóstico de la serie
hidrológica 22057060 (La Muralla), para datos desestacionalizados, seleccionando predictores por
informatividad, utilizando método de pronóstico CLAO, para un horizonte de 3 meses, con una
ventana de entrenamiento de 240 meses.
57
3 ANÁLISIS DE RESULTADOS
3.1.1 Análisis como variable aleatoria
Los resultados obtenidos del análisis como variable aleatoria arrojaron que el 94% de los conjuntos
estadísticos tienen un comportamiento aleatorio, esto aplicando la prueba de rachas. Esto permitió
avanzar en el tratamiento de los grupos mensuales de las series de tiempo como variables
aleatorias, procediendo al ajuste de funciones de densidad de probabilidad. La Figura 29 presenta
las funciones de densidad de probabilidad que mejor ajustaron para cada uno de los meses del año
en las 26 series hidrológicas seleccionadas. Estas figuras se pueden encontrar con mayor
resolución en el Anexo 2.2.
58
Figura 29. Ajuste de funciones de densidad de probabilidad
Las siguientes figuras presentan los valores esperados para las 26 series seleccionadas, en estas se
aprecian los regímenes de flujo, en los cuales pueden observar los patrones estacionales que
gobiernan la hidrología del país, encontrando que hacia las zonas del Orinoco y Amazonas se
presenta un solo valor máximo al año, al igual que en la parte más alta del río Magdalena, mientras
que en las demás regiones se presentan dos valores máximos al año. Estos patrones estacionales
se asocian al paso de la Zona de Confluencia Intertropical (ZCIT) por el país.
En las series de la zona Caribe estudiadas, se aprecia la existencia de dos patrones estacionales, el
primero en las de la zona del río Atrato (11057020, 11077010 y 11117010) con dos valores
máximos al año y otro patrón en la cuenca del río Sinú (13077060) con un solo máximo al año
(ver Figura 30).
59
Figura 30. Componente Estacional Series Zona Caribe
En las series de las zonas Alto y Medio Magdalena se aprecia un patrón estacional de dos máximos
al año, a excepción de la serie 21047010, ubicada en la parte más alta de la cuenca (ver Figura 31).
60
Figura 31. Componente Estacional Series Alto y Medio Magdalena
El componente estacional de las cuencas de los ríos Saldaña y Sogamoso, afluentes del río
Magdalena en su parte media, muestran un patrón estacional de dos máximos al año (ver Figura
32).
Figura 32. Componente Estacional Series ríos Saldaña y Sogamoso
61
Para la cuenca del río Cauca (26207080, 26237040 y 26247020) se aprecia un patrón estacional
de dos máximos al año, para la cuenca del río Nechí (27037010) se aprecia el mismo patrón, pero
con diferencias menos marcadas entre los periodos secos y húmedos (ver Figura 33).
Figura 33. Componente Estacional ríos Cauca y Nechí
En la parte baja de la cuenca del río Magdalena se puede apreciar un patrón estacional de dos
máximos al año (ver Figura 34).
Figura 34. Componente Estacional Zona Bajo Magdalena – Cauca
62
En la zona Magdalena – Costa, se evidencia un patrón estacional de dos máximos al año (ver
Figura 35).
Figura 35. Componente Estacional Zona Magdalena – Costa
Para las zonas Orinoco y Amazonas, se presenta un patrón estacional con un solo valor máximo al
año (ver Figura 36).
Figura 36. Componente Estacional zonas Orinoco y Amazonas
63
Para la zona pacífico se aprecian dos valores máximos al año, con muy poca diferencia entre el
periodo de octubre a junio, lo que hace parecer que existiera un solo valor máximo al año, pero
muy prolongado.
Figura 37. Componente Estacional Zona Pacífico
3.1.2 Análisis como serie de tiempo
Los resultados del análisis de los registros hidrológicos como series de tiempo arrojaron funciones
de autocorrelación con muy poca memoria para las cuencas de la parte alta de la zona hidrográfica
Magdalena – Cauca (uno o dos meses), así como funciones con inercia muy alta para la zona baja
de la misma área (cinco a seis meses). La cuenca representativa para el área pacífico se representó
como un proceso con muy poca memoria, así como la cuenca representativa del área Amazonas.
Las cuencas de la zona Orinoquía y Madalena medio presentaron valores de autocorrelación
significativa entre los tres y cinco meses. Estos resultados se pueden encontrar en el Anexo 2.3.
64
Figura 38. Funciones de autocorrelación de las series hidrológicas, 6 estaciones
65
3.1.3 Análisis de Correlación cruzada
Los análisis de correlación cruzada permitieron identificar variables exógenas complementarias
para los pronósticos de largo plazo, bien sea para los modelos que involucran el concepto de
variabilidad hidroclimática como para los que no. En la Figura 39 se puede apreciar el resultado
del análisis de correlación cruzada para la serie 13077060 y series complementarias de
precipitación (a) y caudal (b). Se ven claramente franjas que alternan sus valores de correlación de
positiva a negativa, asociadas a la estacionalidad de las series. En la parte (c) y (d) de la misma
figura observamos el análisis de autocorrelación para las series desestacionalizadas, el cual
muestra una estructura completamente diferente, aquí se tiene que se aporta información hasta con
cinco meses de anticipación para series de precipitación y hasta de cuatro para series
complementarias de caudales. El Anexo 3.3 presenta los esquemas de correlación cruzada para las
26 series hidrológicas seleccionadas.
(a)
(b)
(c)
(d)
Figura 39. Análisis de correlación cruzada para la serie 13077060 y otras series de caudal y
precipitación
66
3.1.4 Análisis de teleconexiones
En la Figura 40 se puede apreciar en el territorio nacional, al menos las áreas hidrográficas de la
macrocuenca Magdalena Cauca, Pacífico y Caribe, el resultado de los análisis de correlaciones
presentadas por los indicadores macroclimáticos MEI y ONI en las estaciones hidrológicas
seleccionadas. En general este tipo de análisis permitió identificar indicadores como ONI, MEI,
NIÑO 1-2, NIÑO 3 y SOI que presentan correlaciones estadísticamente significativas con las
estaciones hidrológicas seleccionadas con órdenes de magnitud entre 0.2 a 0.6 de tipo inverso
(correlaciones negativas) para los índices ONI, MEI, NIÑO 1-2, NIÑO 3, y de tipo directo
(correlaciones positivas) para el índice SOI. Los índices ONI y MEI resultar ser los de mayor
representatividad en el territorio nacional como se aprecia arriba en la figura al menos para un
horizonte temporal de -3 meses disminuyéndose este a los -6 meses. Otro aspecto relevante es la
mayor magnitud en los valores de correlación entre las estaciones del norte del país (> 0.3) en
relación a las estaciones del sur para el horizonte de tiempo t=-1 (un mes). Dicho comportamiento
se invierte para el periodo de tiempo t=-6 (seis meses) en donde las mayores correlaciones se
alcanzan en las estaciones del Magdalena medio. Para horizontes de tiempo mayor a -6 meses, no
se encontraron correlaciones estadísticamente significativas. Para las zonas Orinoco y Amazonas
no se encontraron valores significativos de correlación, lo que no permitió identificar conexiones
entre los fenómenos macroclimáticos del Pacífico y el Atlántico sobre estas zonas hidrográficas.
Para los demás indicadores, la representatividad de estos en el territorio y su aporte de información
en un horizonte temporal mayor a t=-3 (tres meses) no resulto significativa al menos en el presente
estudio. El análisis completo de correlaciones y su distribución espacial se presenta en el Anexo
3.3.
67
t=01 t=03 t=06
Índice Multivariado del ENSO (MEI)
t=01 t=03 t=06
Indice de la Oscilación del Norte (ONI)
Figura 40. Caracterización de los fenómenos macroclimáticos en la hidrología colombiana
3.1.5 Modelos de pronóstico
Los resultados obtenidos a partir de los experimentos numéricos incluyen series de tiempo con
pronósticos para horizontes de 1, 3, 6, 9 y 12 meses con resolución mensual, además de las métricas
de desempeño de cada una de las series de pronóstico emitidas.
68
A manera de muestra, En la Figura 41 se presentan los resultados de los pronósticos emitidos para
la serie hidrológica 13077060 para horizontes de 1 (a y b), 3 (c y d), 6 (e y f), 9 (g y h) y 12 (i y j)
meses respectivamente, aquí también se pueden apreciar los valores de las métricas de desempeño
seleccionadas tanto para los métodos que involucran el concepto de variabilidad hidroclimática (b,
d, f, h, j) como para los que no (a, c, e, g, i). Para este caso particular, se evidencia el mejoramiento
de los pronósticos para todos los horizontes, por ejemplo, para el horizonte de pronóstico de 1 mes
(t=01), el pasa de 0.83, para el mejor modelo de pronóstico que no incorpora el concepto de
variabilidad, a 0.86 para el mejor modelo que sí la incorpora; el / ∆ pasa de 0.66 a 0.63, el MARE
de 13.8% a 13.7%; la única métrica de desempeño que no presenta una mejora es el SHPR, que
pasa de 15.2% a 16.0%. Para los horizontes de pronóstico de 3, 6, 9 y 12 meses se puede apreciar
que todas las métricas de desempeño mejoraron.
Los resultados de los pronósticos generados se pueden encontrar en el Anexo 3.1 en formato de
archivo Pickle, el cual puede ser leído en Python, organizados de acuerdo con la codificación
mencionada.
(a)
(b)
(c)
(d)
15.3%
13.8%
Modelo
CLAO‐SV
ARMA
0.82
0.83
18.6%
15.2%
0.69
0.66
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico sin concepto de variabilidad para la serie 13077060 para t=01
Obs CLAO‐SV ARMA
/ ∆
r2 ssd mare shpr
RBF‐CV 0.85 0.65 14.2% 16.3%
Modelo
CLAO‐CV 0.86 0.63 13.7% 16.0%
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico con concepto de variabilidad para la serie 13077060 para t=01
Obs CLAO‐CV RBF‐CV
/ ∆
20.2%
19.6%
Modelo
CLAO‐SV
ARMA
0.68
0.71
21.2%
23.4%
0.43
0.43
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico sin concepto de variabilidad para la serie 13077060 para t=03
Obs CLAO‐SV ARMA
/ ∆
r2 ssd mare shpr
RBF‐CV 0.78 0.36 15.9% 17.6%
Modelo
CLAO‐CV 0.79 0.36 17.2% 20.2%
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico con concepto de variabilidad para la serie 13077060 para t=03
Obs CLAO‐CV RBF‐CV
/ ∆
69
(e)
(f)
(g)
(h)
(i)
(j)
Figura 41. Resultados pronósticos para la serie hidrológica 13077060
Para entender un poco más la evolución de las métricas de desempeño para los diferentes
horizontes de pronóstico para la serie hidrológica 13077060 se presenta la Figura 42, en esta se
evidencia que las métricas de los modelos que involucran el concepto de variabilidad
hidroclimática tienen mejores valores que las de los modelos que no involucran el concepto.
19.6%
22.1%
Modelo
CLAO‐SV
ARMA
0.69
0.67
21.5%
27.3%
0.32
0.35
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico sin concepto de variabilidad para la serie 13077060 para t=06
Obs CLAO‐SV ARMA
/ ∆
r2 ssd mare shpr
RBF‐CV 0.75 0.28 16.9% 20.9%
Modelo
CLAO‐CV 0.72 0.29 17.5% 19.8%
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico con concepto de variabilidad para la serie 13077060 para t=06
Obs CLAO‐CV RBF‐CV
/ ∆
20.4%
21.8%
Modelo
CLAO‐SV
ARMA
0.67
0.67
21.0%
26.4%
0.40
0.43
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico sin concepto de variabilidad para la serie 13077060 para t=09
Obs CLAO‐SV ARMA
/ ∆
r2 ssd mare shpr
RBF‐CV 0.72 0.38 17.1% 20.3%
Modelo
CLAO‐CV 0.72 0.37 18.1% 20.9%
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico con concepto de variabilidad para la serie 13077060 para t=09
Obs CLAO‐CV RBF‐CV
/ ∆
19.8%
21.7%
Modelo
CLAO‐SV
ARMA
0.68
0.68
21.6%
25.6%
0.71
0.78
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico sin concepto de variabilidad para la serie 13077060 para t=12
Obs CLAO‐SV ARMA
/ ∆
r2 ssd mare shpr
RBF‐CV 0.68 0.71 19.4% 21.6%
Modelo
CLAO‐CV 0.70 0.69 18.8% 22.2%
0
100
200
300
400
500
600
700
800
900
Jan‐2004
Apr‐2004
Jul‐2004
Oct‐2004
Jan‐2005
Apr‐2005
Jul‐2005
Oct‐2005
Jan‐2006
Apr‐2006
Jul‐2006
Oct‐2006
Jan‐2007
Apr‐2007
Jul‐2007
Oct‐2007
Jan‐2008
Apr‐2008
Jul‐2008
Oct‐2008
Jan‐2009
Apr‐2009
Jul‐2009
Oct‐2009
Jan‐2010
Apr‐2010
Jul‐2010
Oct‐2010
Jan‐2011
Apr‐2011
Jul‐2011
Oct‐2011
Jan‐2012
Apr‐2012
Jul‐2012
Oct‐2012
Jan‐2013
Apr‐2013
Jul‐2013
Oct‐2013
Caudal [m3/s]
Pronóstico con concepto de variabilidad para la serie 13077060 para t=12
Obs CLAO‐CV RBF‐CV
/ ∆
70
Figura 42. Evolución de las métricas de desempeño para los pronósticos de la serie 13077060
Al realizar un análisis de la evolución de las métricas para todos los pronósticos emitidos, para
todas las estaciones seleccionadas, se encuentra que los modelos que presentan mejores métricas
de desempeño son los que involucran el concepto de variabilidad hidroclimática, además, a medida
que se extiende el horizonte de pronóstico, el desempeño de estos modelos es mejor comparado
contra los que no involucran el concepto. Esto se puede evidenciar en los resultados mostrados en
la Tabla 14 y en la Figura 43, para valores del . Los mismos resultados se pueden encontrar para
las demás métricas: / ∆ (Tabla 15 y Figura 44), (Tabla 17 y Figura 46) y SHPR (Tabla
17 y Figura 46).
Se puede observar que el modelo ARMA presenta en general buenos desempeños para un
horizonte de pronóstico (t=01).
Tabla 14. Evolución del promedio del r2
Modelo 1 3 6 9 12
CLAO-SV 0.53 0.42 0.42 0.39 0.39
ARMA 0.63 0.48 0.41 0.38 0.37
71
Modelo 1 3 6 9 12
CLAO-CV 0.66 0.61 0.54 0.53 0.50
SVM-CV 0.64 0.57 0.55 0.55 0.54
Figura 43. Evolución de la media y la variabilidad del r2
Tabla 15. Evolución del promedio del s/
Modelo 1 3 6 9 12
CLAO-SV 0.79 0.57 0.60 0.53 0.72
ARMA 0.70 0.54 0.62 0.55 0.76
CLAO-CV 0.66 0.46 0.53 0.45 0.63
SVM-CV 0.69 0.49 0.54 0.45 0.61
Figura 44. Evolución de la media y la variabilidad del s/
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0 3 6 9 12
r2
Horizonte de pronóstico
Evolución del promedio del r2
CLAO‐SV ARMA CLAO‐CV SVM‐CV
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
0 3 6 9 12
r2Horizonte de pronóstico
Evolución de la variabilidad del r2
CLAO‐SV ARMA CLAO‐CV SVM‐CV
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0 3 6 9 12
s/
Horizonte de pronóstico
Evolución del promedio del s/
CLAO‐SV ARMA CLAO‐CV SVM‐CV
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
0 3 6 9 12
s/
Horizonte de pronóstico
Evolución de la variabilidad del s/
CLAO‐SV ARMA CLAO‐CV SVM‐CV
72
Tabla 16. Evolución del promedio del MARE
Modelo 1 3 6 9 12
CLAO-SV 0.33 0.37 0.38 0.40 0.38
ARMA 0.25 0.31 0.34 0.36 0.36
CLAO-CV 0.26 0.28 0.29 0.31 0.32
SVM-CV 0.26 0.27 0.28 0.29 0.29
Figura 45. Evolución de la media y la variabildad del MARE
Tabla 17. Evolución del promedio del SHPR
Modelo 1 3 6 9 12
CLAO-SV 0.32 0.36 0.37 0.38 0.37
ARMA 0.26 0.32 0.35 0.37 0.37
CLAO-CV 0.27 0.29 0.31 0.31 0.33
SVM-CV 0.27 0.29 0.30 0.29 0.29
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
0 3 6 9 12
MARE
Horizonte de pronóstico
Evolución del promedio del MARE
CLAO‐SV ARMA CLAO‐CV SVM‐CV
0%
5%
10%
15%
20%
25%
30%
35%
40%
0 3 6 9 12
MARE
Horizonte de pronóstico
Evolución de la variabilidad del MARE
CLAO‐SV ARMA CLAO‐CV SVM‐CV
73
Figura 46. Evolución de la media y la variabilidad del SHPR
0%
5%
10%
15%
20%
25%
30%
35%
40%
0 3 6 9 12
SHPR
Horizonte de pronóstico
Evolución del promedio del SHPR
CLAO‐SV ARMA CLAO‐CV SVM‐CV
0%
5%
10%
15%
20%
25%
0 3 6 9 12
SHPR
Horizonte de pronóstico
Evolución de la variabilidad del SHPR
CLAO‐SV ARMA CLAO‐CV SVM‐CV
74
4 CONCLUSIONES
La formalización del concepto de variabilidad hidrológica y climática permitió tener claridad de
todos sus componentes, explicando en qué resolución temporal estos actúan, lo que es muy útil a
la hora de incluir uno u otro factor del concepto de variabilidad climática en los pronósticos de
largo plazo.
Esto permitió excluir elementos de baja frecuencia como potenciales predictores para pronósticos
de largo plazo (horizontes de 12 meses), como por ejemplo tendencias e influencia de ciclos
seculares, aunque estos últimos posibilitan un marco de contraste para la detección de la influencia
de teleconexiones como los fenómenos de El Niño y La Niña.
El análisis del componente de variabilidad denominado “fenómenos recurrentes”, realizado a
través del análisis de teleconexiones, mostró que existe una íntima relación entre los fenómenos
océano atmosféricos y el régimen de precipitaciones y caudales en Colombia. El análisis muestra
que existe un régimen de oscilación de la teleconexión, expresada como correlación lineal y que
la emergencia de fenómenos extremos (El Niño, La Niña, por ejemplo) es una exacerbación de
estas oscilaciones y no algo particular ajeno a la interacción océano-atmósfera-variabilidad
climática en Colombia. La formalización del criterio de variabilidad hidrológica y climática
permite tomar en forma explícita esta consideración dentro de los métodos de pronósticos de largo
plazo. Desde el punto de vista de las teleconexiones, los indicadores MEI y ONI son los que
encuentran una mejor expresión espacial en el dominio de las áreas hidrológicas Magdalena-
Cauca, Pacífico y Caribe.
El componente inercial se mostró íntimamente relacionado con las características morfométricas
de las cuencas hidrológicas estudiadas. Se evidencia que la precisión de pronóstico es más alta en
las cuencas de mayor área, pero que se garantiza su predictibilidad de acuerdo con el / ∆ gracias
a la tecnología de entrenamiento por ventanas temporales, lo cual interioriza las condiciones de
variabilidad hidrológica reciente en el método de pronóstico a diferencia de los métodos no
entrenados por ventanas, los cuales ponderan la variabilidad hidrológica y climática para todo el
intervalo histórico de observaciones.
75
El concepto de variabilidad hidrológica y climática influyó positivamente sobre el desempeño de
pronósticos hidrológicos de largo plazo en el territorio nacional. Desde el punto de vista de
pronósticos hidrológicos los métodos de pronóstico que permitieron la asimilación del concepto
de variabilidad hidrológica y climática arrojaron siempre los mejores indicadores de desempeño,
incluso para horizontes hasta de 12 meses.
Los criterios de desempeños expresan una ciclicidad en la que los horizontes de pronóstico de 3 y
9 meses aparecen como los de mayor precisión (con base en los valores de ∆), sin embargo, los
criterios de desempeño manifiestan que hay precisión y predictibilidad entre satisfactorias y
buenas. La precisión de los pronósticos decae con el aumento del horizonte, lo cual es de esperar,
aunque en los métodos de pronóstico en los que no se incluyeron conceptos de variabilidad la
tendencia al decaimiento es continua y no se estabiliza (ARMA y CLAO-SV), como sí ocurre con
los métodos de pronóstico que sí los incluyeron (“CLAO-CV y SVM-CV”).
76
BIBLIOGRAFÍA
Aggarwal, S.K., Goel, A. & Singh, V.P., 2012. Stage and Discharge Forecasting by SVM and
ANN Techniques. Water Resources Management, 26(13), pp.3705–3724.
Andrés-Doménech, I. et al., 2015. Climate and hydrological variability: the catchment filtering
role. Hydrol. Earth Syst. Sci., 19(1), pp.379–387. Available at: http://www.hydrol-earth-syst-
sci.net/19/379/2015/ [Accessed January 24, 2015].
Angarita, H. et al., 2013. Escenarios de alteración regional del regimen hidrológico en la cuenca
Magdalena - Cauca por intensificación de la demanda para hidroenergía. In Conferencia
Internacional Agua. Cali, Colombia, pp. 1–18.
Anon, 2006. Encyclopedia of Hydrological Sciences, Available at:
http://onlinelibrary.wiley.com/book/10.1002/0470848944/toc [Accessed July 25, 2015].
Baines, P.G., 2005. Long-term variations in winter rainfall of southwest Australia and the African
monsoon. Australian Meteorological Magazine, 54(2), pp.91–102. Available at:
http://people.eng.unimelb.edu.au/pbaines/Baines AMM 2005.pdf [Accessed December 8,
2015].
Behzad, M. et al., 2009. Generalization performance of support vector machines and neural
networks in runoff modeling. Expert Systems with Applications, 36(4), pp.7624–7629.
Available at: http://dx.doi.org/10.1016/j.eswa.2008.09.053.
Bendat, J.S. & Piersol, A.G., 1986. Random data: Analysis and measurement procedures 2nd
editio. J. Wiley, ed., New York: Wiley.
Bowden, J.H. & Semazzi, F.H.M., 2007. Empirical Analysis of Intraseasonal Climate Variability
over the Greater Horn of Africa. Journal of Climate, 20(23), pp.5715–5731. Available at:
http://journals.ametsoc.org/doi/abs/10.1175/2007JCLI1587.1 [Accessed December 4, 2015].
Bowerman, B.L., O´Connell, R.T. & Koehler, A.B., 2007. Pronósticos, series de tiempo y
regresión, México: Editorial Thomson.
Dai, A., Fung, I.Y. & Del Genio, A.D., 1997. Surface Observed Global Land Precipitation
77
Variations during 1900–88. Journal of Climate, 10(11), pp.2943–2962. Available at:
http://journals.ametsoc.org/doi/abs/10.1175/1520-
0442(1997)010%3C2943%3ASOGLPV%3E2.0.CO%3B2 [Accessed May 3, 2016].
Dawson, C.W., Abrahart, R.J. & See, L.M., 2007. HydroTest: A web-based toolbox of evaluation
metrics for the standardised assessment of hydrological forecasts. Environmental Modelling
and Software, 22(7), pp.1034–1052.
Déry, S.J. et al., 2012. A century of hydrological variability and trends in the Fraser River Basin.
Environmental Research Letters, 7(2), p.024019. Available at: http://stacks.iop.org/1748-
9326/7/i=2/a=024019 [Accessed December 7, 2015].
Domínguez C., E.A., 2010. Cálculo de parámetros morfométricos. , p.6. Available at:
www.mathmodelling.org.
Domínguez Calle, E.A., Angarita, H. & Rivera, H., 2010. The feasibility of daily, weekly and ten-
day water-level forecasting in Colombia. Ingeniería e Investigación, 30(2), pp.178–187.
Available at: http://www.scielo.org.co/scielo.php?pid=S0120-
56092010000200018&script=sci_arttext&tlng=pt [Accessed March 18, 2014].
Dominguez, E., 2005. Pronóstico probabilístico de afluencias para la evaluación de riesgos en
embalses hidroeléctricos. Avances en Recursos Hidráulicos, pp.12–25.
Domínguez, E., 2015. Ciclos seculares en variables hidroclimatológicas. , p.14.
Domínguez, E. et al., 2011. The search for orthogonal hydrological modelling metrics: a case study
of 20 monitoring stations in Colombia. Journal of Hydroinformatics, 13(3), p.429.
Domínguez, E., Angarita, H. & Rivera, H., 2010. Viabilidad para pronósticos hidrológicos de
niveles diarios, semanales y decadales en Colombia. Ingenieria e investigción, 30(2), pp.178–
187.
Genaro, N., 2015. Sístema de predicción de ruido urbano mediante redes neuronales. Universidad
de Granda.
Grubbs, F.E., 1950. Sample Criteria for Testing Outlying Observations. The Annals of
Mathematical Statistics, 21(1), pp.27–58. Available at:
78
http://projecteuclid.org/euclid.aoms/1177729885 [Accessed September 6, 2015].
Haan, C.T., 2002. Statistical Methods in Hydrology 2nd ed., Wiley.
Hansen, J. et al., 2010. Global surface temperature change (RG4004). Reviews of Geophysics,
48(4), pp.1–29.
Huang, N.E. & Wu, Z., 2008. A review on Hilbert-Huang transform: Method and its applications
to geophysical studies. Reviews of Geophysics, 46(2), p.RG2006. Available at:
http://onlinelibrary.wiley.com/doi/10.1029/2007RG000228/abstract [Accessed December 8,
2015].
Hurst, H.E., 1951. Long term storage capacities of reservoirs. Transactions of the American
Society of Civil Engineers, 116, pp.770–779.
Iglewicz, B. & Hoaglin, D., 1993. How to Detect and Handle Outliers. The ASQC Basic References
in Quality Control: Statistical Techniques, 16.
IPCC, 2013. Annex III: Glossary. Climate Change 2013: The Physical Science Basis. Contribution
of Working Group I to the Fifth Assessment Report of the Intergovernmental Panel on Climate
Change, pp.1447–1466.
IPCC, 2007. Climate Change 2007 - The Physical Science Basis. Contribution of Working Group
I to the Fourth Assessment Report of the IPCC., Cambridge [u.a.]: Cambridge Univ. Press.
Jacob, D. et al., 2007. An inter-comparison of regional climate models for Europe: model
performance in present-day climate. Climatic Change, 81(S1), pp.31–52. Available at:
http://link.springer.com/10.1007/s10584-006-9213-4 [Accessed May 2, 2016].
Katz, R.W. & Brown, B.G., 1992. Extreme events in a changing climate: Variability is more
important than averages. Climatic Change, 21(3), pp.289–302. Available at:
http://link.springer.com/article/10.1007/BF00139728 [Accessed November 29, 2015].
Kendall, M., 1975. Rank correlation methods 4th ed.,
Kolmogorov, A., 1965. Three Approaches to the quantitive definition of Information. Prob Info
Trans, 1(1), pp.3–11.
Koutsoyiannis, D., 2003. Climate change, the Hurst phenomenon, and hydrological statistics.
79
Hydrological Sciences Journal, 48(1), pp.3–24. Available at:
http://www.itia.ntua.gr/en/docinfo/537/ [Accessed March 16, 2014].
Koutsoyiannis, D., 2003. Climate change, the Hurst phenomenon, and hydrological statistics.
Hydrological Sciences Journal, 48(1), pp.3–24.
Laing, A. & Evans, J.L., 2015. Introduction to Tropical Meteorology 2nd ed., The COMET
Program. Available at: http://www.meted.ucar.edu/tropical/textbook_2nd_edition/index.htm.
Li, K.Y., Coe, M.T. & Ramankutty, N., 2005. Investigation of Hydrological Variability in West
Africa Using Land Surface Models. Journal of Climate, 18(16), pp.3173–3188. Available at:
http://journals.ametsoc.org/doi/abs/10.1175/JCLI3452.1 [Accessed December 7, 2015].
LIN, J.-Y., CHENG, C.-T. & CHAU, K.-W., 2006. Using support vector machines for long-term
discharge prediction. Hydrological Sciences Journal, 51(4), pp.599–612. Available at:
http://www.tandfonline.com/doi/abs/10.1623/hysj.51.4.599 [Accessed March 18, 2014].
Mann, H.B., 1945. Nonparametric Tests Against Trend. Econometrica, 13(3), p.245. Available at:
http://www.jstor.org/stable/1907187?origin=crossref [Accessed July 5, 2016].
Massei, N. & Fournier, M., 2012. Assessing the expression of large-scale climatic fluctuations in
the hydrological variability of daily Seine river flow (France) between 1950 and 2008 using
Hilbert–Huang Transform. Journal of Hydrology, 448–449, pp.119–128. Available at:
http://www.sciencedirect.com/science/article/pii/S0022169412003526 [Accessed December
8, 2015].
Mathematics, E. of, 2012. Kolmogorov-Smirnov test. Kolmogorov-Smirnov test.
Mendoza, H. & Bautista, G., 2002. Probabilidad y Estadistica. Universidad Nacional de Colombia.
Creative Commons BY-NC-ND. Available at:
http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_135_35.html.
NIST, 2013. NIST/SEMATECH e-Handbook of Statistical Methods,
van Oldenborgh, G.J., Philip, S.Y. & Collins, M., 2005. El Niño in a changing climate: a multi-
model study. Ocean Science, 1(2), pp.81–95. Available at: http://www.ocean-
sci.net/1/81/2005/ [Accessed May 3, 2016].
80
Orr, J.M., Sackett, P.R. & Dubois, C.L.Z., 1991. Outlier detection and treatment in i/o psychology:
a survey of researcher beliefs and an empirical illustration. Personnel Psychology, 44(3),
pp.473–486.
Poff, N.L. et al., 1997. The Natural Flow Regime. BioScience, 47(11), pp.769–784.
Poveda, G. et al., 2002. Influencia de fenómenos macroclimáticos sobre el ciclo anual de la
hidrología colombiana: cuantificación lineal, no lineal y percentiles probabilísticos.
Meteorología Colombiana, 6, pp.121–130. Available at:
http://www.geociencias.unal.edu.co/unciencias/data-
file/user_23/file/METEOROLOGIA/13Poveda Clima Nuevo.pdf [Accessed March 12,
2014].
Rajeevan, M., Bhate, J. & Jaswal, A.K., 2008. Analysis of variability and trends of extreme rainfall
events over India using 104 years of gridded daily rainfall data. Geophysical Research
Letters, 35(18), p.L18707. Available at:
http://onlinelibrary.wiley.com/doi/10.1029/2008GL035143/abstract [Accessed December 8,
2015].
Richter, B.D. et al., 1997. How much water does a river need? Freshwater Biology, 37(1), pp.231–
249. Available at: http://doi.wiley.com/10.1046/j.1365-2427.1997.00153.x [Accessed May
22, 2016].
Rosenmai, P., 2013. Using the Median Absolute Deviation to Find Outliers. Available at:
http://eurekastatistics.com/using-the-median-absolute-deviation-to-find-outliers [Accessed
May 9, 2016].
Rosner, B., 1983. Percentage Points for a Generalized ESD Many-Outlier Procedure.
Technometrics, 25(2), pp.165–172. Available at: http://www.jstor.org/stable/1268549
[Accessed August 31, 2015].
Ross, S.M., 2007. Expectation of a random variable. In Introduction to probability models.
Academic Press, p. 38.
Sharma, A., 2000. Seasonal to interannual rainfall probabilistic forecasts for improved water
supply management: Part 1 — A strategy for system predictor identification. Journal of
81
Hydrology, 239(1–4), pp.232–239. Available at:
http://www.sciencedirect.com/science/article/pii/S0022169400003462 [Accessed March 18,
2014].
Silverman, B.W. & Jones, M.C., 1989. E. Fix and J.L. Hodges(1951): an important contribution
to nonparametric discriminant analysis and density estimation. International Statistical
Review. Available at: http://oro.open.ac.uk/28327/ [Accessed May 19, 2016].
von Storch, H. & Navarra, A. eds., 1999. Analysis of Climate Variability, Berlin, Heidelberg:
Springer Berlin Heidelberg. Available at: http://link.springer.com/10.1007/978-3-662-
03744-7 [Accessed December 3, 2015].
Sveshnikov, A.A., 1966. Applied methods of the theory of random functions. , p.317.
Tietjen, G.L. & Moore, R.H., 2012. Some Grubbs-Type Statistics for the Detection of Several
Outliers. Technometrics. Available at:
http://amstat.tandfonline.com/doi/abs/10.1080/00401706.1972.10488948 [Accessed May
19, 2016].
UNESCO & WMO, 2012. International glossary of hydrology,
de Viron, O., Dickey, J.O. & Ghil, M., 2013. Global modes of climate variability. Geophysical
Research Letters, 40(9), pp.1832–1837.
WMO, 2011. Guía de Prácticas Climatológicas,
WMO, 2008. Guide to Hydrological Practices. Available at:
http://www.whycos.org/hwrp/guide/index.php [Accessed May 22, 2016].
Woods, R., 2006. Hydrologic Concepts of Variability and Scale. In John Wiley & Sons, Ltd.
Available at: http://onlinelibrary.wiley.com/doi/10.1002/0470848944.hsa002/abstract
[Accessed July 31, 2015].
Wu, B., Su, J. & D’Arrigo, R., 2015. Patterns of Asian Winter Climate Variability and Links to
Arctic Sea Ice. Journal of Climate, 28(17), pp.6841–6858. Available at:
http://journals.ametsoc.org/doi/abs/10.1175/JCLI-D-14-00274.1 [Accessed December 4,
2015].
82
Yaffee, R.A. & McGee, M., 2000. Introduction to time series analysis and forecasting with
applications of SAS and SPSS, Academic Press.