Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Universidad de La Salle Universidad de La Salle
Ciencia Unisalle Ciencia Unisalle
Ingeniería Industrial Facultad de Ingeniería
2019
Comparación de cuatro métodos de predicción para dos acciones Comparación de cuatro métodos de predicción para dos acciones
en la bolsa de valores de Colombia en la bolsa de valores de Colombia
María Angélica Rey Vesga Universidad de La Salle, Bogotá
Juan Alfonso Chamorro Chamorro Universidad de La Salle, Bogotá
Follow this and additional works at: https://ciencia.lasalle.edu.co/ing_industrial
Part of the Industrial Engineering Commons
Citación recomendada Citación recomendada Rey Vesga, M. A., & Chamorro Chamorro, J. A. (2019). Comparación de cuatro métodos de predicción para dos acciones en la bolsa de valores de Colombia. Retrieved from https://ciencia.lasalle.edu.co/ing_industrial/139
This Trabajo de grado - Pregrado is brought to you for free and open access by the Facultad de Ingeniería at Ciencia Unisalle. It has been accepted for inclusion in Ingeniería Industrial by an authorized administrator of Ciencia Unisalle. For more information, please contact [email protected].
COMPARACIÓN DE CUATRO MÉTODOS DE PREDICCIÓN PARA DOS ACCIONES
EN LA BOLSA DE VALORES DE COLOMBIA.
MARÍA ANGÉLICA REY VESGA
JUAN ALFONSO CHAMORRO CHAMORRO
UNIVERSIDAD DE LA SALLE
FACULTAD DE INGENIERÍA
PROGRAMA DE INGENIERÍA INDUSTRIAL
BOGOTÁ D.C.
2019
COMPARACIÓN DE CUATRO MÉTODOS DE PREDICCIÓN PARA DOS ACCIONES
EN LA BOLSA DE VALORES DE COLOMBIA.
MARÍA ANGÉLICA REY VESGA
JUAN ALFONSO CHAMORRO CHAMORRO
TESIS PRESENTADA PARA OBTENER EL TÍTULO DE
INGENIERO INDUSTRIAL
UNIVERSIDAD DE LA SALLE, BOGOTÁ
DIRECTOR
CARLOS ANDRÉS ARANGO LONDOÑO
UNIVERSIDAD DE LA SALLE
FACULTAD DE INGENIERÍA
PROGRAMA DE INGENIERÍA INDUSTRIAL
BOGOTÁ D.C.
2019
Nota de aceptación
________________________________
________________________________
________________________________
________________________________
________________________________
________________________________
_____________________________________
Ing. Carlos Andrés Arango Londoño
Director de Trabajo de Grado
_____________________________________
Jurado 1
_____________________________________
Jurado 2
Bogotá, 2019
Contenido
Resumen .......................................................................................................................................... 1
Abstract ........................................................................................................................................... 1
Introducción .................................................................................................................................... 2
1. Esquema De Trabajo De Investigación ................................................................................... 4
1.1. Descripción Del Problema ............................................................................................... 4
1.2. Formulación Del Problema .............................................................................................. 5
1.3. Justificación Del Proyecto ................................................................................................ 5
1.4. Delimitación Del Proyecto ............................................................................................... 6
1.5. Objetivos .......................................................................................................................... 6
1.5.1. Objetivo General ....................................................................................................... 6
1.5.2. Objetivos Específicos................................................................................................ 6
1.6. Metodología De Investigación ......................................................................................... 7
2. Marco De Referencia ............................................................................................................... 8
2.1. Marco Conceptual ............................................................................................................ 8
2.2. Marco Teórico .................................................................................................................. 9
2.2.1. Árboles De Decisión ................................................................................................... 12
Algoritmo J48 ........................................................................................................................ 12
2.2.2. Redes Neuronales ....................................................................................................... 13
Algoritmo Perceptrón Multicapa ........................................................................................... 13
2.2.3. Reglas De Asociación ................................................................................................. 14
Algoritmo Rules PART ......................................................................................................... 15
2.2.4. Regresión .................................................................................................................... 15
Regresión Múltiple ................................................................................................................ 15
2.3. Marco Legal ................................................................................................................... 16
2.4. Revisión De Literatura ................................................................................................... 16
2.4.1. Casos De Estudio Similares .................................................................................... 16
2.4.2. Técnicas Utilizadas Para Estudios Similares Al Que Se Plantea Desarrollar ......... 25
3. Descripción Del Conjunto De Datos ..................................................................................... 27
3.1. Descripción De Las Variables ........................................................................................ 27
3.2. Bancolombia................................................................................................................... 30
3.2.1. Descripción De La Base De Datos.......................................................................... 30
3.2.2. Hallazgos Destacables De La Base De Datos. ........................................................ 37
3.3. Ecopetrol ........................................................................................................................ 42
3.3.1. Descripción De La Base De Datos.......................................................................... 42
3.3.2. Hallazgos Destacables En La Base De Datos ......................................................... 48
4. Aplicación De Los Métodos Seleccionados .......................................................................... 54
4.1. Árboles De Decisión – Algoritmo J48 ........................................................................... 54
4.1.1. Resultados ............................................................................................................... 54
4.2. Redes Neuronales – Algoritmo Perceptrón Multicapa ................................................... 58
4.2.1. Resultados ............................................................................................................... 58
4.3. Reglas De Asociación – Algoritmo Rules PART .......................................................... 61
4.3.1. Resultados ............................................................................................................... 62
4.4. Regresión Múltiple ......................................................................................................... 65
4.4.1. Resultados ............................................................................................................... 65
5. Análisis De Los Resultados ................................................................................................... 68
5.1. Predicción De Clase ....................................................................................................... 68
5.1.1. Bancolombia ........................................................................................................... 69
5.1.2. Ecopetrol ................................................................................................................. 70
5.2. Predicción de Precio De Cierre ...................................................................................... 71
5.2.1. Bancolombia ........................................................................................................... 71
5.2.2. Ecopetrol ................................................................................................................. 73
6. Conclusiones .......................................................................................................................... 75
Listado De Tablas
Tabla 1. Metodología de investigación. .......................................................................................... 7
Tabla 2. Variables en las bases de datos finales. .......................................................................... 29
Tabla 3. Coeficientes de correlación de atributos con respecto al precio de cierre. ..................... 34
Tabla 4. Coeficientes de correlación de atributos con respecto al precio de cierre. ..................... 45
Tabla 5.Matriz de confusión para Bancolombia con el método Trees J48. .................................. 56
Tabla 6.Matriz de confusión para Ecopetrol con el método Trees J48. ........................................ 57
Tabla 7. Matriz de confusión para Bancolombia con el método Perceptrón Multicapa. .............. 59
Tabla 8. Matriz de confusión para Ecopetrol con el método Perceptrón Multicapa. .................... 60
Tabla 9. Matriz de confusión para Ecopetrol con el método Rules PART. .................................. 63
Tabla 10. Matriz de confusión para Ecopetrol con el método Rules PART. ................................ 64
Tabla 11. Resultados de la proyección de clases. ......................................................................... 68
Tabla 12. Resumen de los resultados cuantitativos con regresión. .................................................... 71
Listado De Ilustraciones
Ilustración 1. Frecuencia de las técnicas de minería de datos en revisión literaria. ..................... 25
Ilustración 2. Precio de la acción de Bancolombia en el tiempo. ................................................. 30
Ilustración 3. Boxplot para el precio de la acción. ........................................................................ 31
Ilustración 4. Proporción de días que la acción sube, baja o se mantiene. ................................... 31
Ilustración 5. Precios: mínimo, máximo y de cierre. .................................................................... 32
Ilustración 6. Precio de las acciones de Bancolombia, Davivienda y Grupo AVAL. .................. 32
Ilustración 7. Logaritmo natural de la acción Bancolombia y precio del petróleo WTI. ............. 33
Ilustración 8. Precio de la acción de Bancolombia en el tiempo. ................................................. 35
Ilustración 9. Boxplot para el precio de la acción. ........................................................................ 35
Ilustración 10. Proporción de días que la acción sube, baja o se mantiene. ................................. 36
Ilustración 11. Precios en diferentes horas del día. ....................................................................... 36
Ilustración 12. Logaritmo natural de la acción Bancolombia y precio del petróleo WTI en el
tiempo. .......................................................................................................................................... 37
Ilustración 13. Cantidad de veces que se presenta una de las clases en el conjunto de datos. ..... 37
Ilustración 14. Significancia de cada una de las clases en el conjunto de datos. .......................... 38
Ilustración 15. Número de veces que se presenta una de las clases en cada día de la semana. .... 38
Ilustración 16. Número de transacciones que se dan en cada hora, cada día de la semana. ......... 39
Ilustración 17. Promedio del precio de la acción en cada hora, cada día de la semana. ............... 39
Ilustración 18. Transacciones que se dan en cada hora, en cada mes del año. ............................. 40
Ilustración 19. Promedio del precio en cada hora por cada mes del año. ..................................... 40
Ilustración 20. Cantidad total de acciones transadas por cada año. .............................................. 41
Ilustración 21. Precio promedio de cada año. ............................................................................... 41
Ilustración 22. Precio de la acción de Ecopetrol en el tiempo ...................................................... 42
Ilustración 23. Boxplot para el precio de la acción. ...................................................................... 43
Ilustración 24. Proporción de días que la acción sube, baja o se mantiene. ................................. 43
Ilustración 25. Precios: mínimo, máximo y de cierre. .................................................................. 44
Ilustración 26. Logaritmo natural de la acción Ecopetrol y el precio del petróleo WTI. ............. 44
Ilustración 27. Precio de la acción de Ecopetrol en el tiempo. ..................................................... 46
Ilustración 28. Boxplot para el precio de la acción. ...................................................................... 46
Ilustración 29. Proporción de días que la acción sube, baja o se mantiene. ................................. 47
Ilustración 30. Precios durante el día y de cierre. ......................................................................... 47
Ilustración 31. Atributos linealizados con logaritmos naturales. .................................................. 48
Ilustración 32. Cantidad de veces que se presenta una de las clases en el conjunto de datos. ..... 49
Ilustración 33. Significancia de cada una de las clases en el conjunto de datos. .......................... 49
Ilustración 34. Número de veces que se presenta una de las clases en cada día de la semana. .... 50
Ilustración 35. Número de transacciones que se dan en cada hora, cada día de la semana. ......... 50
Ilustración 36. Promedio del precio de la acción en cada hora, cada día de la semana. ............... 51
Ilustración 37. Transacciones que se dan en cada hora, en cada mes del año. ............................. 52
Ilustración 38. Promedio del precio en cada hora por cada mes del año. ..................................... 52
Ilustración 39. Cantidad total de acciones transadas por cada año. .............................................. 53
Ilustración 40. Precio promedio de cada año. ............................................................................... 53
Ilustración 41. Resumen del método Trees J48 para Bancolombia. ............................................. 55
Ilustración 42. Árbol de decisión para Bancolombia con el método Trees J48. ........................... 56
Ilustración 43. Resumen del método Trees J48 para Ecopetrol. ................................................... 57
Ilustración 44. Árbol de decisión para Ecopetrol con el método Trees J48. ................................ 58
Ilustración 45. Resumen del método Perceptrón Multicapa para Bancolombia. .......................... 59
Ilustración 46. Redes neuronales Bancolombia. ........................................................................... 59
Ilustración 47. Resumen del método Perceptrón Multicapa para Ecopetrol. ................................ 60
Ilustración 48. Redes neuronales Ecopetrol .................................................................................. 60
Ilustración 49. Resumen del método Rules PART para Bancolombia. ........................................ 62
Ilustración 50. Resumen del método Rules PART para Ecopetrol. .............................................. 63
Ilustración 51. Modelo de Regresión original para Bancolombia. .............................................. 66
Ilustración 52. Modelo de Regresión depurado para Bancolombia. ............................................ 66
Ilustración 53. Modelo de Regresión original para Ecopetrol. ..................................................... 67
Ilustración 54. Modelo de Regresión original para Ecopetrol. .................................................... 67
Ilustración 55. Resultados de la proyección por clases para Bancolombia. ................................. 69
Ilustración 56. Resultados de la proyección por clases para Ecopetrol. ....................................... 70
Ilustración 57. Predicción por medio de regresión para Bancolombia. ........................................ 71
Ilustración 58. Error en la predicción para Bancolombia por medio de regresión. ...................... 72
Ilustración 59. Predicción por medio de regresión. ...................................................................... 73
Ilustración 60. Error en la predicción para Bancolombia por medio de regresión. ...................... 74
Tabla de anexos
Se hace la anotación de que los anexos se encuentran externos al presente documento, debido a su
extensión y formato. Los anexos citados a continuación, se pueden encontrar junto con este
documento.
Anexo 1. Base Bancolombia
Anexo 2. Bancolombia Trees J48
Anexo 3. Bancolombia Redes Perceptrón
Anexo 4. Bancolombia Rules PART
Anexo 5. Bancolombia Regresión Múltiple
Anexo 6. Base Ecopetrol
Anexo 7. Ecopetrol Trees J48
Anexo 8. Ecopetrol Redes Perceptrón
Anexo 9. Ecopetrol Rules PART
Anexo 10. Ecopetrol Regresión Múltiple
Anexo 11. Ecopetrol (Diagramas y gráficas en Power BI)
Anexo 12. Bancolombia (Diagramas y gráficas en Power BI)
Anexo 13. Resultados Generales
Pág. 1
Resumen
Los mercados de valores, más exactamente en su sección de títulos de renta variable,
representan una alternativa de inversión donde tanto las organizaciones como los
inversionistas se ven beneficiados, sin embargo, debido a su alto grado de variabilidad, las
inversiones en este mercado conllevan un alto riesgo. Por tanto, la cuestión problema radica
en la posibilidad de perder parte o la totalidad de la inversión.
Es en este punto, donde los pronósticos adquieren un alto nivel de relevancia y el generar
proyecciones anticipadas del futuro basadas en información histórica representa una clara
ventaja, genera mayor claridad del panorama e incrementa la probabilidad de éxito. Sin
embargo, en este punto, el inconveniente radica en cuál, del gran número de métodos de
pronóstico existentes usar, método que debe ofrecer una buena adaptabilidad a los datos
existentes y su variabilidad siendo capaz de ofrecer un buen resultado; por tanto, el presente
proyecto presenta una comparación entre cuatro métodos de pronóstico aplicados a dos de
las acciones de la Bolsa de Valores de Colombia, Bancolombia y Ecopetrol clasificando sus
subidas y bajadas en intervalos de cambio de un 1%. Los resultados obtenidos, favorecen a
métodos como las reglas de asociación y redes neuronales en cuanto a predicción de
intervalos y a la regresión para la predicción de precios puntuales. El objetivo principal gira
entorno a definir qué método se adapta mejor a una acción determinada e incrementa la
probabilidad de generar ganancias con la inversión en el mercado bursátil colombiano.
Palabras clave: pronóstico, algoritmo, minería de datos, acción, variabilidad.
Abstract
Stock markets, more precisely in its section of equities, represent an investment alternative
where that both organizations and investors benefit, however, due to their high degree of
variability they carry a high risk. The problem, therefore, is the possibility of losing part or
all the investment.
It is at this point, where the forecasts acquire a high level of relevance and generate
anticipated projections of the future based on historical information, represents a clear
advantage, gives greater clarity of the panorama and increases the probability of success.
However, at this point, the drawback lies in which, of the large number of forecasting
methods to use, a method that must offer good adaptability to historic data and its variability
being able to offer a good result. Therefore, this project presents a comparison between four
forecasting methods applied to two equities of the Colombian Stock Exchange: Bancolombia
and Ecopetrol, classifying their ups and downs in 1% exchange intervals. The results obtained
favor methods such as association rules and neural networks in terms of interval prediction
and regression from the design of experiments for the prediction of specific prices. The main
objective revolves around defining which method best suits a given action and increases the
probability of generating profits with investment in the Colombian stock market.
Keywords: forecast, algorithm, data mining, action, variability.
Pág. 2
Introducción
Según (García, Jalal, Garzón, & López, 2013), el mercado de valores representa un gran
atractivo para los inversionistas, debido en gran parte a especulaciones sobre el enorme
potencial para la generación de ganancias que ofrece, no obstante, en este mercado se
presenta una alta variabilidad, misma que puede generar fluctuaciones y cambios en los
resultados esperados, creando escenarios donde la inversión no genera ganancias e inclusive
se pierde parcial o totalmente el capital invertido. Este hecho es el resultado de diversos
factores, tales como la oferta y demanda, la especulación, el rendimiento económico de la
empresa, el mercado externo, etc.
Todos los factores mencionados, giran en torno a lo que podríamos llamar el principal
inconveniente del mercado bursátil: la alta probabilidad de perder la inversión realizada. Es
en este punto donde los pronósticos bursátiles adquieren especial relevancia y, en la
actualidad es posible encontrar diferentes métodos que utilizan experiencias pasadas con la
finalidad de predecir eventos futuros, sin embargo, la aplicación de muchos de estos métodos
suele ser compleja, se necesita realizar un análisis desgastante de los datos históricos y
también uno para determinar cuál o cuáles son los métodos de pronóstico más adecuados.
Hecho que no garantiza una certeza del ciento por ciento.
Tareas como las mencionadas, ocasionan que llevar acabo un pronóstico en el mercado
accionario sea dispendioso, además de lo complejo que puede llegar a ser contemplar todas
las variables que pueden afectar la volatilidad de una acción, sin embargo, un inversionista
que realice un pronóstico de forma adecuada puede alcanzar una certeza incluso superior al
70%, no obstante, esto es posible en la medida en que se realice un análisis preciso de todos
los factores, objetivo que se alcanza en pocas ocasiones. (Wolski, 2013)
La formulación de pronósticos es una técnica que utiliza experiencias pasadas con la finalidad
de predecir expectativas del futuro, para eventos inciertos de interés. El pronóstico es una
parte de la probabilidad y la estadística donde ocurren acciones conocidas como eventos
dependientes e independientes, donde se establece una probabilidad de ocurrencia basada en
datos pasados y con controles estadísticos aceptables. (Ortegón & Benavidez, 2003).
Existen diversas técnicas de pronóstico dependiendo del área y de la necesidad para la cual
se usan, sin embargo, en todos los casos cumplen con la función de disminuir la
incertidumbre sobre el futuro; permitiendo planificar, trazar planes, tomar acción de
inmediato y evitar posibles eventos no deseados. (Universidad de Medellín, 1999).
La aplicación de los pronósticos es muy variada y son aplicables a diversas áreas del
conocimiento, entre algunas encontramos la determinación de las tendencias de los precios,
la estimación de la producción basados en pronósticos de la demanda y según esta misma
idea, el costeo de materias primas, mano de obra, maquinaria, etc. (Botero & Álvarez, 2013).
En un entorno más aterrizado al propósito de este trabajo de grado, el pronóstico podría ser
descrito como la estimación anticipada por medio de diferentes técnicas, del posible valor de
Pág. 3
una variable en un periodo de tiempo futuro. Para ello se usan técnicas estadísticas,
algorítmicas y de machine learning (Universidad de Medellín, 1999).
Esta investigación, por lo tanto, parte de la premisa de que es posible predecir
comportamientos futuros basados en comportamientos históricos, vislumbrando en los
mercados de valores una buena oportunidad de aplicación, más exactamente en su sección
de títulos de renta variable, sección que representa una alternativa de inversión donde al
parecer tanto las organizaciones como los inversionistas se ven beneficiados, sin embargo,
debido a su alto grado de variabilidad conllevan un alto riesgo para el inversionista. Siendo
la mayor preocupación del inversor, el perder parte o la totalidad de su inversión debido a la
variabilidad e incertidumbre presente en este mercado.
Es en este punto, es donde los pronósticos adquieren un alto nivel de relevancia y el generar
proyecciones anticipadas del futuro basadas en información histórica, representa una clara
ventaja, brindando un panorama más amplio y claro; incrementando la probabilidad de éxito.
Tomando en cuenta lo anterior, y debido a que técnicas comunes de pronóstico parecen no
tener los mejores resultados, el presente proyecto presenta la revisión de algunas técnicas de
pronóstico comunes en ingeniería y minería de datos, aplicadas a dos de las acciones de la
Bolsa de Valores de Colombia con un alto grado de liquidez. El objetivo es definir qué
método o qué métodos se adaptan mejor a una determinada acción y con ello incrementar la
probabilidad de generar ganancias con la inversión en el mercado bursátil colombiano.
Para ello en primer lugar, se construye una base de datos con información histórica que se
considera relevante, se lleva a cabo un análisis exploratorio de datos para los títulos de renta
variable que corresponden a las acciones de Ecopetrol y Bancolombia en la Bolsa de Valores
de Colombia.
Debido a que los datos requeridos no se encuentran listos para su procesamiento, se construye
una base de datos para cada una de las acciones utilizando información publicada en la página
web de la BVC y datos de libre acceso presentes en las páginas web del banco de la república,
el Departamento Administrativo Nacional de Estadística (DANE) y el Departamento
Nacional de Planeación (DNP).
De esta forma, las bases de datos contienen información como el volumen de transacción, el
precio de apertura, cierre, en horas determinadas, máximos, mínimos, variaciones
(porcentuales y absolutas) y otros datos adicionales que se consideran influyentes en el precio
de la acción específica, como por ejemplo los resultados financieros, el Producto Interno
Bruto (PIB), la inflación, las Tasas Representativas del Mercado (TRM) del dólar y del euro;
así como el comportamiento de índices de la BVC como el Indice General de la Bolsa de
Valores de Colombia (IGBC) y el Índice de capitalización bursátil (COLCAP); además de
otras acciones de organizaciones con una razón social similar a la evaluada, entre otros datos
económicos que se presume pueden repercutir en los precios del título de renta variable a
pronosticar.
Pág. 4
Para el desarrollo del proyecto de investigación, se apoya en herramientas como Excel, Power
BI, WEKA y Minitab. Herramientas que facilitan el procesamiento de los datos, la
visualización y la aplicación de técnicas de proyección a partir de los algoritmos
seleccionados: árboles de decisión, reglas de asociación, redes neuronales y regresión
múltiple.
Finalmente, se procede a realizar un análisis de los resultados basándose en indicadores clave
como la certeza y la confianza de cada una de las técnicas de proyección a la hora de
pronosticar los precios de las acciones.
1. Esquema De Trabajo De Investigación
1.1. Descripción Del Problema
Como ya se hizo mención, el mercado de valores representa un gran atractivo para los
inversionistas, debido a especulaciones sobre el potencial de generación de ganancias que
ofrece, sin embargo, las inversiones en este tipo de mercados también conllevan un gran
riesgo, pudiendo incluso terminar con el capital del inversionista.
El banco (BBVA, 2015) expresa que los precios en el mercado de valores estarían
compuestos por tres factores diferentes: una primera parte que depende de las expectativas
del mercado inversor y de variables externas al mismo mercado; una segunda parte
dependiente de factores internos y donde el pasado histórico tiene una especial relevancia en
el futuro; y finalmente una tercera parte aleatoria, que causaría que aunque se eliminase el
factor humano del mercado, este continuase variando sin una correlación completa con el
factor interno histórico.
Por lo tanto, el principal inconveniente detectado en este mercado es la alta probabilidad de
perder la inversión realizada, hecho por el cual se resalta la importancia de la planificación y
el uso de herramientas y técnicas que permitan anticiparse a hechos futuros; no obstante, en
este punto nos encontramos con el segundo inconveniente: encontrar una técnica de
proyección adecuada, debido a que tal como se mencionó anteriormente, los precios en el
mercado de valores, no dependen únicamente de factores internos al mismo mercado bursátil,
sino que también vemos la influencia de factores externos como la expectativa de los
inversionistas, las divisas, la economía del país y de otros países influyentes, entre muchos
otros; y junto a ellos, encontramos además, cierto grado de aleatoriedad.
Todos estos hechos combinados dificultan la predicción de los precios del mercado de
valores, más aún si consideramos que acciones diferentes, dependen de factores diferentes,
haciendo que la tarea sea más dispendiosa; no obstante, un correcto estudio del mercado junto
a un buen modelo predictivo, tal como lo menciona (Wolski, 2013), puede lograr muy buenos
resultados e incluso mitigar en gran medida el aspecto aleatorio propio de este mercado.
Pág. 5
1.2. Formulación Del Problema
¿Cuál de las técnicas seleccionadas, mínimo tres, presenta un mejor desempeño en la
predicción de dos de las acciones más transadas en la Bolsa de Valores de Colombia?
1.3. Justificación Del Proyecto
Uno de los activos más transados a nivel mundial son los títulos de renta variable, dentro de
los cuales se encuentran las acciones, que tal como lo indica la BVC en su página web, “son
un título de renta variable que le permite a cualquier persona ser propietario de una parte de
la empresa que emite el título, convirtiéndolo en accionista de ésta y otorgándole derechos
políticos y económicos” (BVC, 2018).
Podríamos afirmar que, la gran popularidad de este tipo de activos se deba a la percepción
popular de los altos ingresos que pueden generar, sin embargo, el inconveniente con la
compra y venta de acciones radica en la variabilidad presente en este mercado y, por tanto,
el alto riesgo que conlleva, dando origen también a la posibilidad de perder la inversión
realizada, probabilidad que se incrementa cuando las decisiones de inversión se toman al azar
o por especulación.
En el contexto nacional, el mercado de renta variable de la BVC, mueve un aproximado de
418 billones de pesos al día, según lo reporta la misma entidad en informes disponibles en su
página web correspondientes al 01 de octubre de 2018, sin embargo, al comparar informes
de diferentes fechas, es posible apreciar que las acciones más transadas, las que mayor
cantidad de efectivo mueven en la jornada, las de mayor valorización y las de mayor
depreciación, cambian incluso de un día para otro, demostrando la gran incertidumbre
presente en este sector. (BVC, 2018).
Como respuesta a la incertidumbre del mercado accionario, es importante el uso de un buen
método de pronóstico que logre el manejo de la variabilidad y genere proyecciones de
fiabilidad, reduciendo aquella mencionada probabilidad de perder la inversión dada la
naturaleza cambiante de los títulos de renta variable.
La importancia de realizar un pronóstico radica entonces en el hecho de que sucesos como
los precios de las acciones en el mercado de la Bolsa de Valores de Colombia, son altamente
cambiantes y operan en una atmosfera incierta que implica tomar decisiones como realizar o
declinar una inversión o una venta. Por lo tanto, los métodos cuantitativos y cualitativos para
el pronóstico de hechos futuros representan una clara ventaja para el inversionista, dando
mayor claridad respecto al posible comportamiento de los precios en el mercado basado no
en intuición sino en información histórica y en su análisis estadístico. (AMV, 2012).
Todos los modelos de pronóstico se basan en los datos históricos de la variable que se va a
pronosticar, así como en el valor de otras variables de influencia; para obtener de ellas una
proyección de interés hacia el futuro (Izar, 1998).
No obstante, sin importar el propósito del sistema para el que se utilizará la proyección, es
muy importante comprender algunas de sus características fundamentales:
Pág. 6
Los pronósticos siempre son incorrectos. No es posible proyectar un evento con total certeza,
sin embargo, la importancia no radica en este hecho, sino en que tan equivocado esperamos
que sea, ya que buena parte del análisis debe centrarse en el tamaño del error. Adicional a
ello, cabe resaltar que los pronósticos son más precisos cuando se hacen a corto plazo. Las
perturbaciones son menores cuando se habla de instantes de tiempo corto. (Chapman, 2006).
Todo pronóstico debe incluir un error de estimación. Para estar completo, un buen pronóstico
debe incluir una estimación básica y una estimación de su error generando una idea de que
tan acertado puede llegar a ser. (Chapman, 2006)
Debido a que los pronósticos juegan un papel fundamental a la hora de disminuir la
incertidumbre con respecto a la inversión y, proyectar un futuro probable basados en hechos
históricos; deben hacerse con el mayor cuidado para la obtención del resultado esperado. La
ventaja más evidente de contar con una proyección radica en que si bien no se reduce el
riesgo propio del mercado, si se genera una visión más clara del entorno, suceso que facilita
la toma de decisiones y reduce la probabilidad de perdida; hecho que incrementa las
expectativas de los inversionistas y genera mayor confianza a la hora de invertir, evento que
a su vez también se traduce en mayor inversión para las empresas.
1.4. Delimitación Del Proyecto
Se pretende desarrollar el proyecto en un tiempo de doce meses a partir de la aprobación del
anteproyecto, con una posible holgura de un mes. Se desarrollará con dos de las acciones de
la Bolsa de Valores de Colombia y empleando un mínimo de tres métodos de pronóstico. El
proyecto abarca desde el estudio de los métodos, la aplicación de los modelos y el análisis de
los resultados obtenidos, realizando una comparación de los resultados con los precios de
cierre históricos.
En el desarrollo del presente proyecto se pretende el uso de diferentes herramientas y técnicas
como pronósticos, modelamiento, sistemas de información, bases de datos, economía y
finanzas, entre otras.
1.5. Objetivos
1.5.1. Objetivo General
Seleccionar como mínimo tres técnicas de pronóstico e identificar cuál presenta un mejor
desempeño en la predicción de dos acciones de la Bolsa de Valores de Colombia, esto
mediante la evaluación de los resultados, con el propósito de reducir el error en el pronóstico.
1.5.2. Objetivos Específicos
• Revisar el estado del arte referente a técnicas de pronóstico utilizadas para la
proyección de series temporales.
• Realizar los pronósticos para dos acciones de la Bolsa de Valores de Colombia
mediante las técnicas seleccionadas, con el propósito de determinar su valor futuro.
• Evaluar el desempeño de las técnicas seleccionadas mediante la comparación de la
precisión y los errores de los resultados.
Pág. 7
1.6. Metodología De Investigación
Fase Proceso Métodos, Herramientas Y Procedimientos
Revisión del
estado del arte
Recolección de
información
Llevar a cabo una investigación por medio de
fuentes bibliográficas sobre los métodos de
pronóstico desarrollados hasta el momento,
realizando un listado de los mismos con sus
principales características, objetivos y resultados
Revisar que métodos
son aplicables al
mercado de valores
Investigar por medio de fuentes bibliográficas,
cuáles de los métodos del listado, son aplicables
al pronóstico del mercado de valores, reduciendo
el listado anterior y por medio de un diagrama de
Pareto identificar la frecuencia con la que se
aplican.
Identificar cuáles de
estos métodos están
relacionados con
Ingeniería Industrial
De acuerdo con los conocimientos adquiridos
durante la carrera, determinar cuáles de estos
métodos están más relacionados con la Ingeniería
industrial, reduciendo el listado anterior.
Seleccionar los métodos
Seleccionar como mínimo tres métodos usados
para la proyección del mercado de valores del
listado de técnicas de pronóstico.
Recrear los
modelos de
predicción
Apropiarse de los
métodos seleccionados
Investigar y desarrollar los conocimientos
necesarios para la correcta aplicación de cada uno
de los métodos.
Seleccionar dos
acciones de la BVC para
trabajar
Analizar el mercado accionario de la BVC y
seleccionar dos de las acciones más transadas en
este mercado.
Analizar el
comportamiento de las
acciones seleccionadas
Mediante gráficos, análisis estadístico y el uso de
software, determinar las características y el
comportamiento de cada una de las acciones
seleccionadas.
Aplicar las técnicas
seleccionadas a las
acciones
correspondientes
Desarrollar los modelos para cada uno de los
métodos seleccionados, generando la proyección
para cada una de las acciones elegidas.
Evaluación y
comparación
de los
resultados
Evaluar el nivel de
certeza de cada uno de
los métodos en cada una
de las acciones
Comparar los datos obtenidos mediante cada uno
de los métodos contra los valores reales de las
acciones en el mercado de la BVC usando la
metodología backtesting.
Determinar el método
más adecuado para la
proyección de cada
acción
Analizar los resultados de cada uno de los
métodos de pronóstico, su certeza y ajuste al
comportamiento real de cada una de las acciones,
determinando cuál de los métodos se adapta mejor
a la naturaleza de cierta acción y a que se debe
dicha adaptación. Tabla 1. Metodología de investigación.
Pág. 8
2. Marco De Referencia
2.1. Marco Conceptual
Acción
Una acción es un título de valor que emite una compañía con el fin de captar recursos, esta
forma de activo en Colombia se emite por una sociedad anónima y permite que una persona,
natural o jurídica, adquiera participación en la mencionada empresa, con cierto tipo de
derechos y deberes de acuerdo con el tipo de acción en su poder. Las acciones pueden
permitir a su poseedor obtener parte de los beneficios económicos generados por la
compañía, además puede generar valor agregado cuando estas se valorizan. (BVC, 2018).
Variabilidad
(Galbiati, 2012) Afirma. “La variabilidad es el nombre que se da a las diferencias en el
comportamiento de todo fenómeno observable que se repite bajo iguales condiciones,
debidas a cambios en factores no controlables, que influyen sobre él”. (p.2).
Inversión
El concepto de inversión hace referencia a poner una cantidad definida de dinero en manos
de terceros con el objetivo de obtener un beneficio económico a futuro, todas las inversiones
implican un riesgo de oportunidad que es equivalente al margen de ganancia que se puede
obtener, para realizar una inversión se deben contemplar cuatro aspectos, el rendimiento, el
riesgo, el tipo de inversión (corto, mediano y largo plazo) y la rapidez con la que se puede
recuperar el dinero invertido (BBVA, 2015).
Volatilidad
La volatilidad hace referencia al cambio (aumento o disminución) del valor de un activo en
cierto periodo de tiempo. (AMV, 2012) Cuando se dice que un mercado es volátil se refiere
a que este sufre cambios drásticos en periodos de tiempo determinado, en decir está en un
cambio constante y por tanto tiene un alto nivel de riesgo al momento de realizar una
inversión, esto se debe a que es más difícil realizar una proyección de lo que puede pasar,
para estudiar la volatilidad se necesita analizar los cambios que ha sufrido el objeto del
análisis y las posibles causas. (BBVA, 2017).
Riesgo
El riesgo se define como atreverse a llevar a cabo una acción que se considera peligrosa, ya
que existe la posibilidad de que ocurra un suceso que puede generar daño a la persona o
entidad que genere la acción inicial, casi todas las actividades que se llegan a cabo tienen un
cierto grado de riesgo, el cual varía de acuerdo con la complejidad y entorno de la situación.
(AMV, 2012).
Pág. 9
Estadística
Cómo se encuentra en el glosario básico de términos estadísticos del INEC, la estadística es
“la ciencia que comprende una serie de métodos y procedimientos destinados a la
recopilación, tabulación, procesamiento, análisis e interpretación de datos cuantitativos y
cualitativos” (INEC, 2006).
Series de tiempo
Una serie de tiempo es una secuencia de datos ordenados en orden cronológico que se tiene
sobre un hecho o evento determinado, la cual puede tener varias características según su
origen y cierta longitud determinada por el número de observaciones.
El objetivo primordial de analizar una serie de tiempos es obtener un modelo estadístico que
describa el comportamiento de dicha serie y de esta manera poder determinas posibles hechos
que pueden pasar en el futuro. (Mauricio, 2007)
Machine Learning
El aprendizaje automático de máquina es una rama de la inteligencia artificial que busca
hacer que los sistemas sean más autónomos a partir de la capacidad para detectar patrones
entre los datos y así generar predicciones de utilidad. Esta tecnología hoy en día es utilizada
por diversas aplicaciones, siendo el algoritmo más conocido el de Google, sin embargo,
también lo encontramos en otros servicios como las listas de reproducción de YouTube,
Spotify o las respuestas de Siri. (BBVA, 2019).
Minería de datos
El datamining hace referencia a un conjunto de técnicas que permiten la exploración de
grandes volúmenes de datos, utilizando herramientas que permitan hacerlo de manera
automática o semiautomática, con el objetivo de encontrar señales, patrones o modelos
repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un
determinado contexto. Se apoyan en prácticas estadísticas y modelos matemáticos y de
inteligencia artificial. (Sinneuxs, 2015).
Inteligencia artificial
Hace posible que las máquinas aprendan de las experiencias pasadas, retroalimenten y se
ajusten a nuevos escenarios, basándose en el comportamiento que puede tener un ser humano.
Un buen ejemplo de ello son las redes neuronales. (SAS Colombia, 2017).
2.2. Marco Teórico
La formulación de pronósticos es una técnica que utiliza experiencias pasadas con la finalidad
de predecir expectativas del futuro respecto a eventos inciertos de interés. El pronóstico es
una parte de la probabilidad y la estadística donde ocurren acciones conocidas como eventos
dependientes e independientes donde se establece una probabilidad de ocurrencia basada en
datos estadísticos aceptables. (Ortegón & Benavidez, 2003)
Pág. 10
Existe diversas técnicas de pronóstico dependiendo del área y de la necesidad para la cual se
usan, sin embargo, cumplen la función siempre gira en torno a disminuir la incertidumbre
sobre el futuro, permitiendo planificar, trazar planes, tomar acción de inmediato y evitar
posibles eventos no deseados. (Universidad de Medellín, 1999).
Los usos de los pronósticos son muy variados y aplicables a diversas áreas del conocimiento,
entre algunas encontramos la determinación de las tendencias de los precios, la estimación
de la producción basados en pronósticos de la demanda y según esta misma idea el costeo de
materias primas, mano de obra, maquinaria, etc. (Botero & Álvarez, 2013).
Las principales características de los pronósticos se pueden enunciar de la siguiente manera:
• Primera: toda situación que requería un pronóstico tiene el tiempo involucrado
directamente y dicha proyección debe hacerse para un punto en específico, siendo
dicho punto un factor de cambio en el resultado.
• Segunda: la incertidumbre es un hecho inherente a los pronósticos, debido a que no
se tiene certeza sobre todas las situaciones que pueden afectar la proyección en el
tiempo.
• Tercera: Los pronósticos siempre son errados, ninguno ofrece total confianza o
certeza a la hora de predecir hechos futuros, esto debido a la variabilidad de los
sucesos. (Universidad de Medellín, 1999).
Un conjunto de observaciones de una determinada variable en el tiempo es llamada serie de
tiempo, donde el principal objetivo de la misma es determinar el patrón en los datos y
proyectarlo hacia el futuro. (Anderson, Sweeney, Williiams, Camm, & Martin, 2011).
Cuando hablamos de métodos de pronóstico, estos pueden ser de dos tipos: cualitativos y
cuantitativos. Los primeros hacen referencia a métodos donde la proyección es en clases y se
basa en el juicio de expertos y en la experiencia, los cuantitativos por su parte hacen
referencia a métodos numéricos que se basan en información histórica. (Anderson, Sweeney,
Williiams, Camm, & Martin, 2011)
El mercado de valores por su parte viene siendo un conjunto de instituciones y agentes que
facilitan la negociación e inversión de capitales a través de los títulos valores, esto permite
que personas (naturales o jurídicas) realicen inversiones en diversos mercados, lo cual
posibilita el financiamiento a mediano y largo plazo de las entidades emisoras y genera poder
de decisión y participación en dividendos para los compradores. (BBVA, 2015).
Los emisores en el mercado de valores pueden ser de carácter público o privado y la finalidad
de dicha emisión es la captación de recursos para financiar las actividades relacionadas con
la operatividad, el funcionamiento y el desarrollo de la entidad emisora. Cabe resaltar los
valores que una organización puede emitir dependen de la constitución legal de la misma o
razón social (SA, SAS, Limitada, Cooperativa, etc.) siendo para el caso de las acciones, las
sociedades anónimas las únicas facultadas para emitir este tipo de títulos de valor en el
mercado de valores. (Superintendencia Financiera de Colombia, 2008).
Pág. 11
Según el artículo 2 de la ley 964 de 2015, un título valor se define como: “todo derecho de
naturaleza negociable que haga parte de una emisión, cuando tenga por objeto o efecto la
captación de recursos del público, incluyendo los siguientes: las acciones, los bonos, los
papeles comerciales, los certificados de depósito de mercancías, cualquier título o derecho
resultante de un proceso de titularización, cualquier título representativo de capital de riesgo,
los certificados de depósito a términos, las aceptaciones bancarias, las cédulas hipotecarias,
cualquier título de deuda pública. ” (Artículo 2, Ley 964 de 2005).
En Colombia, la entidad que facilita la negociación de los diversos títulos valores es la Bolsa
de Valores de Colombia (BVC), entidad creada el 3 de Julio de 2001, como una entidad de
carácter privado que se encarga de administrar los mercados de acciones, renta fija y
derivados estandarizados en Colombia. (BVC, 2018).
La BVC tal como se conoce hoy en día tiene sus orígenes en la década de 1990, cuando las
bolsas de Bogotá, Medellín y Occidente (Cali), iniciaron conversaciones para crear una única
plaza bursátil en Colombia. La razón, tener tres mercados de poco tamaño significaba
continuar rezagados frente a las demás bolsas del continente, con objetivos comunes que no
podrían alcanzarse de continuar cada una por su lado. Finalmente, en 2001, la unión de las
bolsas se hizo realidad dando paso a la creación de la Bolsa de Valores de Colombia, una
única entidad que desde esa época ha venido administrando los principales mercados de
valores del país. Desde el inicio de sus funciones, en julio de 2001 la BVC ha demostrado
ser la respuesta a las necesidades de empresarios, intermediarios e inversionistas, quienes en
una sola entidad ahora encuentran mayores beneficios al acceder al mercado. (BVC, 2009)
Los valores denominados acciones hacen parte de los títulos de renta variable que, según la
BVC, “son títulos también conocidos como corporativos o de participación. Se denominan
de renta variable debido a que la rentabilidad de los títulos depende del desempeño de la
compañía y sus utilidades generadas, y a las variaciones en la cotización del título en la
Bolsa” (BVC, 2018).
Al cruzar los dos conceptos mencionados y, para resumir, la importancia de los pronósticos
aplicados al mercado de valores de la Bolsa de Valores de Colombia adquiere relevancia
precisamente al momento de realizar una inversión. Ninguna persona invierte con el ánimo
de perder su dinero y las proyecciones, si bien no son totalmente fiables, si pueden dar una
percepción más realista del entorno y evaluar un posible futuro con bases estadísticas.
Algunas personas, desconfían del valor real de las predicciones, suponiendo que los precios
son independientes y aleatorios tal como lo sugiere la teoría del Random Walk o Camino
Aleatorio, sin embargo, se puede analizar que los datos históricos del precio de una acción
no son muy dispersos, e incluso en ocasiones presentan periodicidad y tendencias bastante
significativas; por supuesto acompañados de cierto grado de aleatoriedad, no obstante su base
está determinada por varios factores predecibles, siendo esta la base para la formulación de
los pronósticos por medio del análisis estadístico de los datos históricos. (BBVA, 2015).
Pág. 12
Por otra parte, como ya se hizo mención, el presente documento aborda métodos y técnicas
de ingeniería y pone a prueba su capacidad para predecir el mercado de valores de la BVC.
A continuación, se presentan los cuatro métodos a utilizar, junto con los algoritmos o técnicas
específicas a desarrollar para los pronósticos en el presente documento. Se destaca que los
métodos fueron seleccionados en base a una revisión de antecedentes. Los casos y resultados
se muestran en la sección 2.4.
2.2.1. Árboles De Decisión
Se trata de un modelo predictivo que mapea datos sobre determinados ítems con el fin de
concluir sobre un valor objetivo, se utiliza cuando la variable a proyectar puede tomar un
número finito de valores, las hojas de los árboles representan las etiquetas de clase y las ramas
son las conjunciones de características que llevan a determinada etiqueta de clase. Este tipo
de técnica se usa en minería de datos con el ánimo de describir los datos, pero no las
decisiones, sin embargo, sirve para la toma de las mismas. El objetivo de esta técnica es
predecir la etiqueta de clase de ciertas entradas a clasificar a partir de información de otros
atributos que previamente han entrenado al algoritmo para predecir. (Botía, 2007).
Algoritmo J48
Según describe (Castillo González, 2015), el algoritmo J48, es un desarrollo open
source en lenguaje de programación Java a partir del algoritmo C4.5 en la herramienta
Weka para la construcción de árboles de decisión en minería de datos, se considera
uno de los algoritmos más robustos de clasificación y su principal ventaja radica en
la generación de árboles de un tamaño medio, trabajando con valores tanto nominales
como continuos.
El algoritmo C4.5 fue desarrollado por Ross Quinlan en 1993 y es una evolución del
algoritmo ID3 desarrollado por el mismo Quinlan con anterioridad. Los árboles de
decisión generados con C4.5 se pueden usar para clasificación, siendo este un
clasificador estadístico.
Las principales características del algoritmo se muestran a continuación:
Permite trabajar con valores continuos para los atributos, separando los posibles
resultados en 2 ramas: una mayor y otra menor a un umbral determinado
anteriormente.
Los árboles son de tamaño mediano-grande, ya que cada hoja cubre una distribución
de clases, no una clase en particular.
Utiliza el método "divide y vencerás" para generar el árbol de decisión inicial a partir
de un conjunto de datos de entrenamiento.
Se basa en la utilización del criterio de proporción de ganancia. De esta manera se
consigue evitar que las variables con mayor número de categorías salgan beneficiadas
en la selección.
Pág. 13
A la hora de construir el árbol se ignoran los campos perdidos, de manera que solo se
tienen en cuenta los registros que tienen valor para ese atributo.
Este algoritmo resulta ideal para poder trabajar con datos continuos, debido a que
C4.5 y por ende J48, divide los datos en rangos automáticamente con base en los
valores encontrados en el conjunto de entrenamiento.
Propone soluciones para el sobre aprendizaje, pudiendo usar pre-poda (se decide
cuando dejar de subdividir el árbol) y post poda (se construye el árbol y después se
poda).
2.2.2. Redes Neuronales
Son algoritmos de inteligencia artificial basados en el comportamiento de cerebro humano,
haciendo referencia a la conexión existente entre las neuronas; busca crear modelos
artificiales que den solución a problemas complejos que no se pueden resolver con técnicas
algorítmicas convenciones. Las redes neuronales cuentan con una serie de neuronas
artificiales agrupadas en unidades denominadas capas, donde se distinguen tres tipos: de
entrada, de salida y ocultas; las primeras reciben datos del entorno, las segundas dan
respuesta a los estímulos de entrada y las últimas se encargan de procesos internos, pero no
reciben ni suministran información a las otras. (Universidad de Salamanca, 2015).
Según (IBM, s.f.) Las neuronas artificiales se conectan entre sí y dicha conexión tienen un
fuerza variable o ponderación, de esta forma, los datos de entrada se conectan (propagación)
desde cada neurona en la primera capa hasta cada neurona de la siguiente capa, así los valores
se propagan hasta el final, enviando un resultado hacia la capa de salida o variable de
respuesta. Adicional, cabe destacar que la red aprende examinando registros individuales y
ajustando las ponderaciones en la red en aquellas predicciones no acertadas. De esta forma,
el proceso a medida que el proceso se repite, la red puede alcanzar un mejor nivel de
predicción que el original, donde en los primeros casos las predicciones pueden ser dudosas,
debido a que pueden ser generadas incluso de forma aleatoria, siendo clave para lograr un
buen resultado entrenar la red con resultados conocidos.
Algoritmo Perceptrón Multicapa
El Perceptrón multicapa es una generalización del Perceptrón simple que surge como
consecuencia de las limitaciones del último, haciendo referencia al problema de
aplicabilidad a problemas no lineales. Un estudio realizado por Minsky y Papert en
1969 demostró que la combinación de varios Perceptrones simples junto con la
inclusión de una capa neuronas ocultas resultaba ser una buena opción para tratar
problemas de tipo no lineal; sin embargo, los autores no presentaron una solución al
problema de cómo adaptar los coeficientes de la capa de entrada hacia la capa oculta,
pues la regla de aprendizaje del Perceptrón simple no puede aplicarse en este caso.
No obstante, la idea de combinar varios Perceptrones sirvió de base para nuevos
estudios realizados por Rummelhart, Hinton y Williams en 1986, año en que dichos
autores presentaron una manera de retro propagación (propagación hacía atrás) de los
Pág. 14
errores medidos en la salida de la red, hacia las capas de neuronas ocultas, dando
lugar a la llamada regla delta generalizada, regla que sirve como medio de aprendizaje
supervisado y cuyo objetivo consiste en ajustar los coeficientes de las neuronas de las
capas ocultas con el fin de minimizar el error cuadrático en la capa de salida.
(Universidad de Sevilla, 2006).
Diferentes autores han demostrado que el Perceptrón multicapa es un aproximador
universal, en el sentido de que cualquier función que continúa en un espacio Rn puede
aproximarse con un Perceptrón multicapa, siempre y cuando este tenga al menos una
capa oculta de neuronas. (Universidad de Sevilla, 2006).
Dentro del marco de las redes neuronales artificiales, el Perceptrón multicapa es en la
actualidad una de las arquitecturas más utilizadas en la resolución de problemas, esto
debido a su buena capacidad como aproximador universal, así como su fácil uso,
aplicabilidad y versatilidad. Sin embargo, esto no implica que el Perceptrón sea una
de las redes neuronales más potentes o que brinde los mejores resultados; de hecho,
el Perceptrón multicapa posee una serie de limitaciones, uno de los más importantes
es el largo proceso de aprendizaje para problemas complejos que dependen de un gran
número de variables y la dificultad al momento de realizar un análisis teórico de la
red debido a la presencia de componentes no lineales y a la alta conectividad gracias
a las múltiples capas ocultas. (Universidad de Sevilla, 2006).
Por otra parte, resulta clave señalar que el proceso de aprendizaje de este tipo de red
neuronal artificial busca en un espacio amplio de funciones, una posible función que
relacione las variables de entrada del problema con las de salida; hecho que puede
complicar el aprendizaje y reducir la efectividad del modelo en determinadas
aplicaciones, pero tener un gran cubrimiento en otras. (Universidad de Sevilla, 2006).
2.2.3. Reglas De Asociación
Se trata de algoritmos que descubren relaciones entre los datos no visibles a ojo rápido, tal
como su nombre lo indica el objetivo es crear reglas de asociación donde a partir de un hecho
se pueda concluir que se genera otro u otros y a partir de cierta cantidad de hechos se pueda
prever la ocurrencia de un resultado esperado o deseado. La capacidad de las reglas se mide
por el soporte y la confianza que dicho de otra forma reflejan la utilidad o cubrimiento y la
certeza de la regla. (Moya & Rodriguez, 2003).
Según (IBM, 2014), la ventaja de los algoritmos de reglas de asociación sobre los algunos
otros algoritmos más estándar, como los árboles de decisión (basados en algoritmos como el
C4.5, C5.0 y Árbol C&R) es que las reglas buscan las asociaciones que pueden existir entre
cualquiera de los atributos, mientras que un árbol de decisión busca reglas con una única
conclusión (una única variable de respuesta); sin embargo, los algoritmos de asociación tratan
de buscar muchas reglas, cada una de las cuales puede tener una conclusión diferente y estar
asociada a una variable diferente.
Pág. 15
Algoritmo Rules PART
Este algoritmo utiliza mecanismos basados en el algoritmo C4.5 para la construcción
de árboles de decisión, sin embargo, evita el paso de optimización de sus reglas,
generando una lista de decisión sin restricciones basándose en el procedimiento
“divide y vencerás”, haciendo que este algoritmo sea más rápido.
El algoritmo PART extrae reglas de calidad alta y confiable. Este algoritmo construye
un árbol de decisión parcial para obtener una regla. Para poder podar una rama (una
regla) es necesario que todas sus implicaciones sean conocidas. El PART evita la
generalización precipitada, y usa los mismos mecanismos usados para construir el
árbol C4.5. (Moya & Rodriguez, 2003).
2.2.4. Regresión
La regresión es una técnica que permite cuantificar la relación que puede ser observada
cuando se grafica un diagrama de puntos dispersos correspondientes a dos o más variables,
observando cierta tendencia que se ajusta a un modelo definido (lineal, cuadrático, etc.) Esta
relación se puede expresar mediante una ecuación donde en su forma más básica se cumple
que y = mx + b. (Pauly, 1983).
donde “y” representa los valores de la variable de respuesta (a lo largo del eje vertical en el
gráfico) en tanto que “x” indica la magnitud de la variable independiente (sobre el eje
horizontal). El valor de “b” puede ser negativo, positivo o igual a cero y es llamado el
intercepto y el valor de “m” se denomina pendiente o coeficiente de regresión. Cabe resaltar
que en caso de múltiples variables “m” y “x” pueden ser variables y coeficientes diferentes
que como resultado producen “y”. (Pauly, 1983).
Junto a esta técnica, se destaca el uso del análisis de correlación entre dos variables, que
muestra el grado de asociación entre las mismas, este es expresado por un único valor
llamado coeficiente de correlación (r), el cual puede tener valores que oscilan entre -1 y +1,
donde cuanto más cercano es a los extremos, más correlación expresa. (Pauly, 1983).
Regresión Múltiple
La regresión múltiple se usa cuando se estudia una posible relación entre una variable de
respuesta y múltiples variables independientes que pueden ser predictoras en mayor,
menor medida o no serlo, mediante una función que puede ser de tipo lineal o no lineal.
La regresión múltiple busca el grado de relación que tiene la variable predictora sobre el
resultado y como estas afectan al mismo, para obtener unas ecuaciones conformadas por
las variables predictoras más significativas (determinado mediante análisis basado en
coeficiente de correlación y covarianza) acompañadas de un coeficiente para minimizar
los residuos, que se traducen en el error. (Barón & Téllez, 2009).
Pág. 16
2.3. Marco Legal
Según la BVC, “La norma más relevante es la Ley 964 de 2005, por la cual se dictan normas
generales y se señalan en ellas los objetivos y criterios a los cuales debe sujetarse el Gobierno
Nacional para regular las actividades de manejo, aprovechamiento e inversión de recursos
captados que se efectúen mediante valores y se dictan otras disposiciones” (BVC, 2018).
2.4. Revisión De Literatura
2.4.1. Casos De Estudio Similares
Primer caso
Título: Predicción de valores de bolsa mediante minería de datos para mercados de alta
frecuencia.
Autor: Isabel Vegas Villalmanzo.
Año: 2016.
Institución y región: Universidad Politécnica de Madrid, Escuela Técnica Superior de
Ingenieros Industriales. Madrid, España.
Finalidad: Maestría en Ingeniería Industrial.
Resumen: Los mercados de alta frecuencia utilizan poderosos algoritmos que interpretan
señales de cómo opera el mercado en tiempo real y generan órdenes de compra y/o venta
dependiendo de la situación, órdenes que se generan en ínfimas fracciones de segundo, los
traders por su parte buscan minimizar el tiempo de respuesta para poder responder a estas
órdenes e incrementar la posibilidad de obtener buenos beneficios, siendo en este punto
donde técnicas como árboles (bosques aleatorios), redes neuronales y máquinas de soporte
vectorial se tornan en alternativas.
Segundo caso
Título: Predicción del precio de acciones mediante técnicas de minería de datos.
Autor: Nicolás Heredia García.
Año: 2016.
Institución y región: Universidad Politécnica de Valencia. Valencia, España.
Finalidad: Trabajo de máster en Ingeniería Industrial.
Resumen: La predicción de precios de acciones mediante la minería de datos es un campo de
estudio relativamente nuevo que, aunque hay dudas, promete grandes cosas debido a la
capacidad de analizar grandes volúmenes de datos y encontrar relaciones entre los mismos.
Los datos usados pertenecen a empresas del IBEX 35 y son pre procesados y adaptados al
leguaje de la plataforma R, donde se usan técnicas como random forest, redes neuronales,
máquinas de soporte vectorial y regresión multivariada.
Pág. 17
Tercer caso
Título: Predicción de valores de bolsa mediante minería de datos para mercado de alta
frecuencia.
Autor: Isabel Vegas Villalmanzo.
Año: 2016.
Institución y región: Universidad Politécnica de Madrid. Madrid, España.
Finalidad: Trabajo de grado para optar por el título de master en ingeniería industrial.
Resumen: El documento presenta como se pueden aplicar técnicas de minería de datos como:
árboles de decisión, algoritmos Bayesianos, clustering, reglas de asociación y redes
neuronales en mercados de alta frecuencia (HFT) donde se usan algoritmos que realizan miles
de transacciones al día y que generan pequeños márgenes de ganancias, donde debido al alto
volumen terminan generando grandes volúmenes por acumulación.
Cuarto caso
Título: Real time data mining aplicado a la predicción de índices de bolsa incluyendo Social
Media Analytics.
Autor: Andrés Fernando Fuentes Medina.
Año: 2017.
Institución y región: Universidad Politécnica de Catalunya. Barcelona, España.
Finalidad: Máster en ingeniería informática.
Resumen: Se pretende la obtención de modelos predictivos para la bolsa de valores con base
en información recolectada en Twitter en intervalos cortos de tiempo por medio de mensajes
y comentarios de la red social. El objetivo es agregar la información procedente de redes
sociales a modelos clásicos de predicción que usan información en tiempo real para la
predicción bursátil apoyándose en la minería de datos y técnicas como la regresión, el
aprendizaje de máquina y computación distribuida.
Quinto caso
Título: Una aproximación a la predicción del valor de acciones en la bolsa de valores
aplicando técnicas de Data Mining.
Autor: Javier Isaac Espinosa Muñoz.
Año: 2015.
Institución y región: Universidad Politécnica de Madrid, Escuela Superior de Ingenieros
Informáticos. Madrid, España.
Finalidad: Máster en software y sistemas.
Pág. 18
Resumen: La predicción del valor de las acciones ha sido un tema que atrae, donde se supone
que la información histórica de las empresas tiene implicaciones en el precio futuro, sin
embargo, no es un tema fácil, por lo tanto el trabajo propone que a través de modelos que
usan regresión múltiple, random forest, reglas de asociación y Clustering, algunas de las
varias técnicas de data mining y con la metodología CRISP-DM, se puede obtener
información que permita tomar decisiones de cuando comprar y cuando vender en el mercado
accionario.
Sexto caso
Título: Aplicación de la minería de datos para sugerencia de inversiones en la bolsa de
valores.
Autores: Lucas Braz, Rafael Ferreira, Diego Dermeval, Douglas Veras, Henrique Pacca
Loureiro.
Año: 2015.
Institución y región: Universidad Federal de Alagoas (UFAL). Maceío, Brasil.
Finalidad: No especificado.
Resumen: La enorme cantidad de datos dificulta que una persona humana pueda detectar
información relevante, relaciones entre datos, condiciones especiales u otro tipo de aporte
por parte de los datos, sin embargo, por medio de técnicas de minería de datos tales como el
clustering, es posible identificar y extraer cierta información que muestra algunas
condiciones que favorecen la compra o venta de acciones en el mercado de valores. Para ello,
el estudio se basa en cuatro acciones liquidas del mercado de valores de Brasil donde el
objetivo es identificar las condiciones favorables para los inversionistas.
Séptimo caso
Título: Métodos para predecir índices bursátiles
Autores: Martha Cecilia García, Aura María Jalal, Luis Alfonso Garzón y Jorge Mario López
Año: 2013.
Institución y región: Universidad EAFIT, Medellín, Colombia.
Finalidad: Trabajo de investigación.
Resumen: Presentar una revisión bibliográfica de los métodos que se han utilizado en las
últimas dos décadas para predecir índices bursátiles, métodos que van desde aquellos que
logran captar las características lineales y finalmente métodos híbridos más robustos que
captan características lineales y no lineales.
Octavo caso
Título: Modelo de pronóstico de precios de acciones en la Bolsa de Valores de Lima basado
en redes neuronales artificiales.
Pág. 19
Autores: Henry Marcos Valdivia y Mirko Jerber Rodríguez.
Año: 2012.
Institución y región: Universidad Nacional de Ingeniería, Lima, Perú.
Finalidad: Tesis de grado para optar por el título de ingeniero de sistemas.
Resumen: En este trabajo de investigación se desarrolla un modelo de pronóstico capaz de
predecir el comportamiento de los índices de precios y cotizaciones de las acciones
comercializadas en la Bolsa de Valores de Lima, tomando como base el uso de técnicas de
inteligencia artificial específicamente las Redes Neuronales Artificiales, que realice un
pronóstico con menor grado de error, comparado con técnicas estadísticas convencionales
como ARIMA (Box Jenkins).
Noveno caso
Título: Pronósticos del índice general de la BVC usando redes neuronales.
Autores: Eduardo Arturo Cruz, Jorge Hernán Restrepo y Pedro Medina.
Año: 2009.
Institución y región: Universidad Tecnológica de Pereira, Colombia.
Finalidad: Trabajo de investigación.
Resumen: Exponer como pronosticar el comportamiento del índice bursátil IGBC a través de
la metodología de redes neuronales, brindando al inversionista la posibilidad de proyectar el
comportamiento del mercado bursátil colombiano de forma eficiente.
Decimo caso
Título: Estudio de validación de un método para seleccionar técnicas de pronóstico de series
de tiempo mediante redes neuronales artificiales.
Autores: Carmen Acosta, María Villareal y Mauricio Cabrera.
Año: 2012.
Institución y región: Universidad Nacional Autónoma de México, Ciudad de México,
México.
Finalidad: Trabajo de investigación.
Resumen: Validación de un método para seleccionar técnicas de pronóstico de series de
tiempo. En el método propuesto se aplican redes neuronales artificiales para predecir el
desempeño de varios métodos estadísticos tradicionales de pronóstico.
Onceavo caso
Título: Contraste de métodos de optimización en redes neuronales: Pronóstico de los
rendimientos diarios de índices bursátiles
Pág. 20
Autores: Elsy Lizbeth Gómez
Año: 2014.
Institución y región: Instituto Politécnico Nacional, México D.F.
Finalidad: Tesis para optar por el grado de doctor en ciencias económicas.
Resumen: Realizar un comparativo entre el método tradicional y un método evolutivo en la
selección de la arquitectura para el PML, orientado al pronóstico bursátil.
Doceavo caso
Título: Pronóstico del Índice General de la Bolsa de Valores de Colombia (IGBC) usando
modelos de inferencia difusa
Autores: Adriana Arango Londoño
Año: 2012.
Institución y región: Universidad Nacional de Colombia, Medellín, Colombia.
Finalidad: Trabajo de investigación para optar al título de Magister en Ingeniería
Administrativa.
Resumen: Determinar si los métodos de inferencia borrosa son más precisos que los modelos
lineales tradicionales, HYFIS y las redes neuronales de propagación hacia adelante para el
pronóstico de los rendimientos del IGBC.
Treceavo caso
Título: Aplicación de redes neuronales al pronóstico de precios en el mercado de valores.
Autores: Fernando Villada, Nicolás Muñoz y Edwin García.
Año: 2012.
Institución y región: Universidad de Antioquia, Medellín, Colombia.
Finalidad: Trabajo de investigación.
Resumen: Proponer un modelo basado en redes neuronales artificiales para el pronóstico de
los precios de dos de las principales acciones transadas en el mercado de valores de
Colombia, el modelo propuesto se aplica al estudio de acciones de Ecopetrol y preferencial
Bancolombia.
Catorceavo caso
Título: Creación de un portafolio de inversión constituido por valores primarios transados en
la BVC, empleando optimización multi-objetivo
Autores: Albín Arturo Henao Pérez
Año: 2007.
Pág. 21
Institución y región: Universidad del Norte, Barranquilla, Colombia.
Finalidad: Trabajo de grado para optar por el título de Máster en ingeniería industrial.
Resumen: Aplicar técnicas comparativas de optimización mono objetivo y multi objetivo, en
la construcción de portafolios de inversión basados en modelos Mean Variance y series de
tiempo para proveer información que facilite el proceso de toma de decisiones en la Bolsa de
Valores de Colombia.
Quinceavo caso
Título: Predicción del precio de acciones mediante técnicas de minería de datos
Autores: Nicolás Heredia García
Año: 2016.
Institución y región: Universidad Politécnica de Madrid, Madrid, España.
Finalidad: Trabajo de grado para optar por el título de Máster en ingeniería industrial.
Resumen: Desarrollar una herramienta de análisis del precio de acciones basada en técnicas
de minería de datos y programada a partir del software estadístico R, herramienta mediante
la cual se construyen varios modelos y se evalúa la capacidad de predicción para diversas
acciones a través de diversos indicadores como la precisión y la sensibilidad, usando
algoritmos como árboles de decisión y reglas de asociación.
Dieciseisavo caso
Título: Análisis de series de tiempo para la predicción de los precios de la energía en la Bolsa
de Colombia
Autores: Sergio Botero, Jovan Alfonso Cano
Año: 2012.
Institución y región:
Finalidad: Sin información.
Resumen: Presentar una metodología para la implementación de modelos de regresión, sobre
la serie histórica de precios de Bolsa de energía en Colombia. Desarrollar modelos que
describan de forma adecuada comportamientos del mercado.
Diecisieteavo caso
Título: Algoritmos genéticos y modelos multivariados recursivos en la predicción de índices
bursátiles de América del Norte: IPC, TSE, NASDAQ Y DJI
Autores: Antonio Parisi, Franco Parisi y Edinson Cornejo
Año: 2004.
Pág. 22
Institución y región: Universidad Nacional de Colombia, Medellín, Colombia.
Finalidad: Sin información.
Resumen: Con valores de cierre semanales entre 1998 y 2003 se observa la eficiencia de los
modelos multivariados dinámicos, elaborados a partir de algoritmos genéticos recursivos,
para predecir el signo de las variaciones semanales de los índices bursátiles IPC, TSE,
Nasdaq y DJI, los resultados se comparan con los de un modelo AR (1) y con un modelo
multivariado elaborado de manera aleatoria.
Dieciochoavo caso
Título: Pronóstico de bolsa de valores empleando técnicas inteligentes
Autores: Eliana Mirledy Toro Ocampo, Alexander Molina Cabrera y Alejandro Garcés Ruiz
Año: 2016.
Institución y región: Universidad Distrital Francisco José de Caldas, Colombia
Finalidad: Trabajo de investigación
Resumen: Comparar la predicción de precios en bolsa de valores utilizando redes neuronales
y neuro-difusas. Se muestra una metodología aplicable a la predicción del comportamiento
de cualquier tipo de acción, basada en el cálculo preliminar de la correlación entre el precio
y otras variables de mercado.
Diecinueveavo caso
Título: Pronóstico del índice bursátil ecuatoriano (ECUINDEX) mediante Redes Neuronales
Autorregresivas
Autores: Álex Dávila, Napoleón Sánchez y José Luis Román
Año: 2017.
Institución y región: 3C Empresa, Ecuador.
Finalidad: Innovación y desarrollo.
Resumen: Aplicación de redes neuronales autorregresivas no lineales para el pronóstico del
índice bursátil del mercado ecuatoriano de acciones, Ecuindex. Se prueban 45 estructuras de
redes tipo NAR; modificando el número de retrasos de la serie de tiempos del índice y el
número de neuronas de la capa oculta. En el período de prueba, la mejor red presenta un error
MAPE inferior a 0.25% y un porcentaje de acierto de dirección del cambio superior al 68%.
Veinteavo caso
Título: Modelos Predictivos de Índices Bursátiles Relevantes para la Economía Chilena
Autores: Rodrigo Giménez Fernández y Pablo Zamorano Cid
Año: 2014.
Pág. 23
Institución y región: Universidad de Chile, Santiago de Chile.
Finalidad: Seminario para optar al título de Ingeniero Comercial, Mención Economía
Resumen: Modelar índices bursátiles relevantes por medio de modelación tipo ARIMA
hibrida (con otras variables explicativas) introduciendo a los modelos la volatilidad implícita,
la utilidad por acción, los índices de producción industrial, la tasa de política monetaria y el
tipo de cambio. La certeza de los modelos se revisa mediante el error absoluto medio
porcentual con valores entre 0,58% y 3,26%.
Veintiunavo caso
Título: Análisis y pronósticos de demanda para Telefonía Móvil
Autores: Daniela Lotero Jiménez
Año: 2011.
Institución y región: Universidad de Chile, Santiago de Chile.
Finalidad: Tesis para optar al grado de magister en gestión de operaciones y Memoria para
optar al título de ingeniero civil industrial.
Resumen: Diseñar y analizar un modelo de predicción de demanda para mejorar la
planificación de las compras, por medio de una comparación de diferentes modelos entre
ellos, promedios, regresión, suavización exponencial, regresión log lineal y raíz unitaria,
encontrando aquel que presenta el mejor ajuste y por lo tanto logra explicar mejor la situación
planteada.
Veintidosavo caso
Título: Volatilidad del IP y Cotización de la Bolsa Mexicana de Valores
Autores: Sergio Hernández Mejía
Año: 2011.
Institución y región: Universidad Cristóbal Colón, Veracruz, México.
Finalidad: Trabajo de grado para optar por el título de Maestría en Finanzas
Resumen: Determinar cuál es el modelo que permite explicar con mayor precisión el
comportamiento histórico de los índices de precio y cotizaciones de la Bolsa Mexicana de
Valores, usando modelos que analizan la volatilidad del mercado, comparando los modelos
GARCH, EGARCH, TARCH de acuerdo a los criterios tradicionales de evaluación.
Veintitresavo caso
Título: Determinación del comportamiento de las acciones de la BVC a partir del análisis de
correlación
Autores: Alexander Casanova y Deidel Velaides
Año: 2012.
Pág. 24
Institución y región: Universidad de Cartagena, Cartagena, Colombia.
Finalidad: Tesis como Especialista en Finanzas.
Resumen: Al no conocer el comportamiento de las acciones, los inversionistas con perfil
conservador pueden crear a veces portafolios con un perfil muy agresivo, comprando
acciones que tienen el mismo comportamiento, así en el portafolio o todas bajan de precio, o
todas suben, incrementando los niveles de ganancias o perdida, pero con un alto riesgo para
inversionistas conservadores. Por lo tanto, a partir del análisis de correlación y el uso de
técnicas regresivas, el objetivo es determinar el comportamiento de las acciones con mayor
bursatilidad que cotizan en la bolsa de valores teniendo en cuenta criterios de afinidad,
tomando como base los precios registrados entre el 1 de enero y 4 de noviembre de 2011 para
disminuir los riesgos al invertir.
Veinticuatroavo caso
Título: Cómo invertir en la Bolsa Mexicana de Valores
Autores: Miguel Ángel Martínez
Año: 2000.
Institución y región: Universidad Autónoma de Nuevo León, San Nicolas, México.
Finalidad: Tesis para optar por el título de Maestro en Ciencias de la administración.
Resumen: Documento cuyo objetivo es facilitar la información al lector acerca de las
inversiones en la Bolsa Mexicana de Valores, las formas y las maneras de invertir más
clásicas, así como los conceptos usados en la Bolsa, se trata de un documento que detalla los
conceptos usados en la Bolsa de Valores para comprender como funciona.
Veinticincoavo caso
Título: Análisis del modelo ANFIS para el pronóstico de un título de renta variable.
Autores: Yulieth Mendoza y Alejandro Mazo
Año: 2009.
Institución y región: Sin información
Finalidad: Sin información.
Resumen: Realizar una aplicación del modelo de inferencias neuro difuso ANFIS en la
plataforma de MATLAB, sobre una base de datos construida con información de variables
económicas y financieras que representan una pequeña muestra de todas aquellas que podrían
explicar el comportamiento de un instrumento financiero en el país y que, además permitirían
obtener pronósticos sobre el precio de un activo de renta variable.
Veintiseisavo caso
Título: Modelación de los precios del petróleo mediante modelos estocásticos
Pág. 25
Autores: Mayra Alejandra Jerez Barrajas.
Año: 2016.
Institución y región: Universidad Industrial de Santander, Bucaramanga, Colombia.
Finalidad: Trabajo de grado para optar por el título de Ingeniero Industrial.
Resumen: Revisión de modelos ARIMA para el pronóstico del petróleo en dos de sus
presentaciones, WTI y BRENT. Los modelos hacen referencia a procesos estocásticos
ARCH-GARCH y Movimiento Geométrico Browniano GBM mediante el software R
Sthatics, donde se obtiene que para el primer tipo de petróleo se adaptar de mejor forma el
modelo ARIMA y para el tipo BRENT el modelo GBM. Los resultados se adaptan de forma
significativa a los precios del petróleo para el mes de enero del 2016.
2.4.2. Técnicas Utilizadas Para Estudios Similares Al Que Se Plantea
Desarrollar
Ilustración 1. Frecuencia de las técnicas de minería de datos en revisión literaria.
Fuente: Los autores.
En la gráfica 1, se muestra la frecuencia con que se usan cada una de las técnicas de
pronóstico en la revisión bibliográfica hecha con antelación. En el gráfico es posible apreciar
que técnicas como las redes neuronales gozan de especial popularidad, junto a los diferentes
tipos de regresión, que también son frecuentemente utilizados. Sin embargo, se destaca el
uso de la minería de datos, donde técnicas como los árboles de decisión, especialmente el
random forest, son usados con frecuencia; así mismo las reglas de asociación y los modelos
Pág. 26
ARIMA, adquieren especial relevancia. Por otra parte, encontramos técnicas no tan populares
como los promedios, la suavización exponencial y la raíz unitaria.
A continuación, se presenta una breve descripción de cada una de las técnicas más usadas,
mencionadas con antelación.
Árboles de decisión: se trata de un modelo predictivo que mapea datos sobre determinados
ítems con el fin de concluir sobre un valor objetivo, se utiliza cuando la variable a proyectar
puede tomar un número finito de valores, las hojas de los árboles representan las etiquetas de
clase y las ramas son las conjunciones de características que llevan a determinada etiqueta
de clase. Este tipo de técnica se usa en minería de datos con el ánimo de describir los datos,
pero no las decisiones, sin embargo, sirve para la toma de las mismas. El objetivo de esta
técnica es predecir la etiqueta de clase de ciertas entradas a clasificar a partir de información
de otros atributos que previamente han entrenado al algoritmo para predecir. (Botía, 2007).
Redes neuronales: son algoritmos de inteligencia artificial basados en el comportamiento de
cerebro humano, haciendo referencia a la conexión existente entre las neuronas; busca crear
modelos artificiales que den solución a problemas complejos que no se pueden resolver con
técnicas algorítmicas convenciones. Las redes neuronales cuentan con una serie de neuronas
artificiales agrupadas en unidades denominadas capas, donde se distinguen tres tipos: de
entrada, de salida y ocultas; las primeras reciben datos del entorno, las segundas dan
respuesta a los estímulos de entrada y las últimas se encargan de procesos internos, pero no
reciben ni suministran información a las otras. (Universidad de Salamanca, 2015).
Reglas de asociación: se trata de algoritmos que descubren relaciones entre los datos no
visibles a ojo rápido, tal como su nombre lo indica el objetivo es crear reglas de asociación
donde a partir de un hecho se pueda concluir que se genera otro u otros y a partir de cierta
cantidad de hechos se pueda prever la ocurrencia de un resultado esperado o deseado. La
capacidad de las reglas se mide por el soporte y la confianza que dicho de otra forma reflejan
la utilidad o cubrimiento y la certeza de la regla. (Moya & Rodriguez, 2003).
Regresión: permite establecer la relación que se produce entre una variable dependiente y
un conjunto de variables independientes, la construcción de la ecuación se realiza
seleccionando las variables una a una, “paso a paso”. La finalidad perseguida es buscar de
entre todas las posibles variables explicativas aquellas que más y mejor expliquen a la
variable dependiente sin que ninguna de ellas sea combinación lineal de las restantes.
(Rodrigues M., 2001).
A partir de los resultados y de la información de cada una de las técnicas, se opta por trabajar
con algoritmos como redes neuronales, árboles de decisión, reglas de asociación y regresión
múltiple, en el presente proyecto.
Pág. 27
3. Descripción Del Conjunto De Datos
3.1. Descripción De Las Variables
La base de datos final cuenta con 57 variables independientes y dos variables dependientes
o de predicción (CLASE y Precio Cierre Pred), la tabla a continuación resume la información
de cada una de ellas:
Variable Tipo Descripción
Fecha Continua Fecha real de operación bursátil
Dia Categórica Día de la semana (1-7)
DiaTexto Categórica Día de la semana en formato texto (lunes a domingo)
Mes Categórica Mes del año (1 - 12)
Año Categórica Año de la operación bursátil
Semana del
mes Categórica Clasifica la semana del mes en que se realiza la operación
Semana del
año Categórica Clasifica la semana del año en que se realiza la operación
Semestre Categórica Clasifica el semestre (1 - 2) en que se realiza la operación
Cuatrimestre Categórica Clasifica el cuatrimestre (1 - 4) en que se realiza la
operación
Trimestre Categórica Clasifica el trimestre (1 - 3) en que se realiza la operación
Precio
Apertura Continua Precio de la acción al momento de apertura del mercado
DIEZ Continua Precio de la acción en el mercado a las 10:00 am
Cantidad(10) Continua Cantidad de acciones transadas desde la apertura hasta las
10:00 am
Cprec(10) Categórica Cambio en el precio de apertura vs hora actual (sube, baja,
mantiene)
ONCE Categórica Precio de la acción en el mercado a las 11:00 am
Cantidad(11) Continua Cantidad de acciones transadas desde las 10:00 am hasta
las 11:00 am
Cprec(11) Categórica Cambio en el precio anterior vs hora actual (sube, baja,
mantiene)
Cvol(11) Categórica Cambio en el volumen de acciones transadas anterior vs
hora actual (mayor, menor, mantiene)
DOCE Continua Precio de la acción en el mercado a las 12:00 pm
Cantidad(12) Continua Cantidad de acciones transadas desde las 11:00 am hasta
las 12:00 pm
Cprec(12) Categórica Cambio en el precio anterior vs hora actual (sube, baja,
mantiene)
Cvol(12) Categórica Cambio en el volumen de acciones transadas anterior vs
hora actual (mayor, menor, mantiene)
UNA Continua Precio de la acción en el mercado a las 1:00 pm
Pág. 28
Cantidad(13) Continua Cantidad de acciones transadas desde las 12:00 pm hasta
la 1:00 pm
Cprec(13) Categórica Cambio en el precio anterior vs hora actual (sube, baja,
mantiene)
Cvol(13) Categórica Cambio en el volumen de acciones transadas anterior vs
hora actual (mayor, menor, mantiene)
DOS Continua Precio de la acción en el mercado a las 2:00 pm
Cantidad(14) Continua Cantidad de acciones transadas desde la 1:00 pm hasta las
2:00 pm
Cprec(14) Categórica Cambio en el precio anterior vs hora actual (sube, baja,
mantiene)
Cvol(14) Categórica Cambio en el volumen de acciones transadas anterior vs
hora actual (mayor, menor, mantiene)
TRES Continua Precio de la acción en el mercado a las 3:00 pm
Cantidad(15) Continua Cantidad de acciones transadas desde las 2:00 pm hasta
las 3:00 pm
Cprec(15) Categórica Cambio en el precio anterior vs hora actual (sube, baja,
mantiene)
Cvol(15) Categórica Cambio en el volumen de acciones transadas anterior vs
hora actual (mayor, menor, mantiene)
IGBC
APERTURA Continua IGBC a la apertura del mercado
IGBC
CIERRE Continua IGBC al cierre del mercado en el día bursátil anterior
IGBC Categórica Cambio (sube, baja, mantiene) del IGBC del día anterior
con respecto al de apertura
DÓLAR
APERTURA Continua TRM del dólar a la apertura del mercado
DÓLAR
CIERRE Continua
TRM del dólar al cierre del mercado en el día bursátil
anterior
DÓLAR Categórica Cambio (sube, baja, mantiene) en el precio del dólar del
día anterior con respecto al de apertura
EURO
APERTURA Continua TRM del euro a la apertura del mercado
EURO
CIERRE Continua
TRM del euro al cierre del mercado en el día bursátil
anterior
EURO Categórica Cambio (sube, baja, mantiene) en el precio del euro del
día anterior con respecto al de apertura
WTI
APERTURA
COP
Continua Precio de un barril de petróleo WTI a la apertura del
mercado
WTI CIERRE
COP Continua
Precio de un barril de petróleo al cierre del mercado en el
día búrsatil anterior
WTI Categórica Cambio (sube, baja, mantiene) en el precio del petróleo
WTI del día anterior con respecto al de apertura
Pág. 29
COLCAP
APERTURA Continua COLCAP a la apertura del mercado
COLCAP
CIERRE Continua COLCAP al cierre del mercado en el día bursátil anterior
COLCAP Categórica Cambio (sube, baja, mantiene) del COLCAP del día
anterior con respecto al de apertura
Precio Cierre Continua Precio de cierre de la acción al final de la jornada bursátil
AperVsCierreP
as Categórica
Cambio (sube, baja, mantiene) en el precio de apertura de
la acción con relación a su precio de cierre en el día
pasado
Cierre
PasVsAntepas
ado
Categórica
Cambio (sube, baja, mantiene) en el precio de cierre de la
acción del día bursátil pasado con relación a su precio de
cierre en inmediatamente anterior
VsDiaPasado Categórica
Cambio (sube, baja, mantiene) en el precio de cierre de la
acción del día corriente con relación a su precio de cierre
en inmediatamente anterior
15VsApertura Categórica
Cambio (sube, baja, mantiene) en el precio de la acción a
las 3 pm con relación a su precio de apertura en el mismo
día
CierreVs15 Categórica Cambio (sube, baja, mantiene) en el precio de cierre de la
acción con relación a su precio a las 3 pm en el mismo día
CierreVsApert
ura Categórica
Cambio (sube, baja, mantiene) en el precio de cierre de la
acción con relación a su precio de apertura en el mismo
día
RELACIÓN
REAL Calculado
Relación entre el precio de cierre del día corriente y el
precio de cierre del día bursátil anterior expresado en
porcentaje de cambio, sirve para calcular la clase
CLASE Categórica
Variable a predecir. Categoría de agrupación en intervalos
de 1% que detallan los cambios presentados en la variable
relación real, desde -5% o más hasta 5% o más. Esta
variable es el resultado directo de la predicción realizada
con árboles de decisión, reglas asociación y redes
neuronales, y a partir de un cálculo para la regresión
Precio Cierre
Pred Continua
Variable a predecir. Refleja el precio de cierre (en COP)
predicho con las diferentes técnicas de proyección, para
en el caso de los resultados de los árboles de decisión,
reglas asociación y redes neuronales, este valor se calcula
a partir de la clase; para la regresión es el resultado directo Tabla 2. Variables en las bases de datos finales.
Se hace la anotación que las dos bases de datos, tanto Bancolombia como Ecopetrol, cuentan
con la misma estructura, mismas variables y registros comprendidos entre las mismas fechas,
(02/08/2019 - 4/01/2010).
Pág. 30
A continuación, se presenta un análisis exploratorio de los datos, con los hallazgos desde el
análisis de la base de datos inicial, hasta la base de datos final, con la cual se desarrollan los
pronósticos para los precios de cierre de las dos acciones.
3.2. Bancolombia
3.2.1. Descripción De La Base De Datos
Se parte de una base de datos inicial que contiene los registros del título de renta variable
correspondiente a Bancolombia en la Bolsa de Valores de Colombia, cotizado como
BCOLOMBIA. La base de datos inicial contiene 4.425 instancias y consta de 24 atributos.
Esta base de datos inicial cuenta con datos de cotización desde el año 2001, año en que
Bancolombia inicia su actividad en la Bolsa de Valores de Colombia, así como un conjunto
de datos adicionales que pueden contener información valiosa que explique las variaciones
en el mercado bursátil. A continuación, se mencionan algunos de los hallazgos más
significativos.
Precio De Cierre Histórico.
Al comparar el precio de cierre de la acción con la fecha, es posible apreciar, tal como se ve
en la gráfica 2, que la acción presenta un comportamiento con un leve crecimiento, apenas
notorio, con el paso del tiempo en medio de una variación no muy significativa,
especialmente en años recientes.
Ilustración 2. Precio de la acción de Bancolombia en el tiempo.
Box Plot Precio De La Acción
Mediante un Boxplot del precio de la acción se puede apreciar que históricamente el 50% de
todos los registros presentan un precio inferior a los 22 mil pesos y un 75% está por debajo
de los 32 mil pesos; exponiendo que los elevados precios que presenta la acción en la
actualidad representan una minoría y que no se habían visto históricamente.
0
5000
10000
15000
20000
25000
30000
35000
40000
3/0
1/2
00
15
/06
/20
01
8/1
1/2
00
11
5/0
4/2
00
21
7/0
9/2
00
21
8/0
2/2
00
32
3/0
7/2
00
32
3/1
2/2
00
32
6/0
5/2
00
42
6/1
0/2
00
43
0/0
3/2
00
53
0/0
8/2
00
53
1/0
1/2
00
65
/07
/20
06
5/1
2/2
00
61
8/0
5/2
00
72
2/1
0/2
00
72
6/0
3/2
00
82
7/0
8/2
00
82
9/0
1/2
00
93
/07
/20
09
3/1
2/2
00
97
/05
/20
10
7/1
0/2
01
09
/03
/20
11
10
/08
/20
11
12
/01
/20
12
13
/06
/20
12
15
/11
/20
12
18
/04
/20
13
19
/09
/20
13
20
/02
/20
14
24
/07
/20
14
24
/12
/20
14
29
/05
/20
15
30
/10
/20
15
6/0
4/2
01
66
/09
/20
16
6/0
2/2
01
71
1/0
7/2
01
71
2/1
2/2
01
71
7/0
5/2
01
81
8/1
0/2
01
8
PR
ECIO
DE
CIE
RR
E
FECHA
Pág. 31
Ilustración 3. Boxplot para el precio de la acción.
Relación Sube – Baja – Mantiene
Se realiza un análisis que permita conocer la proporción de días en que la acción mantuvo su
precio constante, subió o bajó. El resultado, como se puede apreciar en la siguiente gráfica,
muestra que la cantidad de días en que el precio sube y baja con respecto a la cotización
anterior, es relativamente similar, sin embargo, los días en que la acción presenta crecimiento
son matemáticamente superiores.
Ilustración 4. Proporción de días que la acción sube, baja o se mantiene.
Variación Del Precio Durante El Día
Al comparar los precios que tiene la acción durante el día se obtiene que por lo general el
precio se mantiene en un valor constante, dicho de otra forma, el valor de la acción en el día
presenta poca variación y los precios mínimo, máximo y promedio son similares. Para que
este comportamiento sea más evidente, la gráfica muestra los datos del precio
correspondiente al mes de febrero de 2019.
Pág. 32
Ilustración 5. Precios: mínimo, máximo y de cierre.
Comparación De Las Acciones De Bancolombia, Grupo AVAL Y Davivienda.
Partiendo de la idea de que Bancolombia, el grupo AVAL y Davivienda son organizaciones
con razones sociales similares, se espera los precios de sus acciones presenten un
comportamiento similar. Tal como se aprecia en la siguiente gráfica, el comportamiento de
Bancolombia y preferencial Davivienda resulta bastante similar, mostrando crecimientos y
decrecimientos en periodos de tiempo similares, sin embargo, no ocurre igual con la acción
preferencial del grupo AVAL, posiblemente debido a que la misma presenta un valor bastante
inferior a sus contrapartes.
Ilustración 6. Precio de las acciones de Bancolombia, Davivienda y Grupo AVAL.
33000
33500
34000
34500
35000
35500
36000
36500
PR
ECIO
FECHA
Máx. de Precio Cierre Máx. de Precio Mayor Mín. de Precio Menor
0
5000
10000
15000
20000
25000
30000
35000
40000
8/1
0/2
01
0
28
/12
/20
10
15
/03
/20
11
1/0
6/2
01
12
2/0
8/2
01
1
4/1
1/2
01
12
6/0
1/2
01
2
13
/04
/20
12
4/0
7/2
01
2
20
/09
/20
12
7/1
2/2
01
2
26
/02
/20
13
17
/05
/20
13
5/0
8/2
01
3
22
/10
/20
13
13
/01
/20
14
28
/03
/20
14
17
/06
/20
14
4/0
9/2
01
4
21
/11
/20
14
11
/02
/20
15
30
/04
/20
15
22
/07
/20
15
7/1
0/2
01
5
28
/12
/20
15
15
/03
/20
16
3/0
6/2
01
6
23
/08
/20
16
8/1
1/2
01
62
6/0
1/2
01
7
12
/04
/20
17
5/0
7/2
01
7
21
/09
/20
17
11
/12
/20
17
28
/02
/20
18
21
/05
/20
18
9/0
8/2
01
8
25
/10
/20
18
16
/01
/20
19
PR
ECIO
Máx. de Precio Cierre Máx. de PF DAVIVIENDA Máx. de PF AVAL
Pág. 33
Precio De La Acción De Bancolombia Y Precio Del Barril De Petróleo WTI.
Un acontecimiento no esperado se presenta cuando al linealizar por medio de logaritmos los
valores del precio de la acción de Bancolombia y el precio del petróleo WTI, se evidencia,
tal como se ve en la gráfica que se presenta a continuación, que el comportamiento de estos
dos atributos resulta bastante similar con una evolución en el tiempo semejante.
Ilustración 7. Logaritmo natural de la acción Bancolombia y precio del petróleo WTI.
Sin embargo, para continuar con la investigación, en el momento en que se procede a preparar
la base de datos y cargarla en software para la minera de datos, no se obtienen los resultados
esperados, siendo la precisión y disposición de los modelos bastante baja (inferior al 30%).
Este hecho hace replantear el diseño de las bases de datos y, para ello se decide aplicar un
análisis de correlación a los datos con que se contaba inicialmente, con el fin de detectar
aquellos factores que podían ayudar a explicar el precio de la acción de Bancolombia y
excluir aquellos que no aportaban información.
Atributo Original Coeficiente de correlación Resultado
Fecha 0,92348167 Incluir
Cantidad de acciones 0,67916143 Incluir
Volumen (en COP) 0,03027663 No Incluir
Precio Mayor 0,99649674 Incluir
Precio Medio 0,99952456 Incluir
Precio Menor 0,9964831 Incluir
Variación 0,05278664 No Incluir
Variación Absoluta -0,12654819 No Incluir
Activos 0,076467257 No Incluir
Pasivos 0,076403824 No Incluir
Patrimonio 0,076577681 No Incluir
Ingresos -0,11368199 No Incluir
Utilidades 0,39342131 Incluir
IGBC 0,74111367 Incluir
PIB (miles de millones) 0,84215923 Incluir
Inflación -0,66666319 No Incluir
5
6
7
8
9
10
11
12
13
3/0
1/2
00
1
3/0
7/2
00
1
3/0
1/2
00
2
3/0
7/2
00
2
3/0
1/2
00
3
3/0
7/2
00
3
3/0
1/2
00
4
3/0
7/2
00
4
3/0
1/2
00
5
3/0
7/2
00
5
3/0
1/2
00
6
3/0
7/2
00
6
3/0
1/2
00
7
3/0
7/2
00
7
3/0
1/2
00
8
3/0
7/2
00
8
3/0
1/2
00
9
3/0
7/2
00
9
3/0
1/2
01
0
3/0
7/2
01
0
3/0
1/2
01
1
3/0
7/2
01
1
3/0
1/2
01
2
3/0
7/2
01
2
3/0
1/2
01
3
3/0
7/2
01
3
3/0
1/2
01
4
3/0
7/2
01
4
3/0
1/2
01
5
3/0
7/2
01
5
3/0
1/2
01
6
3/0
7/2
01
6
3/0
1/2
01
7
3/0
7/2
01
7
3/0
1/2
01
8
3/0
7/2
01
8
3/0
1/2
01
9
LN
LN Precio LN WTI
Pág. 34
Dólar 0,70123039 Incluir
Euro 0,16764124 Incluir
Petróleo WIT 0,58790392 No Incluir
Petróleo WIT (COP) 0,74452453 Incluir
COLCAP 0,88542547 Incluir
Pib Explotación 0,08497591 No Incluir
Participación Explotación 0,09157275 Incluir
Pib Finanzas -0,1986188 No Incluir
Participación Finanzas -0,07774467 No Incluir
Preferencial Aval 0,76750229 No Incluir
Preferencial Davivienda 0,82977733 No Incluir Tabla 3. Coeficientes de correlación de atributos con respecto al precio de cierre.
A partir de los resultados mostrados en la tabla 2, y con base en la disponibilidad de
información, así como los intervalos de actualización, se decide aprovechar los datos que con
un buen coeficiente de correlación pueden ayudar al momento de explicar el comportamiento
de la acción, tomando dos decisiones importantes:
Excluir atributos como volumen de transacción, variación porcentual y absoluta, los
resultados financieros, la inflación, el precio del petróleo WTI en dólares, el PIB, la inflación
y los precios de acciones similares como el grupo Aval y Davivienda, esto con base en los
bajos coeficientes de correlación con respecto a otros atributos, o en el caso de las acciones
de otras entidades similares, debido a que se considera que poseen coeficientes altos gracias
a que su comportamiento es similar y dependen en gran medida de variables similares.
Aprovechar datos que ofrecen buen resultado como los precios mínimos, máximos, la fecha
y la cantidad, para segmentarlos y buscar un nuevo enfoque donde se muestre la evolución
del precio durante el horario laboral de la Bolsa de Valores de Colombia y continuar con
aquellos atributos que ofrecen buenos resultados.
La nueva base de datos cuenta con datos de cotización en la Bolsa de Valores de Colombia
desde el año 2010, distribuidos en intervalos horarios de una hora, junto con las respectivas
cantidades transadas en intervalos horarios iguales. Además, se anexa un conjunto de datos
adicionales con información de relevancia que ayuda en la explicación y análisis de las
variaciones del mercado bursátil. Con la nueva base de datos (ver Anexo 1. Base
Bancolombia), se realiza el procesamiento de datos; a continuación, se hace un análisis inicial
y posteriormente se mostrarán algunos hallazgos significativos.
Se hace la anotación que todos los gráficos presentados a continuación se encuentran en
documentos interactivos que permiten su visualización desde diferentes perspectivas (ver
Anexo 12. Bancolombia). El archivo se encuentra en formato Power BI (.pbix).
Precio De Cierre Histórico.
La gráfica número 8 muestra la evolución del precio de la acción de Bancolombia en el
mercado bursátil de la BVC. Al observar el cambio, debido al intervalo de tiempo menor al
Pág. 35
inicial, resulta más evidente y podría afirmarse que el precio de cierre presenta una tendencia
de crecimiento a medida que avanzan los años; sin embargo, si analizamos los cambios en
intervalos de tiempo más cortos, la tendencia es más confusa y difícil de comprender a simple
vista.
Ilustración 8. Precio de la acción de Bancolombia en el tiempo.
Box Plot Precio De Cierre De La Acción
Los diagramas de caja permiten observar el comportamiento del precio de una forma distinta,
mostrando que tan variables pueden llegar a ser en el transcurso de un periodo de tiempo
determinado, encontrando periodos de tiempo como los años 2010, 2014, 2015, 2016 y 2017
con intervalos de precio entre el máximo y el mínimo bastante extensos; por el contrario, en
años como el 2011, 2012 y 2018 el rango de variación resulta mucho menor.
Ilustración 9. Boxplot para el precio de la acción.
Relación Sube – Baja – Mantiene
Se realiza un análisis que permita conocer la proporción de días en que la acción mantuvo su
precio constante, subió o bajó. El resultado, como se puede apreciar en las gráficas, muestra
que la cantidad de días en que el precio sube y baja con respecto a la cotización anterior, es
relativamente similar, sin embargo, los días en que la acción presenta crecimiento son
matemáticamente superiores.
Pág. 36
Ilustración 10. Proporción de días que la acción sube, baja o se mantiene.
Variación Del Precio Durante El Día
En la gráfica 11, es posible apreciar la cotización en el mercado de la BVC a diferentes horas
del día, en un intervalo que va desde el precio de apertura hasta el precio de cierre. Se aprecia
que los precios presentan un comportamiento bastante estable y sin mayor variación en la
mayoría de los casos, exceptuando algunos picos en determinadas fechas.
Ilustración 11. Precios en diferentes horas del día.
Precio De La Acción De Bancolombia Y Precio Del Barril De Petróleo WTI.
Un acontecimiento no esperado se presenta cuando al linealizar por medio de logaritmos
naturales los valores del precio de la acción de Bancolombia y el precio del petróleo WTI, se
evidencia, tal como se ve en la gráfica que se presenta a continuación, que el comportamiento
de estos dos atributos resulta bastante semejante, con picos y depresiones marcados en
intervalos de tiempo similares.
Pág. 37
Ilustración 12. Logaritmo natural de la acción Bancolombia y precio del petróleo WTI en el tiempo.
3.2.2. Hallazgos Destacables De La Base De Datos.
Variación Del Precio.
En las gráficas a continuación es posible observar la cantidad de veces y el tipo de cambio
que han experimentado los precios de la acción de Bancolombia. Al observar la primera
gráfica podemos afirmar que la cantidad de veces que el precio ha subido son levemente
mayores, sin embargo, la posibilidad de que el alza sea de un 1% es significativamente mayor
a cualquiera de los otros cambios. Por otra parte, las alzas fuertes, miramos son un hecho
bastante aislado. Las bajas por su parte, como se ve en la gráfica tienden a ser de entre un 1%
y 2%. Tanto las alzas como las bajas fuertes son poco probables, sin embargo, se resalta que
históricamente se han presentado mayor cantidad de bajas de 5% o mayores que alzas de 3%
o mayores.
Además, podemos apreciar que el comportamiento de la acción en un 70% está representado
en cambios que no superan el 1%. (25,90% en bajas, 5,73% sin cambios y 40,30% en alzas).
Ilustración 13. Cantidad de veces que se presenta una de las clases en el conjunto de datos.
Pág. 38
Ilustración 14. Significancia de cada una de las clases en el conjunto de datos.
Probabilidad De Que El Precio Suba O Baje En La Semana
Tal como se aprecia en la gráfica, la variación de los precios puede variar en función del día
de la semana, siendo lo más probable que el precio suba o baje entre un 0% y 2%, sin
embargo, los días lunes y martes es más probable encontrar una baja y los días miércoles y
jueves un alza.
Ilustración 15. Número de veces que se presenta una de las clases en cada día de la semana.
Transacciones En La Semana
La cantidad de transacciones durante la semana no es constante. Tal como se aprecia en la
siguiente gráfica, el día lunes es un día con baja movilidad, el día martes presenta mayor
movilidad en horas de la mañana, en el día miércoles el horario preferido se muestra alrededor
del mediodía, el jueves presenta mayor movilidad que el lunes y la preferencia también se
encuentra alrededor del mediodía, siendo la 1 pm la hora predilecta, el viernes por su parte,
Pág. 39
no presenta un volumen de transacción tan fuerte como los días martes y miércoles; los
horarios preferidos se muestran al medio día y al cierre del mercado bursátil. Los días martes
y miércoles, la movilidad es mayor y la preferencia gira en torno al horario de apertura y
medio día.
Ilustración 16. Número de transacciones que se dan en cada hora, cada día de la semana.
Precio Promedio En La Semana
El precio promedio también varía en función de la hora y el día de la semana, en días como
el jueves y viernes, los precios históricos promedio tienden a ser más altos que en otros días
como los lunes, martes y miércoles. En los días jueves el precio de cierre tiende a ser el más
alto junto con el precio de las 10 am. En el viernes por su parte, el precio de cierre promedio
es superior a otros precios durante del día.
Ilustración 17. Promedio del precio de la acción en cada hora, cada día de la semana.
Pág. 40
Transacciones Por Mes Del Año
Las transacciones varían además dependiendo del mes del año, encontrando mayor movilidad
a lo largo del primer semestre, siendo mayo el mes que más transacciones registra, muy
seguramente debido a que en esa fecha Bancolombia presenta resultados del primer trimestre,
observando buena movilidad en otros meses de interés, como enero, abril, julio y octubre
debido al pago de dividendos por parte de la entidad o en mayo y agosto por publicación de
resultados.
Ilustración 18. Transacciones que se dan en cada hora, en cada mes del año.
Precio Promedio Por Mes Del Año
La variación del precio a lo largo del año es bastante evidente, donde los meses con un precio
promedio mayor son abril y julio; muy posiblemente debido a la expectativa que genera la
publicación de resultados por parte de Bancolombia en los meses de mayo y agosto,
fenómeno que no se presenta en los meses de enero y octubre que también anteceden a
publicación de resultados. Además, se aprecia que el precio promedio es mayor a mediados
del año que al inicio y final.
Ilustración 19. Promedio del precio en cada hora por cada mes del año.
Pág. 41
Transacciones Por Año
El número de transacciones por año actualmente presenta un comportamiento de descenso,
donde el máximo volumen de transacción se registró en los años 2016 y 2017, sin embargo,
en la actualidad, se muestra en declive y se registran menos acciones de compra y venta,
donde a pesar de alcanzar la mitad del 2019, el volumen es bajo y la cantidad de acciones
que se han transado en la BVC al cierre del primer semestre apenas supera la cifra registrada
en el año pasados.
Ilustración 20. Cantidad total de acciones transadas por cada año.
Precio Promedio Por Año
El precio por su parte parece no seguir la misma tendencia del volumen, mostrando una
evolución con tendencia al alza, donde luego de una leve caída en el 2015, el mismo parece
no parar de crecer, superando por primera vez en el 2019 la barrera de los 40 mil pesos
colombianos por acción elevando el promedio en este periodo bastante por encima de años
anteriores.
Ilustración 21. Precio promedio de cada año.
Pág. 42
3.3. Ecopetrol
3.3.1. Descripción De La Base De Datos
Se parte de una base de datos inicial que cuenta con datos de cotización desde el año 2010
para Ecopetrol, junto a un conjunto de datos adicionales que pueden contener información
valiosa que ayude a la comprensión de las variaciones en el mercado bursátil. La base de
datos inicial contiene 2341 registros y 20 atributos. A continuación, se mencionan algunos
de los hallazgos más significativos.
Precio De Cierre Histórico.
Al comparar el precio de cierre de la acción con la fecha, es posible apreciar, tal como se ve
en la gráfica, que la acción presenta un comportamiento sinusoide, donde sus precios
máximos se dan en el año 2012; sin embargo, con el paso del tiempo hasta el año 2017 se
aprecia un descenso significativo en los precios, siendo 2018 el año en que el precio presenta
una nueva tendencia al alza. Los precios más recientes presentan una variación significativa,
que no permite la estabilización.
Ilustración 22. Precio de la acción de Ecopetrol en el tiempo
Box Plot Precio De Cierre De La Acción
Mediante un Boxplot del precio de la acción se puede apreciar que históricamente el 50% de
todos los registros presentan un precio inferior a los 3200 pesos y un 75% está por debajo de
los 4100 pesos; exponiendo que los precios que presenta la acción en la actualidad se
encuentran dentro del rango medio y que precios como los presentados durante el año 2012
representan una minoría y que no se habían visto históricamente.
Pág. 43
Ilustración 23. Boxplot para el precio de la acción.
Relación Sube – Baja – Mantiene
Se realiza un análisis que permita conocer la proporción de días en que la acción mantuvo su
precio constante, subió o bajó. El resultado, como se puede apreciar en las gráficas, muestra
que la cantidad de días en que el precio sube y baja con respecto a la cotización anterior, es
relativamente similar, sin embargo, los días en que la acción presenta crecimiento son
matemáticamente superiores.
Ilustración 24. Proporción de días que la acción sube, baja o se mantiene.
Variación Del Precio Durante El Día
Al comparar los precios que tiene la acción durante el día es posible apreciar que el precio
presenta variaciones más significativas que para el caso de Bancolombia, dicho de otra forma,
aunque el valor de la acción no es muy disperso en un día y los precios mínimos, máximo y
de cierre son similares, en el transcurso de pocos días el cambio es evidente. Para que este
comportamiento sea más evidente, la gráfica muestra los datos del precio correspondiente al
mes de junio y julio de 2019.
Pág. 44
Ilustración 25. Precios: mínimo, máximo y de cierre.
Precio De La Acción De Ecopetrol Y Precio Del Barril De Petróleo WTI.
La gráfica a continuación presenta el resultado de linealizar por medio de logaritmos
naturales los valores del precio de la acción de Ecopetrol y el precio del petróleo WTI en
pesos colombianos, en la gráfica se ve que el comportamiento de estos dos atributos resulta
bastante similar con una evolución en el tiempo semejante, presentando picos y caídas en
puntos semejantes.
Ilustración 26. Logaritmo natural de la acción Ecopetrol y el precio del petróleo WTI.
Al igual que en el caso de Bancolombia, al momento de preparar la base de datos y a cargarla
en software de minera de datos; no se obtienen los resultados esperados, donde la precisión
ronda el 28%. Este hecho hace replantear la construcción de la base de datos y para evitar
atributos que aportan poca información y disminuir el ruido de los datos, se decide aplicar
un análisis de correlación a los atributos con que originalmente se contaba; esto con el fin de
detectar aquellos factores que tienen un mayor impacto en el precio de la acción de Ecopetrol
y excluir aquellos que no aportan información.
6,00
7,00
8,00
9,00
10,00
11,00
12,00
13,00
14,00
Precio de Cierre Precio WTI
Pág. 45
Atributo Coeficiente de correlación Resultado
Fecha -0,646033711 Incluir
Cantidad de acciones -0,733829688 Incluir
Volumen (en COP) 0,296644564 No Incluir
Precio Mayor 0,999609165 Incluir
Precio Medio 0,9998361 Incluir
Precio Menor 0,993887381 Incluir
Variación 0,012556049 No Incluir
Variación Absoluta 0,00731149 No Incluir
PIB -0,154662397 No Incluir
Inflación -0,026728001 No Incluir
Dólar -0,690953194 Incluir
Euro -0,724871894 Incluir
WTI 0,697745808 Incluir
COLCAP 0,691435747 Incluir
PIB Explotación 0,250427412 No Incluir
Participación Ex. 0,115000861 No Incluir
PIB Finanzas -0,31448486 No Incluir
Participación Fin. -0,348053259 No Incluir
ISA 0,221403244 No Incluir
GEB -0,610806384 No Incluir Tabla 4. Coeficientes de correlación de atributos con respecto al precio de cierre.
A partir de los resultados mostrados en la tabla 3, se decide aprovechar los datos que con un
buen coeficiente de correlación pueden ayudar al momento de explicar el comportamiento
de la acción, tomando dos decisiones importantes:
Excluir atributos como volumen de transacción, variación porcentual y absoluta, la inflación,
el precio del petróleo WTI en dólares, el PIB de la parte financiera y la participación
porcentual de la misma en el PIB de Colombia, así como los precios del grupo ISA y GEB;
esto con base en los bajos coeficientes de correlación con respecto a otros atributos, o en el
caso de las acciones de otras entidades similares, debido a que se considera que poseen
coeficientes altos gracias a que su comportamiento es similar y dependen en gran medida de
variables similares.
Aprovechar datos que ofrecen buen resultado como los precios mínimos, máximos, la fecha
y la cantidad para segmentarlos y buscar un nuevo enfoque donde se muestre la evolución
del precio durante el horario laboral de la Bolsa de Valores de Colombia junto a otros
atributos como el precio del dólar, el euro y el precio del petróleo WTI en pesos colombianos.
La nueva base de datos cuenta con datos de cotización en la Bolsa de Valores de Colombia
desde el año 2010, distribuidos en intervalos horarios de una hora; de igual forma que la base
de Bancolombia. (Ver Anexo 6. Base Ecopetrol). A continuación, se hace un análisis inicial
y posteriormente se mostrarán algunos hallazgos significativos.
Pág. 46
Se hace la anotación que todos los gráficos presentados se encuentran en documentos
interactivos que permiten su visualización desde diferentes perspectivas; guardados con el
nombre de Anexo 11. Ecopetrol; el archivo se encuentra en formato Power BI (.pbix).
Precio De Cierre Histórico.
Tal como se había mencionado en la gráfica 27, el precio de la acción de Ecopetrol en la
Bolsa de Valores de Colombia es significativamente cambiante, presentando temporadas de
fuertes incrementos y de grandes caídas, sin embargo, desde una perspectiva de tiempo
bastante amplia, el comportamiento parece tener forma sinusoidal.
Ilustración 27. Precio de la acción de Ecopetrol en el tiempo.
Box Plot Precio De La Acción
Los diagramas de caja permiten mirar los precios históricos desde una perspectiva de
variabilidad, evidenciando que en años como el 2010, 2012, 2013, 2014 y 2018 Ecopetrol
presenta un rango de precios bastante amplio, dejando en evidencia los resultados mostrados
en la gráfica anterior donde se aprecian precios elevados en años como el 2012 y 2013, fueron
también periodos con alta variabilidad. Por otro lado, años como el 2011,2016, 2017 y 2019
presentan un comportamiento más estable con un rango de precios mucho menor y, por lo
tanto, una menor variabilidad.
Ilustración 28. Boxplot para el precio de la acción.
Pág. 47
Relación Sube – Baja – Mantiene
Se realiza un análisis que permita conocer la proporción de días en que la acción mantuvo su
precio constante, subió o bajó. El resultado, como se puede apreciar en las gráficas, muestra
que la cantidad de días en que el precio sube y baja con respecto a la cotización anterior, es
relativamente similar, sin embargo, los años donde el precio presenta tendencia a la baja
también se reflejan en el gráfico.
Ilustración 29. Proporción de días que la acción sube, baja o se mantiene.
Variación Del Precio Durante El Día
Al comparar los precios que tiene la acción durante el día se obtiene que la variación en
algunos casos es alta, donde no es posible encontrar una hora clara donde el precio de
cotización sea mayor a las demás. Sin embargo, se aprecian picos y descensos más
frecuentemente en precios como el de apertura, cierre y el de las 2 pm.
Ilustración 30. Precios durante el día y de cierre.
Pág. 48
Precio De La Acción De Bancolombia Y Precio Del Barril De Petróleo WTI.
En la siguiente gráfica se presenta la linealización de los precios de cierre, del COLCAP,
dólar, euro, IGBC y del petróleo WTI por medio de logaritmos naturales. Se hace evidente
la correlación entre factores como el precio del petróleo e índices como el COLCAP y el
IGBC. Este hecho no resulta una sorpresa debido a la naturaleza de Ecopetrol para el caso
del precio del petróleo y debido a que al ser una de las acciones con mayor volumen de
transacción, los índices de la BVC presentan una marcada influencia.
Ilustración 31. Atributos linealizados con logaritmos naturales.
3.3.2. Hallazgos Destacables En La Base De Datos
Variación Del Precio.
En las gráficas a continuación es posible observar la cantidad de veces y el tipo de cambio
que han experimentado los precios de la acción de Ecopetrol. Al observar la primera gráfica
podemos afirmar que la cantidad de veces que el precio ha subido son apenas mayores, sin
embargo, la posibilidad de que el alza sea de un 1% es significativamente mayor a cualquiera
de los otros cambios. Por otra parte, las alzas fuertes, son un hecho bastante aislado. Las bajas
por su parte, como se ve en la gráfica tienden a ser de entre un 1% y 2%. Tanto las alzas
como las bajas fuertes son poco probables, sin embargo, se resalta que históricamente se han
presentado mayor cantidad de bajas de 5% o mayores que alzas de 4% o mayores.
Además, podemos apreciar que el comportamiento de la acción, históricamente en un 67%
está representado en cambios que no superan el 1%. (22,39% en bajas, 6,71% sin cambios y
38,03% en alzas).
Pág. 49
Ilustración 32. Cantidad de veces que se presenta una de las clases en el conjunto de datos.
Ilustración 33. Significancia de cada una de las clases en el conjunto de datos.
Probabilidad De Que El Precio Suba O Baje En La Semana
Tal como se aprecia en la gráfica, los precios parecen variar en función del día de la semana,
siendo lo más probable que el precio suba o baje entre un 0% y 2%, sin embargo, también se
aprecia que los días martes el precio puede presentar más del doble de probabilidad de alzas
de un 1% que, de bajas de igual magnitud, así mismo los días lunes hay mayor probabilidad
de una baja.
Pág. 50
Ilustración 34. Número de veces que se presenta una de las clases en cada día de la semana.
Transacciones En La Semana
La cantidad de transacciones durante la semana no es constante. Tal como se aprecia en la
siguiente gráfica, el día lunes es un día con baja movilidad y, por otra parte, los días martes
y miércoles tienden a acumular mayor cantidad de transacciones; siendo las horas de la
mañana las preferidas para la compra y venta, presentando un descenso muy significativo en
la cantidad de acciones transadas en horas de la tarde.
Ilustración 35. Número de transacciones que se dan en cada hora, cada día de la semana.
Precio Promedio En La Semana
El precio promedio también varía en función de la hora y el día de la semana, los días lunes,
jueves y viernes, tienen un precio promedio significativamente mayor a los días martes y
miércoles. Reflejando que el precio parece ser indirectamente proporcional a la cantidad de
Pág. 51
transacciones. Además, es posible apreciar que los precios promedio más altos giran en torno
a las horas cercanas a la apertura del mercado y justo antes del cierre del mismo.
Ilustración 36. Promedio del precio de la acción en cada hora, cada día de la semana.
Transacciones Por Mes Del Año
Las transacciones varían además dependiendo del mes del año, encontrando mayor movilidad
a lo largo del primer semestre; donde los meses de abril y mayo presentan un aumento
significativo en la cantidad de acciones transadas, hecho posiblemente atribuible a que en
abril se desarrolla la junta de accionistas y el 25 del mes se hace el pago correspondiente a
los accionistas minoritarios, para los mayoritarios se contemplan fechas en abril, junio y
septiembre. En el mes de mayo se hace la publicación de los resultados correspondientes al
primer trimestre de Ecopetrol. Los precios más altos se dan en horas cercanas a la apertura
del mercado.
Por otra parte, en el segundo semestre, el mes que destaca es octubre presentando una
tendencia de disminución a medida que se acerca diciembre.
Pág. 52
Ilustración 37. Transacciones que se dan en cada hora, en cada mes del año.
Precio Promedio Por Mes Del Año
La variación del precio a lo largo del año es bastante evidente, observando que meses como
octubre presentan un precio significativamente superior a los otros, por el contrario, meses
como junio y julio presentan un precio bastante menor a los otros meses, incluso menor al
precio de fin e inicio de año.
Por lo tanto, podemos preciar que en meses como octubre, la cantidad de acciones transadas
crece y el precio promedio también presenta un alza.
Ilustración 38. Promedio del precio en cada hora por cada mes del año.
Pág. 53
Transacciones Por Año
El número de transacciones por año parecía presentar una tendencia al alza desde el año 2013
con un ligero tropiezo en el año 2017. Sin embargo, la cantidad de acciones transadas cerrado
el primer semestre de 2019 parece no cumplir con las expectativas y dado que la mayor
cantidad de transacciones se presentan en el primer semestre de año se podría asumir que el
año 2019 cerrará con una baja en la cantidad de transacciones con respecto al año anterior.
Ilustración 39. Cantidad total de acciones transadas por cada año.
Precio Promedio Por Año
El precio por su parte presentó sus máximos históricos en los años 2012 y 2013, sin embargo,
debido a tensiones en el mercado y caídas en precios internacionales del petróleo, el precio
de las acciones bajó de forma marcada en los años 2015, 2016 y 2017. Por otro lado, para los
años 2018 y 2019 el precio parece tener una tendencia de recuperación. Donde hasta
mediados del año la perspectiva es buena y ya se alcanza el precio promedio del año pasado,
donde debido a expectativas favorables del mercado petrolero y de divisas como el dólar, se
espera el cierre del año sea mayor al año 2018.
Ilustración 40. Precio promedio de cada año.
Pág. 54
4. Aplicación De Los Métodos Seleccionados
Se hace la anotación que los árboles de decisión, reglas de asociación y redes neuronales
seleccionados ocupan algoritmos que predicen variables de tipo categórico, en este caso la
clase, que representa el cambio porcentual en el precio de cierre, por su parte la regresión
retorna un valor real que representa el precio de cierre en COP, por lo tanto para calcular la
clase y compararlo con los otros tres métodos, este se compara con respecto al precio de
cierre real del día pasado, y el cambio porcentual resultante pasa a ser la clase. Adicional,
gracias a los resultados numéricos obtenidos a partir de la regresión, se hace un análisis de
cuan acercados son los resultados de este método con respecto al precio de cierre real en el
mercado de valores.
4.1. Árboles De Decisión – Algoritmo J48
El algoritmo considera todas las pruebas posibles para dividir el conjunto de datos y
selecciona la prueba que le haya generado la mayor ganancia de información, para cada
atributo discreto o para cada rango en caso de atributos continuos. Se considera una prueba
con n resultados, siendo n el número de valores que puede tomar un atributo. Para el caso de
atributos continuos se realiza una prueba binaria sobre cada uno de los valores que toma el
atributo en los datos.
En cada nodo, el sistema debe decidir qué prueba escoge para dividir los datos, donde los
tres tipos de pruebas que maneja el algoritmo C4.5 son:
La prueba estándar para las variables discretas, con un resultado y una rama para cada valor
posible de la variable.
Una prueba más compleja, basada en una variable discreta, en donde los valores posibles son
asignados a un número variable de grupos con un resultado posible para cada grupo, en lugar
de para cada valor.
Una prueba para una variable A que tiene valores numéricos continuos, en este caso se aplica
una prueba binaria con resultados A<=Z y A>Z, para lo cual, el algoritmo debe determinar
el valor del límite Z.
Todas estas pruebas se evalúan observando la ganancia de información resultante de la
división de datos que producen y de esta forma se evalúa cuando dejar de dividir una rama o
cuando podar una rama. (Garzón, 2008).
4.1.1. Resultados
Para la adecuada comprensión de los resultados resulta clave señalar la interpretación de los
valores presentados a continuación, donde:
• TP Rate: tasa de verdaderos positivos (instancias clasificadas correctamente como
una clase dada)
Pág. 55
• FP Rate: tasa de falsos positivos (instancias clasificadas falsamente como una clase
dada)
• Precisión: proporción de instancias que son verdaderamente de una clase dividida por
el total de instancias clasificadas como esa clase
• Recall: proporción de instancias clasificadas como una clase dada dividida por el total
real en esa clase (equivalente a la tasa de TP)
• F-Measure: una medida combinada de precisión y recuperación calculada como 2 *
Precisión * Recuperación / (Precisión + Recuperación)
• MCC: se utiliza en el aprendizaje automático como una medida de la calidad de las
clasificaciones binarias (dos clases). Tiene en cuenta los verdaderos y falsos positivos
y negativos, y generalmente se considera como una medida equilibrada que se puede
utilizar incluso si las clases son de tamaños muy diferentes.
• PRC Área: recuperación de la precisión mediante clasificadores binarios.
• ROC Área: (características de funcionamiento del receptor): uno de los valores más
importantes de salida de Weka. Te dan una idea de cómo están funcionando los
clasificadores en general. (Quora, 2018).
Los resultados presentados a continuación se dividen para cada una de las acciones a analizar,
presentando así los resultados de Bancolombia y Ecopetrol respectivamente.
En la figura 41, se muestran los resultados del algoritmo J48 (árboles de decisión), aplicado
mediante la herramienta para minería de datos WEKA, donde es posible apreciar, en primer
lugar los resultados para el TP Rate, FP Rate, Precisión, Recall, Medida F, MCC, Área bajo
la curva ROC y Área bajo la curva PRC.
Bancolombia
Ilustración 41. Resumen del método Trees J48 para Bancolombia.
Como se aprecia en la ilustración anterior, al aplicar el algoritmo J48 a la base de datos de
Bancolombia, se genera una rama en el árbol de decisión para clasificar todos los datos
pertenecientes a cada una de las clases, sin embargo, para los casos menos comunes como
Pág. 56
sube 4, sube 5 y baja 5, la preciso es 0, lo que nos indica que a pesar de que existe una rama
para clasificar estos casos extremos, el algoritmo no logra clasificar bien ninguno de ellos.
Este hecho responde a baja cantidad de casos donde los registros presentan este tipo de alzas
o bajas.
A continuación, se aprecia la matriz de confusión para la clase predicha, misma que refleja
los elementos clasificados dentro de cada grupo. Dicha matriz debe leerse de forma
horizontal, donde la sumatoria por fila representa el total de registros pertenecientes a cada
clase y, en cada columna se muestran los resultados de la clasificación del modelo.
Baja >5 Baja
4
Baja
3
Baja
2
Baja
1
Mantie
ne
Sube
1
Sube
2
Sube
3
Sube
4
Sube >5
Baja >5 0 2 0 3 2 0 0 0 0 0 0
Baja 4 3 3 9 20 17 5 3 1 1 0 0
Baja 3 2 8 12 23 39 4 12 2 2 0 0
Baja 2 8 12 37 59 77 13 36 0 0 0 1
Baja 1 5 19 43 96 228 43 154 10 1 2 0
Mantiene 0 2 1 13 37 15 31 3 0 0 0
Sube 1 3 3 19 51 203 49 668 96 44 8 7
Sube 2 0 0 0 4 2 4 31 14 0 0 1
Sube 3 0 0 0 1 0 1 6 0 2 0 0
Sube 4 0 0 0 0 1 0 2 0 0 0 0
Sube >5 0 0 0 0 0 0 0 1 0 0 0
Tabla 5.Matriz de confusión para Bancolombia con el método Trees J48.
El árbol de decisión que genera el algoritmo J48 para Bancolombia cuenta con un total de
482 niveles. Por cuestiones de espacio, a continuación, se presentan los 4 primeros niveles.
Ilustración 42. Árbol de decisión para Bancolombia con el método Trees J48.
Los resultados completos, se pueden ver en el Anexo 2 de nombre Bancolombia Trees J48.
Pág. 57
Ecopetrol
Ilustración 43. Resumen del método Trees J48 para Ecopetrol.
Baja >5 Baja
4
Baja
3
Baja
2
Baja
1
Mantie
ne
Sube
1
Sube
2
Sube
3
Sube
4
Sube >5
Baja >5 3 4 7 19 15 0 1 0 0 0 0
Baja 4 3 0 2 10 9 1 2 0 0 0 0
Baja 3 9 7 20 26 34 8 7 0 0 1 0
Baja 2 20 12 42 79 106 14 26 0 0 0 0
Baja 1 14 19 48 118 192 37 90 4 0 1 1
Mantiene 2 3 4 16 51 18 33 1 0 0 0
Sube 1 4 5 11 30 112 78 679 101 41 25 17
Sube 2 0 0 0 0 4 0 26 12 5 2 2
Sube 3 0 0 0 0 0 0 13 5 4 0 2
Sube 4 0 0 0 0 0 1 8 0 0 0 2
Sube >5 0 0 0 0 1 0 5 3 3 0 0
Tabla 6.Matriz de confusión para Ecopetrol con el método Trees J48.
La matriz de confusión refleja en su línea transversal central los elementos correctamente
clasificados, siendo un total de 1007 o un 43% tal como lo muestra la ilustración 43.
El árbol de decisión generado para Ecopetrol cuenta con un total de 536 niveles. Por
cuestiones de espacio, a continuación, se presentan los 4 primeros niveles.
Los resultados completos, en formato de texto, incluyendo la tabla de resumen de método y
la matriz de confusión mostrada en la tabla 6, se pueden consultar en el Anexo 7 de nombre
Ecopetrol Trees J48.
Pág. 58
Ilustración 44. Árbol de decisión para Ecopetrol con el método Trees J48.
4.2. Redes Neuronales – Algoritmo Perceptrón Multicapa
El Perceptrón multicapa se conforma por al menos tres capas de neuronas, una capa de
entrada, las capas ocultas y una capa de salida. Las neuronas de la capa de entrada, en este
tipo de red no actúan como neuronas propiamente dichas, sino que se encargan únicamente
de recibir las señales o patrones desde exterior y propagar dichas señales a todas las neuronas
de la primera capa oculta, en las capas ocultas se realiza el procesamiento basado en múltiples
funciones y la última capa actúa como salida de la red, proporcionando la respuesta de la red
para cada uno de los patrones de entrada. (Universidad de Sevilla, 2006).
Las conexiones del Perceptrón multicapa siempre están dirigidas hacia adelante, es decir que
las neuronas de una capa se conectan únicamente con las neuronas de la siguiente capa,
además las conexiones entre las neuronas de la red llevan también un umbral, que el caso del
Perceptrón multicapa suele tratarse como una conexión más a la neurona, cuya entrada es
constante e igual a uno. En este tipo de red neuronal artificial, por lo general, todas las
neuronas de una capa están conectadas a todas las neuronas de la siguiente capa, existiendo
lo que se conoce como conectividad total. (Universidad de Sevilla, 2006).
4.2.1. Resultados
Los resultados presentados a continuación muestran los resultados del modelo para
Bancolombia y Ecopetrol respectivamente en WEKA, la matriz de confusión y la estructura
de la red neuronal generada para cada una de las acciones a analizar.
Pág. 59
Bancolombia
Ilustración 45. Resumen del método Perceptrón Multicapa para Bancolombia.
Baja
>5
Baja
4
Baja
3
Baja
2
Baja
1
Mantien
e
Sube
1
Sube
2
Sube
3
Sube
4
Sube
>5
Baja >5 0 0 0 8 7 0 3 0 0 0 0
Baja 4 3 3 2 14 15 1 5 0 0 0 0
Baja 3 1 4 26 20 35 5 13 0 2 0 0
Baja 2 7 18 29 65 66 13 32 1 0 0 0
Baja 1 8 18 41 103 258 47 183 9 2 2 2
Mantiene 0 1 2 7 16 4 43 3 1 0 0
Sube 1 2 5 16 46 179 56 554 82 31 8 5
Sube 2 0 0 1 2 16 3 68 20 6 0 2
Sube 3 0 0 0 1 2 1 27 10 6 0 0
Sube 4 0 0 3 1 9 3 9 0 0 0 0
Sube >5 0 0 1 3 3 1 6 2 2 0 0
Tabla 7. Matriz de confusión para Bancolombia con el método Perceptrón Multicapa.
Ilustración 46. Redes neuronales Bancolombia.
Pág. 60
Ecopetrol
Ilustración 47. Resumen del método Perceptrón Multicapa para Ecopetrol.
Baja
>5
Baja
4
Baja
3
Baja
2
Baja
1
Mantien
e
Sube
1
Sube
2
Sube
3
Sube
4
Sube
>5
Baja >5 7 8 8 18 13 0 4 0 0 0 0
Baja 4 5 1 12 14 6 1 1 1 1 0 0
Baja 3 13 11 15 41 35 4 13 0 0 0 0
Baja 2 20 19 44 86 93 7 20 0 0 0 0
Baja 1 8 9 45 103 214 32 106 7 0 3 1
Mantiene 0 0 3 5 33 17 52 4 2 2 0
Sube 1 2 2 7 28 112 91 570 71 28 18 6
Sube 2 0 0 0 2 7 3 66 25 13 4 8
Sube 3 0 0 0 0 5 1 23 10 6 0 5
Sube 4 0 0 0 0 5 0 17 4 2 1 1
Sube >5 0 0 0 1 1 1 18 4 1 1 3
Tabla 8. Matriz de confusión para Ecopetrol con el método Perceptrón Multicapa.
Ilustración 48. Redes neuronales Ecopetrol
Pág. 61
En las ilustraciones 45 y 47 se puede ver el resumen de los resultados de las redes neuronales
para Bancolombia y Ecopetrol respectivamente, y en las gráficas 46 y 48 es posible apreciar
la capa de entrada representada en los atributos con que cuentan las bases de datos, en la
segunda parte se aprecia la capa oculta y finalmente se muestra la capa de salida. La capa de
salida cuenta con nodos que representan a cada una de las clases. Los arcos muestran un
coeficiente que denota la relación entre dos puntos.
En las matrices de confusión por su parte, es posible apreciar que el algoritmo de redes
neuronales ofrece un resultado muy similar en la predicción de las clases en los dos casos;
sin embargo, en el caso de Ecopetrol logra clasificar, aunque con baja certeza, elementos
dentro de todas las clases. Para Bancolombia en los casos de Baja 5 o más, Sube 4 y Sube 5
o más, la certeza es nula.
La precisión en los resultados desciende a medida que la variación porcentual incrementa,
hecho que se debe a la distribución de los registros, puesto que los resultados de las redes
neuronales dependen en gran medida del entrenamiento, y al contar con una menor cantidad
de registros en las clases extremas, la predicción en estos casos cuenta con poca información.
Para ver los resultados completos, incluyendo la tabla de resumen del método y la matriz de
confusión, se puede consultar el Anexo 3 y Anexo 8 de nombre Bancolombia Redes
Perceptrón y Ecopetrol Redes Perceptrón respectivamente.
4.3. Reglas De Asociación – Algoritmo Rules PART
Los algoritmos de reglas de asociación usan un método de generación y comprobación para
buscar las reglas, donde inicialmente, se generan reglas sencillas que se validan basándose
en el conjunto de datos. Las buenas reglas se almacenan y todas las reglas, sujetas a varias
restricciones, se especializan posteriormente; la especialización es el proceso de añadir
nuevas condiciones a una regla sencilla. Estas nuevas reglas se validan y el proceso almacena
de forma iterativa las mejores reglas encontradas. El usuario generalmente puede aportar
alguna limitación al número posible de antecedentes que permitir en una regla. (IBM, 2014).
El algoritmo PART, opera considerando todas las pruebas posibles que pueden dividir el
conjunto de datos y seleccionando la prueba que le haya generado la mayor ganancia de
información. De esta forma se crea un árbol de decisión parcial donde para cada atributo
discreto, se considera una prueba con n resultados, siendo n el número de valores posibles
que puede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria (1,0)
sobre cada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe
decidir qué prueba escoge para dividir los datos. Según (Espino, 2005), los tres tipos de
posibles pruebas propuestas para el algoritmo C4.5 son:
• La prueba estándar para las variables discretas, con un resultado y una rama para cada
posible valor que pueda tomar la variable.
• Una prueba más compleja, basada en una variable discreta, en donde los valores
posibles son asignados a un número variable de grupos con un resultado posible para
cada grupo, en lugar de para cada valor.
Pág. 62
• Si una variable A tiene valores numéricos continuos, se realiza una prueba binaria
con resultados A<=Z y A>Z, para lo cual debe determinar el valor límite Z.
Todas estas pruebas se evalúan observando el ratio o tasa de ganancia resultante de la división
de datos que producen.
Luego de generar el árbol de decisión parcial, aquella hoja con máxima cobertura se convierte
en una regla y para los valores ausentes de los atributos la instancia se divide en piezas o
reglas más puntuales. En cuanto al tiempo máximo para generar una regla, es el mismo que
para construir un árbol podado, y esto ocurre cuando los datos tienen ruido. En el mejor de
los casos el tiempo necesario es el mismo que para generar una regla sencilla, y esto se da
cuando los datos no presentan ruido. (Alberca, Loja, & Jiménez, 2015).
El algoritmo PART realiza operaciones similares al algoritmo J48, sin embargo, resalta la
diferencia de que este algoritmo no genera árboles de decisión, sino que es un algoritmo para
la obtención de reglas de un árbol de decisión, sin embargo, recibe algunos parámetros
similares al J48, como por ejemplo el factor de confianza. (Alberca, Loja, & Jiménez, 2015).
4.3.1. Resultados
Los resultados presentados a continuación muestran la estructura de las reglas de asociación
generadas y se dividen para cada una de las acciones a analizar, presentando así los resultados
de Bancolombia y Ecopetrol respectivamente.
Bancolombia
Ilustración 49. Resumen del método Rules PART para Bancolombia.
Baja
>5
Baja
4
Baja
3
Baja
2
Baja
1
Mantien
e
Sube
1
Sube
2
Sube
3
Sube
4
Sube
>5
Baja >5 0 1 3 8 5 0 4 0 0 0 0
Baja 4 1 6 7 16 13 0 6 0 0 0 0
Baja 3 0 2 16 28 56 2 17 0 0 0 0
Baja 2 3 12 25 59 102 10 55 4 0 0 0
Pág. 63
Baja 1 1 17 42 93 205 29 202 12 4 0 1
Mantiene 1 1 4 16 42 22 45 3 0 0 0
Sube 1 0 0 8 47 189 44 533 85 27 5 5
Sube 2 0 0 0 1 12 5 84 17 7 1 0
Sube 3 0 0 1 0 4 1 29 5 10 0 0
Sube 4 0 0 0 1 2 0 5 2 0 0 0
Sube >5 0 0 0 1 0 0 5 2 1 0 0
Tabla 9. Matriz de confusión para Bancolombia con el método Rules PART.
En total se generan 421 reglas de asociación para el caso de Bancolombia, a continuación, se
encuentra un ejemplo de una de las reglas generadas para cada categoría.
• Mantiene: 15VsApertura = IGUAL AND AperVsCierrePas = Igual AND Cvol(14) = Menor AND
Cvol(11) = Menor AND Semestre <= 1
• Sube 1: 15VsApertura = IGUAL AND AperVsCierrePas = Sube AND Cvol(15) = Mayor AND
COLCAP = Baja
• Baja 1: 15VsApertura = IGUAL AND Trimestre > 3 AND Semana del año <= 51 AND EURO = Sube
AND Cprec(15) = Igual AND Dia <= 3
• Sube 2: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND Semana del año <= 45 AND
Cierre PasVsAntepasado = Igual AND IGBC = Sube
• Baja 2: 15VsApertura = IGUAL AND Trimestre <= 3 AND Cvol(11) = Igual AND EURO = Sube
• Sube 3: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND Cprec(15) = Igual AND Semana
del mes > 4 AND Cprec(12) = Sube
• Baja 3: 15VsApertura = BAJA AND AperVsCierrePas = Igual AND IGBC = Igual AND Dia > 3 AND
Cuatrimestre > 1
• Sube 4: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND Cvol(11) = Menor AND
Cprec(12) = Sube
• Baja 4: 15VsApertura = BAJA AND AperVsCierrePas = Igual AND IGBC = Baja AND Año <= 2011
AND Cprec(13) = Sube
• Sube 5 o más: AperVsCierrePas = Igual AND Cprec(15) = Sube AND Cprec(10) = Sube AND
DÓLAR = Baja
• Baja 5 o más: 15VsApertura = BAJA AND Cprec(12) = Baja
Ecopetrol
Ilustración 50. Resumen del método Rules PART para Ecopetrol.
Pág. 64
Baja
>5
Baja
4
Baja
3
Baja
2
Baja
1
Mantien
e
Sube
1
Sube
2
Sube
3
Sube
4
Sube
>5
Baja >5 3 2 10 9 17 0 4 0 0 0 0
Baja 4 4 0 9 15 6 0 3 0 0 0 0
Baja 3 9 8 18 35 39 6 8 0 0 0 0
Baja 2 18 18 36 87 86 16 21 0 0 1 1
Baja 1 12 14 44 100 200 45 116 7 2 0 1
Mantiene 5 2 6 13 58 25 68 4 1 0 0
Sube 1 4 6 10 37 113 58 555 72 25 21 10
Sube 2 0 0 0 1 2 4 75 28 11 5 5
Sube 3 0 0 0 0 2 1 20 8 7 1 6
Sube 4 0 0 1 1 1 1 10 4 2 0 1
Sube >5 0 0 0 0 0 1 10 3 5 1 0
Tabla 10. Matriz de confusión para Ecopetrol con el método Rules PART.
En total se generan 415 reglas de asociación para el caso de Ecopetrol, a continuación, se
encuentra un ejemplo de una de las reglas generadas para cada caso.
• Mantiene: 15VsApertura = IGUAL AND AperVsCierrePas = Igual AND Cvol(12) = Menor AND
Cprec(10) = Sube AND Cvol(11) = Menor AND COLCAP = Sube
• Sube 1: 15VsApertura = IGUAL AND AperVsCierrePas = Igual AND Cvol(12) = Mayor AND
Cvol(13) = Mayor
• Baja 1: 15VsApertura = IGUAL AND AperVsCierrePas = Sube AND Semestre > 1 AND Cprec(11)
= Baja
• Sube 2: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND Cprec(10) = Igual AND Semana
del mes <= 2
• Baja 2: 15VsApertura = IGUAL AND COLCAP = Baja AND Cprec(13) = Baja
• Sube 3: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND COLCAP = Sube AND Mes <=
1 AND Cvol(13) = Menor
• Baja 3: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND IGBC = Sube AND Semana del
mes <= 4 AND DOLAR = Baja
• Sube 4: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND Cprec(14) = Sube AND DOLAR
= Sube
• Baja 4: 15VsApertura = BAJA AND AperVsCierrePas = Igual AND EURO = Baja AND Semana del
año > 42
• Sube 5 o más: 15VsApertura = SUBE AND AperVsCierrePas = Sube AND COLCAP = Baja AND
Mes > 11 AND Cprec(15) = Sube
• Baja 5 o más: 15VsApertura = BAJA AND AperVsCierrePas = Baja AND Mes <= 1 AND Cprec(15)
= Baja
En las matrices de confusión es posible apreciar que las reglas de asociación les ofrece un
buen resultado para las clases Baja 2, Baja 1, Sube 1 y Mantiene; sin embargo, para otras
clases en los extremos, la precisión disminuye. Este hecho debido a la baja cantidad de
registros en estas clases y debido a que se trata de un algoritmo que evita generar una cantidad
de niveles tan alta como lo puede hacer un árbol de decisión.
Se resalta que se obtienen los mejores resultados para la predicción de la clase Mantiene.
Para ver los resultados completos consultar el Anexo 5 y Anexo 9 de nombre Bancolombia
Rules PART y Ecopetrol Rules PART respectivamente.
Pág. 65
4.4. Regresión Múltiple
Para la aplicación de esta técnica estadística es necesario en primer lugar, definir un factor
de interés y buscar unas posibles variables de entrada que puedan generar un impacto
significativo en la variable de respuesta. De esta manera y apoyándose en análisis como el
de correlación, se determina el grado de influencia que poseen las variables de entrada en el
objetivo; así, los modelos se depuran haciendo que tenga un mejor ajuste. En algunos otros
casos, se analiza el error residual o la dispersión de las observaciones, así como su evolución
con respecto a otra variable; de esta forma se puede dividir el conjunto original en conjuntos
más pequeños que ofrezcan un mejor resultado.
Herramientas como Minitab ofrecen la posibilidad de generar un modelo y depurarlo
variando las entradas, esto a partir de coeficientes de correlación y graficas de Pareto que
muestran la influencia de cada una de las variables de entrada en la variable objetivo; todo
con una confianza del 95%.
Luego de depurar el modelo, se genera una ecuación de proyección que permite extrapolar o
calcular nuevos eventos en tiempos futuros. Dicha ecuación se conforma por un término
independiente junto a constantes numéricas que definen la participación de cada una de las
variables independientes en la variable de respuesta u objetivo. (Minitab, 2018).
4.4.1. Resultados
Para la adecuada comprensión de los resultados resulta clave señalar la interpretación de los
valores presentados a continuación, donde tal como lo señala (Minitab, 2018):
• P-Value: El valor p es una probabilidad que mide la evidencia contra la hipótesis nula.
Las probabilidades más bajas proporcionan evidencia más sólida contra la hipótesis
nula. La hipótesis nula para un efecto de interacción es que la media de respuesta para
el nivel de un factor no depende del valor del otro nivel de factor.
• R-sq: R cuadrado, se define como la proporción de la varianza total de la variable
explicada por la regresión, donde cuanto más cerca de 1 se sitúe su valor, mayor será
el ajuste del modelo a la variable que estamos intentando explicar.
• R-sq(adj): R cuadrado ajustado, se utiliza en la regresión múltiple para ver el grado
de intensidad o efectividad que tienen las variables independientes en explicar la
variable dependiente.
• R-sq(pred): El R cuadrado predicho indica qué tan bien un modelo de regresión es
capaz de predecir respuestas acertadas para nuevas observaciones.
• Effect: Un coeficiente de regresión describe el tamaño y la dirección de la relación
entre un predictor y la variable de respuesta. Los coeficientes son los números por los
cuales los valores del término se multiplican en una ecuación de regresión.
• Coef: Minitab puede ajustar modelos lineales utilizando una variedad de esquemas
de codificación para las variables continuas en el modelo. Estos esquemas de
codificación pueden mejorar el proceso de estimación y la interpretación de los
resultados.
Pág. 66
• SE Coef: El error estándar del coeficiente estima la variabilidad entre los coeficientes
estimados que obtendría si tomara muestras de la misma población una y otra vez.
• T-Value: El valor t mide la relación entre el coeficiente y su error estándar. Puede
usar el valor t para determinar si rechazar la hipótesis nula.
• VIF: El factor de inflación de varianza (VIF) indica cuánto se infla la varianza de un
coeficiente debido a las correlaciones entre los predictores en el modelo.
Bancolombia
Ilustración 51. Modelo de Regresión original para Bancolombia.
Ilustración 52. Modelo de Regresión depurado para Bancolombia.
Pág. 67
Ecopetrol
Ilustración 53. Modelo de Regresión original para Ecopetrol.
Ilustración 54. Modelo de Regresión depurado para Ecopetrol.
En las ilustraciones pasadas se puede apreciar como los modelos se depuran y se pasa a
considerar solamente aquellas variables que con un P valor inferior a 0,05 aportan en mayor
medida para la predicción del precio de cierre de las acciones de Bancolombia y Ecopetrol
respectivamente, variables que cuentan con un alto coeficiente de correlación. De esta forma
se aprecia que indicadores como el R cuadrado de la predicción se mantienen altos, indicando
que el modelo se adapta en gran medida a los resultados reales.
Para apreciar los resultados completos, se puede ver el Anexo 5. Bancolombia Regresión y
el Anexo 10. Ecopetrol Regresión.
Pág. 68
5. Análisis De Los Resultados
Debido a que los cuatro métodos seleccionados no ofrecen un mismo tipo de resultado, no
son comparables inicialmente. Por lo tanto, para proceder a hacer la comparación, en primer
lugar, el valor predicho a partir de la regresión se compara con el precio de cierre real del día
pasado y se genera un porcentaje de variación, porcentaje que se traduce en una clase. De
esta forma, se compara la precisión al momento de predecir la clase con los cuatro métodos.
En segundo lugar, los resultados de los árboles de decisión, reglas de asociación y redes
neuronales se toman como un intervalo y a partir del precio de cierre del día pasado se genera
un mínimo y un máximo que representan la variación porcentual reflejada en la clase; se hace
una estimación el precio de cierre en pesos colombianos, a partir del promedio de estos
valores y se comparan los resultados de estos tres métodos con el precio generado mediante
regresión. Se mide el error cuadrado medio en todos los casos.
5.1. Predicción De Clase
Modelo de proyección Descripción Bancolombia Ecopetrol
Total de registros 2340 2340
Árboles De Decisión Acertados 1001 1007
Incorrectos 1339 1333
Precisión 42,8% 43,0%
Redes Neuronales
Acertados 936 945
Incorrectos 1404 1395
Precisión 40,0% 40,4%
Reglas De Asociación
Acertados 868 920
Incorrectos 1472 1420
Precisión 37,1% 39,3%
Regresión
Acertados 1646 1676
Incorrectos 694 664
Precisión 70,34% 71,62% Tabla 11. Resultados de la proyección de clases.
La tabla 11 resume los resultados de la clasificación con cada uno de los modelos, siendo
posible apreciar que de los tres métodos iniciales, brindan una precisión cercana al 40%,
siendo los árboles de decisión aquellos que logran un mejor resultado en los dos casos. No
obstante, los resultados que se obtienen al predecir la clase a partir del valor generado por
regresión, se adaptan en mayor medida a los valores reales, logrando una precisión que ronda
el 70%.
A continuación, se muestran los resultados de la predicción de los modelos para cada una de
las clases; esto se hace con el fin de determinar si existen variaciones porcentuales que el
modelo puede predecir de forma más precisa.
Pág. 69
5.1.1. Bancolombia
Ilustración 55. Resultados de la proyección por clases para Bancolombia.
En la gráfica anterior, la suma de las barras muestra la cantidad de registros históricos
pertenecientes a cada una de las clases, la barra azul refleja la cantidad de registros
clasificados correctamente y la barra roja los clasificados de forma errónea; así desde la clase
baja 5 o más, hasta sube 5 o más.
Adicional a ello, la línea refleja la precisión de cada uno de los modelos, calculada como la
relación entre la tasa de verdaderos positivos y la suma de los verdaderos positivos y falsos
positivos.
Para el caso de Bancolombia, se aprecia que los tres primeros modelos presentan un
comportamiento bastante similar, donde la mayor precisión en la predicción se ubica en las
clases que cuentan con mayor número de registros, dicho sea Sube 1 y Baja 1, resaltando
que, con árboles de decisión se obtiene un mejor resultado para Sube 1 y con redes neuronales
para el caso de Baja 1. No obstante, se aprecia que los tres modelos presentan incapacidad
en la predicción de clases extremas, de esta forma, tal como se ve en las gráficas, la precisión
disminuye a medida que se avanza hacia los extremos.
Se resalta que el modelo que obtiene los mejores resultados es la regresión múltiple, modelo
que tal como se ve en la gráfica, es capaz de predecir todas las clases; sin embargo, también
se aprecia la disminución en la precisión hacia los extremos y en la categoría de mantiene.
Siendo en esta última categoría, donde las reglas de asociación logran el mejor resultado de
entre los otros métodos.
Pág. 70
5.1.2. Ecopetrol
Ilustración 56. Resultados de la proyección por clases para Ecopetrol.
La gráfica anterior presenta las mismas condiciones que la ilustración 55, siguiendo las
mismas condiciones.
Tal como es posible apreciar, línea refleja la precisión de cada uno de los modelos, calculada
como la relación entre la tasa de verdaderos positivos y la suma de los verdaderos positivos
y falsos positivos.
Se muestran resultados similares al caso Bancolombia, donde la mayor precisión de los
modelos se encuentra en las clases Sube 1 y Baja 1, reflejando que los algoritmos ofrecen
mejores resultados, cuando cuentan con una mayor cantidad de registros para su
entrenamiento.
Se destaca una vez más los resultados obtenidos a partir de la regresión múltiple,
evidenciando en este caso, que la precisión tiende a disminuir hacia los extremos, sin
embargo, de manera menos marcada que en el caso anterior. Adicional se aprecia un muy
buen ajuste en los casos donde la variación supera el 5%, donde tal como se ve en la gráfica,
la predicción ronda el 80% de precisión tanto para las alzas como para las bajas.
Pág. 71
5.2. Predicción de Precio De Cierre
Dado que los resultados de la regresión múltiple son de tipo real, y en vista de que brindan
un buen resultado al ser transformados en una clase, a continuación se presenta un análisis
comparativo entre el precio de cierre predicho y el precio de cierre real del mercado.
Los resultados se comparan mediante dos indicadores que miden el error en el pronóstico, el
MAPE o error porcentual absoluto medio y el RMSE o error cuadrático medio con el fin de
observar en qué medida el pronóstico difiere del valor real tanto en valores reales como en
porcentaje.
Método Acción MAPE RMSE
Regresión Múltiple Bancolombia 0,38% 183,74
Regresión Múltiple Ecopetrol 0,35% 15,84
Tabla 12. Resumen de los resultados cuantitativos con regresión.
5.2.1. Bancolombia
En la tabla 12, se presentan los resultados del error en la predicción para las dos acciones
evaluadas con el método de regresión, Para ver los resultaos completos de cada uno de los
métodos usados, ver Anexo 13. Resultados Generales, en este se puede observar el valor de
la predicción para cada día bursátil y el cálculo del error.
A continuación se muestra un fragmento del comportamiento del precio de cierre real de
Bancolombia versus la predicción lograda con el modelo.
Ilustración 57. Predicción por medio de regresión para Bancolombia.
A partir del análisis de correlación y el análisis exploratorio inicial de las bases de datos, es
posible detectar la influencia de factores como los precios de apertura, precios en horas
anteriores al cierre del mercado y la cantidad de acciones transadas pasado el mediodía. Sin
embargo, tal como se había detectado en la gráfica del numeral 3.1.1.6, el precio del barril
de petróleo WTI tiene un impacto significativo en el precio de la acción, debido a la gran
influencia del precio del crudo en la economía colombiana.
Pág. 72
Regresando a las proyecciones, en este caso si se cuenta con precios puntuales y en la gráfica
se evidencia el buen acercamiento a los históricos, siendo este el método que mejor se adapta
a las variaciones grandes de precio como las evidenciadas en el intervalo inicial del gráfico
hasta el 16 de junio y en el intervalo final desde alrededor del 14 de julio, logrando resultados
más acercados que con los otros métodos.
Como una forma de mostrar la buena adaptabilidad del método ante las variaciones del
precio, a continuación, se muestran dos gráficas de caja que muestran el error absoluto en las
predicciones hechas a partir de la regresión.
Ilustración 58. Error en la predicción para Bancolombia por medio de regresión.
Como se aprecia en las figuras anteriores, el error en el precio predicho es bastante bajo,
donde aproximadamente el 75% de los valores predichos, presentan un error inferior al 1%;
siendo su equivalente en términos monetarios a menos de 300 pesos colombianos frente al
valor real.
Adicional a ello y tal como lo refleja el MAPE, el error en las predicciones ronda el 0,38%
que se traduce en aproximadamente 150 pesos colombianos, un valor muy similar a lo que
refleja el RMSE.
Los hechos anteriores ratifican que, aunque este método no es capaz de predecir un precio de
cierre exacto, si representa una buena opción al momento de predecir la clase o intervalo de
cambio porcentual, y también es capaz de seguir y predecir el precio de cierre de una manera
bastante acertada y con una precisión superior a los otros métodos evaluados.
Finalmente se concluye que ninguno de los métodos, tal como indica la teoría de los
pronósticos, es capaz de predecir con una certeza del ciento por ciento, sin embargo, para el
caso de Bancolombia, se puede obtener un muy buen resultado a partir de la combinación
varios métodos, elevando de esta forma la confianza y la certeza en el pronóstico y logrando
así dar cumplimiento al objetivo de disminuir la incertidumbre del mercado de valores.
Pág. 73
5.2.2. Ecopetrol
De igual manera que para el caso anterior, a continuación se muestra un fracción de la gráfica
con el precio de cierre real de la acción de Ecopetrol y el precio de cierre predicho a partir de
la regresión múltiple. Si se desea observar la gráfica completa, se puede ver el Anexo 11.
Ecopetrol de tipo Power BI. O para ver los resultaos completos, junto el cálculo de los errores
MAPE y RMSE, ver Anexo 13. Resultados Generales
A continuación se muestra un fragmento del comportamiento del precio de cierre real de
Ecopetrol versus la predicción lograda con el modelo.
Ilustración 59. Predicción por medio de regresión para Ecopetrol.
Como ya se había mencionado con anterioridad, el resultado de la regresión si es un valor
puntual, que tal como se aprecia en la gráfica, se adapta en buena medida al precio de cierre
real, destacando su superioridad sobre otros métodos en los puntos donde el precio presenta
un cambio bastante fuerte, demostrando la capacidad de la regresión para adaptarse al cambio
repentino de otras variables.
A partir del análisis de correlación y el análisis exploratorio de las bases de datos, es posible
detectar la influencia de factores como el mes del año, la semana del año y el año en sí mismo,
demostrando que para este caso la línea de tiempo adquiere especial relevancia en el precio
de cierre, siendo significativo también el precio de la acción pasado el mediodía. Adicional
a ello y tal como se había detectado en la gráfica del numeral 3.2.1.5, y debido a la naturaleza
de Ecopetrol como empresa, el precio del barril de petróleo WTI tiene un impacto aún más
significativo que para el caso de Bancolombia.
Regresando a las proyecciones, como en este caso se trata con precios de cierre de tipo real,
y en la gráfica se evidencia el buen acercamiento a los históricos, destacando que este es el
método que mejor se adapta al precio real, especialmente a las variaciones porcentualmente
mayores, como las evidenciadas en el intervalo inicial del gráfico 59 hasta el 16 de junio de
2019 y en el intervalo final desde alrededor del 14 de julio, logrando resultados más
acercados que con los otros métodos.
Pág. 74
Como una forma de mostrar la buena adaptabilidad del método ante las variaciones del
precio, a continuación, se muestran dos gráficas de caja que muestran el error en las
predicciones hechas a partir de la regresión.
Ilustración 60. Error en la predicción para Ecopetrol por medio de regresión.
Adicional a lo visto en la gráfica 59 y, tal como se aprecia en las figuras anteriores, el error
en la predicción del precio de cierre pronosticado con la regresión es bastante ajustado a la
realidad; de tal forma que aproximadamente un 95% los valores predichos, presentan un error
inferior al 1%; siendo su equivalente en términos monetarios a aproximadamente 30 pesos
colombianos frente al valor real.
Adicional a ello y tal como lo refleja el MAPE, el error en las predicciones ronda el 0,35%
que se traduce en aproximadamente 12 pesos colombianos, un valor muy similar a los 15,8
que muestra el RMSE.
Los hechos anteriores ratifican que, aunque este método no es capaz de predecir un precio de
cierre exacto, si representa una buena opción al momento de predecir tanto la clase o intervalo
de cambio porcentual, como el precio de cierre de una manera bastante acertada y con una
precisión marcadamente superior a los otros métodos evaluados.
Finalmente se concluye que ninguno de los métodos, tal como indica la teoría de los
pronósticos, es capaz de predecir con una certeza del ciento por ciento, sin embargo, para el
caso de Ecopetrol, se puede obtener un muy buen resultado a partir de la combinación varios
métodos, elevando de esta forma la confianza y la certeza en el pronóstico y logrando así dar
cumplimiento al objetivo de disminuir la incertidumbre del mercado de valores.
Pág. 75
6. Conclusiones
• Existen variedad de técnicas de pronóstico empleadas en la predicción de bolsa de
valores o en temas relacionados con la misma, sin embargo, al hacer la revisión
bibliográfica se pudo notar que este continúa siendo un campo poco explorado,
especialmente en regiones como América Latina y por profesionales dedicados a la
ingeniería.
• El precio de las acciones de Bancolombia y Ecopetrol en la Bolsa de Valores de
Colombia se ve influenciado por factores internos e inherentes a las propias empresas,
así como por factores externos cuya influencia toca a la economía colombiana en
general e incluso a la economía a nivel internacional.
Entre los factores internos encontramos los precios de apertura, el cambio respecto al
día anterior, la cantidad de acciones transadas y los precios en las diferentes horas del
día juegan un papel fundamental a la hora de determinar los precios de cierre; donde
por ejemplo, tanto para Bancolombia como para Ecopetrol, los precios de la acción
pasado el mediodía tienen una fuerte influencia, sin embargo, en el caso de la segunda
acción, los precios en horas de la mañana, especialmente a las 11 am adquieren
especial relevancia.
Por otra parte, entre los factores externos más relevantes, se encuentran el precio del
petróleo y las TRM de divisas como el dólar y el euro, esto debido a la fuerte
influencia de estos factores sobre la economía colombiana y el impacto que esto
puede causar en la actividad económica de estas empresas en particular.
• Se analizan los precios de cierre desde perspectivas de tiempo diferentes, encontrando
que existen variaciones donde el tiempo juega un papel relevante, por ejemplo, al
analizar los precios durante la semana, se evidencian días con mayor volumen de
transacción, hecho que favorece la compra de acciones, así como días con un bajo
volumen, donde por lo general se aprecian precios más altos, de igual forma, al
segmentar las bases de datos en periodos mensuales, es posible observar que en
periodos cercanos a la publicación de resultados por parte de las empresas, la
expectativa del publico aumenta, generando incrementos en el precio de las acciones.
• Usar intervalos de crecimiento o decrecimiento para la predicción, facilita la
identificación y determinación de patrones de comportamiento en las acciones, hecho
que permite que los métodos de predicción cubran una mayor cantidad de casos,
presentando una mayor certeza a la hora de predecir un resultado, que no depende de
un precio puntual, sino de un cambio porcentual.
• A pesar de que las acciones analizadas, presentan precios significativamente
diferentes, al ser vistas desde una perspectiva de variaciones porcentuales, es posible
afirmar que el comportamiento de las acciones de Bancolombia y Ecopetrol es
bastante similar, donde a lo largo de la historia, las variaciones más comunes implican
un cambio no mayor al 1%, donde por el contrario, variaciones superiores al 4%, son
escasas y se han presentado en muy pocas ocasiones, a partir de lo cual es posible
Pág. 76
afirmar que estas acciones no presentan cambios abruptos en el precio de sus
acciones, en intervalos cortos de tiempo.
• Para los dos casos, el mejor resultado se obtiene a partir de la regresión múltiple,
modelo que obtiene ventaja frente a los otros tres métodos empleados, dado que estos
métodos generan mejores resultados cuando la base de datos de entrenamiento
contiene una gran cantidad de registros, debido a que la verificación se hace mediante
validación cruzada y las bases no contienen una cantidad suficiente de datos,
espacialmente en casos donde la variación porcentual es mayor o igual al 2%, lo que
afecta en gran medida los resultados generales.
• Hablando de los tres métodos cualitativos, para el caso de Bancolombia en particular,
el mejor resultado para la predicción se obtiene con el método de árboles de decisión,
usando el algoritmo J48; con una precisión que ronda el 42%, sin embargo el mejor
resultado en general es de la regresión, con una precisión del 70,34% y un error
MAPE y RMSE de 0,38% y 183,74 respectivamente.
• Hablando de los tres métodos cualitativos, para el caso de Ecopetrol en particular, el
mejor resultado en la predicción de la clase se obtiene con el método de árboles de
decisión, usando el algoritmo J48 y con una precisión que ronda el 40%; sin embargo,
en este caso también el mejor resultado en general es de la regresión, con una
precisión del 71,62% y un error MAPE y RMSE de 0,35% y 15,84 respectivamente.
• Se resalta una clara ventaja que brinda la regresión por sobre los otros métodos, y esta
es la facilidad al momento de realizar el modelo, cambiarlo, depurarlo y probarlo.
Adicional ofrece una mayor capacidad para extrapolar los resultados a intervalos de
tiempo mayores a los considerados por los otros métodos.
• Resulta preciso destacar los buenos resultados obtenidos a partir del uso de técnicas
como la minería de datos, el machine learning y el análisis de información, elementos
que facilitan la detección de patrones y comportamientos en el precio de cierre de las
acciones. Siendo preciso aclarar que requieren bases de datos de gran tamaño y cuanto
mayor y más limpia sea la base de datos para su entrenamiento y depuración, mejores
serán los resultados.
• Cabe destacar los buenos resultados obtenidos con técnicas poco comunes en la
predicción de este tipo de variables, en comparación con métodos más
convencionales como lo son las redes neuronales. Este hecho incentiva al
investigador para continuar desarrollando este tipo de estudios, donde se prueban
métodos poco convencionales que sin embargo, pueden generar buenos resultados.
• Tal como menciona la teoría, ningún método de pronóstico ofrece una certeza del
100%, sin embargo, a partir de los resultados presentados, es posible disminuir en
gran medida la incertidumbre propia del mercado accionario, y aunque el riesgo no
se reduce, los resultados presentados pueden ser aprovechados como una
aproximación a la realidad que incrementan la probabilidad de éxito.
Pág. 77
7. Referencias
Alberca, G., Loja, F., & Jiménez, J. (2015). IIIS. Obtenido de International Institute of
Informatics and Systemics :
http://www.iiis.org/CDs2009/CD2009CSC/SIECI2009/PapersPdf/X036SN.pdf
AMV. (Mayo de 2012). Alianza valores. Obtenido de Alianza valores:
ww.alianzavalores.com.co/documents/345998/377293/Conozca%20los%20Riesgos
%20del%20Mercado%20de%20Valores.pdf
Anderson, D., Sweeney, D., Williiams, T., Camm, J., & Martin, K. (2011). Métodos
cuantitativos para los negocios. Mexico, D.F.: Cengage Learning.
Barón, F. J., & Téllez, F. (2009). Apuntes de Bioestadística. En F. J. Barón López, & F.
Téllez Montiel, Apuntes de Bioestadística (pág. 35). Obtenido de
https://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf
BBVA. (19 de 01 de 2015). Banco BBVA. Obtenido de https://www.bbva.com/es/invertir-
bolsa-desde-cero-se-puede-predecir-futuro-usando-pasado/
BBVA. (15 de Mayo de 2017). BBVA. Obtenido de BBVA: https://www.bbva.com/es/que-
es-la-inversion/
BBVA. (08 de 11 de 2019). Banco BBVA. Obtenido de 'Machine learning': ¿qué es y cómo
funciona?: https://www.bbva.com/es/machine-learning-que-es-y-como-funciona/
Betancourt, G. A. (Abril de 2005). Universidad Tecnologica de Pereira . Obtenido de
Universidad Tecnologica de Pereira :
http://revistas.utp.edu.co/index.php/revistaciencia/article/view/6895
Botero, J., & Álvarez, L. (2013). CARACTERIZACIÓN DE LA GESTIÓN DE
PRONÓSTICOS DE DEMANDA EMPRESARIAL. (U. d. Rosario, Ed.)
Universidad del Rosario. Obtenido de
http://repository.urosario.edu.co/bitstream/handle/10336/4847/1020758767-
2013.pdf
Botía, J. (4 de 10 de 2007). Arboles de decisión en aprendizaje automático y minería de
datos. Obtenido de UNAM México:
http://fcaenlinea1.unam.mx/anexos/1566/1566_u6_act1a.pdf
BVC. (Julio de 2009). 80 años del mercado de valores en Colombia. Colombia. Obtenido
de
https://www.bvc.com.co/recursos/Files/Acerca_de_la_BVC/Ochenta_Anos_Mercad
o_de_Valores.pdf
BVC. (2018). Bolsa de Valores de Colombia. Obtenido de
https://www.bvc.com.co/pps/tibco/portalbvc/Home/Preguntas+Frecuentes
Pág. 78
Castillo González, N. V. (2015). Técnicas de M achine Learning para el Post-Proceso.
Masters Universidad de Granada, 26.
Chapman, S. N. (2006). Planificación y control de la producción.
Galbiati, J. M. (28 de 05 de 2012). Jorge Galbiati. Obtenido de
http://www.jorgegalbiati.cl/ejercicios_4/ConceptosBasicos.pdf
García, M., Jalal, A. M., Garzón, L. A., & López, J. M. (Junio de 2013). Métodos para
predecir índices. Ecos de Economía. Obtenido de
http://www.scielo.org.co/pdf/ecos/v17n37/v17n37a3.pdf
Garzón, P. A. (2008). Fundación Universitaria Konrad Lorenz. Obtenido de Konrad
Lorenz:
http://www.konradlorenz.edu.co/images/stories/suma_digital_sistemas/2009_01/fin
al_paula_andrea.pdf
Hanley, J., & McNeil, B. (1982). The meaning and use of the area under a receiver
operating characteristic (ROC) curve. Radiology.
IBM. (2014). IBM Knowledge Center. Obtenido de Reglas de asociación:
https://ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_mainhelp_clien
t_ddita/clementine/nodes_associationrules.html
IBM. (s.f.). IBM Ayuda de IBM SPSS Modeler. Recuperado el 05 de 10 de 2019, de El
modelo de redes neuronales:
https://www.ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_mainhelp
_client_ddita/components/neuralnet/neuralnet_model.html
INEC. (2006). Glosario básico de términos estadísticos . Lima: Biblioteca Nacional del
Peru .
Izar, J. M. (1998). Fundamentos de investigación de operaciones para administración. San
Luis Potosi, S.L.P., México.
Lettier, D. (02 de 2017). Content by David Lettier. Obtenido de You need to know about
the Matthews Correlation Coefficient: https://lettier.github.io/posts/2016-08-05-
matthews-correlation-coefficient.html
Mauricio, J. A. (2007). Introducción al análisis de series temporales. Madrid: Universidad
Complutense de Madrid.
Miguel Garre, J. J. (2007). Red de Revistas Científicas de América Latina y el Caribe,
España y Portugal. Obtenido de Red de Revistas Científicas de América Latina y el
Caribe, España y Portugal: https://www.redalyc.org/html/922/92230103/
Minitab. (2018). Soporte de Minibab. Obtenido de MiniTab 18:
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/quality-and-
Pág. 79
process-improvement/measurement-system-analysis/supporting-topics/attribute-
agreement-analysis/kappa-statistics-and-kendall-s-coefficients/#what-is-kappa
Minitab. (2018). Soporte de Minitab 18. Obtenido de Diseño de un experimento:
https://support.minitab.com/es-mx/minitab/18/getting-started/designing-an-
experiment/
Minitab. (2019). Soporte Minitab 19. Obtenido de Soporte Minitab 19.
Moya, M. E., & Rodriguez, J. E. (03 de 12 de 2003). LA CONTRIBUCIÓN DE LAS
REGLAS DE ASOCIACIÓN A LA MINERÍA DE DATOS. Obtenido de Universidad
Distrital de Colombia:
https://revistas.udistrital.edu.co/ojs/index.php/Tecnura/article/view/6175/7699
Ortegón, J. D., & Benavidez, J. D. (2003). Campus Virtual Universidad del Valle. Obtenido
de Métodos de pronóstico:
https://campusvirtual.univalle.edu.co/moodle/pluginfile.php/1006032/mod_resource
/content/1/Exposici%C3%B3n%207%20M%C3%A9todos%20de%20Pron%C3%B
3stico.pdf
Otero, V. R. (2008). core. Obtenido de core: https://core.ac.uk/download/pdf/30046270.pdf
Pauly, D. (1983). FAO ORG. Obtenido de ESTADISTICAS: REGRESION Y
CORRELACION: http://www.fao.org/3/X6845S/X6845S00.htm#toc
Power Data Group. (30 de 12 de 2016). Power Data. Obtenido de Power Data:
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/calidad-de-datos-en-
mineria-de-datos-a-traves-del-preprocesamiento
Prieto, O. J., & Casillas, R. (12 de 08 de 2016). Aprendizaje Bayesiano. Obtenido de
Escuela de ingeniería informática:
https://www2.infor.uva.es/~isaac/doctorado/AprendizajeBayesiano.pdf
Quora. (23 de 08 de 2018). Quora . Obtenido de What are TP rate, FP rate, precision,
recall, F measure, MCC, ROC area and PRC areas in the Weka tool?:
https://www.quora.com/What-are-TP-rate-FP-rate-precision-recall-F-measure-
MCC-ROC-area-and-PRC-areas-in-the-Weka-tool
Rodrigues M., M. R. (2001). ESTADISTICA INFORMATICA: CASOS Y EJEMPLOS CON
EL SPSS. UNIVERSIDAD DE ALICANTE. SERVICIO DE PUBLICACIONES.
SAS Colombia. (2017). Software y Soluciones de Analítica. Obtenido de Inteligencia
artificial, Qué es y por qué es importante:
https://www.sas.com/es_co/insights/analytics/what-is-artificial-intelligence.html
Sinneuxs. (2015). Bussines Intelligence / Informática estratégica. Obtenido de Dataminig
(Minería de datos):
https://www.sinnexus.com/business_intelligence/datamining.aspx
Pág. 80
Stack Over Flow. (06 de 10 de 2017). Stack Over Flow. Obtenido de
https://stackoverflow.com/questions/2903933/how-to-interpret-weka-classification
Superintendencia Financiera de Colombia. (2008). Conceptos Básicos del Mercado de
Valores. Bogotá DC.
Universidad de Medellín. (1999). Pronósticos para la toma de decisiones. (U. d. Medellín,
Ed.) Semestre Económico, 2(4), 1-3. Recuperado el 5 de 08 de 2018
Universidad de Salamanca. (20 de 02 de 2015). Gestión de recursos Informáticos del
Departamento de Informatica y Automatica. Obtenido de Avellano Usal:
http://avellano.fis.usal.es/~lalonso/RNA/index.htm
Universidad de Sevilla. (2006). Biblioteca de Ingeniería Universidad de Sevilla.
Recuperado el 05 de 10 de 2019, de Capítulo 3. Perceptrón Multicapa:
http://bibing.us.es/proyectos/abreproy/12166/fichero/Volumen+1+-
+Memoria+descriptiva+del+proyecto%252F3+-+Perceptron+multicapa.pdf
Wolski, C. (03 de 2013). 5 Factores o eventos que afectan el mercado de valores. La Voz de
Houston. Obtenido de https://pyme.lavoztx.com/factores-econmicos-que-afectan-al-
mercado-de-valores-4484.html