96
UNIVERSIDAD DE CASTILLA-LA MANCHA ESCUELA SUPERIOR DE INFORMÁTICA MÁSTER UNIVERSITARIO EN INGENIERÍA INFORMÁTICA TRABAJO FIN DE MÁSTER Estudio del análisis de sentimiento en redes sociales para la prescripción de situaciones financieras César Aguirre Rivadeneira Octubre, 2018

Estudio del análisis de sentimiento en redes sociales para

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estudio del análisis de sentimiento en redes sociales para

UNIVERSIDAD DE CASTILLA-LA MANCHA

ESCUELA SUPERIOR DE INFORMÁTICA

MÁSTER UNIVERSITARIO

EN INGENIERÍA INFORMÁTICA

TRABAJO FIN DE MÁSTER

Estudio del análisis de sentimiento en redessociales para la prescripción de situaciones

financieras

César Aguirre Rivadeneira

Octubre, 2018

Page 2: Estudio del análisis de sentimiento en redes sociales para

ESTUDIO DEL ANÁLISIS DE SENTIMIENTO EN REDES SOCIALES PARA LAPRESCRIPCIÓN DE SITUACIONES FINANCIERAS

Page 3: Estudio del análisis de sentimiento en redes sociales para

EscuelaSuperiorde Informática

UNIVERSIDAD DE CASTILLA-LA MANCHA

ESCUELA SUPERIOR DE INFORMÁTICA

TRABAJO FIN DE MÁSTER

Estudio del análisis de sentimiento en redessociales para la prescripción de situaciones

financieras

Autor: César Aguirre Rivadeneira

Tutor: Francisco Pascual Romero Chicharro

Cotutor: José Ángel Olivas Varela

Octubre, 2018

Page 4: Estudio del análisis de sentimiento en redes sociales para

EscuelaSuperiorde Informática

UNIVERSIDAD DE CASTILLA-LA MANCHA

ESCUELA SUPERIOR DE INFORMÁTICA

TRABAJO FIN DE MÁSTER

Estudio del análisis de sentimiento en redessociales para la prescripción de situaciones

financieras

Fdo.: César Aguirre Rivadeneira Fdo.: Francisco Pascual Romero Chicharro

Octubre, 2018

Page 5: Estudio del análisis de sentimiento en redes sociales para

TRIBUNAL:

Presidente:

Vocal:

Secretario:

FECHA DE DEFENSA:

CALIFICACIÓN:

PRESIDENTE VOCAL SECRETARIO

Fdo.: Fdo.: Fdo.:

i

Page 6: Estudio del análisis de sentimiento en redes sociales para

Resumen

Durante la última década la tecnología big data ha ido ganando relevancia hasta ser uno delos temas con más crecimiento y divulgación en la actualidad [Mer]. Son muchas las prome-sas sobre las cualidades y utilidades que se publicitan sobre este tipo de tecnologías, aunqueen la mayoría de casos su definición y utilización es muy difusa. En el siguiente estudio sellevará y producirá una toma de contacto con el ecosistema que existe en torno al big data yhaciendo foco en una de las muchas aplicaciones posibles: el análisis de sentimientos. Estetérmino supone/ es el procesamiento del lenguaje natural en documentos para su clasificaciónsegún su connotación positiva, negativa o neutra sobre un tema determinado.

Las fuentes de información a la hora de hacer análisis de textos y procesamiento del len-guaje natural es muy variado: artículos de opinión o investigación, blogs, reviews sobre pro-ductos en una tienda online o comentarios en una web de viajes. Debido a esta variedad lasposibilidades de negocio son infinitas. En nuestro caso se ha decido analizar la informaciónproveniente de redes sociales como son los comentarios realizados por los usuarios, pudien-do detectar su relación con una entidad bancaria y en este caso realizar un análisis predictivode situaciones de morosidad tanto del propio cliente como de manera agregada por localidad,oficina, sexo entre otras variables.

Hasta hace poco tiempo la tendencia era obtener información de manera agregada pro-cedente de las aplicaciones de uso diario en la empresa, explotándose únicamente medianteherramientas de business intelligence que generan informes describiendo la situación actualde la empresa. Con este trabajo, pretendemos ir un paso más allá y siguiendo las tendenciasactuales realizar prescripciones sobre la materia, para conseguir identificar la mejor alter-nativa dentro de un conjunto de predicciones obtenidas con técnicas machine learning paramaximizar un objetivo futuro gracias a técnicas matemáticas y estadísticas.

II

Page 7: Estudio del análisis de sentimiento en redes sociales para

Abstract

During last decade big data technologies has been gaining relevance, it has become oneof the most relevant matters [Mer]. Actually, there has been made lots of promises aboutthe virtues of the technology and its usefulness, but in the major cases the definition of thisvirtues has been little specific. In this study I will make an approach on the big data environ-ment by describing a specific use case: Sentiment analysis. Sentiment analysis consists onprocessing natural language on documents to classify them by its meaning positive, negativeor neutral regarding a subject.

There are varied data sources on text analysis when processing natural language: Articles,blogs, product reviews, or comments on tr ips websites. Due to this wide of business possibi-lities our use case is focused on analyzing the information originated in social network likethe comments made by the users. This information is used to make a predictive analysis ondelay on payment by the banking clients, the data will be also aggregated by place, office orgender.

Traditionally, the aggregated information has been shown using business intelligence toolsin a descriptive way, according to the current situation. The main purpose of this study is togo further and to follow the current tendencies, that show the information as a prescription onthe matter, that identify the best alternative between a group of prediction made by machinelearning techniques to fulfill the goal of maximize a given result using mathematics andstatistics.

III

Page 8: Estudio del análisis de sentimiento en redes sociales para

Agradecimientos

Ha sido un largo camino desde que decidí comenzar el Máster en Ingeniería Informáticahasta hoy, ha habido un montón de altibajos y no siempre he tenido las fuerzas necesariaspara continuar con ello, pero siempre he tenido a mi lado apoyándome a mi familia y es loque me ha dado fuerzas. En especial a mi madre y padre, Ma Rosario y César, su insistenciay tesón han dado sus frutos y hoy gracias a ellos puedo presentar esta memoria que tantotrabajo y esfuerzo ha necesitado.

A Marina, que cuanto más pasa el tiempo más unido me siento a ella, en especial esteúltimo mes en Bilbao, que ha sufrido tanto como yo para ver finalizada la memoria.

A mi hermana Estefanía, que a pesar de la distancia seguimos manteniendo el amor dehermanos y la complicidad, a la vez que las disputas, pero siempre que lo necesito está paraayudarme.

Por último quiero dar las gracias a Francisco Pascual Romero Chicharro y José ÁngelOlivas Varela, tutor y cotutor de este TFM. Sin ellos no hubiese sido posible la realizacióndel proyecto, es un placer haber trabajado con ellos.

César Aguirre Rivadeneira

IV

Page 9: Estudio del análisis de sentimiento en redes sociales para

Índice general

Resumen II

Abstract III

Agradecimientos IV

Índice general V

Índice de cuadros VIII

Índice de figuras IX

Listado de acrónimos X

1. Introducción 1

1.1. Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Competencias adquiridas . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Objetivos 6

2.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Antecedentes 10

3.1. Análisis de datos en el entorno empresarial . . . . . . . . . . . . . . . . . 10

3.2. Tipos de Analítica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.1. Analítica descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.2. Analítica predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.3. Analítica prescriptiva . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3. Análisis de sentimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.4. Estado del arte financiero: riesgo crediticio . . . . . . . . . . . . . . . . . . 22

V

Page 10: Estudio del análisis de sentimiento en redes sociales para

4. Método de Trabajo 25

4.1. Metodologías de Análisis de Datos . . . . . . . . . . . . . . . . . . . . . . 25

4.2. KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3. SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.4. CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.4.1. Comprensión del negocio . . . . . . . . . . . . . . . . . . . . . . 29

4.4.2. Comprensión de los datos . . . . . . . . . . . . . . . . . . . . . . 30

4.4.3. Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . 30

4.4.4. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.4.5. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.4.6. Distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.5. Comparativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5. Resultados 34

5.1. Comprensión del negocio . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.1.1. Determinación de los objetivos comerciales . . . . . . . . . . . . . 34

5.1.2. Valoración de la situación . . . . . . . . . . . . . . . . . . . . . . 36

5.1.3. Determinación de los objetivos de minería de datos . . . . . . . . . 37

5.2. Comprensión de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.2.1. Descripción de los datos . . . . . . . . . . . . . . . . . . . . . . . 37

5.2.2. Recopilación y exploración de datos . . . . . . . . . . . . . . . . . 39

5.3. Preparación de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.3.1. Construcción de nuevos datos . . . . . . . . . . . . . . . . . . . . 40

5.3.2. Integración de datos . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.4. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.4.1. Selección de técnicas de modelado: Análisis de sentimientos . . . . 43

5.4.2. Selección de herramientas de modelado . . . . . . . . . . . . . . . 46

5.4.3. Generación de los modelos . . . . . . . . . . . . . . . . . . . . . . 48

5.4.4. Evaluación de los modelos . . . . . . . . . . . . . . . . . . . . . . 56

5.5. Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.6. Distribución: Informes Descriptivos/Predictivos/Prescriptivos . . . . . . . . 59

6. Conclusiones 62

A. BigML: Modelo árbol de decisión 65

B. BigML: Modelo ensembles 67

vi

Page 11: Estudio del análisis de sentimiento en redes sociales para

C. BigML: Modelo ensembles mediante OptiML 68

D. BigML: Modelo association discovery 69

Referencias 79

vii

Page 12: Estudio del análisis de sentimiento en redes sociales para

Índice de cuadros

2.1. Resumen de los objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.1. Equivalencias entre metodologías de minería de datos . . . . . . . . . . . . 33

5.1. Selección de atributos y hechos . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2. Selección de atributos y hechos obtenido de redes sociales . . . . . . . . . 40

5.3. Selección de atributos y hechos combinado con información de redes sociales 42

5.4. Comparativa entre métodos de análisis de sentimientos para la evaluación dela reputación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.5. Resumen de la importancia de las variables en los modelos . . . . . . . . . 54

5.6. BigML: Relaciones entre métricas obtenidas mediante el modelo associationdiscovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

VIII

Page 13: Estudio del análisis de sentimiento en redes sociales para

Índice de figuras

1.1. Propuesta de solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1. Ejemplo Informe Microstrategy [Micb] . . . . . . . . . . . . . . . . . . . 6

3.1. Data science en el contexto de una organización [PF13] . . . . . . . . . . . 14

3.2. Distintas técnicas para la clasificación de sentimientos [MHK14] . . . . . . 20

4.1. Ciclo de vida KDD [FPSS96] . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.2. Metodología SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3. Ciclo de vida CRISP-DM [CNCSKN+00] . . . . . . . . . . . . . . . . . . 28

5.1. Gráfica de prestamos de dudosos cobro en la unión europea [dE18] . . . . . 35

5.2. Ejemplo de arquitectura en una entidad bancaria . . . . . . . . . . . . . . . 36

5.3. Ejemplo de modelo en forma de copo de nieve . . . . . . . . . . . . . . . . 38

5.4. Nueva arquitectura para la solución big data . . . . . . . . . . . . . . . . . 41

5.5. BigML: Fichero de entrenamiento . . . . . . . . . . . . . . . . . . . . . . 49

5.6. BigML: Selección de modelo supervisado . . . . . . . . . . . . . . . . . . 50

5.7. BigML: Modelo supervisado . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.8. BigML: Predicción 1 modelo supervisado . . . . . . . . . . . . . . . . . . 51

5.9. BigML: Predicción 2 modelo supervisado . . . . . . . . . . . . . . . . . . 52

5.10. BigML: Modelo basado en ensembles . . . . . . . . . . . . . . . . . . . . 52

5.11. BigML: Modelos candidatos generados con OptiML . . . . . . . . . . . . 53

5.12. BigML: Importancia de las variables en los modelos . . . . . . . . . . . . . 53

5.13. BigML: Modelo no supervisado . . . . . . . . . . . . . . . . . . . . . . . 55

5.14. BigML: Evaluación modelo Árbol de decisión . . . . . . . . . . . . . . . . 57

5.15. BigML: Evaluación modelo ensembles . . . . . . . . . . . . . . . . . . . . 57

5.16. BigML: Evaluación modelo ensembles mediante OptiML . . . . . . . . . . 58

5.17. Ejemplo de informe usando Microstrategy [Mica] . . . . . . . . . . . . . . 60

IX

Page 14: Estudio del análisis de sentimiento en redes sociales para

Listado de acrónimos

BCE Banco Central Europeo

BI Business Intelligence

BPM Business Process Management

CRISP-DM Cross Industry Standard Process for Data Mining

CRM Customer Relationship Management

DDD Data-driven decision making

ETL Extract, transform and load

ERP Enterprise Resource Planning

IP Internet Protocol

JSON JavaScript Object Notation

KDD Knowledge discovery in databases

PMML Predictive Model Markup Language

SEMMA Sample, Explore, Modify, Model, and Assess

SVM Support Vector Machines

TFM Trabajo Fin de Máster

XML eXtensible Markup Language

X

Page 15: Estudio del análisis de sentimiento en redes sociales para

Capítulo 1

Introducción

D ESDE los años 70 en el ámbito empresarial se han explotado los datos con sistemas deinformación del tipo cuadro de mando o business analytics. Con el tiempo, el volu-

men y complejidad de los datos han hecho necesario la implementación de otras tecnologíasmás potentes como el big data y data science que, agrupan las tecnologías y métodos quepermiten esta transformación poniendo a disposición de las empresas un gran número defuentes de información, principalmente no estructurada a la que antes no tenían acceso. Estocontribuye a mejorar la gestión de las empresas y fomenta su crecimiento al disponer de másinformación sobre potenciales clientes, épocas de expansión y recesión económica e infor-mación relevante para la realización de proyecciones sobre el futuro de la empresa con el finde protegerse ante ciclos económicos adversos.

En concreto, el sector bancario es uno de los más afectados y con mayores oportunidades.Diariamente se genera una gran cantidad de datos lo que permite a los equipos de analistasextraer el máximo rendimiento a esta información. Gracias a la concurrencia de un gran vo-lumen de datos disponible, la capacidad de procesamiento que proporciona el big data y lastécnicas de analítica de datos se produce un ecosistema en el que surgen amplias iniciativascon el objetivo extraer el máximo conocimiento oculto de estos conjuntos de datos que hastael momento no aportaban valor al conjunto del negocio. Con todas estas posibilidades sur-gen nuevas aplicaciones con el propósito de generar beneficio dentro de la entidad bancaria,en concordancia a este propósito en el artículo [PC18] englobado en el proyecto OpenMindde BBVA se enumeran un total de 13 posibilidades o sinergias que adopta el sector. En elartículo una de las posibilidades que se menciona es Gestión de riesgos y prevención delfraude, se trata del elemento en el que más se invierte y uno de los más importantes en elsector bancario, tanto es así que son los casos de uso precursores a la hora de la implanta-ción de tecnologías big data. Centrándonos en el tema de la Gestión de riesgos, la finalidaddel presente documento es realizar un estudio de las diferentes técnicas y métodos que exis-ten en el ámbito del big data, concretamente, el análisis de sentimientos en redes sociales:Facebook, Linkedin, Twitter... y, en combinación con la información que posee la entidadbancaria, predecir el estado financiero de los individuos de un determinado colectivo y re-lacionarlos con los clientes de la entidad bancaria para formular acciones sobre los mismoscon el fin de prevenir situaciones indeseadas como podría ser el impago de una deuda.

1

Page 16: Estudio del análisis de sentimiento en redes sociales para

Uno de los aspectos fundamentales del big data es el análisis de sentimientos. Consisteen poder discernir los sentimientos, opiniones o actitudes hacia elementos como productos,individuos, organizaciones o servicios a través de documentos de índole variada. El usode análisis de sentimientos en documentos va ligado inevitablemente al machine learning,tecnología habilitante para la extracción de nuevas variables y relaciones en los datos queposibilitan el análisis avanzado de la información extraída. Debido a los nuevos vínculosestablecidos entre los datos se puede presentar al usuario de negocio predicciones que hastael momento no eran posible mostrar o eran poco fiables. Si bien es cierto que las prediccionesproporcionadas por las herramientas de machine learning son muy buenas y en cierto gradootorgan información muy útil al usuario de negocio, son las prescripciones las que incorporanal modelo informacional un grado de autonomía y mejora en la calidad de la información,marcando la diferencia en lo que a toma de decisiones se refiere. Por ejemplo, se ha de tomarla decisión de ofertar un producto financiero localmente en una oficina, una hipoteca con untipo de interés especial, basándose en el ratio de morosidad de la localidad a la que pertenecela oficina, un algoritmo de analítica prescriptiva bien refinado aconsejará haciendo uso detécnicas matemáticas y estadísticas si es aconsejable o no ofertar ese tipo de hipoteca y cuáles el tipo de hipoteca más conveniente para dicha oficina.

Figura 1.1: Propuesta de solución

De manera simplificada, la solución se organiza de acuerdo a la arquitectura presentadaen la Figura 1.1, el flujo de datos comienza en los orígenes, estos son tanto internos comoexternos: redes sociales o sistemas operacionales de aplicaciones bancarias, el gran volumende datos generados por todas las fuentes de información se almacenarán en un gran data

lake, es decir, un repositorio de almacenamiento que integra una gran cantidad de informa-ción en bruto y de manera etiquetada proveniente de múltiples fuentes de información. Los

2

Page 17: Estudio del análisis de sentimiento en redes sociales para

Estructura del documento

datos llegan al data lake desde los distintos orígenes en forma de ingestas, cargas de grandesvolúmenes de información en donde prima la velocidad de almacenamiento y un etiquetadoque permita el consumo de información tanto en tiempo real como de forma batch. Por úl-timo, la arquitectura incluye un sistema de análisis de negocio compuesto por módulos deanalítica avanzada donde se incluye la minería de datos encargada de extraer información delconglomerado de datos almacenado en el data lake y módulos de informes con prediccionesy prescripciones encargados de presentar la información al usuario final que será quien deuso y valor a la misma.

Aunque el data lake es completo y proporciona datos suficientes a los módulos de analí-tica avanzada para producir informes con una alta calidad, en una empresa donde ya existeun sistema informacional del que dependen procesos críticos, la infraestructura actual no sepuede abandonar y dejar de utilizarse sino que ha de producirse una integración entre am-bos. La infraestructura actual se compone de un gran data warehouse donde se acumula demanera estructurada toda la información procedente de las aplicaciones operacionales, sedivide en datamarts de menor tamaño que facilitan la extracción de información y posterioranálisis con herramientas de reporting o business intelligence, que se encargan de generarinformes con los datos obtenidos del datamart necesarios para el funcionamiento diario dela empresa.

1.1 Estructura del documentoEl estudio tiene una estructura que se ajusta al estándar descrito en la plantilla proporcio-

nada para la elaboración del TFM1, cada capítulo tiene el siguiente contenido:

Capítulo 2: Objetivos El objetivo del documento es el de realizar un estudio sobre el aná-lisis de sentimientos aplicado a un caso de uso como es la morosidad en el sectorfinanciero. En este capítulo se encuentra definido el objetivo general, el caso de uso enel que está englobado todo el TFM, y los objetivos en los que se compone. El cumpli-miento de los objetivos se detallará en el capítulo de resultados, en el que se podrá veren más detalle las implicaciones de los mismos.

Capítulo 3: Antecedentes Este capítulo contiene una panorámica de todas las áreas de in-vestigación seleccionadas: big data, análisis de sentimientos, situación de morosidaden el ámbito financiero y prescripción. Se hará una descripción concisa de cada te-ma, se puede destacar el uso de técnicas de análisis de sentimientos y la variedad deenfoques que puede haber en esta materia, aunque destacan dos ramas principales lasbasadas en machine learning y las basadas en lexicogramas. La otra fracción impor-tante del estudio es el análisis de datos en el entorno empresarial junto con la evoluciónque esta ha tenido desde el inicio de la informática hasta la actualidad deteniéndonos

1Este documento fue editado y tipografiado con LATEX empleando la clase esi-tfm (versión 0.20181007)que se puede encontrar en: https://bitbucket.org/arco group/esi-tfg

3

Page 18: Estudio del análisis de sentimiento en redes sociales para

Competencias adquiridas

en uno de los métodos más actuales, la prescripción, o como identificar la mejor alter-nativa para maximizar un objetivo futuro gracias a técnicas matemáticas y estadísticas.

Capítulo 4: Método de Trabajo Aquí se describen las metodologías disponibles en el do-minio del machine learning y una descripción exhaustiva de CRISP-DM, la metodolo-gía seleccionada para desarrollar los resultados de este estudio.

Capítulo 5: Resultados Se lleva a cabo el desarrollo de todo lo explicado en capítulos an-teriores, y para ejemplificar el uso de machine learning junto con analítica descriptivase ha detallado un caso de ejemplo: Se parte de un conjunto de variables obtenidas através del análisis de sentimientos en redes sociales, se exploran las relaciones entreellas a través de un árbol de decisiones usando técnicas de machine learning y se espe-cifican predicciones y posibles prescripciones haciendo uso de la información extraídadel análisis realizado con BigML, una herramienta de machine learning .

Capítulo 6: Conclusiones Este último capítulo incluye un resumen de los resultados obte-nidos y posibles mejoras que se podrían hacer en el sistema. También contiene posiblesampliaciones del estudio, tanto en tecnologías como en el ámbito empresarial.

1.2 Competencias adquiridasLas competencias adquiridas en el desarrollo de este estudio se han ajustado a lo esperado

en un trabajo de esta envergadura, es por ello que a continuación se pasa a enumerar y detallarde qué manera y en que grado se han adquirido las competencias específicas del proyecto.

CE1 Capacidad para la integración de tecnologías, aplicaciones, servicios y sistemas

propios de la Ingeniería Informática, con carácter generalista, y en contextos más

amplios y multidisciplinares.

En el estudio se parte de un estado previo, un entorno clásico business intelligence

(BI), en el que una entidad bancaria posee un datamart de riesgos que utiliza para tenerestructurada la información relativa a los clientes que han entrado en estado de mora, esdecir, han dejado de pagar los prestamos formalizados con la entidad. Este datamart

de riesgos está integrado en una arquitectura con múltiples fuentes, un datamart ysistemas de análisis de la información, por ejemplo reporting. En el documento seestudia como tendría que integrarse el nuevo entorno big data al sistema existenteincorporando los distintos subsistemas que forman parte del nuevo entorno: data lake,análisis de sentimiento, predicciones y prescripciones...

4

Page 19: Estudio del análisis de sentimiento en redes sociales para

Competencias adquiridas

CE5 Capacidad de comprender y saber aplicar el funcionamiento y organización de

Internet, las tecnologías y protocolos de redes de nueva generación, los modelos de

componentes, software intermediario y servicios.

El entorno big data incluye un módulo de análisis de sentimientos que recolectaráinformación de redes sociales como son: Facebook, Twitter, Linkedin... Se estudiaráel tipo de información que puede obtenerse de redes sociales y como ha de tratarsepara convertirla en información útil para la entidad bancaria, en nuestro caso, informa-ción de morosidad que se explotará a distintos niveles de agregación, oficina bancaria,localidad, edad, etc.

CE12 Capacidad para aplicar métodos matemáticos, estadísticos y de inteligencia

artificial para modelar, diseñar y desarrollar aplicaciones, servicios, sistemas inteli-

gentes y sistemas basados en el conocimiento.

El análisis de sentimientos hace uso de métodos matemáticos, estadísticos complejos yde machine learning. A lo largo del documento se estudiarán las distintas variacionesy métodos que existen en torno a esta tecnologías y en el capítulo de resultados seexpondrá un caso de uso práctico con un juego de datos ficticio simulando informaciónextraída de redes sociales para ejemplificar el uso de algoritmos de machine learning

y análisis de sentimientos.

5

Page 20: Estudio del análisis de sentimiento en redes sociales para

Capítulo 2

Objetivos

C OMO se ha expuesto en la introducción, el objetivo de este TFM es el de elaborar unestudio sobre las distintas tecnologías, técnicas y métodos que se dan en el ámbito del

big data, data science, analítica prescriptiva y business intelligence aplicados a un caso deuso concreto que se pretende solventar.

El caso de uso es el siguiente: una entidad bancaria con un gran volumen de operaciones ynúmero de clientes desea conocer con qué probabilidad sus clientes van a realizar un impa-go en alguno de los préstamos que tienen contratados con la entidad bancaria, para nuestrocaso de uso le pondremos a la entidad bancaria el nombre ficticio de Banco TFM. Banco

TFM hasta ahora al igual que muchas otras entidades financieras posee un complejo siste-ma de analítica de negocio con el que puede observar a través de informes como el de laFigura 2.1, cuáles son los clientes que dejan de pagar créditos o hipotecas, estos informestienen métricas bien definidas asociadas a la información bancaria del cliente, el propio sis-tema también incluye informes con analítica avanzada que muestran proyecciones a futurode posibles impagos y el coste asociado a los mismos, siempre haciendo uso de los datos ge-nerados internamente en las aplicaciones operacionales corporativas bancarias de usuarios,préstamos, créditos, morosidad, etc.

Figura 2.1: Ejemplo Informe Microstrategy [Micb]

6

Page 21: Estudio del análisis de sentimiento en redes sociales para

Objetivo general

Se entiende por aplicaciones operacionales aquellas que generan información del día adía, es decir, transferencias, pagos de capital e intereses de hipotecas, pagos con tarjetas decrédito y en general cualquier transacción que realice un cliente de Banco TFM con cual-quiera de los productos que tenga contratados. Este tipo de transacciones genera un volumeningente de información que la entidad bancaria recoge diariamente y transmite a los sistemasinformacionales con diversos propósitos como puede ser marketing dirigido, informes deobligatorio cumplimiento destinados al Banco de España con contenido regulatorio o comoel supuesto que nos ocupa, la gestión de la morosidad.

2.1 Objetivo generalEl principal objetivo es el de ampliar el actual sistema de business intelligence y analitycs

para ofrecer una visión global del negocio gracias al uso de tecnologías como la minería dedatos, análisis de sentimientos y prescripciones, aumentando las fuentes de datos con oríge-nes externos como son las redes sociales. Con ello se obtiene un conocimiento más extensodel estado financiero real de los clientes y de su situación ante posibles adversidades eco-nómicas, se implementará un sistema que sea capaz de formular soluciones a nivel cliente,oficina o entidad grupo y poder paliar situaciones financieras complejas antes de que estaspuedan ocurrir.

OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

Ampliar el actual sistema de businessintelligence y analytics para ofrecer unavisión más amplia del negocio graciasal uso de tecnologías como la mineríade datos, análisis de sentimientos yprescripciones, ampliando las fuentesde datos con orígenes externos comoson las redes sociales

Seleccionar orígenes de datos y elegir el tipo de datoque se va a recolectar de redes sociales(externo) y deaplicaciones corporativas(interno)

Diseño de data lake y procesos de ingesta

Extraer información útil del data lake con técnicas deminería de datos, incluyendo el análisis de sentimientos

Se posibilita la creación de nuevas métricas e informesgracias al conocimiento extraído en el paso previo

Se posibilita la creación de informes con informaciónpredictiva o prescriptiva

Diseño de una nueva arquitectura que posibilite la es-tructuración del nuevo sistema de información

Cuadro 2.1: Resumen de los objetivos

Como resultado, el sistema ha de ser capaz no solo de ofrecer un punto de vista más ampliodel estado financiero general de clientes y oficinas atendiendo a la información recolectadaexternamente en redes sociales y generalmente en la red, sino también realizar prediccionesy prescripciones sobre los clientes de la entidad o la propia oficina bancaria. Las acciones

7

Page 22: Estudio del análisis de sentimiento en redes sociales para

Objetivos específicos

que propongan las prescripciones del sistema se darán en distintos departamentos y ámbitosempresariales siempre teniendo en cuenta que el objetivo final del sistema es el de reducirla morosidad general de Banco TFM, las acciones pueden ir desde mejoras en el sistemade marketing para aumentar la venta de productos que ayuden a la reducción de la moro-sidad hasta propuestas para cambios en el plan de amortización de préstamos o en generalpropuestas para el cambio de las condiciones de los préstamos.

2.2 Objetivos específicosEn primer lugar, es preciso definir qué tipo de dato es el que necesitamos obtener desde

redes sociales y seleccionar los orígenes externos de información. Hay que reseñar que losdatos del proyecto no son exclusivamente externos o de redes sociales sino que una grancantidad de información es proporcionada por las aplicaciones ya existentes en la propiaplataforma informacional de Banco TFM. Este conjunto de información por un lado estruc-turada proveniente del sistema informacional actualmente implantado en la entidad bancariacomo por otro lado el nuevo sistema de información han de integrarse de la mejor manera,vivir en simbiosis y retroalimentarse el uno al otro para que ambos puedan explotarse demanera conjunta.

Para que la explotación de la información estructurada y no estructurada sea posible sediseñará un data lake y los procesos de ingesta que van asociados al mismo, de esta maneraexistirá un lugar donde pueda convivir información propia y obtenida de fuentes externas;estructurada, semiestructurada y no estructurada. El data lake tiene la finalidad de que laexplotación de la información se realice desde un único lugar y que los datos, que desdeun principio se está almacenando para resolver el problema de la morosidad, en un futurotenga múltiples aplicaciones y usos. La información ha de ser útil para toda la empresa ylos departamentos de la misma, además de ser eficaz para resolver problemas variados ydispares.

Una vez almacenada la información en forma de data lake, hay que hacer uso del mismopara extraer la que pueda resultar útil de los datos con técnicas de machine learning o text

mining por ejemplo. El objetivo es el de conocer en mayor profundidad el estado financierode un cliente o de los clientes de una oficina a través de técnicas de análisis de sentimientoscon los datos obtenidos de redes sociales y depositados en el data lake, asociando ese estadofinanciero a la probabilidad de demora o impago en los préstamos concedidos a dicho cliente.Las técnicas de análisis de sentimientos son muy complejas y variadas, por lo que se haráespecial énfasis en la descripción y definición de las mismas así como en la elección de latécnica más acertada para el caso que nos concierne.

Una vez realizado el análisis de sentimientos/opiniones el siguiente paso es mostrar alos interesados, de la manera más clara y concisa posible, la información, la cual ha depresentarse de dos maneras fundamentalmente:

8

Page 23: Estudio del análisis de sentimiento en redes sociales para

Objetivos específicos

1. Se han de generar informes y cuadros de mando del estado actual del negocio, creandométricas y hechos que puedan ser explotados a todos los niveles empresariales, estetipo de informes se asemejan a lo que existe actualmente en el mundo de businessintelligence, pero incluyen análisis que solo pueden obtenerse a través de algoritmosmás complejos y que necesitan de la capacidad del big data para operar.

2. Se han de generar otro tipo de salidas que hasta ahora no se estaban produciendo,que son las prescripciones, es decir sugerencias de cómo actuar en determinadas situa-ciones, la complejidad de este tipo de informes/prescripciones radica en el hecho detener que conocer en mayor profundidad el origen del dato y porque se ha producido,características que se dan en el ámbito del data science.

En la plataforma informacional de Banco TFM se va a hacer una mejora considerable atenor de lo descrito en los párrafos previos, esta mejora no se puede estructurar de cualquiermanera, será necesario definir una arquitectura consistente para manejar todos los procesosdescritos en los párrafos previos como para concretar la integración que se va a llevar a caboentre la plataforma informacional heredada y los nuevos procesos asociados al big data.

El propósito del documento es el de realizar un estudio sobre las tecnologías, técnicas, me-todologías y arquitecturas que hay en la actualidad en el entorno del big data para solventarel problema planteado de la morosidad en la banca. Si bien es cierto que ya existen muchasherramientas para analizar y prever la morosidad en el ámbito bancario, es en la actualidadcon la enorme cantidad de herramientas que surgen al abrigo del big data cuando se puedenrealizar análisis y previsiones que hasta el momento parecían imposibles, es por esto que esteTFM se centrará en las posibilidades y mejoras que ofrece el big data respecto a lo que yaexiste y su posibilidad de integración con entornos heredados.

9

Page 24: Estudio del análisis de sentimiento en redes sociales para

Capítulo 3

Antecedentes

3.1 Análisis de datos en el entorno empresarial

D ESTE los años 70 hasta la actualidad se han tratado de diversas maneras los datos ge-nerados por la empresas con la finalidad de dar valor a los mismos e intentar obtener

provecho de la mejor forma posible haciendo uso desde los más primitivos sistemas de so-porte a la decisión, sistemas de información ejecutiva, cuadros de mando integral, hasta lastecnologías más actuales: inteligencia de negocio, business analytics y por último el big data.Se producen cambios en la tecnología empleada y en el dato, pero en este estudio nos cen-traremos en este último, es decir, la producción de cambios a nivel del dato y su gestión.

El uso del dato ha ido en aumento. Las empresas utilizan la información y el dato paraobtener una ventaja competitiva respecto a sus rivales del sector, esta ventaja se obtiene alanalizar a fondo los datos recogidos de los procesos operativos de la propia empresa sobresus productos y clientes, esta gestión intensa del dato da lugar a la transformación digital dela compañía.

Asimismo, volumen, tipo y almacenamiento del dato han evolucionado con el paso deltiempo. El dato proviene de dentro y de fuera de la empresa, existe un flujo constante deinformación de múltiples fuentes(internas o externas) y formatos(estructurados, semiestruc-turados y no estructurados), por lo que la naturaleza del problema que afrontan las empresasal realizar la transformación digital no parte solamente de como hacer las cosas sino tambiénse adentra en la estructura de la compañía y en el qué cosas hacer.

El primer paso que han de acometer las empresas para afrontar su transformación digital essaber reconocer la información como un activo estratégico, se ha de crear y obtener los datoscorrectos y que las personas relevantes para la organización tengan acceso a los mismos en elmomento preciso que los necesiten, es decir, saber dar valor al dato dentro de la empresa.

Lo siguiente, será conocer el estadio de madurez analítica de la empresa. Según José Ra-món Rodríguez [Rod16] son seis los estadios de madurez:

10

Page 25: Estudio del análisis de sentimiento en redes sociales para

Análisis de datos en el entorno empresarial

1. DescripciónSe trata de los primeros análisis realizados sobre los datos propios de la empresa, esdecir intentar describir eventos sucedidos en el pasado, por ejemplo la facturación deuna zona en el año en curso.

2. DiagnósticoSe establecen relaciones de causa-efecto en el que se trata de ofrecer un porque de loshechos, se van añadiendo dimensiones de análisis.

3. SimulaciónSe realizan análisis más complejos a través de la simulación haciéndose preguntas deltipo ¿qué pasaría si?

4. PredicciónGracias a los pasos anteriores se pueden crear modelos que realicen predicciones opronostiquen ciertos comportamientos en momentos futuros.

5. PrescripciónEste punto es el más interesante de todos. La prescripción persigue actuar sobre elcliente/consumidor con el objetivo de obtener el resultado esperado.

6. PrevenciónFinalmente y englobando todos los anteriores, se haría un uso preventivo del análisisde datos para adelantarnos a una posible eventualidad o necesidad.

Teniendo en cuenta las características mencionadas anteriormente, para que una empresatenga éxito en la transformación digital, esta ha de tener una agenda estratégica bien definidabasada en un modelo de gestión bimodal. Por un lado hay proyectos poco estructurados,cortos, ágiles que dan servicio a los usuarios de manera cotidiana por otro lado, existenproyectos que requieren de una mayor estructura y formalidad en su definición y son losque fijan la orientación de la empresa. Lo que se persigue con la agenda es una definiciónclara y concisa de los objetivos y su implantación. Muy unida a la idea expuesta está lacultura empresarial y el talento desarrollado alrededor de la misma ya que sin inversión, sinimplicación de los directivos y sin profesionales bien preparados esto no puede realizarse.

A la luz de lo expuesto en los párrafos precedentes, parece evidente la relevancia que tie-ne el business intelligence y analytics para las empresas. Por ello se va a exponer de formaconcisa como ha sido la evolución de las tecnologías y la forma en que se ha tratado la infor-mación tanto dentro como fuera de la empresa hasta nuestros días. Lo que hoy conocemoscomo business intelligence parte de los años 90, posteriormente surge el término business

analytics para describir el componente analítico en el BI, con el tiempo y la evolución de lastecnologías aumenta el tamaño y complejidad de los conjuntos de información -del tama-ño de exabytes- por lo que se requiere de técnicas novedosas de almacenamiento, análisis yvisualización, estas técnicas se engloban en el big data y data analytics.

11

Page 26: Estudio del análisis de sentimiento en redes sociales para

Análisis de datos en el entorno empresarial

El BI se fundamenta en las bases de datos tradicionales, el dato se almacena totalmenteestructurado, se aprovisiona por las propias compañías a través de sus sistemas operacionalesy muy a menudo almacenado en bases de datos relacionales comerciales. Para aprovecharla información empresarial surgen los sistemas data warehouse y data management, queincluyen funcionalidades como los datamarts, herramientas de extracción, transformación ycarga (ETL), para la exploración y visualización de la información existen herramientas deltipo business process management (BPM) valiéndose de cuadros de mando y métricas paraanalizar el rendimiento empresarial. Además de lo mencionado, existen técnicas de análisisestadístico y minería de datos que complementan el complejo análisis de información que serealiza a nivel empresarial.

Una evolución de lo descrito en el párrafo anterior llegó con la Web 2.0 y la explosión deinformación que aquello despertó: información asociada a la IP de usuario, logs, cookies, engeneral nueva y valiosa información sobre clientes para identificar necesidades y descubrirnuevas oportunidades de negocio. Una enorme cantidad de información de compañías esrecolectada para ser organizada, transformada y visualizada a través de técnicas de minería,por ejemplo: El diseño de un sitio web o la recomendación de productos se obtiene a travésde estas técnicas de minería y analítica web. Lo que diferencia a la revolución propiciada porla Web 2.0 de lo que existía anteriormente es la capacidad para obtener un gran conjunto dedatos variados y usualmente no estructurados a lo largo del tiempo y poder hacer análisis conestos datos que antes era imposible realizar, tanto por el tipo de dato y volumen como porel análisis sobre los mismo. Estos sistemas requieren la integración de técnicas de mineríade textos, minería web, análisis en redes sociales y análisis espacial/temporal junto a las yaexistentes bases de datos relacionales.

Un tercera revolución viene de la mano del internet de las cosas y del aumento de disposi-tivos móviles en manos de los usuarios, lo que lleva a plantear un cambio de paradigma, unaanalítica móvil geoposicionada y dependiente del contexto donde millones de dispositivosestán interrelacionados.

En virtud de lo expuesto sobre business intelligence y analytics existen multitud de apli-caciones que hacen uso de la ingente cantidad de información procedente de webs, móvilesy sensores con gran importancia para cualquier negocio u organización. Según [CCS12]hay cinco grupos de aplicaciones business intelligence y analytics que son: e-commerce, e-goverment, ciencias y tecnología, sanidad y seguridad. Teniendo en cuenta que el ámbito dee-Commerce y mercado inteligente guardan mayor relación con la temática de este TFM seráesta la aplicación que tome de ejemplo y describa.

El origen del término big data parte irremediablemente de empresas del sector tecnoló-gico como son Amazon y Ebay que gracias a sus plataformas e-commerce y sistemas de

12

Page 27: Estudio del análisis de sentimiento en redes sociales para

Análisis de datos en el entorno empresarial

recomendación han tenido enorme éxito más adelante empresas como Google o Facebookhan continuado el liderazgo con el desarrollo de analítica web, computación en la nube oplataformas sociales en la red. Al contrario que los sistemas tradiciones de información, losdesarrollados por estas empresas rara vez incorporan información estructurada y basado enesa información no estructurada surgen técnicas para analizar información con un contextosocial, análisis de textos y análisis de sentimientos se utilizan de manera frecuente en estosentornos.

De las aplicaciones en la industria mencionadas surgen nuevos campos de investigación enla analítica de datos. Se dividen en cinco áreas técnicas [CCS12]: Análisis de datos, análisisde texto, analítica web, análisis de red y análisis móvil. El campo de investigación que nosinteresa es el análisis de texto que será descrito más adelante cuando se aborde el análisis desentimiento.

Con el paradigma del big data, grandes volúmenes de datos y gran variedad de los mis-mos aparece inevitablemente, la necesidad desde el ámbito empresarial y público de extraerconocimiento de las numerosas y amplias fuentes de información que se encuentran a dis-posición de forma ubicua, es de esta coyuntura donde nace el fenómeno data science en elentorno empresarial. El data science se define como el conjunto de principios fundamentalesque soportan y guían la extracción de conocimiento de los datos [PF13]. Estos principios yfundamentos se aplican especialmente en áreas funcionales de negocio, como es el marke-ting, gestores de relación con cliente o en el ámbito financiero. Hay que destacar que data

science lleva asociado mucho más que algoritmos, el científico de datos ha de ser capaz deanalizar el negocio o problema de negocio desde una perspectiva del dato, haciendo uso detécnicas más tradicionales como puede ser el análisis causal, estadísticas y métodos de vi-sualización en donde como hemos mencionando anteriormente se centrará en la extracciónde conocimiento de los datos disponibles.

Uno de los principales objetivos del data science es la de mejorar las decisiones tomadasa nivel de negocio a través de los datos, Data-driven decision making (DDD) se refiere a lapractica donde las decisiones son tomadas en base a datos y hechos verificables en vez de enla mera intuición. En la Figura 3.1 se puede ver la relación que existe entre las tecnologíasbig data, el data science, DDD y las decisiones de negocio tomadas.

Asimismo tal y como se puede ver en la Figura 3.1 no todo el procesamiento de datospuede ser considerado data science, gran parte del uso que se le da a las tecnologías big data

es la de apoyo o base a las técnicas de minería de datos y otras actividades relacionadas con eldata science, si bien es cierto que ocasionalmente tecnologías big data son usadas en técnicasde minería de datos. Con las tecnologías dig data habilitadas en el entorno empresarial,la pregunta que debería hacerse el científico del dato es, ¿Qué es lo que estas tecnologíasme permiten hacer ahora o hacer mejor que antes no podía hacer?, es decir, el uso de las

13

Page 28: Estudio del análisis de sentimiento en redes sociales para

Análisis de datos en el entorno empresarial

Figura 3.1: Data science en el contexto de una organización [PF13]

tecnologías big data que ha de hacer un científico del dato es un uso habilitador, que permitanhacer análisis y soluciones de forma más amplia y profunda.

Para resumir lo expuesto sobre data science se van a listar los conceptos fundamentalesdel mismo:

Extracción de conocimiento de los datos para resolver problemas de negocio que pue-den ser resueltos de forma sistemática por procesos bien definidos.

Para evaluar los resultados de las técnicas data science es necesario considerar el con-texto en el que va a ser utilizado.

La relación entre el problema de negocio y la solución analítica puede descomponerseen subproblemas de tamaño manejable para facilitar el análisis.

Las tecnologías de la información se usa para encontrar correlaciones en grandes can-tidades de datos.

Entidades que son similares respecto a características conocidas a menudo son simila-res a atributos o características desconocidas.

Al buscar similitudes demasiado forzadas en un juego de datos es posible que dichassimilitudes no se generalicen más allá de la muestra de datos.

Al definir conclusiones de causa efecto es importante tomar atención a la presencia defactores que puedan llegar a confundir, posiblemente estén ocultos.

14

Page 29: Estudio del análisis de sentimiento en redes sociales para

Tipos de Analítica

En el campo del big data y del data science hay un elemento en común, el dato y sobretodoel cómo es el acceso al dato. Desde el momento en el que se incita a la ubicuidad de lainformación y a su tratamiento masivo surge la corriente del open data, la apertura y puestaa disposición de datos digitales con procedencia gubernamental o empresarial a cualquierpersona con intención de utilizarlos ,estos datos son principalmente geográficos, estadísticos,genómicos, médicos y biológicos [SP13]. Las características fundamentales que posee elopen data es la disponibilidad de acceso, la reutilización y redistribución y la participaciónuniversal; de esta manera lo que se consigue es un acceso y uso libre y de manera universalproporcionando a los interesados una herramienta de conocimiento.

3.2 Tipos de AnalíticaDentro del ámbito empresarial en lo que refiere a tecnologías, la tendencia durante los

últimos años ha sido la implantación en medianas y grandes empresas del business analytics,esta tendencia no se puede definir como una moda pasajera sino como una elección certera ycon sentido. En esta dirección apuntan múltiples estudios donde se relaciona el rendimientoen términos de rentabilidad e ingresos y el uso de business analytics, aquellas organizacio-nes con mayor rendimiento que sus competidores hace un uso hasta tres veces mayor delbusiness analytics lo que hace factible el hecho que esta tecnología los diferencie de suscompetidores [EL12].

Se puede deducir, que el business analytics es muy importante para las empresas, pero¿qué es exactamente el business analytics? Es el uso de los datos, tecnologías de la informa-ción, métodos estadísticos y modelos para transformar dichos datos en acciones a través delanálisis en el contexto de una organización, ayudando a los gerentes para que dicha acción odecisión sea lo más acertada posible. Como en todas las tecnologías, su uso con el tiempo sehace más complejo y eficiente haciendo que el business analytics pueda ser tratado desde tresperspectivas que son: analítica descriptiva, analítica predictiva y analítica prescriptiva.

3.2.1 Analítica descriptivaLa mayoría de empresas empiezan en esta fase, la analítica descriptiva, donde se hace uso

de datos para entender el pasado y actual estado y rendimiento del negocio para poder tomardecisiones informadas, siendo la variante más conocida y más extendida en el ámbito empre-sarial. Desde esta perspectiva se usan técnicas de categorización, clasificación y agregaciónde la información para generar gráficos e informes que permitan a gerentes y directores en-tender y analizar su negocio para tomar decisiones lo mejor informadas posible.

3.2.2 Analítica predictivaDesde este punto de vista lo que se pretende es analizar el rendimiento pasado para prede-

cir el futuro extrapolando relaciones existentes en los datos a lo largo del tiempo. La analíticapredictiva pronostica los riesgos y encuentra relaciones que a simple vista no son aparentes.

15

Page 30: Estudio del análisis de sentimiento en redes sociales para

Tipos de Analítica

Parece evidente que este tipo de analítica representa un valor añadido para las empresas alintroducir una variable temporal a futuro, permitiendo en el ámbito empresarial generar mo-delos predictivos que permitan explotar más y mejor los datos que posee. Por esta razón, EricSiegel nos propone en su artículo 7 razones por los que las empresas deberían implantar laanalítica predictiva como núcleo empresarial para obtener ventaja competitiva [Sie15].

En primer lugar la analítica predictiva aumenta y consolida la competitividad. Provee ala empresa de una diferenciación cualitativa ya que se generan modelos predictivos acordesa la experiencia propia y única de la empresa que nadie más posee con lo cual se puedenaumentar ventas y ganar en retención de clientes. Gracias a estos modelos se puede describiren mayor medida y de una manera más fiable a los competidores lo que redunda en un mayorconocimiento de los mismos y sobretodo conocer sus debilidades.

La analítica predictiva mejora el crecimiento empresarial, favorece el aumento de ventasy retención de clientes. Los departamentos donde más y mejor se aprecian los resultadoses en los departamentos de ventas y marketing, donde gracias a la analítica predictiva cadacliente es calificado respecto a su comportamiento con ventas, compras, respuestas o proba-bilidad de abandonar la empresa. Un ejemplo claro es que gracias a esta tecnología se puedefocalizar los esfuerzos de marketing en aquellas personas con probabilidad alta de abando-nar la empresa para intentar aumentar la retención, minimizando gastos y maximizando losresultados.

Mantener la integridad empresarial de fraudes y otro tipo de ataques. En una empresa degran tamaño el número de transacciones monetarias crece de forma exponencial por lo queun buen sistema de detección de acciones fraudulentas evita pérdidas en el ámbito empre-sarial, al puntuar y clasificar las transacciones dentro de un modelo predictivo basado en laexperiencia empresarial se acrecienta enormemente la capacidad investigadora del equipo dedetección de fraudes. Este mismo principio puede verse aplicado en el entorno web, con loscibercriminales y ciberataques.

Mejorar las capacidades competitivas de la empresa. Debido a las competencias adquiri-das por analítica predictiva se logra mejorar la eficiencia y efectividad en la que un productoes realizado. Por ejemplo, en el ámbito bancario se logra predecir el riesgo que asume unbanco al otorgar un crédito, de la misma manera se pueden clasificar clientes de una asegu-radora o detectar futuros fallos en la línea de ensamblaje de una fábrica.

Satisfacer las expectativas cada vez más exigentes del cliente. Gracias a la serie de me-joras que la analítica predictiva proporciona mencionadas anteriormente el usuario o clientese ve beneficiado enormemente de multitud de maneras distintas. Marketing mejor dirigidocon gran reducción del SPAM, mejora de los productos y servicios consumidos, mejora dela protección sobre fraudes a la hora de realizar una transacción y reducción en los preciosal mejorar la eficiencia de los procesos empresariales.

16

Page 31: Estudio del análisis de sentimiento en redes sociales para

Tipos de Analítica

Incrementa la capacidad de aprender de la experiencia pasada. Los modelos predictivospermiten descubrir patrones y tendencias que de otra manera sería imposible, generando lahabilidad de generalizar desde ejemplos, no solo por el uso de ingentes cantidades de datossino por el tratamiento, intuición e ideas humanas que lo hacen posible.

Convierte el business intelligence and analytics en algo factible y que lleva a accionesconcretas. El conocimiento proporcionado por el business intelligence tradicional necesitade un gran entendimiento por parte humana, sin embargo la analítica predictiva puntúa lasacciones que pueden ser tomadas.

La analítica predictiva está diseñada específicamente para generar acciones imperativas

concluyentes [Sie15]

3.2.3 Analítica prescriptiva

La analítica prescriptiva hace uso de la optimización para identificar la mejor alternativatanto para maximizar o minimizar un objetivo haciendo uso de técnicas matemáticas y es-tadísticas. En este caso es muy común el uso conjunto de analítica predictiva y prescriptivapara que se puedan tomar decisiones en entornos donde existe un alto grado de incertidum-bre. Los análisis prescriptivos otorgan una perspectiva sobre los hechos a tratar de maneraque puedan atribuirse relaciones causa y efecto que atañen a las entidades a tratar, dandoun peso importante a la interpretación que se hace a los datos y al descubrimiento de estasrelaciones causa-efecto.

En el artículo de Blum, Goldfarb y Lederman [BGL16] se exponen tres claves funda-mentales a la hora de implantar la prescripción en el seno de una empresa ¿Por qué y có-mo?,¿Donde? y ¿Cuál es el peso de la evidencia?. Las preguntas a formular en el análisis dedatos han de ser el por qué y el cómo, es decir no se ha de quedarse en qué es lo que ha pa-sado ni quién, sino intentar indagar el porqué de los resultados y cómo han sucedido, cual esel proceso por el cual se han generado dichos datos para así saber como de fiable es nuestrarepresentación de los mismos y poder interferir de una manera correcta. Se ha de saber dedónde proceden los datos, conociendo el proceso que los genera y el origen de los mismosse puede llevar a cabo análisis más detallados y exactos produciendo una inteligencia quede otra manera sería imposible. Y tercero, hay que valorar el peso de la evidencia, que eslo que puede ser considerado como prueba, es necesario realizar experimentos controladosdonde cambiando una variable se espere uno y otro efecto, de esta manera se podrá probarsi nuestras suposiciones son válidas o no. Realmente, no es necesario que se desarrollen ex-perimentos, ya que si disponemos de una cantidad de datos suficiente, podría simularse conesos datos situaciones similares a los de un experimento y que a partir de estas situacionesexpertos en la materia pudiesen validar los resultados del mismo.

17

Page 32: Estudio del análisis de sentimiento en redes sociales para

Análisis de sentimientos

Un aspecto esencial en el mundo de la analítica prescriptiva es la intervención de losdistintos agentes, especialmente los gerentes que poseen el conocimiento de negocio y quedebido a su experiencia son necesarios para ayudar a los analistas del dato a entender todosy cada uno de los matices que puedan llegar a producirse.

3.3 Análisis de sentimientosA consecuencia del aumento de información disponible en internet se produce de forma

paralela un incremento sustancial de información almacenada sobre las interacciones entreusuarios o en general participantes de la red. Esta información no estructurada consiste ennoticias, emails, comentarios en redes sociales. . . Asociado a este conjunto de datos no es-tructurados y no relacionados entre sí, nace la necesidad de analizar el contenido de los mis-mos para extraer información válida y útil, este esfuerzo es lo que se conoce como análisis ominería de textos.

En la actualidad existen multitud de técnicas utilizadas para el análisis de textos, del con-junto técnicas empleadas en el análisis de textos y en la obtención de información provechosade los mismos, las principales son aquellas que se centran en la obtención de informaciónen forma de hechos y de alguna manera fácilmente verificable y objetiva; sin embargo existeotra parte y es esta la que más nos interesa en el ámbito de este estudio, son aquellos elemen-tos del texto que representan información subjetiva principalmente opiniones, sentimientos,valoraciones, actitudes y emociones. [SGORHV15]

El análisis de sentimientos es la ciencia que se encarga del estudio de los elementos subje-tivos mencionados en textos. Trata de clasificar de manera automática y masiva las opinionesvolcadas en los textos analizados de modo que se puedan agrupar de manera clara y concisa.Con el big data como elemento facilitador crean multitud de oportunidades para desarrollarnuevas aplicación, debido en gran parte aumento de fuentes de información y capacidad deprocesamiento de las mismas. Esta sinergia provoca un gran impacto en el ámbito empre-sarial donde empresas de todo tipo, grandes y pequeñas, quieren conocer quién y qué es loque se está diciendo sobre ellos con la finalidad de definir claramente una imagen de marcadiferenciadora de sus competidores.

Para poder analizar y extraer conclusiones de los textos, se ha definido claramente todoslos elementos que están relacionados con el análisis de sentimientos y representarlos deuna manera matemática que permita el análisis de los elementos y llegar a una conclusiónfidedigna. De manera general el contenido de los documentos que se analizan a través delanálisis de sentimientos se compone de opiniones expresadas sobre un tema en concretopor uno o varios usuarios, una opinión se puede definir como un sentimiento positivo onegativo sobre una entidad o característica de dicha entidad por parte de un usuario o grupode usuarios. Esta definición puede ser expresada matemáticamente mediante una quíntupla(ej ,ajk,soijkl,hi,tl) donde ej representa a la entidad, ajk es la k-característica/aspecto de la

18

Page 33: Estudio del análisis de sentimiento en redes sociales para

Análisis de sentimientos

entidad ej , soijkl es el valor que aporta el sentimiento u opinión sobre el usuario hi quela transmite, por último tl es el tiempo en el que la opinión es expresada. [Liu10] Segúnesta definición matemática es posible generar algoritmos que analicen textos de manera queel éxito del mismo dependa de lo capaz del proceso para la extracción de cada una de lascaracterísticas y la actitud del interlocutor respecto al tema.

En el análisis de textos, y en concreto análisis de sentimientos, surgen distintas tareas quefacilitan la división del problema, ocurre que a veces son difícilmente separables al compartircaracterísticas unas tareas con otras, las tareas más importantes son:

Clasificación de sentimientos. Los sentimientos u opiniones expresadas en textos secategorizan en tres grupos, opiniones positivas, negativas y neutras.

Clasificación de la subjetividad. Esta tarea consiste en detectar si la afirmación ex-presada es o no subjetiva. Las frases subjetivas son aquellas que expresan informacióndesde un punto de vista personal ya sea a través de opiniones o emociones, en contra-posición a las frases objetivas que proporcionan información de hechos verificables.

Resumen de la opinión. Se centra en la extracción de las características de una enti-dad expuestas en un conjunto de documentos o lo largo de un mismo documento, seintentan obtener los cambios y relaciones entre entidades a lo largo del documento oconjunto de documentos.

Recuperación a partir de opiniones. Esta tarea intenta ser específica y recuperardocumentos que sean acordes a una opinión definida previamente. En este tipo de sis-temas otorga a cada documento una puntuación con la que será ordenado con respectoal resto de documentos.

Sarcasmo e ironía. Se intenta detectar si una frase contiene sarcasmo e ironía, ladificultad de esta tarea radica en como definir formalmente lo qué es y qué no es ironíao sarcasmo.

Otros. Existen otras tareas de menor valor añadido que se pueden mencionar comoson la detección de la autoría y género del autor y detección de spam en opiniones.

Cuando se decide abordar el análisis de sentimientos sobre un documento se puede dividirel tipo de análisis en tres niveles dependiendo de la granularidad del algoritmo utilizado:

Documento. Se intenta producir un resultado basado en el contenido completo deldocumentos

Frase. Se clasifica el sentido de la opinión vertido en cada frase, a mayor escala sepuede contextualizar una frase dentro de un conjunto de frases relacionadas.

Característica. Dentro de un documento se vierten opiniones sobre distintas entidad,eso quiere decir que en un mismo documento una opinión en un sentido sobre una

19

Page 34: Estudio del análisis de sentimiento en redes sociales para

Análisis de sentimientos

entidad no ha de coincidir con la opinión sobre otra entidad perteneciente al mismodocumento.

Para realizar de manera apropiada un análisis de sentimientos en textos o documentoses imprescindible dominar las distintas técnicas conocidas hasta el momento,no son pocaslas técnicas existentes para el análisis de sentimientos tal y como podemos ver en la Figu-ra 3.2. En este apartado nos centraremos en clasificarlas tal y como se hacen en los artículos[MHK14][SGORHV15].

Figura 3.2: Distintas técnicas para la clasificación de sentimientos [MHK14]

1. Machine learningEstas técnicas se basan en la extracción de las características necesarias para detectarlos sentimientos en donde las técnicas de análisis de lenguaje natural juega un papelmuy importante. El grupo de técnicas de machine learning puede ser dividido a su vezen dos grandes grupos: algoritmos supervisados y no supervisados.

Ejemplos de técnicas de machine learning pertenecientes al conjunto de los algoritmossupervisados son máquinas de vectores de soporte (SVM) o naive bayes.

El algoritmo SVM tiene como objetivo el de clasificar los elementos de un con-junto de datos a partir de una muestra representativa, se define como un problemade optimización en donde se ha de encontrar el margen máximo entre las clasesque componen el problema, la solución se define como el hiperplano o hiperpla-nos que delimitan las clases. [Sua]

20

Page 35: Estudio del análisis de sentimiento en redes sociales para

Análisis de sentimientos

Naive bayes: Al igual que el algoritmo SVM, naïve bayes tiene el objetivo de cla-sificar un conjunto de elementos, pero en este caso aplicando el teorema de bayestrata de estimar las funciones de densidad de probabilidad que están asociadas acada una de las clases. La peculiaridad que hace distinta a esta aproximación esla de suponer que las características que definen las clases son independientesentre sí, esta suposición es la que le da el nombre de ingenuo(naive).[MN98]

Árboles de decisión: Es una técnica de machine learning que tiene como finali-dad clasificar un conjunto de datos a partir de un conjunto de entrenamiento detamaño menor, es decir, es un método de aprendizaje supervisado. El árbol co-mienza en un nodo inicial del que parten dos o más flechas hacia otros nodos, lasflechas representan cada acción posible etiquetada de manera univoca. Al seguirel camino que definen el conjunto de acciones o flechas se determinan los dife-rentes vectores solución, de manera que solamente existe un camino para llegara un nodo final del árbol, es decir, tomar una decisión es excluyente con el restode decisiones del mismo nodo.[MP]

En contraposición a los algoritmos supervisados, las técnicas no supervisadas son usa-das cuando no es posible obtener un conjunto inicial de documentos y textos docu-mentados sobre el que partir, siendo común la combinación entre distintas técnicasya sean supervisadas, semisupervisadas o no supervisadas. Ejemplos de algoritmos nosupervisados son Algoritmos de clustering o Análisis de componentes principales.

Algoritmos de clustering: consiste en un procedimiento de agrupación de vec-tores de datos de acuerdo a criterios de cercanía y similitud. El algoritmo se usapara agrupar vectores con propiedades comunes para concretar un conjunto declases y definir la clase en su totalidad por un representante característico.

Análisis de componentes principales: Es una técnica estadística utilizada paradescribir la correlación que existe entre un conjunto de datos a partir de nue-vas variables, los componentes, no relacionadas a priori entre sí. El uso de estátécnica es principalmente para construir modelos predictivos.

2. Basadas en lexicogramasEstas técnicas consisten en colecciones de términos y frases agregados y relacionadosentre sí generando diccionarios u ontologías. Hay dos principales subgrupos dentrode estás técnicas: Basadas en diccionario o corpus-based. El primero funciona con unlistado inicial de términos el cual va creciendo buscando sinónimos y antónimos en undiccionario. Las técnicas basadas en corpus-based se crean con el objetivo de generarun diccionario específico de un dominio concreto, partiendo de un conjunto de térmi-nos y ampliando a palabras relacionadas mediante métodos estadísticos o semánticos.

21

Page 36: Estudio del análisis de sentimiento en redes sociales para

Estado del arte financiero: riesgo crediticio

Un caso práctico del uso de las técnicas para el análisis de sentimientos lo podemos en-contrar en el siguiente artículo [CC17], donde se analizan artículos financieros como si deuna red social se tratase para poder predecir tendencias en los mercados financieros.

3.4 Estado del arte financiero: riesgo crediticioPara entrar en materia y darle un aspecto funcional al TFM se ha elegido el sector de Banca,

al ser uno de los sectores donde más se está imponiendo el big data y tradicionalmentedonde mayor tratamiento y análisis del dato se ha realizado. Al tener el sector bancario granprofusión de aplicaciones que podrían servir para ejemplarizar el análisis de datos en elámbito empresarial, me he decantado por la gestión del riesgo de crédito y la morosidad.

Una entidad financiera dentro de su día a día y englobado en su actividad diaria, cadaoperación que se lleva a cabo produce un determinado riesgo, que es identificado y cuantifi-cado para marcar con exactitud los precios de los productos que son ofertados de tal maneraque el riesgo asumido sea menor que la retribución obtenida garantizando de esta manera larentabilidad del negocio. Los factores que afectan al riesgo y por consiguiente a la rentabi-lidad pueden ser tanto internos como externos, de esta manera pueden identificarse distintasfuentes o tipos de riesgos [CH04]:

Riesgo de Liquidez. Este tipo de riesgo se da cuando existe la posibilidad de una entidadfinanciera no cumpla con un compromiso financiero hacia un cliente o mercado. Es-te tipo de exposición surge en actividades de trading o cuando hay problemas en laobtención de fondos para cumplir con las obligaciones de pago en la fecha estipulada.

Riesgo Legal. Se produce cuando existe la posibilidad de perder la titularidad de inversioneso recuperar el valor de la misma debido a causas legales: contratos no legalmenteaplicables o incorrectamente documentados, cambios en la norma, etc...

Riesgo operativo. Es ocasionado en las situaciones donde se producen fallos en los sistemasde información, errores humanos, mala fe de terceros o fallos usuarios con responsa-bilidad en las aplicaciones bancarias.

Riesgo de mercado. Es la pérdida de la posición actual de la entidad financiera como resul-tado de un cambio en el mercado: tasas de interés o de cambio.

Riesgo de contraparte. Es la pérdida derivada del incumplimiento de las obligaciones con-tractuales entre la entidad financiera y el sector financiero.

Riesgo de crédito. Son las pérdidas causadas como consecuencia de que los deudores de laentidad financiera incumplan los términos del contrato por motivos de insolvencia.

Dentro de todas las posibilidades de riesgo que existen en una entidad bancaria este es-tudio se centra en la descripción del riesgo de crédito que es el que aplica en el capítulo 5:Resultados.

22

Page 37: Estudio del análisis de sentimiento en redes sociales para

Estado del arte financiero: riesgo crediticio

En el Informe con Relevancia Prudencial 2015 de BBVA [Rie] se define el riesgo de cré-dito como: la probabilidad de que una de las partes del contrato del instrumento financiero

incumpla sus obligaciones contractuales por motivos de insolvencia o incapacidad de pago

y produzca a la otra parte una pérdida financiera.

A la hora de cuantificar el riesgo de crédito se define la pérdida esperada como la suma decapital que podría perder la entidad bancaria como resultado de la exposición crediticia enun tiempo determinado.

De esta definición surgen tres métricas para el cálculo de la pérdida esperada, calculándosede la siguiente manera [CH04]:

PE = PI ∗ S ∗ E

Donde:

PE: Pérdidas esperadas durante el periodo

PI: Probabilidad de incumplimiento de las obligaciones de pago de capital y/o intereses.

S: Severidad: Es el importe del riesgo contraído en el momento de impago.

E: Exposición: Es la estimación de las pérdidas en caso de que se produzca el impago.

Esta definición se puede extrapolar de la siguiente manera, las pérdidas esperadas aumentano disminuyen en función del monto del crédito, probabilidad de deterioro y severidad. Segúnsea el valor obtenido en la pérdida esperada la entidad financiera tendrá unas provisionesde capital que estará reglamentado por la entidad reguladora que corresponda, en la UniónEuropea le corresponde al banco central europeo (BCE).

La combinación de estas métricas con la información de rentabilidad de la operación pro-porciona el conjunto de técnicas y datos necesarios para la toma de decisiones. Las herra-mientas de calificación crediticia hacen uso de estas métricas y parámetros junto con in-formación adicional como es la antigüedad de los contratos, segmento del cliente, etc. paraevaluar el riesgo de cada operación crediticia mediante una puntuación. Cabe destacar que seusan herramientas y cálculos similares para calificar el riesgo a nivel global de los distintosgrupos financieros, en este caso contemplando los efectos de la concentración y diversifica-ción de activos.

Por último, para clasificar un activo financiero como deteriorado por culpa de la morosidaddel cliente han de darse unas determinadas particularidades:

Algún importe o pago vencido por mayor tiempo de lo definido en el contrato.

Dificultades financieras significativas del deudor.

Retrasos continuados en el pago de intereses o principal.

Refinanciaciones por condiciones crediticias de la contrapartida.

23

Page 38: Estudio del análisis de sentimiento en redes sociales para

Estado del arte financiero: riesgo crediticio

Se hace probable la entrada en concurso y otro tipo de reorganización/liquidación.

Desaparición del mercado activo de un activo financiero por dificultades financieras.

Datos observables que indiquen una reducción en los flujos futuros desde el reconoci-miento inicial.

Otros.

24

Page 39: Estudio del análisis de sentimiento en redes sociales para

Capítulo 4

Método de Trabajo

E L proyecto se encuentra enmarcado en el entorno de big data y data analytics por ello,como resultado del TFM se va a presentar un proceso de minería de datos desde la toma

de requisitos y el conocimiento de negocio de las necesidades empresariales que se hayangenerado. Por este motivo se ha de seleccionar una metodología asociada a la minería dedatos que se ajuste lo mejor posible con los procesos que se van a llevar a cabo durante lapuesta en marcha y desarrollo de la solución completa.

4.1 Metodologías de Análisis de DatosLa minería de datos no es algo reciente, en el año 1996 existen esfuerzos en crear metodo-

logías y procesos para estandarizar los procedimientos que se han de llevar a cabo [FPSS96].Knowledge discovery in databases (KDD) surge como metodología desde el ámbito acadé-mico para crear un estándar en minería de datos que pueda ser usado como un frameworkgenérico. Por otro lado y desde el ámbito empresarial surgen varias alternativas con una pers-pectiva práctica como son SEMMA y CRISP-DM centradas en definir una metodología quepueda ser usada para implementar procesos de minería de datos. Para poder comparar las tresmetodologías nombradas, se va a proceder a describirlas de manera más o menos exhaustivade forma que queden claras las diferencias y similitudes entre ellas a fin de poder seleccionaruna de las tres para utilizar como metodología del TFM.

4.2 KDDKDD consiste en el uso de métodos de minería de datos para extraer conocimiento de bases

de datos a través de 5 procesos bien definidos, se trata de un proceso interactivo e iterativoen donde el usuario ha de tomar decisiones para obtener conocimiento que va a ser incluidode una manera o de otra al sistema:

Selección. En esta etapa se selecciona un conjunto de datos que permita realizar unanálisis sencillo para extraer del mismo atributos y métricas.

Pre-procesamiento. En esta etapa se elimina el ruido y la información no válida quepueda existir en el juego de datos para obtener información consistente.

25

Page 40: Estudio del análisis de sentimiento en redes sociales para

SEMMA

Transformación. Se modifican los datos que se poseen para facilitar el tratamientoque se va a hacer en los procesos de minería de datos.

Minería de datos. Se buscan patrones de interés con métodos de minería de datospara conseguir el objetivo que se ha especificado al inicio del proceso, habitualmentepredicciones.

Interpretación/Evaluación. Finalmente se evalúan e interpretan los patrones obteni-dos en las etapas previas.

Figura 4.1: Ciclo de vida KDD [FPSS96]

4.3 SEMMASEMMA al igual que KDD consta de 5 etapas que podrían trazarse directamente a las etapas

definidas en KDD, las etapas definidas en la metodología SEMMA son:

Muestreo. Se ha de extraer una pequeña porción de información del global que seposee, es decir una muestra lo suficientemente grande para que incluya informaciónsignificativa y lo suficientemente pequeña para que sea fácilmente manipulable.

Explorar. En esta etapa se busca obtener tendencias y anomalías de la muestra quenos den una idea y un mejor entendimiento del conjunto de información.

Modificar. Se ha de transformar la información para que sea fácilmente manipulableen la etapa de modelado, donde se aplicarán los métodos de minería de datos.

Modelado. Esta etapa consiste en aplicar los métodos de minería de datos para permitiral software buscar una combinación de información que prediga de una manera fiablelos resultados deseados.

Evaluar. En esta etapa se evalúan los métodos utilizados en etapas previas y si las mis-mas han sido lo suficientemente fiables para implantarlo en los procesos corporativos.

26

Page 41: Estudio del análisis de sentimiento en redes sociales para

CRISP-DM

En la figura 4.2 se puede apreciar cómo es la relación cíclica que existe entre las cincofases de SEMMA.

Figura 4.2: Metodología SEMMA

4.4 CRISP-DMCRISP-DM son las siglas de Cross-Industry Standard Process for Data Mining, se trata de

un estándar que define la metodología o modelo de proceso para la minería de datos, creadooriginalmente por un grupo de expertos de DaimlerChrysler con la finalidad de homogenei-zar y definir de manera clara y empírica las fases y procesos necesarios para llevar a caboproyectos de minería de datos en el entorno empresarial, CRISP-DM se crea desde un iniciobasado en la experiencia práctica de los expertos que componen la iniciativa y es por ello esfácilmente extrapolable a un proyecto real.

Metodología. CRISP-DM consiste en un modelo de proceso jerárquico en donde cadatarea se describe a distintos niveles de abstracción, en total son cuatro niveles: Enla parte superior se encuentran las fases de las que está compuesto un proyecto, enel siguiente nivel de abstracción se encuentran las tareas genéricas de las que están

27

Page 42: Estudio del análisis de sentimiento en redes sociales para

CRISP-DM

compuestas cada fase, estas tareas son diseñadas para ser lo más completas y establesposibles. En el tercer nivel se encuentran las tareas específicas, describen cómo han dellevarse a cabo las acciones dependiendo de la situación en las tareas del segundo nivel.En el último nivel, el cuarto, se definen las acciones, decisiones y resultados específicosde un proceso de minería de datos. En la metodologías se describe de manera clara cadauna de las fases,tareas y acciones en las que está compuesta.

Modelo de proceso. El ciclo de vida de CRISP-DM se compone de seis fases (Figu-ra 4.3) cada fase contiene las tareas respectivas sus descripciones y relaciones entre lamismas. El ciclo de vida no es estricto sino que permite avanzar y retroceder en el mis-mo tantas veces como sea necesario a lo largo del proyecto, según se haya finalizadouna fase, el resultado de la misma, define si se ha de avanzar o retroceder en el ciclo,tal y como representan el sentido de las flechas de la Figura 4.3.

Figura 4.3: Ciclo de vida CRISP-DM [CNCSKN+00]

CRISP-DM es una metodología cíclica que comprende seis etapas en las que se especificanlos procesos que se han de seguir en la aplicación de algoritmos de minería de datos en el

28

Page 43: Estudio del análisis de sentimiento en redes sociales para

CRISP-DM

seno empresarial, cada una con un objetivo distinto, en los siguientes párrafos se realizaráuna descripción en profundidad de las fases y tareas que la componen.

4.4.1 Comprensión del negocioEn la fase inicial del proyecto se han dedicar tiempo, esfuerzo y recursos en el entendi-

miento de los objetivos y requisitos desde un punto de vista de negocio con la finalidad detransformar estos conocimientos en un problema de minería de datos y poder conformar unplan que cumpla con los objetivos marcados en esta fase. Las tareas definidas en esta faseson:

Determinación de los objetivos comerciales: La primera tarea consiste en obtener infor-mación lo más amplia y fiable posible sobre los objetivos comerciales de la minería de datos,la comprensión del estado actual de la empresa y del propio proyecto es fundamental. Comoresultado de las investigaciones y reuniones con gerentes y responsables de cada área se hande definir claramente los objetivos principales y otros secundarios para que quede claro elpropósito del proyecto. Y ligado a los objetivos hay que determinar criterios de rendimientocomercial para llegado el momento se pueda evaluar el rendimiento del proyecto, los criteriospueden ser tanto objetivos como subjetivos.

Valoración de la situación: Una vez definidos claramente los objetivos comerciales esnecesario detallar la situación actual en cuanto a recursos, requisitos, factores de riesgo yposibles planes de contingencia. Los recursos pueden ser humanos, de datos, hardware osoftware. Hay que valorar correctamente los requisitos al inicio del proyecto para que se ten-ga en cuenta si se dispone de recursos o es necesario solicitar más o los propios requisitosproducen algún riesgo solventable o no. Por otro lado es importante considerar los riesgosque produce el proyecto, de durabilidad (que sucede si el proyecto se alarga en el tiempo),riesgo presupuestario, riesgo en los datos o riesgo en el resultado. Con la lista de riesgoselaborada se ha de documentar un plan de contingencia por si alguna de las casuísticas men-cionada como riesgo llega a producirse.

Determinación de los objetivos de minería de datos: Una vez definidos los objetivos co-merciales estos han de traducirse a objetivos de minería de datos para que puedan abordarsesin complicaciones. Como se puede comprobar la empresa y tecnología de minería de datoshan de ir de la mano para que el proyecto sea efectivo. A la vez que se definen los objetivosde minería de datos se ha de definir los criterios de éxito de los mismos para poder facilitaren el futuro su evaluación de una manera objetiva, al igual que se definió con los objetivosde negocio.

Producción de un plan de proyecto: El plan de proyecto es el documento que incluye todoslos pasos y la información necesaria para llevar a cabo el proyecto con la meta de cumplirlos objetivos de minería y datos y con ello cumplir los objetivos empresariales. El plan de

29

Page 44: Estudio del análisis de sentimiento en redes sociales para

CRISP-DM

proyecto es un documento dinámico en donde al final de cada fase y en caso de ser necesario,puede ser revisado y modificado para ajustarse a la nueva realidad del proyecto.

4.4.2 Comprensión de los datosLa fase de comprensión de los datos se inicia con un pequeño juego de datos con el que

familiarizarse, identificar problemas en la calidad del dato y definir hipótesis iniciales sobreinformación oculta en el dato.

Recopilación de datos iniciales: En el seno de la empresa son varios los tipos de datos delos que se puede disponer, datos ya existentes como es la información transaccional o logs deaplicaciones, datos adquiridos de terceros y datos adicionales a los ya existentes y necesariospara el análisis, como una encuesta interna.

Descripción de los datos: La tarea trata de describir la calidad y cantidad de los datos, conesta información nos podemos hacer una idea de lo efectivo que va a ser nuestro análisis,cuanto mayor sea el conjunto de información más fiable será el modelo que obtengamoscomo resultado. A la vez se ha de describir el tipo de dato, si es estructurado o no, el tipo deinformación que almacena: Cadenas, numéricos o booleanos.

Exploración de datos: Esta tarea se encarga de extraer información válida y útil para elmodelo de minería de datos: identificar atributos clave, relaciones entre atributos, propie-dades relevantes en subgrupos de información, en general cualquier información estadísticaque pueda aportar valor al modelo.

Verificación de calidad de datos: Una vez extraída información útil del juego de datos esnecesario hacer un análisis en profundidad de la calidad de los mismos, si existen valores noválidos o nulos, errores tipográficos o de cualquier otro tipo, incoherencias en la codificaciónde la información y fallos en la definición de los campos.

4.4.3 Preparación de los datosLa fase de preparación de los datos es en general la que mayor tiempo y recursos consume.

Dedicar el tiempo suficiente a las anteriores fases facilita que durante esta fase no se pierdatiempo de manera innecesaria en aclaraciones y correcciones a posteriori. Esta fase incluyetodas las tareas necesarias para la construcción del juego de datos final, el que va a utilizarel modelo de minería de datos. Esta tarea al ser un proceso complejo se llevará a cabo variasveces a lo largo del ciclo de vida del proyecto, creciendo de manera incremental. Selecciónde datos: En esta tarea y en función de lo descrito en la fase de comprensión de los datos, sehan de escoger los elementos(filas) y los atributos o características(columnas) que van a sernecesarios en el modelo.

Limpieza de datos: Una vez detectados los problemas de calidad en la fase de comprensiónde los datos, se han de resolver para que estos no afecten a la fiabilidad del modelo.

30

Page 45: Estudio del análisis de sentimiento en redes sociales para

CRISP-DM

Construcción de nuevos datos: A menudo en nuestro modelo es necesario incluir infor-mación necesaria que no disponemos desde el inicio, esta información se puede agregar alconjunto inicial de datos de dos maneras: Creando atributos derivados, es decir, un nuevoatributo a partir de dos o más existentes; o crear una nueva fila desde cero.

Integración de datos: Esta tarea consiste en la de unir datos de distintos orígenes de infor-mación en uno solo. Existen dos maneras de hacerlo: La fusión de datos (a nivel atributo) yla adición de datos (a nivel fila)

Formato de datos: La última tarea previa al modelado es la de comprobar si el tipo demodelado que se va a llevar a cabo necesita que la información siga un formato u ordenconcreto.

4.4.4 ModeladoEn esta fase se aplican de forma iterativa varias técnicas de modelado seleccionadas y

se van variando los parámetros del modelo para calibrar la técnica de manera que comoresultado se obtenga un modelo que resuelva los objetivos de minería de datos definidosen la primera fase. Con frecuencia esto no sucede en una única iteración sino que hay quevolver a la fase de preparación de los datos o al inicio del modelado para conseguir un modeloválido.

Selección de técnicas de modelado: La primera tarea de la fase de modelado es la de se-lección de la técnica o técnicas de modelado que se van a utilizar, es posible que durante lafase de comprensión de negocio ya se haya decidido un conjunto de técnicas, aun así la deci-sión de la técnica ha de basarse en las siguientes consideraciones: tipos de datos disponibles,objetivo y requisitos específicos de la minería.

Generación de un diseño de comprobación: El paso previo a la generación del modeloconsiste en definir un procedimiento con el cual validar la calidad de este.

Generación de los modelos:Se han de generar varios modelos con su parametría corres-pondiente con la meta de cumplir los objetivos definidos en la fase de comprensión de nego-cio.

Evaluación del modelo: Una vez seleccionados los modelos finales exitosos es trabajo delos expertos interpretar los resultados de los modelos y comprobar que se ajustan al criteriode éxito. En esta tarea se evalúa solamente el modelo y no se tiene en cuenta el resto deartefactos que se han producido a lo largo del ciclo de vida.

4.4.5 EvaluaciónEn esta fase del proyecto ya se dispone de modelos lo suficientemente validados y testados

de acuerdo a los criterios de rendimiento de minería de datos definidos en los pasos previos,la clave de esta fase es la de validar el modelo o modelos definitivos desde un punto de vista

31

Page 46: Estudio del análisis de sentimiento en redes sociales para

CRISP-DM

de negocio, es decir, ha de cumplir los objetivos de negocio definidos en la primera fase ydeterminar cuáles de ellos no se están cumpliendo si es el caso.

Evaluación de los resultados: En esta tarea, ya más avanzada del proyecto se trata dedeterminar en qué grado el modelo o modelos generados como resultado de la fase anteriorcumplen con los requisitos de negocio y detectar posibles deficiencias. Por otro lado, en estafase se pueden detectar resultados que aunque no se incluyeron originalmente como objetivosrevelan nuevas relaciones en la información o pistas para futuros proyectos de minería dedatos.

Proceso de revisión: En este punto del proyecto ya se ha dado como satisfactorios losresultados obtenidos, si bien es necesario dedicar tiempo a validar que todo el proceso a sidosatisfactorio y la calidad del mismo.

Determinación de los pasos siguientes: Este punto es clave en el ciclo de vida del proyecto,una vez analizados los resultados y modelos obtenidos de las fases previas hay que tomarla decisión de continuar con el ciclo de vida y pasar a la fase de Distribución, es decir,los resultados cumplen con las expectativas o volver a iterar sobre el proceso y ajustar losmodelos obtenidos porque aunque el resultado se bueno, no es lo suficiente o no cumple conlas expectativas de negocio.

4.4.6 Distribución

La creación y evaluación del modelo no es el final del proyecto, sino que existe una fase úl-tima en el ciclo de vida que es la distribución del mismo. Dependiendo del propósito del pro-yecto el resultado puede ser un documento o informe con el fin de aumentar el conocimientode los datos empresariales o implantar el modelo a lo largo de los procesos productivos de laempresa.

Planificación de distribución: Esta tarea consiste en generar una estrategia para dar a co-nocer al resto de la empresa los resultados del proceso de minería de datos y en caso de tenerque implantar algún nuevo proceso que haga uso de los modelos obtenidos, será en esta fasedonde se planifique.

Planificación del control y del mantenimiento: Esta tarea toma importancia en caso de queel modelo se implante como un proceso de uso diario, la preparación previa a su implantacióny monitorización llevan a evitar malgastar tiempo y recursos en usos incorrectos del modeloy sus resultados.

Creación de un informe final: Al final del proyecto se ha de escribir un informe final en elque se haga un resumen del proyecto y se expongan los resultados del proceso de minería dedatos. El informe ha de contener la siguiente información: descripción detallada del problemaoriginal, procedimientos utilizados a lo largo del proyecto, coste del proyecto, desviaciones

32

Page 47: Estudio del análisis de sentimiento en redes sociales para

Comparativa

sobre el plan de proyecto original, resumen de los resultados y modelos, plan de distribución,futuros proyectos.

Revisión final del proyecto: Es la tarea final, en donde se ha de expresar las impresionesfinales sobre el proyecto, que fue bien y que mal, que partes necesitan mejoras, en generalcuáles han sido los conocimientos adquiridos a los largo del proyecto.

4.5 ComparativaUna vez presentadas las tres metodologías de data mining hay que tomar la decisión de

cuál de las tres metodologías expuestas es la que más se aproxima a nuestro problema. Aun-que las tres metodologías son similares y hasta incluyen casi las mismas etapas tal y comose muestra en el cuadro 4.1, CRISP-DM es la más completa de las tres y la única que tienedefinido en sus procesos etapas que implican a la capa de negocio y los requisitos funcio-nales y corporativos a aplicar en la solución. CRISP-DM es una metodología orientada alámbito empresarial y como tal el ciclo de vida que propone se ajusta más a la realidad deun proyecto en el que pueden surgir problemas, volver a fases previas por necesidades delproyecto, etc... En general CRISP-DM es la más flexible de las tres metodologías y la que másseguridad proporciona a la hora producir un producto viable que cumpla con los requisitosempresariales definidos en la fase pertinente, comprensión del negocio. Es por estos motivosy por su adecuación al problema planteado en el capítulo inicial de este TFM por lo que sedecide CRISP-DM como metodología para este estudio.

KDD SEMMA CRISP-DM

———- ———- Comprensión del negocioSelección MuestreoPre-procesamiento Explorar

Comprensión de los datos

Transformación Modificar Preparación de los datosMinería de datos Modelado ModeladoInterpretación/Evaluación Evaluar Evaluación———- ———- Distribución

Cuadro 4.1: Equivalencias entre metodologías de minería de datos

33

Page 48: Estudio del análisis de sentimiento en redes sociales para

Capítulo 5

Resultados

L AS entidades bancarias, y en general los sistemas informacionales empresariales estánestructurados de manera muy similar. En este capítulo se detallará la arquitectura que

se ha seleccionado como base para la integración de los nuevos sistemas big data, la interre-lación entre componentes y la descripción punto por punto de los elementos que lo forman,para así plasmar el análisis realizado para la búsqueda y selección de una solución que seadecue al problema descrito en el capítulo 2: Objetivos.

Los resultados obtenidos del estudio elaborado a lo largo del TFM se estructurarán comosi se tratase de un proyecto CRISP-DM es decir, se seguirá la metodología y ciclo de vidadescritos en el capítulo 4: Método de Trabajo, de esta manera se consigue presentar losresultados de una manera clara y concisa, y sobretodo generar un producto con la calidadque proporciona una metodología contrastada empíricamente como es CRISP-DM.

5.1 Comprensión del negocioComo ya se ha expuesto en capítulos anteriores, se va a realizar un estudio sobre el em-

pleo del big data en una entidad bancaria, Banco TFM, que en la actualidad dispone de uncomplejo y potente entorno de business analytics donde se transforma una gran cantidadde información proveniente de aplicaciones de uso diario en el seno de la empresa. Una delas aplicaciones disponibles es un moderno sistema de pagos virtual, que recoge todas lastransacciones realizadas a través de la entidad financiera con información sobre el concep-to, lugar de la transacción, origen y destino de la misma, es decir cientos de variables. Otraaplicación de donde se obtiene información puede ser una antigua aplicación contable que semantenga por cuestiones normativas. El objetivo de este apartado es el de describir lo mejorposible el supuesto sistema informacional que existe en la actualidad en Banco TFM, inten-tando ser lo más objetivo posible y acercarse lo máximo a la realidad. Debido a la capacidadlimitada en tiempo, recursos y amplitud del propio TFM se evitarán aquellos detalles que noaporten nada sustancial al conjunto del mismo.

5.1.1 Determinación de los objetivos comercialesLa situación ha de definirse como un problema de negocio, es decir, buscar un elemento

del negocio bancario en el que haya capacidad de mejora y a su vez esta mejora produzca un

34

Page 49: Estudio del análisis de sentimiento en redes sociales para

Comprensión del negocio

beneficio tangible para la propia entidad financiera. En el caso de uso seleccionado, deteccióntemprana de la morosidad, el problema de negocio es claro: Las entidades financieras pierdencada año millones de euros en impagos, según el informe de estabilidad financiera emitidopor el Banco de España [dE18] el volumen de activos dudosos totales a nivel consolidado delas entidades financieras se sitúa en 116,1 mm de euros, la tasa se redujo significativamenteen 2017, concretamente un 21 % en tasa interanual, si nos fijamos en la Figura 5.1 se puedeobservar como España está dentro de las tres naciones con mayor volumen de préstamos condudoso cobro. Es por esto por lo que las entidades financieras han de perseverar en ser lo máseficientes y efectivas a la hora de solventar la morosidad y mejorar el cobro de la deuda.

Figura 5.1: Gráfica de prestamos de dudosos cobro en la unión europea [dE18]

Con este background sobre las entidades financieras y estado de la morosidad, cabe for-mular la siguiente pregunta, ¿Es suficiente el actual sistema para paliar la morosidad? o¿Podría hacerse un esfuerzo extraordinario valiéndonos de las capacidades complementariasque proporcionan las nuevas tecnologías asociadas al big data? Todas las entidades financie-ras tienen sus sistemas para clasificar los impagados y llegado el momento tratarlos comomorosidad, estos sistemas se limitan a clasificar préstamos e hipotecas y al producirse unacasuística definida por los expertos, se detecta la morosidad. Es este punto donde el business

intelligence y analytics más tradicional tiene inconvenientes al no poder proporcionar métri-

35

Page 50: Estudio del análisis de sentimiento en redes sociales para

Comprensión del negocio

cas y variables alternativas que relacionadas entre sí puedan predecir impagos y situacionesde morosidad, sin embargo el big data y la infinidad de tecnologías, técnicas y planteamien-tos que lleva asociado dan nuevos puntos de vista y aportan soluciones que hasta el momentono eran viables. Por esta razón se decide buscar una solución que aporte una nueva visiónal modelo de riesgos bancario existente y produzca un beneficio tangible para la entidadfinanciera, el cobro de recibos impagados y la previsión de un impago futuro.

Figura 5.2: Ejemplo de arquitectura en una entidad bancaria

5.1.2 Valoración de la situaciónComo se ha mencionado en capítulos previos y se detallará en la sección 5.2: Compren-

sión de los datos la empresa ficticia banco TFM posee al igual que muchas otras empresasy en particular entidades bancarias una arquitectura muy similar tal y como se muestra en laFigura 5.2. Los datos son obtenidos de las fuentes de información corporativa, son almace-nados en el data warehouse corporativo y posteriormente en datamarts departamentales paraser explotados por equipos de analistas y usuarios con la finalidad de proporcionar informa-ción fiable y actualizada al usuario y que éste pueda tomar decisiones lo más informadasposibles. Los recursos de los que dispone la entidad financiera son la plataforma informa-cional descrita que proporciona una cantidad ingente de datos y los recursos humanos, esdecir, analistas y usuarios que aportan el conocimiento necesario para extraer informaciónvaliosa de esa cantidad de datos. Son estos dos pilares los que hacen posible que se puedamantener a largo plazo un proyecto de minería de datos de la envergadura de este. Existenotro tipo de riesgos asociados que no son técnicos sino de negocio como es el presupuesto, la

36

Page 51: Estudio del análisis de sentimiento en redes sociales para

Comprensión de los datos

prolongación en el tiempo del proyecto o que se haya subestimado los objetivos de negocio,son aspectos a tener en cuenta a lo largo del transcurso del mismo.

5.1.3 Determinación de los objetivos de minería de datosUna vez definido el objetivo de negocio y el estado actual del sistema informacional de

Banco TFM hay que definir los objetivos de minería de datos, traducir los objetivos comer-ciales definidos al inicio de la sección a una realidad de minería de datos, han de ser objetivosconcretos.

Definido el objetivo comercial que consiste en mejorar el actual sistema para la detecciónde morosidad hay que concretar el objetivo de minería de datos, en este caso se ha decidopor la clasificación de los clientes o futuros clientes de la entidad bancaria de acuerdo a suprobabilidad de impago de un préstamo concedido. La clasificación puede ser binaria, elcliente es o no moroso, o pueden existir múltiples grupos intermedios dependiendo de laprobabilidad que el cliente produzca un impago.

La clasificación de los clientes se actualizará constantemente de acuerdo a la informaciónque se vaya recolectando, estableciendo una validez amplia a lo largo del tiempo de al menosvarios meses, de esta manera se consigue consistencia en las predicciones y resistencia aabandonar uno de los grupos de manera súbita a no ser que el cambio sea claro.

A la hora de validar los modelos que se obtendrán en fases posteriores es necesario definiruna meta técnica sobre la que basarse para afirmar que el modelo ha cumplido con los objeti-vos de minería de datos. Los algoritmos de minería de datos suelen tener un acierto de entreel 70 % y el 90 % [CCJ+14], por este motivo se define que para que el modelo sea correctoha de tener un acierto de al menos el 70 % en la clasificación de los clientes y cuanto másse acerque al 90 %, situación optima, mejor será el modelo. Si el modelo cumple todas lascaracterísticas descritas en este apartado se considerará válido y apto para implantarse en lossistemas informacionales de la entidad financiera.

5.2 Comprensión de los datosLa fase de comprensión de datos implica el análisis en profundidad de los datos disponi-

bles en la entidad financiera y la selección de aquellos que sean necesarios para resolver elproblema de minería de datos. Para ello se hará uso de las herramientas disponibles a nivelempresarial o se adquirirán ex profeso para facilitar el estudio de los datos que se tengan adisposición.

5.2.1 Descripción de los datosEn todo sistema informacional existen fuentes de información corporativa de donde se

obtienen los datos con el objetivo de generar información agregada que pueda ser explotadapor los distintos departamentos de negocio. Las fuentes de información tienen procedencia y

37

Page 52: Estudio del análisis de sentimiento en redes sociales para

Comprensión de los datos

formato variado que se agrupan en un único repositorio corporativo para su aprovechamientofuturo. Generalmente las fuentes de información son los sistemas transaccionales u operacio-nales corporativos: enterprise resource planning (ERP), customer relationship management

(CRM), etc. En el caso de una entidad financiera como es Banco TFM los orígenes de datosson las aplicaciones crediticias o de soporte a los préstamos bancarios, información bancariade la cuenta corriente, gastos en tarjetas de crédito y débito, encuestas a clientes, logs de ca-jeros, logs de uso de las aplicaciones web y móvil y un largo etcétera de distintas fuentes deinformación. Asi como es diverso el número de fuentes de información en un data warehouse

corporativo también lo es el tipo de información almacenado en dichas fuentes, que puedenser: bases de datos relacionales, ficheros en texto plano o datos semiestructurados como sonlos ficheros de los cajeros con formato JSON (JavaScript object notation). Dada la variedady cantidad de información que se intenta aprovisionar en el data warehouse la herramientaque carga los datos es del tipo ETL, se encarga de realizar la carga de los datos de maneraestructura y agregada para facilitar la extracción y manipulación de la información.

Los procesos ETL existentes en la entidad financiera son sumamente complejos debido a lacantidad de fuentes de información y a la obligación de mantener la integridad de los datoscontenidos en el data warehouse, siendo la estructura del data warehouse la que facilitael cumplimiento de la integridad y simplificando la explotación y aprovisionamiento delmismo, en este caso el uso de un esquema en forma de copo de nieve [TM06] como elmostrado en la Figura 5.3, que ejemplifica una estructura de modelo ampliamente utilizadaen el ámbito empresarial y que tomaremos como base para el data warehouse de Banco

TFM.

Figura 5.3: Ejemplo de modelo en forma de copo de nieve

Centrándonos en el caso de uso seleccionado, detección de impagos de forma prematu-ra, se hace complicado, tedioso y costoso en recursos concretar un análisis de morosidadaccediendo directamente al data warehouse corporativo es por ello que se diseñan como al-ternativa al data warehouse, datamarts de menor tamaño que el data warehouse corporativoque toman la información necesaria de este. Habitualmente los datamarts solo incluyen los

38

Page 53: Estudio del análisis de sentimiento en redes sociales para

Comprensión de los datos

hechos y dimensiones que vayan a requerirse en el proceso de análisis y generación de in-formes y cuadros de mando. En nuestro caso, existe un datamart exclusivo para la gestiónde la morosidad al ser un departamento con gran importancia en el banco y requerir de grancapacidad para los análisis y ejecuciones de los modelos descriptivos y predictivos de mo-rosidad. Gracias al datamart se puede mostrar al usuario informes y cuadros de mando conlos que podrá conocer el estado actual de los distintos contratos y poder actuar acorde a lainformación que proveen los mismos.

Estos informes muestran datos de los modelos de morosidad definidos por el área de ex-pertos en la materia. Estos modelos definen métricas que por lo general son sencillas encuanto a su relación entre hechos y dimensiones, teniendo en la mayoría de los casos unafuncionalidad descriptiva del estado actual de los clientes de la entidad financiera. En la Fi-gura 5.2 se puede apreciar una representación de como es a grandes rasgos la arquitecturade un sistema informacional compuesto de data warehouse y datamart los cuales están es-tructurados mediante hechos, dimensiones, atributos y métricas que se definen en la fase dedescripción de los datos con el objetivo de crear informes, ya sea a través de peticiones aequipos de analistas y desarrolladores debido a la complejidad del mismo o por los propiosusuarios a través de un sistema de autoservicio, componiendo atributos y métricas según elusuario crea necesario y conveniente.

Provincia Oficina Sexo Número deimpagos

Ingresosmensuales

Recibosdevueltos

Créditos conotras entidades

Sevilla 415 H 0 1.670 41 92.447Pontevedra 415 H 5 1.355 25 163.110

Cadiz 415 M 8 1.525 49 140.197Cantabria 408 M 6 2.356 28 101.107Castellon 415 M 5 1.334 16 2.209Barcelona 510 M 4 2.467 45 81.502Navarra 510 H 10 1.474 35 43.933

Castellon 415 M 4 2.872 40 137.723Santa Cruz de

Tenerife415 H 7 2.210 34 128.731

Ceuta 415 M 9 1.223 2 146.107

Cuadro 5.1: Selección de atributos y hechos

5.2.2 Recopilación y exploración de datos

Las técnicas de minería de datos necesitan un juego de datos inicial etiquetado para poderentrenar el modelo. Parte de los datos provienen de fuentes de información internas, es decir,de aplicaciones de uso diario de la entidad financiera. En el data warehouse existen hechosy atributos disponibles y que son utilizados para hacer análisis de los clientes de la entidadfinanciera; atributos como la provincia, localidad, el sexo, entre otros o hechos como los

39

Page 54: Estudio del análisis de sentimiento en redes sociales para

Preparación de los datos

ingresos mensuales, transferencias, recibos devueltos, etc. en general información que poseela entidad bancaria sobre sus clientes.

Para utilizar como muestra en nuestro modelo se han seleccionado los siguientes atributosy hechos: provincia, oficina, sexo, número de impagos, ingresos mensuales, recibos devuel-tos y créditos con otras entidades. En el Cuadro 5.1 se muestra un ejemplo con los atributosy hechos mencionados.

5.3 Preparación de los datosEsta fase engloba una las tareas más importantes y que más tiempo suelen ocupar, según

los expertos ocupa entre el 50 % y 70 % del trabajo del científico de datos [Cor12]. El juegode datos ha de tener toda la información necesaria para realizar un buen análisis, si se carecede esta información y se escatiman recursos para esta fase se puede poner en peligro losresultados y la calidad del modelo de minería de datos que se vaya a obtener.

5.3.1 Construcción de nuevos datosPara ampliar el alcance del análisis sobre la morosidad se ha decidido hacer uso de la

ingente cantidad de información disponible en redes sociales: Facebook, Twitter, Linkedin.Para haciendo uso de técnicas de análisis de sentimientos y machine learning poder extra-polar nuevas variables que puedan enriquecer el modelo de morosidad ya existente ganandogranularidad y precisión.

El Cuadro 5.2 muestra un ejemplo de nuevas variables obtenidas a través de análisis desentimientos en redes sociales, por ejemplo Twitter. Las variables que se pueden obtener delanálisis de tweets son: tweets de un usuario con mención a la entidad bancaria, número detweets que son positivos, número de tweets negativos y número de tweets neutros.

Usuario Número deseguidores

Megusta

Tweets mencionando laentidad bancaria

Tweetspositivos

Tweetsnegativos

Tweetsneutros

@policia 3.153.460 27.567 10 4 1 5@sanchezcastejon 899.716 3.919 13 8 3 2

@el_pais 6.643.518 1.461 8 8 0 0@lavecinarubia 486.054 202.905 10 7 3 0

@cesaraguirre90 8 2 1 0 1 0

Cuadro 5.2: Selección de atributos y hechos obtenido de redes sociales

5.3.2 Integración de datosA continuación abordaremos un estudio de las diferentes alternativas para la mejora del

modelo actual para la detección temprana de la morosidad a través de métodos y tecnolo-gías asociadas al big data dando un punto de vista desde la integración y ampliación delmodelo y sistema informacional existente. El nuevo modelo para la detección temprana de

40

Page 55: Estudio del análisis de sentimiento en redes sociales para

Preparación de los datos

la morosidad incluye fuentes de información, muy distintas entre sí y pertenecientes o no ala entidad. Las fuentes de datos, tanto nuevas como ya existentes, internas como externas sevan a agrupar en un data lake, tal y como podemos ver en la Figura 5.4.

Figura 5.4: Nueva arquitectura para la solución big data

Lo que se pretende con esta nueva arquitectura es que el equipo de data scientists y engeneral cualquier usuario que necesite acceso a la información corporativa, pueda accedersin problema ninguno al estar centralizada y lista para análisis de cualquier tipo. La nuevaarquitectura permite que la frecuencia del dato sea variable, es decir, aumenta las posibili-dades en que el data lake corporativo puede ser aprovisionado. Para simplificar la casuísticavamos a diferenciar únicamente dos frecuencias distintas: en batch y en tiempo real, los datoscargados en batch se realizan en un único momento, ya pueden ser diarios, semanales o men-suales, la información suele estar agregada y típicamente es el tipo de dato almacenado en eldata warehouse, por otro lado está la información en tiempo real, esta información es volátily no suele estar agregada por lo que es más difícil extraer de este tipo de dato informaciónútil, un ejemplo de información en tiempo real son las redes sociales, que presentan un flujocontinuo de información que ha de ser tratado y almacenado en el momento de su genera-ción o inmediatamente después para poder aprovechar toda la potencia de los algoritmos quehacen uso de dicha información. Otra característica destacable es la interrelación del datopudiendo clasificar la información como estructurada, semiestructurada o no estructurada.Dependiendo de todas estas características del dato, este se almacenará de una manera o deotra dentro del data lake. Este tipo de decisiones las realiza el equipo de científicos del dato,balanceando por un lado la carga de trabajo que produce almacenar la información etiquetada

41

Page 56: Estudio del análisis de sentimiento en redes sociales para

Preparación de los datos

y estructurada y por otro lado optimizar los tiempos de extracción de los datos para reducirlos tiempos de ejecución de informes y análisis.

El sistema informacional ya existente en la entidad bancaria, el data warehouse, no puededejar de utilizarse y sustituirse completamente por el nuevo data lake, es más, gran cantidadde los procesos empresariales de la entidad financiera están sustentados por el propio data

warehouse y sería catastrófico que el data warehouse dejase de funcionar, es por eso que lasolución más común y la que se va a analizar en este estudio es una solución híbrida en laque coexisten ambos sistemas e idealmente se retroalimentan el uno al otro. De esta mane-ra existirá un data lake que permita al equipo de data scientist realizar analítica avanzaday minería del dato y por otro lado el data warehouse corporativo en donde los equipos debusiness intelligence y analytics puedan proporcionar al usuario los informes y cuadros demando necesarios para el día a día. La arquitectura del sistema informacional empresarialquedaría tal y como se muestra en la Figura 5.4, gran variedad de fuentes de información,un data warehouse conviviendo con un data lake y los distintos equipos análisis con accesoa cada uno de ellos con la finalidad de proveer al usuario de la información necesaria y su-ficiente para tomar una decisión correctamente informada. La solución híbrida seleccionadapresenta desventajas e inconvenientes, tener en funcionamiento dos sistemas informaciona-les a la vez implica riesgos y costes que normalmente se asumen por la empresa, pero quehan de tenerse en cuenta a la hora de acometerse proyectos de este calibre. Los proyectos queimplican cambios en la arquitectura del sistema informacional se suelen implantar de maneraprogresiva, comenzando con funcionalidad mínima que en fases posteriores se incrementahasta conseguir el resultado final, CRISP-DM se ajusta perfectamente a este tipo de divisiónde proyecto ya que permite alternar entre fases.

Provincia Oficina Sexo ... Tweetsmencionando la

entidad bancaria

Tweets positivos Tweetsnegativos

Sevilla 415 H ... 4 1 3Pontevedra 415 H ... 8 3 2

Cadiz 415 M ... 8 0 0Cantabria 408 M ... 7 3 0Castellon 415 M ... 4 3 3Barcelona 510 M ... 9 0 2Navarra 510 H ... 4 2 3

Castellon 415 M ... 10 2 0Santa Cruz de

Tenerife415 H ... 8 3 2

Ceuta 415 M ... 6 0 1

Cuadro 5.3: Selección de atributos y hechos combinado con información de redes sociales

Como resultado de la integración entre orígenes de datos internos y externos se ha creadoun conjunto de datos objetivo que será analizado por una herramienta específica de machine

42

Page 57: Estudio del análisis de sentimiento en redes sociales para

Modelado

learning. Los datos aúnan información interna procedente originalmente de la entidad ban-caria e información proveniente del nuevo análisis de sentimientos en redes sociales dandocomo resultado un conjunto de hechos y atributos como el que se puede ver en el Cuadro 5.3donde se muestra un ejemplo. El juego de datos que se utilizará para el entrenamiento dela herramienta machine learning se ha creado de manera manual con información aleatoriapero siguiendo el sentido común para crear un juego de datos con sentido y del que se puedanextraer conclusiones a partir de un modelo de minería de datos. Para que el entrenamientodel modelo origine algo con sentido y no sea producto de información aleatoria se ha creadoel atributo objetivo mora, que define si un cliente es moroso o no, este atributo se ha creadode manera que relacione el resto de columnas de manera precisa y no sea producto de laaleatoriedad del juego de datos.

5.4 ModeladoEn esta fase se obtienen los modelos de minería de datos basados en los datos recolectados

en la fase previa. Los modelos son producidos a través de múltiples iteraciones en donde sevan refinando hasta obtener el resultado esperado, que coincide con el objetivo de minería dedatos descrito al inicio del capítulo: clasificación de clientes según la morosidad.

5.4.1 Selección de técnicas de modelado: Análisis de sentimientosDentro de la arquitectura mostrada en la Figura 5.4 el siguiente elemento contiguo al data

lake es el de analítica avanzada, este módulo incluye infinidad de técnicas, métodos y tecno-logías, todos con un único fin, el de extraer nuevos patrones, variables y asociaciones entreellos que en un principio no sería posible. Con el objetivo final de enriquecer y mejorar elmodelo de morosidad ya existente se aplican técnicas de machine learning para extraer delas fuentes de datos las nuevas variables que definirán qué cliente puede ser moroso y podersegregar de una manera clara los clientes morosos de los que no lo son. Las técnicas de ma-

chine learning aplicables en el caso de uso que nos corresponde que es el de la morosidadpodría ser el algoritmo a priori y los árboles de decisión para establecer asociaciones entrevariables y mejorar la clasificación de clientes con impagos como morosos potenciales, am-bas técnicas solamente hacen uso de la información proveniente de sistemas internos y node fuentes de información externas como vimos en la arquitectura definida previamente, espor esto por lo que el estudio se centrará en analizar otra aproximación distinta para la me-jora del modelo de riesgos bancario: el análisis de sentimientos, consistente en un conjuntode técnicas utilizadas para el análisis de textos y la extracción de los mismos opiniones eideas, este algoritmo analizará los textos recopilados de redes sociales para extrapolar de losmismos la situación financiera de los usuarios de manera agregada por regiones, edad, sexo,etc. . .

Como se pudo ver en el capítulo 3: Antecedentes existen múltiples enfoques a la hora dellevar a cabo el análisis de sentimientos tal y como muestra la Figura 3.2, existen dos grandes

43

Page 58: Estudio del análisis de sentimiento en redes sociales para

Modelado

grupos: análisis de sentimientos basados en el lexicogramas y los basados en machine lear-ning. Al ser tan numerosa la cantidad de técnicas de análisis de sentimientos, para tomar unadecisión correcta lo mejor es hacer una comparativa de las más utilizadas hasta el momentoy una vez analizados pros y contras elegir la que mejor se adapte a las peculiaridades delproyecto. Para llevar a cabo la comparación entre las distintas técnicas nos basamos en el ar-ticulo [CCJ+14], este artículo en concreto se centra en los comentarios acerca de productos,es decir, la opinión que tienen los usuarios o compradores del mismo. Aunque la aplicaciónpara el análisis de sentimientos no es el mismo, se puede extrapolar a nuestro caso de usoel resultado del estudio; se definen seis casos de uso que se pueden resumir de la siguientemanera:

Clasificación de sentimientos para criticas online de clientes usando léxico contextualen las estructuras de oraciones

Este tipo de análisis no pertenece ni al grupo con enfoque basado en lexicogramas nial de machine learning, se ejecuta en tres partes. Primero se divide el documento enoraciones, a continuación se extrae la polaridad de cada palabra de la oración basadoen el propio contexto que tiene dicha palabra en la oración y por último se clasificanlas oraciones de acuerdo a si son objetivas o subjetivas. Una vez clasificadas las pala-bras, se cruza esa información con el diccionario semántico SentiWordNet [Sen] paraasociar una puntuación a la palabra a fin de decidir si la crítica fue positiva o negativa.

Combinación de lexicogramas y machine learning basado en análisis de sentimientoscon enfoque a nivel concepto

Al contrario que el enfoque anterior, este consiste en una mezcla de análisis léxico ymachine learning. El algoritmo parte de un pre-proceso del documento donde se elimi-na ruido y se dividen las palabras, estas se agrupan obteniendo aspectos/característicasy adjetivos sobre esas características(views) con esta tupla el algoritmo basado en lé-xico le da valor a cada una de los aspectos para que el algoritmo de machine learningpueda finalmente analizar y dar un sentido concreto a la opinión.

Interdependent Latent Dirichlet Allocation(ILDA)

Este método asume que existe interdependencia entre un aspecto o característica y lavaloración que se hace de la misma. Se trata de un modelo probabilista gráfico querepresenta cada crítica como una mezcla de características y valoraciones, así cadaítem es modelado como una mezcla finita sobre un conjunto de variables.

Un modelo mixto de minería de características y análisis de sentimientos para la cla-sificación de críticas

El modelo intenta agrupar las opiniones en tres categorías midiendo la polaridad y laintensidad de la propia opinión. Consta de los siguientes pasos: Primero se identifi-can los aspectos y características más importantes, se marcan las frases que contengan

44

Page 59: Estudio del análisis de sentimiento en redes sociales para

Modelado

dichos aspectos; se estima la polaridad e intensidad y por último se calcula la pun-tuación asociada a dicha frase. En este último paso se propone el uso de vectores deintensidad del aspecto para definir la polaridad, intensidad y relevancia de la opinión,mientras que la clasificación de la opinión puede ser analizada por cualquier algoritmode machine learning.

Extractor de opinión

Este método es un ejemplo de un método de machine learning no supervisado. Laparticularidad del mismo reside en que necesita como fuente un conjunto de caracte-rísticas del producto que sirvan como guía para las valoraciones. Con este conjunto elalgoritmo se inicia en dos fases, la primera con un conjunto de entrenamiento gran-de y las características mencionadas previamente, se extraen otras características quepotencialmente pueden ser un aspecto, si esto se confirma se pasa a la segunda fase.En la segunda fase en cada frase se busca su aspecto en el diccionario WordNet paraasociar un valor teniendo en cuenta el aspecto que tiene asociado. Este método tienela peculiaridad de que cuanto más información procese mejora la exactitud.

Clasificación de aspectos latentes en críticas: Un enfoque de regresión en clasificaciónde críticas

Este método se basa en estimar la valoración y énfasis en los diferentes aspectos de lacrítica. El algoritmo se inicia con la segmentación y asociación de cada aspecto conlas palabras de la valoración, construyendo un diccionario en el que además se asociacada frase de la valoración con un aspecto. En el siguiente paso se aplica un modelo deregresión bayesiana para resolver el problema asignando pesos a los distintos aspectoslocalizados en la valoración.

En el cuadro 5.4 se expone una comparativa de los seis métodos descritos previamente, consus pros y contras y la precisión asignada al método descrito en el articulo [CCJ+14]. Unavez analizado el cuadro hay que seleccionar el método que sea más apropiado para nuestrocaso de uso, detección temprana de la morosidad, como ya se ha explicado previamente estosmétodos se definieron específicamente para sistemas de opiniones sobre productos pero ennuestro caso se extrapola al caso de uso que nos concierne.

En el cuadro 5.4 se muestra un conjunto de métodos de análisis de sentimientos represen-tativo del panorama actual, que destaca por la variedad de enfoques a la hora de resolver elmismo problema. Si bien es cierto que los más extendido según el artículo [CCJ+14], sonaquellos que se encuentran en el campo del machine learning, necesitan un conjunto de da-tos con un gran volumen de información para el entrenamiento, que por lo general cuesta ungran trabajo conseguir, pero una vez está disponible la precisión es muy alta. Es por esto porlo que utilizar un método que combine enfoques léxico y machine learning es el más acer-tado para nuestro caso, partiendo de un léxico propio y con algoritmos de machine learning

45

Page 60: Estudio del análisis de sentimiento en redes sociales para

Modelado

Método Enfoque Pros Contras Precision

1.Método basadoen reglas

Frase Independiente deldominio y está ba-sado en reglas

Depende de Word-Net

91 %Documento86 %Frase

2.Combinaciónléxico y machinelearning

Documento Simbiosis Léxico/-machine learningno es sensible acambios en el tema

Si el documentotiene mucho ruidose asigna un valorneutro, falla al de-tectar sentimientos

N/A

3.Modelo probabi-lista gráfico

Documento Trabaja bien conproblemas bien de-finidos

Necesita de unmodelo supervisa-do para funcionarcorrectamente

73 %

4.Machine lear-ning

Documento Tiene en cuenta laintensidad de laopinión así comosu relevancia

Depende de Word-Net

71.7 %

5.Machine lear-ning no supervisa-do

Frase Usa un conjuntoguía para determi-nar aspectos

Necesita del con-junto guía previoy esta basado enWordNet

N/A

6.Modelo de regre-sión

Frase Usa un modelo no-vedoso, la clasifi-cación no se obtie-ne directamente delas palabras sino delos aspectos

No hay mejoras delrendimiento, es ne-cesario conocer losaspectos

N/A

Cuadro 5.4: Comparativa entre métodos de análisis de sentimientos para la evaluación de lareputación

se consigue dar peso a cada una de las opiniones volcadas en redes sociales, por otro lado ygracias a la cantidad de datos que generan las redes sociales el machine learning puede serconfigurado para que cuanto mayor sea el volumen de información que procesa el algoritmomayor sea la precisión del mismo, permitiendo incluso la segregación de los comentarios enredes sociales por tipo de usuario, es decir, género, lugar/geoposición, edad, relevancia delusuario, etc. Elegir un modelo de análisis de sentimientos no quiere decir que sea la únicaaproximación que se vaya a emplear, al estar en continua evolución las tecnologías y méto-dos se prevé que sean varios los métodos utilizados para la generación de nuevas variablesque mejoren el modelo de riesgos actual.

5.4.2 Selección de herramientas de modeladoEn este apartado se presentan varias herramientas que permiten producir un modelo machi-

ne learning que solvente de manera fiable un problema de minería de datos bien definido. Sehan seleccionado tres herramientas con distintos enfoques en su manera de abordar el machi-

ne learning con la finalidad de tener un amplio abanico de opciones y escoger la herramienta

46

Page 61: Estudio del análisis de sentimiento en redes sociales para

Modelado

que más se ajuste a las necesidades del proyecto, ha de tener una curva de aprendizaje que nosea muy pronunciada para acelerar la creación de prototipos y muestras al usuario y por otrolado ha de ser escalable para que a nivel empresarial permita manejar grandes volúmenes deinformación. [Ote] Las herramientas seleccionadas son:

Apache Mahout. Es un framework de software libre incluido en la plataforma Ha-doop, originalmente se basaba en el algoritmo MapReduce aunque en las últimas ver-siones después de una importante actualización se apoya en el motor de big data Sparkpara crear modelos machine learning. Soporta una gran variedad de algoritmos de cla-sificación, clustering, recomendadores... lo que lo convierte en una herramienta ver-sátil mientras que gracias a la plataforma Hadoop y a Spark se logra la capacidad deprocesamiento, robusted y escalabilidad. [And17]

Matlab & Simulink. La herramienta por excelencia para análisis matemático y esta-dístico, Matlab, ha evolucionado de tal manera que ha creado de manera paralela unaplataforma que permite explorar, analizar y visualizar grandes volúmenes de datos, detal manera que se utiliza para crear modelos de minería de datos. Tiene como ventajaque es muy conocido por matemáticos y estadistas, debido a su popularidad, a la can-tidad de años que lleva en el mercado y a su sencillez de uso, con unas pocas líneas decódigo se pueden crear algoritmos complejos. Por contra, los scripts que genera sondifícilmente escalables y si se quiere re-implementar con otras herramientas pierdeprecisión. [Mat]

BigML. Es una de las tantas herramientas que existen como servicios machine lear-

ning en cloud. Por un lado ofrece las ventajas de ser un servicio en la nube, lo queimplica flexibilidad y escalabilidad. Es una herramienta con una fuerte comunidadpor detrás, al igual que Apache Mahout, y proporciona gran cantidad de formación ycursos tanto específicos como genéricos de machine learning. Por contra, las herra-mientas basadas en servicios en la nube son opacos en cuanto a su funcionamiento ygeneralmente son restrictivos en lo que se refiere a su uso. Otros servicios similaresson: Google Prediction API, wise.io, Swift IQ, Skytree o Platfora. [Big]

Cualquiera de las tres opciones es válida para crear un modelo que resuelva el problemadescrito, se ha decidido utilizar BigML por los siguientes motivos: No es necesario compraruna licencia siempre y cuando no se haga un uso empresarial de la misma, lo que es unaventaja a la hora de realizar prototipos y validar si la herramienta cumple con nuestras ex-pectativas. Existe infinidad de formación en la web de la herramienta lo que facilita la curvade aprendizaje, la propia empresa oferta formación presencial con la colaboración de Uni-versidades como es la Universidad Politécnica de Valencia lo que otorga a la herramienta ungrado alto de confianza. Por último, la herramienta genera visualización de los modelos demanera automática, favoreciendo el prototipado rápido de los modelos.

47

Page 62: Estudio del análisis de sentimiento en redes sociales para

Modelado

5.4.3 Generación de los modelosA lo largo del capítulo se han descrito las características que ha de cumplir nuestro modelo

para resolver una tarea específica, clasificación de los clientes de la entidad bancaria endos grupos, morosos y no morosos. Para ejemplificar el proceso de minería de datos se haseleccionado la herramienta BigML que además de permitir su uso de manera libre con finesacadémicos, dispone de un conjunto amplio de formación en su página web [Big]. Para ladefinición del modelo, el primer paso consiste en identificar las variables que definen alusuario y su relación con la entidad bancaria, para simplificar el caso de uso solo se van adescribir un número bajo de variables, teniendo en cuenta que a medida que se incrementaeste número y mejor estén relacionadas entre sí, el algoritmo funcionará mejor, las variablesdefinidas son: provincia, oficina bancaria, sexo, número de impagos, ingresos mensuales,recibos devueltos, créditos con otras entidades, tweets con foco en la entidad bancaria, tweetsclasificados con orientación positiva, tweets clasificados con orientación negativa, tweetsneutros y mora del cliente. Para entrenar el modelo, se le tiene que introducir un conjuntode datos de prueba, este ha de incluir una columna objetivo, es decir, información que estáetiquetada y que posibilita el entrenamiento del algoritmo, ese atributo en nuestro ficheroes la columna mora, el fichero quedaría tal y como se indica en la Figura 5.5. El ficherotiene más de 3000 registros, suficientes para entrenar y validar el algoritmo, donde cadafila representa a un usuario de Twitter que ha realizado comentarios en redes sociales sobreBanco TFM, ya sean positivos o negativos.

El primer paso dentro de la herramienta BigML sería introducir el fichero de entrenamien-to. Debido a la necesidad de validar el modelo se ha decido particionar el fichero en dossubconjuntos, el primero con 300 registros utilizados en el entrenamiento del modelo y unsegundo fichero con el resto de registros, aproximadamente 3000, para comprobar la validezdel modelo y precisar la exactitud del modelo, confirmando de esta manera si los mode-los que se generen al final del proceso cumplen o no con los objetivos de minería de datosdescritos al inicio del ciclo de vida.

Una vez introducidos los datos de entrenamiento en la herramienta, y habiendo verificadoque no existen errores, la herramienta permite validar el formato y la calidad del dato antesde comenzar con el proceso de modelado, seleccionamos los modelos que se van a generar.Después de la validación del dato, se selecciona el tipo de modelo que queremos generar ycomenzamos con el entrenamiento de los modelos. Los modelos que se generen en esta fasehan de cumplir con el objetivo de minería de datos, clasificar a los clientes de manera quepodamos diferenciar a los clientes morosos de los que no lo son, para ello BigML permiteseleccionar entre una amplia variedad de tipologías de modelos tanto supervisados como nosupervisados, de entre los modelos supervisados se ha decidido por el árbol de decisión alser un algoritmo que facilita la clasificación de elementos y la predicción, de manera similarse creará un modelo ensembles, por otro lado se ha decidido implementar un modelo no

48

Page 63: Estudio del análisis de sentimiento en redes sociales para

Modelado

Figura 5.5: BigML: Fichero de entrenamiento

supervisado de tipo association discovery, de esta manera se puede identificar que tipo dealgoritmo es más efectivo para el problema de minería de datos que vamos a solventar, laclasificación de elementos.

Con el dataset creado al 100 % y decido el tipo de modelo que vamos a crear y la variableobjetivo en la predicción de nuestro modelo, la mora, el siguiente paso es el de entrenarel modelo con nuestro dataset, seleccionamos dentro del grupo de modelos supervisados laopción MODEL tal y como se muestra en la Figura 5.6, la herramienta creará un modelodel tipo árbol de decisión con los datos que introdujimos al inicio, dicho modelo incluye lasnuevas relaciones que el sistema ha detectado entre variables.

Con el modelo creado, la herramienta permite hacer una predicción de un caso concreto,es decir, dado un valor conocido para las distintas variables definidas en el modelo, pro-nosticar si un cliente con esas características es moroso o no y con qué probabilidad va apertenecer al grupo designado. En la Figura 5.7 se puede apreciar de manera gráfica comoestá distribuido el árbol de decisiones y sus posibles resultados, por ejemplo que las mujerescon menos de cinco impagos tienen una probabilidad del 97.73 % de no ser morosa es decir,un probabilidad muy baja de morosidad.

49

Page 64: Estudio del análisis de sentimiento en redes sociales para

Modelado

Figura 5.6: BigML: Selección de modelo supervisado

La herramienta BigML permite hacer el camino inverso, es decir, dado un cliente conuna serie de características predecir con que probabilidad el cliente será o no moroso. En elsiguiente ejemplo se define un cliente con las siguientes características:

Número de impagos = 6

Créditos con otras entidades = 200.000

Tweets positivos = 0

Sexo = (M)ujer

Como se puede apreciar en la Figura 5.8 se ha clasificado al cliente en el grupo comoMoroso, con una probabilidad alta 80.64 %.

Sin embargo si las respuestas son otras, el modelo tiende a no ser tan exacto, como enla Figura 5.9 que solo proporciona un 20.65 % de confianza. Esto es debido a que el juegode datos para el entrenamiento es pequeño, en relación con la cantidad de registros que senecesitan para entrenar un modelo.

De la misma manera que se ha generado el árbol de decisión se crea un modelo de tipoensembles, con esto lo que se consigue es crear varios modelos del tipo árbol de decisión

50

Page 65: Estudio del análisis de sentimiento en redes sociales para

Modelado

Figura 5.7: BigML: Modelo supervisado

Figura 5.8: BigML: Predicción 1 modelo supervisado

con distintos subconjuntos de información, de manera una vez generados los modelos, ennuestro caso son diez, las predicciones de estos modelos son agrupadas para generar unaúnica predicción, que tiende a ser más precisa que las partes por separado al estar producidapor más información. En la Figura 5.10 se puede ver el resultado del modelo, en los ejesX e Y se han puesto las variables que más afectan en la predicción del modelo: número deimpagos y créditos con otras entidades, y en la parte derecha se ha seleccionado la variablerecibos devueltos, de esta manera la herramienta permite visualizar la relación que existeentre las variables analizadas, que variables están interrelacionadas y cuales son indiferentespara la predicción.

51

Page 66: Estudio del análisis de sentimiento en redes sociales para

Modelado

Figura 5.9: BigML: Predicción 2 modelo supervisado

Figura 5.10: BigML: Modelo basado en ensembles

OptiML es una funcionalidad de BigML de reciente lanzamiento que ofrece la posibilidadde seleccionar de manera automática el mejor modelo supervisado orientado a tareas declasificación y regresión [Opt]. OptiML crea y evalúa de manera automática varios modelossupervisados (árboles de decisión, ensembles, regresiones y deepnets), para cada tipo demodelo la herramienta genera una configuración diferente, de manera que como resultado seobtiene el mejor modelo con una configuración optima.

Como resultado de ejecutar OptiML sobre el dataset de entrenamiento se han generadoun total de 249 modelos distintos, de los cuales han resultado válidos 65. Tal y como se

52

Page 67: Estudio del análisis de sentimiento en redes sociales para

Modelado

aprecia en la Figura 5.11 el candidato vencedor ha sido: bootstrap decision forest, 26-node,

44-model, deterministic order, aunque se han generado modelos válidos de otros tipos, lamayor parte de ellos han sido ensembles lo que da una idea de la potencia de este tipo dealgoritmo.

Figura 5.11: BigML: Modelos candidatos generados con OptiML

Figura 5.12: BigML: Importancia de las variables en los modelos

BigML proporciona información adicional del modelo, en concreto la información que nosinteresa es la importancia de cada variable en el modelo, de esta manera podemos describir larelación entre variables, cual de ellas nos proporciona más información sobre la morosidaddel cliente y cual podría ser prescindible en la creación del modelo, en la Figura 5.12 sepuede apreciar esta información para el modelo de ensembles, en el Cuadro 5.5 se encuentrauna comparativa de la importancia que toman las variables en cada uno de los tres modelossupervisados que se han generado: Árboles de decisión, ensembles y ensembles producido apartir de la funcionalidad OptiML. Las variables toman relevancia dependiendo del modelo,

53

Page 68: Estudio del análisis de sentimiento en redes sociales para

Modelado

de manera general se puede afirmar que las variables créditos con otras entidades y númerosde impagos son las más relacionadas con la morosidad del cliente.

Variables Árbol de decisión Ensembles Ensembles&OptiML

Numero Impagos 0.32673 0.18588 0.22671Creditos con otras entidades 0.19681 0.23872 0.23374Sexo 0.14936 0.10112 0.12109Tweets Negativos 0.10904 0.09253 0.08709Tweets Positivos 0.09754 0.11479 0.10421Ingresos mensuales 0.06893 0.03754 0.04879Tweets Mención Entidad Bancaria 0.03312 0.05259 0.04303Oficina 0.01046 0.00365 0.02481Recibos devueltos 0.00802 0.15857 0.09537Tweets Neutros ..... 0.01461 0.01517

Cuadro 5.5: Resumen de la importancia de las variables en los modelos

Los modelos supervisados que hemos tratado hasta el momento cumplen con su tarea ala perfección, crear modelos que permitan la clasificación de los elementos de acuerdo aun valor objetivo, es decir, necesitan de un juego de datos etiquetado para poder realizar laclasificación. Sin embargo cuando este conjunto de datos etiquetado no es posible obtenerlo,normalmente por ser muy costoso, se utilizan las técnicas no supervisadas para realizar otratipo de análisis, en general tratando de descubrir relaciones entre atributos o elementos quemediante un análisis básico no es posible evidenciar. El tipo de modelo no supervisado quese ha seleccionado es association discovery, el objetivo de este modelo es el de descubrirasociaciones entre los datos, de manera que se obtiene una mayor conocimiento del juego dedatos que nos oriente para futuros análisis.

Para generar el modelo association discovery se ha de seleccionar inicialmente el datasetsobre el que queremos hacer el análisis, se ha decidido realizar el análisis sobre el datasetcompleto con 3000 registros al no ser posible validar un modelo no supervisado. El siguientepaso consiste en configurar el tipo de modelo que queremos: 1-Configure Unsupervised -

>ASSOCIATION, creandose un modelo como el que podemos ver en la Figura 5.13, se haaumentado el valor mínimo de la variable leverage a 4.6 en la visualización para apreciarsolamente las relaciones más importantes.

Las asociaciones mostradas por el modelo association discovery son del tipo si se cumplela condición A entonces ocurre el evento B, este tipo de correlaciones incluyen dos o másatributos donde la correlación entre el antecedente A y la consecuencia B son medidas porBigML mediante cinco métricas:

Coverage. Es el porcentaje de instancias(filas) del conjunto de datos que cumplen conel antecedente.

54

Page 69: Estudio del análisis de sentimiento en redes sociales para

Modelado

Figura 5.13: BigML: Modelo no supervisado

Support. Es el porcentaje de instancias(filas) del conjunto de datos que cumplen conel antecedente y la consecuencia al mismo tiempo.

Confidence. Es el porcentaje de instancias(filas) del subconjunto del antecedente ycumplen con la consecuencia.

Leverage. Métrica que define la probabilidad en donde antecedente y consecuenciaocurren de manera más frecuente que si fuesen independientes. Cuando toma valo-res mayores que 0 significa que existe una correlación positiva y cuando son valoresmenores que 0 existe correlación negativa.

Lift. Métrica que define el número de veces que es más probable que ocurra la con-secuencia cuando ocurre el antecedente. Cuando toma valores mayores que 1 significaque existe una correlación positiva y cuando son valores menores que 1 existe correla-ción negativa.

A parte del gráfico mostrado en la Figura 5.13, BigML proporciona una lista de las dis-tintas asociaciones obtenidas mediante el modelo y evaluadas por las cinco métricas listadasen el párrafo anterior, en el Cuadro 5.6 se aprecia un resumen de las diez mejores relacionesordenadas por la métrica Leverage.

Para más detalle se han exportado los modelos, estos se encuentran en forma de anexo alfinal de la memoria. El modelo árbol de decisión se han exportado con formato Tableau, endonde se pueden apreciar las reglas que lo componen (Anexo A). Para los modelos de tipoensembles se ha exportado el código Python que permite enlazar al modelo a través de libre-rías (Anexos B y C), se ha tomado está decisión en vez de utilizar las reglas Tableau porquelos modelos ensembles están formados de hasta 44 árboles por lo que no sería ni práctico ni

55

Page 70: Estudio del análisis de sentimiento en redes sociales para

Modelado

Antecedente Consecuencia Coverage % Support % Confidence Leverage Lift

Recibos devueltos<= 3

Numero Impagos<= 0

0.18958 0.1665 0.87826 0.07637 1.84727

Numero Impagos<= 0

Recibos devueltos<= 3

0.47544 0.1665 0.35021 0.07637 1.84727

Recibos devueltos>16

4 <Numero Impa-gos <= 7

0.19189 0.09331 0.48625 0.06123 2.90889

4 <Numero Impa-gos <= 7

Recibos devueltos>16

0.16716 0.09331 0.55819 0.06123 2.90889

Tweets Positivos <=0

Tweets MenciónEntidad Bancaria<= 4

0.22189 0.1065 0.47994 0.05082 1.91282

Tweets MenciónEn-tidad Bancaria <= 4

Tweets Positivos <=0

0.25091 0.1065 0.42444 0.05082 1.91282

1 <Numero Impa-gos <= 4

9 <Recibos devuel-tos <= 16

0.17474 0.09199 0.52642 0.05079 2.23303

9 <Recibos devuel-tos <= 16

1 <Numero Impa-gos <= 4

0.23574 0.09199 0.39021 0.05079 2.23303

Numero Impagos>7

Recibos devueltos>16

0.08605 0.0666 0.77395 0.05009 4.0333

Recibos devueltos>16

Numero Impagos>7

0.19189 0.0666 0.34708 0.05009 4.0333

Cuadro 5.6: BigML: Relaciones entre métricas obtenidas mediante el modelo associationdiscovery

estético incluirlo de esta manera en la memoria, por último el modelo de tipo associationdiscovery se ha exportado a un cuadro las 100 reglas que lo componen (Anexo D). En laversión digital se incluira una versión de todos los modelos en formato Python y PMML: unlenguaje basado en XML donde se definen el conjunto de reglas que componen el modelo,utilizable por multitud de herramientas no solamente BigML, de esta manera se puede entraren detalle de los modelos en caso de ser necesario.

5.4.4 Evaluación de los modelosUna vez generados los modelos, el siguiente paso trata de validar la fiabilidad de los mode-

los y si estos cumplen con los requisitos de minería de datos descritos al inicio del capítulo,los modelos supervisados se pueden evaluar ya que se dispone de datos etiquetados para elentrenamiento del mismo mientras que los modelos no supervisados como es el de asso-

ciation discovery se utilizan cuando no se dispone de datos etiquetados sino que se quierenobtener relaciones entre variables sin una finalidad concreta, por este motivo no es posiblevalidar el modelo no supervisado de tipo association discovery. Para la tarea de validación, laherramienta BigML incluye la funcionalidad de evaluar el modelo proporcionando un juegode datos para la evaluación. Esta funcionalidad además de permitirte valorar la fiabilidad delmodelo, da información que puede ser muy útil para descubrir como configurar, mejorar y

56

Page 71: Estudio del análisis de sentimiento en redes sociales para

Modelado

en última instancia afinar el modelo para que cumpla con las especificaciones requeridas. Enlas Figuras 5.14, 5.15 y 5.16 se muestra el resultado de analizar los modelos supervisadoscreados previamente con un fichero con la misma estructura que el usado para entrenar elmodelo pero con distintos registros, un total de 3000. El análisis de los modelos incluye in-formación muy relevante para el analista proporcionándole conocimiento sobre los modeloscon el fin de conocer su comportamiento en situaciones reales. Como se puede observar enlas Figuras 5.14, 5.15 y 5.16 la precisión de los modelos es realmente alta entre 92.5 % y93.4 %, de manera que el modelo obtenido mediante la funcionalidad OptiML es que mayorprecisión ofrece, siendo suficiente para afirmar que se han cumplido los objetivos de mineríade datos de manera satisfactoria.

Figura 5.14: BigML: Evaluación modelo Árbol de decisión

Figura 5.15: BigML: Evaluación modelo ensembles

57

Page 72: Estudio del análisis de sentimiento en redes sociales para

Evaluación

Figura 5.16: BigML: Evaluación modelo ensembles mediante OptiML

5.5 EvaluaciónEsta fase trata de valorar en qué grado los modelos obtenidos cumplen con lo descrito en

los requisitos de negocio. Al inicio del capítulo se fija como objetivo mejorar el actual mode-lo de riesgos existente en la entidad bancaria, un modelo basado en algoritmos y estadísticasbien conocidos en el sector, la mayor parte de los mismos ciertamente desactualizados yanticuados. Con los dos nuevos modelos obtenidos se cumplen los objetivos comerciales dedos maneras distintas. Con el modelo supervisado se obtiene una manera de agrupar y clasi-ficar los clientes de la entidad bancaria en dos grandes grupos relacionados fuertemente conla probabilidad del cliente de impagar un préstamo concedido, este modelo de minería dedatos supervisado proporciona al usuario de la aplicación de riesgos de la entidad bancariainformación extra sobre el estado financiero del cliente o grupos de clientes a analizar. Elmodelo no supervisado association discovery aporta a los analistas de minería de datos y engeneral a todos los analistas del departamento de business intelligence y analytics relacionesentre variables que a primera vista no son claras y que pueden tener sentido funcional y guiaral equipo de analistas a producir nuevas métricas y atributos con esta información.

Valorado el resultado obtenido en la fase de modelado desde un punto de vista de negocio,el siguiente paso sería el de distribuir entre las personas interesadas el fruto de todo esteanálisis que tanto tiempo y recursos ha consumido, para ello la forma más común de distribuirlos resultados es a través de informes compuestos de las métricas generadas en el proceso,estos informes se detallan en la fase distribución, descrita en la sección 5.6:Distribución:Informes Descriptivos/Predictivos/Prescriptivos.

Los modelos no son perfectos, tienen capacidad de mejora, por este motivo se ha de pla-nificar para futuras fases iteraciones sobre los mismos para mejorarlos. Desde el punto devista del científico de datos existen dos maneras para mejorar la precisión de los modelos, la

58

Page 73: Estudio del análisis de sentimiento en redes sociales para

Distribución: Informes Descriptivos/Predictivos/Prescriptivos

primera consiste en aumentar la ingesta de información para perfeccionar el modelo, cuantosmás datos etiquetados analice el modelo mayor será la exactitud del mismo y por otra partemodificar poco a poco las variables que configuran el modelo, eliminar posibles datos quehagan ruido y perjudiquen el modelo, de esta manera se mejora la precisión del mismo. Ysegundo, aumentar el modelo creando nuevas columnas o variables y análisis sobre el jue-go de datos inicial, de esta manera se pueden diseñar análisis más complejos y con mayorvalidez de cara a su aplicación en el negocio.

5.6 Distribución: Informes Descriptivos/Predictivos/PrescriptivosGracias al análisis de sentimientos y machine learning presentados en la capa de analítica

de negocio (Figura 5.4) se han podido extraer nuevas variables que permiten análisis que has-ta el momento no eran posibles. Las nuevas variables y sus relaciones entre ellas se describendespués de mucho esfuerzo por el conjunto de analistas detrás del equipo de data scientist,por un lado variables financieras asociadas al cliente: Varianza de los ingresos, número derecibos devueltos, nómina en caso de ser cliente, créditos con otras entidades. Por otro ladovariables extraídas del análisis de sentimientos en redes sociales: estado financiero, viajes aotros países, geolocalización, opinión sobre la entidad bancaria y problemas sobre la misma,edad, sexo, etc.

La información que se obtiene de manera agregada de redes sociales podría convertirseen indicadores de morosidad de una entidad concreta. Imaginemos el caso específico de unaciudad de tamaño medio, como puede ser Bilbao, donde los tuits de los residentes de unbarrio del extrarradio constantemente aluden a falta de liquidez o escasez de capital. Estainformación cruzada con la información de los sistemas operacionales de la entidad bancariapuede ofrecer al director de oficina, al agente comercial o en niveles superiores informaciónclave para no ofertar un tipo de producto en una oficina ya que hay un gran riesgo de moro-sidad en dicho barrio. La propia herramienta podría predecir en qué sucursales de España untipo de producto por sus características puede funcionar y en un estadio avanzado de desa-rrollo prescribir la comercialización de un tipo de producto que provoque el mínimo riesgoasumible por la entidad, evitando así la comercialización de productos con un ratio alto deriesgo en el caso concreto.

En el mercado existen multitud de soluciones en las que haciendo uso de la capacidadanalítica de las herramientas big data permiten realizar informes predictivos y prescriptivos,es decir, uniendo las nuevas variables y las relaciones detectadas en el proceso de análisisde sentimientos y las herramientas de reporting avanzado, es posible diseñar y crear estaclase de informes. Tal y como se ha ejemplificado con el uso de la herramienta BigML[Big]que realiza predicciones y prescripciones a través del machine learning. Las herramientasde análisis avanzado, como es BigML a menudo se combinan con otras que permiten la vi-sualización de las predicciones conseguidas a través de la herramienta de análisis avanzado,

59

Page 74: Estudio del análisis de sentimiento en redes sociales para

Distribución: Informes Descriptivos/Predictivos/Prescriptivos

Figura 5.17: Ejemplo de informe usando Microstrategy [Mica]

ejemplos de software de visualización son Tableau, Microstrategy o Qlikview. Estas herra-mientas ofrecen demos de uso [Mica], en concreto una de las demos de Microstrategy sepodría extrapolar a nuestro caso de uso, la demo consiste en un análisis avanzado sobre latasa de abandono de los clientes de una compañía de telecomunicaciones, el documento pue-de apreciarse en la Figura 5.17. El informe se divide en tres partes, la zona derecha contiene

60

Page 75: Estudio del análisis de sentimiento en redes sociales para

Distribución: Informes Descriptivos/Predictivos/Prescriptivos

información descriptiva del cliente que se está analizando, las métricas utilizadas son losingresos que proporciona, los minutos que consume o las llamadas al servicio de atenciónal cliente con resultado negativo. La zona central incorpora una predicción sobre el cliente,el riesgo que existe de que el cliente abandone la compañía relacionado con el valor mone-tario que se asigna al mismo. Por último en la parte superior se encuentra una sugerencia oprescripción, consiste en identificar si existe un riesgo elevado de que el cliente abandone lacompañía y determinar cual es la acción más aconsejable a tomar. En la Figura 5.17 se puedeapreciar la diferencia entre un cliente con una alta probabilidad de abandono de la compañía,imagen superior, a otro cliente con baja probabilidad de abandono de la compañía, imageninferior. Este tipo de informes son extrapolables al caso que nos ocupa, detección tempranade la morosidad, aunque los atributos y hechos no son los mismos, si lo son las técnicasque se han de aplicar, y sobretodo gracias a estos informes toda la inteligencia obtenida através de los modelos machine learning se puede comunicar efectivamente a los usuariosinteresados.

61

Page 76: Estudio del análisis de sentimiento en redes sociales para

Capítulo 6

Conclusiones

E STE estudio realizado sobre el entorno del big data permite tener una buena perspectivade que tipo de tecnologías hay implantadas en la actualidad en el ámbito empresarial

en el área de los sistemas de información, en concreto en una entidad financiera. Se ha par-tido de una arquitectura típica de sistema informacional centrada en el data warehouse y losdatamart asociados el mismo, este tipo de arquitectura está muy extendida a lo largo delmundo empresarial en empresas de tamaño medio y grande, esto es debido a que permiterealizar análisis multidimensional de manera estandarizada, facilitando a todos los departa-mentos realizar el mismo tipo de análisis sin necesidad de grandes costes asociados a cadaextracción. Este tipo de sistemas informacionales tienen muchas ventajas: permiten la unifi-cación de orígenes de información, la información es obtenida de los distintos departamentossin provocar un perjuicio a los mismos, es decir, sin ocasionar un gran coste al propio de-partamento la extracción de su información. Consumir información almacenada en un data

warehouse o datamart es realmente sencillo ya que esta distribuida en hechos y dimensionesalmacenadas de forma estructurada, jerarquizada y facilitando la integridad del dato. Los sis-temas de información basados en data warehouse tiene sus limitaciones, conforme aumentade tamaño se hacen más evidentes. Por un lado las cargas de datos al propio data warehouse

o datamart se hace mediante batch diarios,semanales o mensuales por lo que la informaciónno va a estar nunca actualizada en tiempo real sino que va a tener un retraso propio de la pe-riodicidad del dato. Por otro lado, la escalabilidad de las bases de datos relacionales sobre lasque está montado el data warehouse es limitado, por lo general una base de datos que tengatablas con volumetrías mayores a un millón de registros presenta problemas de rendimiento,para evitar este problema la información se almacena de forma agregada y con un históricolimitado para no exceder los límites de la base de datos.

Para solventar las limitaciones que presentan los sistemas informacionales basados endata warehouse surgen las soluciones mixtas en donde se combina business intelligence y

analytics con big data, teniendo las bondades del data warehouse principalmente el análisismultidimensional, y lo más conveniente de la solución misma es la incorporación de un data

lake donde se vuelca toda la información sin agregar de manera estructurada, semiestructu-rada o no estructurada y permitiendo la periodicidad en tiempo real. Este tipo de tecnologíasería inútil sin la analítica avanzada que posibilita obtener predicciones y prescripciones con

62

Page 77: Estudio del análisis de sentimiento en redes sociales para

precisión alta. La analítica a la que hago alusión es el análisis de sentimientos en textos yen general cualquier algoritmo de machine learning que posibilite al equipo de data scien-

ce extraer nuevas variables y relaciones entre las mismas con el fin último de proporcionaral usuario la información que necesite para tomar decisiones. Es a la hora de proporcionarinformación al usuario cuando se puede aprovechar la potencia del sistema y automatizarprocesos de negocio con prescripciones generadas por la propia herramienta o que sean laspropias prescripciones las que informen al usuario de cual es la mejor acción a tomar, tal ycomo vimos en el ejemplo de los productos financieros en entidades con alta probabilidad demorosidad.

El estudio se ha limitado a un único caso de uso en el entorno de la banca, pero las apli-caciones tanto dentro como fuera del sector son gigantescas. El ecosistema creado para eldespliegue del sistema big data permite que se integren en el mismo infinidad de solucionesen el que puede participar cualquier departamento de la entidad bancaria, no solo el depar-tamento de riegos para el caso de la morosidad. Otras oportunidades de negocio podrían serel análisis de los clientes de banca online o móvil respecto al tradicional, distribución opti-ma de efectivo en cajeros o la reparación preventiva de los mismos. En el departamento deRecursos Humanos se puede analizar la productividad de los empleados y repartir los bonosanuales vinculando las cantidades a los indicadores obtenidos del análisis. Se pueden crearproyectos que intervengan varios departamentos o estudios geolocalizados.

Las capacidades del big data y en general todas las tecnologías asociadas e incluidas en suecosistema son infinitas es por eso que aún queda mucho por descubrir y este estudio es unapincelada de lo mucho que se puede conseguir al analizar las cantidades ingentes de datosque se generan de manera continua en redes sociales y en el seno empresarial, y los logrosque se pueden cosechar al mezclar ambos mundos.

63

Page 78: Estudio del análisis de sentimiento en redes sociales para

ANEXOS

64

Page 79: Estudio del análisis de sentimiento en redes sociales para

Anexo A

BigML: Modelo árbol de decisión

IF ISNULL([Numero Impagos]) THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND ISNULL([Creditos con otras entidades]) THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND ISNULL([Tweets Positivos])

THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND

ISNULL([Ingresos mensuales]) THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]>2032 AND ISNULL([Tweets Negativos]) THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]>2032 AND [Tweets Negativos]>2 THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]>2032 AND [Tweets Negativos]<=2 AND [Creditos con otras entidades]>155511

THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]>2032 AND [Tweets Negativos]<=2 AND [Creditos con otras entidades]<=155511

AND ISNULL([Recibos devueltos]) THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]>2032 AND [Tweets Negativos]<=2 AND [Creditos con otras entidades]<=155511

AND [Recibos devueltos]>26 THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]>2032 AND [Tweets Negativos]<=2 AND [Creditos con otras entidades]<=155511

AND [Recibos devueltos]<=26 THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]<=2032 AND ISNULL([Oficina]) THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]<=2032 AND [Oficina]>4502 AND [Tweets Positivos]>3 THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]<=2032 AND [Oficina]>4502 AND [Tweets Positivos]<=3 THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]>1 AND [

Ingresos mensuales]<=2032 AND [Oficina]<=4502 THEN ’FALSO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]<=1 AND

ISNULL([Sexo]) THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]<=1 AND [

Sexo]==’M’ THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]<=1 AND [

Sexo]==’H’ AND [Creditos con otras entidades]>127968 THEN ’FALSO’

65

Page 80: Estudio del análisis de sentimiento en redes sociales para

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]>102327 AND [Tweets Positivos]<=1 AND [

Sexo]==’H’ AND [Creditos con otras entidades]<=127968 THEN ’VERDADERO’

ELSEIF [Numero Impagos]>5 AND [Creditos con otras entidades]<=102327 THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND ISNULL([Sexo]) THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’M’ THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND ISNULL([Tweets Negativos]) THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND ISNULL([Creditos con otras

entidades]) THEN ’VERDADERO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND [Creditos con otras

entidades]>101130 THEN ’VERDADERO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND [Creditos con otras

entidades]<=101130 AND ISNULL([Ingresos mensuales]) THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND [Creditos con otras

entidades]<=101130 AND [Ingresos mensuales]>856 AND [Creditos con otras entidades]>64274 AND

ISNULL([Tweets Positivos]) THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND [Creditos con otras

entidades]<=101130 AND [Ingresos mensuales]>856 AND [Creditos con otras entidades]>64274 AND [

Tweets Positivos]>3 THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND [Creditos con otras

entidades]<=101130 AND [Ingresos mensuales]>856 AND [Creditos con otras entidades]>64274 AND [

Tweets Positivos]<=3 THEN ’VERDADERO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND [Creditos con otras

entidades]<=101130 AND [Ingresos mensuales]>856 AND [Creditos con otras entidades]<=64274 THEN ’

FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]>2 AND [Creditos con otras

entidades]<=101130 AND [Ingresos mensuales]<=856 THEN ’VERDADERO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]<=2 AND ISNULL([Tweets Mencion

Entidad Bancaria]) THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]<=2 AND [Tweets Mencion Entidad

Bancaria]>3 THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]<=2 AND [Tweets Mencion Entidad

Bancaria]<=3 AND ISNULL([Ingresos mensuales]) THEN ’VERDADERO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]<=2 AND [Tweets Mencion Entidad

Bancaria]<=3 AND [Ingresos mensuales]>2281 THEN ’FALSO’

ELSEIF [Numero Impagos]<=5 AND [Sexo]==’H’ AND [Tweets Negativos]<=2 AND [Tweets Mencion Entidad

Bancaria]<=3 AND [Ingresos mensuales]<=2281 THEN ’VERDADERO’

END

66

Page 81: Estudio del análisis de sentimiento en redes sociales para

Anexo B

BigML: Modelo ensembles

# Requires BigML Python bindings

#

# Install via: pip install bigml

#

# or clone it:

# git clone https://github.com/bigmlcom/python.git

from bigml.ensemble import Ensemble

# Downloads and generates a local version of the ensemble, if it

# hasn’t been downloaded previously.

from bigml.api import BigML

ensemble = Ensemble(’ensemble/5bb263c3eba31d7b63000a40’,

api=BigML("cesaraguirrerivadeneira",

"f9055ad3ba211aab770dc7644b5186247fbb8180",

domain="bigml.io"))

# To make predictions fill the desired input_data in next line.

input_data = {}

ensemble.predict(input_data, full=True)

#

# input_data: dict for the input values

# (e.g. {"petal length": 1, "sepal length": 3})

# full: if set to True, the output will be a dictionary that includes all the

# available information in the predicted node. The attributes vary depending

# on the ensemble type. Please check:

# https://bigml.readthedocs.io/en/latest/#local-ensemble-s-predictions

67

Page 82: Estudio del análisis de sentimiento en redes sociales para

Anexo C

BigML: Modelo ensembles mediante OptiML

# Requires BigML Python bindings

#

# Install via: pip install bigml

#

# or clone it:

# git clone https://github.com/bigmlcom/python.git

from bigml.ensemble import Ensemble

# Downloads and generates a local version of the ensemble, if it

# hasn’t been downloaded previously.

from bigml.api import BigML

ensemble = Ensemble(’ensemble/5bb26df53980b57c4b00da5a’,

api=BigML("cesaraguirrerivadeneira",

"f9055ad3ba211aab770dc7644b5186247fbb8180",

domain="bigml.io"))

# To make predictions fill the desired input_data in next line.

input_data = {}

ensemble.predict(input_data, full=True)

#

# input_data: dict for the input values

# (e.g. {"petal length": 1, "sepal length": 3})

# full: if set to True, the output will be a dictionary that includes all the

# available information in the predicted node. The attributes vary depending

# on the ensemble type. Please check:

# https://bigml.readthedocs.io/en/latest/#local-ensemble-s-predictions

68

Page 83: Estudio del análisis de sentimiento en redes sociales para

Anexo D

BigML: Modelo association discovery

69

Page 84: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

Rec

ibos

devu

elto

s<=

3N

umer

oIm

pago

s<=

00.

1895

80.

1665

0.87

826

0.07

637

1.84

727

2.34

536e

-111

0.47

544

Num

ero

Impa

gos

<=0

Rec

ibos

devu

elto

s<=

30.

4754

40.

1665

0.35

021

0.07

637

1.84

727

2.34

536e

-111

0.18

958

Rec

ibos

devu

elto

s>1

64

<Num

ero

Impa

gos

<=7

0.19

189

0.09

331

0.48

625

0.06

123

2.90

889

5.60

933e

-96

0.16

716

4<N

umer

oIm

pago

s<=

7R

ecib

osde

vuel

tos

>16

0.16

716

0.09

331

0.55

819

0.06

123

2.90

889

5.60

933e

-96

0.19

189

Twee

tsPo

sitiv

os<=

0Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

40.

2218

90.

1065

0.47

994

0.05

082

1.91

282

5.98

604e

-50

0.25

091

Twee

tsM

enci

onE

ntid

adB

anca

ria

<=4

Twee

tsPo

sitiv

os<=

00.

2509

10.

1065

0.42

444

0.05

082

1.91

282

5.98

604e

-50

0.22

189

1<N

umer

oIm

pago

s<=

49

<Rec

ibos

devu

elto

s<=

160.

1747

40.

0919

90.

5264

20.

0507

92.

2330

32.

0483

2e-5

90.

2357

4

9<R

ecib

osde

vuel

tos<

=16

1<N

umer

oIm

pago

s<=

40.

2357

40.

0919

90.

3902

10.

0507

92.

2330

32.

0483

2e-5

90.

1747

4

Num

ero

Impa

gos

>7R

ecib

osde

vuel

tos

>16

0.08

605

0.06

660.

7739

50.

0500

94.

0333

3.20

718e

-104

0.19

189

Rec

ibos

devu

elto

s>1

6N

umer

oIm

pago

s>7

0.19

189

0.06

660.

3470

80.

0500

94.

0333

3.20

718e

-104

0.08

605

Num

ero

Impa

gos

<=0

3<R

ecib

osde

vuel

tos

<=6

0.47

544

0.13

452

0.28

294

0.04

909

1.57

461.

8901

7e-4

60.

1796

9

3<R

ecib

osde

vuel

tos

<=6

Num

ero

Impa

gos

<=0

0.17

969

0.13

452

0.74

862

0.04

909

1.57

461.

8901

7e-4

60.

4754

4

Twee

tsPo

sitiv

os>3

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

90.

2911

30.

1186

90.

4077

0.04

843

1.68

929

1.42

549e

-40

0.24

135

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

9Tw

eets

Posi

tivos

>30.

2413

50.

1186

90.

4918

0.04

843

1.68

929

1.42

549e

-40

0.29

113

Twee

tsN

eutr

os<=

0Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

40.

2182

70.

1022

10.

4682

80.

0474

41.

8663

42.

4577

e-44

0.25

091

70

Page 85: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

Twee

tsM

enci

onE

ntid

adB

anca

ria

<=4

Twee

tsN

eutr

os<=

00.

2509

10.

1022

10.

4073

60.

0474

41.

8663

42.

4577

e-44

0.21

827

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

9Tw

eets

Neu

tros

>30.

2413

50.

1150

70.

4767

80.

0472

71.

6972

62.

1297

7e-3

90.

2809

1

Twee

tsN

eutr

os>3

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

90.

2809

10.

1150

70.

4096

20.

0472

71.

6972

62.

1297

7e-3

90.

2413

5

Twee

tsM

enci

onE

ntid

adB

anca

ria

>9Tw

eets

Neu

tros

>30.

1262

80.

0741

80.

5874

70.

0387

12.

0913

1.04

925e

-41

0.28

091

Twee

tsN

eutr

os>3

Twee

tsM

enci

onE

ntid

adB

anca

ria

>90.

2809

10.

0741

80.

2640

80.

0387

12.

0913

1.04

925e

-41

0.12

628

Num

ero

Impa

gos

<=0

6<R

ecib

osde

vuel

tos

<=9

0.47

544

0.13

188

0.27

739

0.03

532

1.36

581.

9193

7e-2

20.

2031

6<R

ecib

osde

vuel

tos

<=9

Num

ero

Impa

gos

<=0

0.20

310.

1318

80.

6493

50.

0353

21.

3658

1.91

937e

-22

0.47

544

Mor

a=

FAL

SO&

Twee

tsN

eutr

os<=

0Tw

eets

Posi

tivos

>30.

1978

20.

0926

50.

4683

30.

0350

51.

6086

71.

0490

1e-0

80.

2911

3

Sexo

=M

&N

umer

oIm

pa-

gos

<=0

Mor

a=

FAL

SO0.

3405

90.

3405

91

0.03

504

1.11

466

1.00

991e

-52

0.89

713

Twee

tsM

enci

onE

ntid

adB

anca

ria

<=4

&Tw

eets

Neg

ativ

os>2

Twee

tsPo

sitiv

os<=

00.

061

0.04

814

0.78

919

0.03

463.

5566

36.

7379

8e-5

10.

2218

9

Twee

tsPo

sitiv

os>3

Twee

tsM

enci

onE

ntid

adB

anca

ria

>90.

2911

30.

0699

0.24

009

0.03

313

1.90

129

7.06

481e

-31

0.12

628

71

Page 86: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

Twee

tsM

enci

onE

ntid

adB

anca

ria

>9Tw

eets

Posi

tivos

>30.

1262

80.

0699

0.55

352

0.03

313

1.90

129

7.06

481e

-31

0.29

113

Twee

tsN

eutr

os>3

Twee

tsPo

sitiv

os<=

00.

2809

10.

0943

0.33

568

0.03

196

1.51

281

3.48

006e

-20

0.22

189

Twee

tsPo

sitiv

os<=

0Tw

eets

Neu

tros

>30.

2218

90.

0943

0.42

496

0.03

196

1.51

281

3.48

006e

-20

0.28

091

Twee

tsPo

sitiv

os>3

Twee

tsN

eutr

os<=

00.

2911

30.

0949

60.

3261

60.

0314

11.

4943

31.

9219

2e-1

90.

2182

7

Twee

tsN

eutr

os<=

0Tw

eets

Posi

tivos

>30.

2182

70.

0949

60.

4350

50.

0314

11.

4943

31.

9219

2e-1

90.

2911

3

Mor

a=

VE

RD

AD

ER

OSe

xo=

H0.

1028

70.

0596

80.

5801

30.

0312

52.

0996

86.

1998

3e-3

30.

2762

9

Sexo

=H

Mor

a=

VE

RD

AD

ER

O0.

2762

90.

0596

80.

2159

90.

0312

52.

0996

86.

1998

3e-3

30.

1028

7

Sexo

=M

Mor

a=

FAL

SO0.

7237

10.

6805

10.

9403

20.

0312

51.

0481

46.

1998

3e-3

30.

8971

3

Mor

a=

FAL

SOSe

xo=

M0.

8971

30.

6805

10.

7585

40.

0312

51.

0481

46.

1998

3e-3

30.

7237

1

Twee

tsM

enci

onE

ntid

adB

anca

ria

<=4

&Tw

eets

Neg

ativ

os>2

Twee

tsN

eutr

os<=

00.

061

0.04

352

0.71

351

0.03

021

3.26

901

5.98

133e

-37

0.21

827

Twee

tsN

egat

ivos

<=0

Twee

tsPo

sitiv

os>3

0.24

497

0.09

990.

4078

10.

0285

81.

4007

72.

0451

1e-1

50.

2911

3

Twee

tsPo

sitiv

os>3

Twee

tsN

egat

ivos

<=0

0.29

113

0.09

990.

3431

50.

0285

81.

4007

72.

0451

1e-1

50.

2449

7

0<T

wee

tsN

eutr

os<=

1Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

40.

1938

70.

0761

60.

3928

60.

0275

21.

5657

51.

0679

e-17

0.25

091

Twee

tsM

enci

onE

ntid

adB

anca

ria

<=4

0<T

wee

tsN

eutr

os<=

10.

2509

10.

0761

60.

3035

50.

0275

21.

5657

51.

0679

e-17

0.19

387

Twee

tsPo

sitiv

os<=

0&

0<T

wee

tsN

eutr

os<=

1Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

40.

0362

70.

0362

71

0.02

717

3.98

555

2.78

814e

-54

0.25

091

72

Page 87: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

Sexo

=H

&Tw

eets

Neg

ati-

vos

>2M

ora

=V

ER

DA

DE

RO

0.06

660.

0339

60.

5099

0.02

711

4.95

683

7.08

03e-

450.

1028

7

Twee

tsN

egat

ivos

>2Tw

eets

Posi

tivos

<=0

0.24

365

0.08

111

0.33

288

0.02

704

1.50

024.

1534

9e-1

60.

2218

9

Twee

tsPo

sitiv

os<=

0Tw

eets

Neg

ativ

os>2

0.22

189

0.08

111

0.36

553

0.02

704

1.50

024.

1534

9e-1

60.

2436

5

Twee

tsN

egat

ivos

>2Tw

eets

Neu

tros

<=0

0.24

365

0.07

946

0.32

612

0.02

628

1.49

413

1.81

888e

-15

0.21

827

Twee

tsN

eutr

os<=

0Tw

eets

Neg

ativ

os>2

0.21

827

0.07

946

0.36

405

0.02

628

1.49

413

1.81

888e

-15

0.24

365

Twee

tsN

eutr

os>3

Twee

tsN

egat

ivos

<=0

0.28

091

0.09

496

0.33

803

0.02

614

1.37

986

2.01

426e

-13

0.24

497

Twee

tsN

egat

ivos

<=0

Twee

tsN

eutr

os>3

0.24

497

0.09

496

0.38

762

0.02

614

1.37

986

2.01

426e

-13

0.28

091

0<T

wee

tsPo

sitiv

os<=

1Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

40.

1909

0.07

319

0.38

342

0.02

531.

5281

41.

9987

9e-1

50.

2509

1

Twee

tsM

enci

onE

ntid

adB

anca

ria

<=4

0<T

wee

tsPo

sitiv

os<=

10.

2509

10.

0731

90.

2917

20.

0253

1.52

814

1.99

879e

-15

0.19

09

Mor

a=

VE

RD

AD

ER

O4

<Num

ero

Impa

gos

<=7

0.10

287

0.04

154

0.40

385

0.02

435

2.41

591

1.99

956e

-26

0.16

716

4<N

umer

oIm

pago

s<=

7M

ora

=V

ER

DA

DE

RO

0.16

716

0.04

154

0.24

852

0.02

435

2.41

591

1.99

956e

-26

0.10

287

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

9&

0<T

wee

tsN

eutr

os<=

1

Twee

tsPo

sitiv

os>3

0.03

429

0.03

429

10.

0243

13.

4348

85.

1321

2e-5

10.

2911

3

Mor

a=

FAL

SO&

0<T

wee

tsN

eutr

os<=

1Tw

eets

Posi

tivos

>30.

1714

50.

0741

80.

4326

90.

0242

71.

4862

54.

5764

8e-1

00.

2911

3

Mor

a=

FAL

SOTw

eets

Posi

tivos

>30.

8971

30.

2845

40.

3171

60.

0233

51.

0894

21.

1149

2e-2

50.

2911

3

Twee

tsPo

sitiv

os>3

Mor

a=

FAL

SO0.

2911

30.

2845

40.

9773

50.

0233

51.

0894

21.

1149

2e-2

50.

8971

3

73

Page 88: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

7<T

wee

tsM

enci

onE

n-tid

adB

anca

ria

<=9

&Tw

eets

Posi

tivos

<=0

Twee

tsN

eutr

os>3

0.03

231

0.03

231

10.

0232

33.

5598

63.

8972

3e-4

20.

2809

1

Twee

tsPo

sitiv

os<=

0&

Twee

tsN

eutr

os<=

0Tw

eets

Neg

ativ

os>2

0.03

066

0.03

066

10.

0231

94.

1041

91.

5530

4e-4

70.

2436

5

Mor

a=

FAL

SO&

Twee

tsN

egat

ivos

>2Se

xo=

M0.

2014

50.

1688

10.

8379

70.

0230

21.

1578

97.

0803

e-45

0.72

371

Twee

tsPo

sitiv

os<=

0&

Twee

tsN

eutr

os<=

0Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

40.

0306

60.

0306

61

0.02

297

3.98

555

4.03

451e

-35

0.25

091

Sexo

=M

&M

ora

=V

ER

-D

AD

ER

O4

<Num

ero

Impa

gos

<=7

0.04

319

0.03

0.69

466

0.02

278

4.15

561

2.21

806e

-19

0.16

716

Twee

tsN

egat

ivos

>2&

Mor

a=

VE

RD

AD

ER

OSe

xo=

H0.

0422

0.03

396

0.80

469

0.02

232.

9124

37.

6343

7e-1

20.

2762

9

7<T

wee

tsM

enci

onE

n-tid

adB

anca

ria

<=9

&Tw

eets

Neu

tros

<=0

Twee

tsPo

sitiv

os>3

0.03

0.03

10.

0212

73.

4348

89.

4781

1e-3

80.

2911

3

Num

ero

Impa

gos

<=0

&M

ora

=V

ER

DA

DE

RO

Sexo

=H

0.02

934

0.02

934

10.

0212

43.

6193

33.

4750

9e-2

70.

2762

9

Twee

tsN

eutr

os<=

0&

0<T

wee

tsPo

sitiv

os<=

1Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

40.

0280

30.

0280

31

0.02

099

3.98

555

2.18

835e

-41

0.25

091

74

Page 89: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

Sexo

=M

&Tw

eets

Posi

ti-vo

s>3

Mor

a=

FAL

SO0.

2149

70.

2136

50.

9938

70.

0207

91.

1078

35.

4268

9e-0

70.

8971

3

Mor

a=

VE

RD

AD

ER

OC

redi

tos

con

otra

sen

tida-

des

>162

357

0.10

287

0.04

121

0.40

064

0.02

063

2.00

189

4.15

943e

-18

0.20

013

Cre

dito

sco

not

ras

entid

a-de

s>1

6235

7M

ora

=V

ER

DA

DE

RO

0.20

013

0.04

121

0.20

593

0.02

063

2.00

189

4.15

943e

-18

0.10

287

Mor

a=

FAL

SOC

redi

tos

con

otra

sen

tida-

des

<=41

643

0.89

713

0.20

013

0.22

308

0.02

059

1.11

466

7.19

118e

-33

0.20

013

Cre

dito

sco

not

ras

entid

a-de

s<=

4164

3M

ora

=FA

LSO

0.20

013

0.20

013

10.

0205

91.

1146

67.

1911

8e-3

30.

8971

3

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

9&

0<T

wee

tsPo

sitiv

os<=

1

Twee

tsN

eutr

os>3

0.02

803

0.02

803

10.

0201

53.

5598

61.

9037

e-42

0.28

091

Sexo

=H

&Tw

eets

Men

-ci

onE

ntid

adB

anca

ria

<=4

Mor

a=

VE

RD

AD

ER

O0.

0669

30.

0270

40.

4039

40.

0201

53.

9267

71.

6242

4e-2

90.

1028

7

Twee

tsPo

sitiv

os<=

0M

ora

=V

ER

DA

DE

RO

0.22

189

0.04

253

0.19

168

0.01

971

1.86

334

6.15

658e

-16

0.10

287

Mor

a=

VE

RD

AD

ER

OTw

eets

Posi

tivos

<=0

0.10

287

0.04

253

0.41

346

0.01

971

1.86

334

6.15

658e

-16

0.22

189

Mor

a=

FAL

SON

umer

oIm

pago

s<=

00.

8971

30.

4460

90.

4972

40.

0195

61.

0458

73.

9882

2e-1

30.

4754

4

Num

ero

Impa

gos

<=0

Mor

a=

FAL

SO0.

4754

40.

4460

90.

9382

80.

0195

61.

0458

73.

9882

2e-1

30.

8971

3

Rec

ibos

devu

elto

s>1

6M

ora

=V

ER

DA

DE

RO

0.19

189

0.03

924

0.20

447

0.01

951.

9876

68.

4514

4e-1

70.

1028

7

Mor

a=

VE

RD

AD

ER

OR

ecib

osde

vuel

tos

>16

0.10

287

0.03

924

0.38

141

0.01

951.

9876

68.

4514

4e-1

70.

1918

9

75

Page 90: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

Sexo

=H

&M

ora

=V

ER

-D

AD

ER

OTw

eets

Neg

ativ

os>2

0.05

968

0.03

396

0.56

906

0.01

942

2.33

554

7.63

437e

-12

0.24

365

Twee

tsPo

sitiv

os>3

0<T

wee

tsN

eutr

os<=

10.

2911

30.

0758

30.

2604

80.

0193

91.

3435

83.

7642

e-09

0.19

387

0<T

wee

tsN

eutr

os<=

1Tw

eets

Posi

tivos

>30.

1938

70.

0758

30.

3911

60.

0193

91.

3435

83.

7642

e-09

0.29

113

Mor

a=

FAL

SO&

Sexo

=H

Twee

tsN

eutr

os>3

0.21

662

0.08

012

0.36

986

0.01

927

1.31

666

6.88

978e

-14

0.28

091

Sexo

=M

&M

ora

=V

ER

-D

AD

ER

OR

ecib

osde

vuel

tos

>16

0.04

319

0.02

671

0.61

832

0.01

842

3.22

228

1.87

248e

-13

0.19

189

Twee

tsN

egat

ivos

<=0

&Tw

eets

Neu

tros

<=0

Twee

tsPo

sitiv

os>3

0.03

759

0.02

934

0.78

070.

0184

2.68

162

1.62

195e

-16

0.29

113

Twee

tsN

eutr

os>3

0<T

wee

tsPo

sitiv

os<=

10.

2809

10.

0715

50.

2546

90.

0179

21.

3341

82.

9235

8e-0

80.

1909

0<T

wee

tsPo

sitiv

os<=

1Tw

eets

Neu

tros

>30.

1909

0.07

155

0.37

478

0.01

792

1.33

418

2.92

358e

-08

0.28

091

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

9&

1<T

wee

tsN

eutr

os<=

2

Twee

tsPo

sitiv

os>3

0.03

132

0.02

671

0.85

263

0.01

759

2.92

869

6.43

121e

-34

0.29

113

Mor

a=

VE

RD

AD

ER

OTw

eets

Neg

ativ

os>2

0.10

287

0.04

220.

4102

60.

0171

41.

6837

74.

4896

9e-1

20.

2436

5

Twee

tsN

egat

ivos

>2M

ora

=V

ER

DA

DE

RO

0.24

365

0.04

220.

1732

10.

0171

41.

6837

74.

4896

9e-1

20.

1028

7

Sexo

=H

&C

redi

tos

con

otra

sen

tidad

es>1

6235

7M

ora

=V

ER

DA

DE

RO

0.05

209

0.02

242

0.43

038

0.01

706

4.18

379

1.24

072e

-14

0.10

287

76

Page 91: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

7<T

wee

tsM

enci

onE

nti-

dad

Ban

cari

a<=

9&

1<T

wee

tsPo

sitiv

os<=

2

Twee

tsN

eutr

os>3

0.02

967

0.02

539

0.85

556

0.01

705

3.04

566

6.26

988e

-35

0.28

091

Sexo

=M

&Tw

eets

Neu

-tr

os<=

0M

ora

=FA

LSO

0.15

958

0.15

958

10.

0164

21.

1146

64.

4866

2e-4

00.

8971

3

Twee

tsPo

sitiv

os>3

&4

<Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

6

Twee

tsN

eutr

os<=

00.

0428

60.

0257

20.

60.

0163

62.

7489

41.

3323

5e-2

60.

2182

7

9<R

ecib

osde

vuel

tos<

=16

4<N

umer

oIm

pago

s<=

70.

2357

40.

0557

20.

2363

60.

0163

11.

4139

92.

5324

2e-0

80.

1671

6

4<N

umer

oIm

pago

s<=

79

<Rec

ibos

devu

elto

s<=

160.

1671

60.

0557

20.

3333

30.

0163

11.

4139

92.

5324

2e-0

80.

2357

4

Sexo

=H

&Tw

eets

Posi

ti-vo

s<=

0M

ora

=V

ER

DA

DE

RO

0.06

297

0.02

275

0.36

126

0.01

627

3.51

183

1.39

515e

-11

0.10

287

Twee

tsN

egat

ivos

<=0

&Tw

eets

Posi

tivos

<=0

Twee

tsN

eutr

os>3

0.02

934

0.02

440.

8314

60.

0161

62.

9598

83.

5223

3e-1

70.

2809

1

Twee

tsN

eutr

os>3

&4

<Tw

eets

Men

cion

Ent

idad

Ban

cari

a<=

6

Twee

tsPo

sitiv

os<=

00.

0425

30.

0253

90.

5969

0.01

595

2.69

004

5.05

868e

-29

0.22

189

4164

3<C

redi

tos

con

otra

sen

tidad

es<=

8109

5M

ora

=FA

LSO

0.19

980.

1951

90.

9769

0.01

594

1.08

891

1.43

701e

-16

0.89

713

77

Page 92: Estudio del análisis de sentimiento en redes sociales para

Ant

eced

ent

Con

sequ

ent

A.

Cov

erag

e%

Supp

ort%

Con

fiden

ceL

ever

age

Lif

tp-

valu

eC

.C

over

age

%

Mor

a=

FAL

SO41

643

<Cre

dito

sco

not

ras

entid

ades

<=81

095

0.89

713

0.19

519

0.21

757

0.01

594

1.08

891

1.43

701e

-16

0.19

98

78

Page 93: Estudio del análisis de sentimiento en redes sociales para

Referencias

[And17] C.O. Andrew. Forgot about mahout? it’s back, andworth your attention. May 2017. URL https:

//www.infoworld.com/article/3197429/machine-learning/

forgot-about-mahout-its-back-and-worth-your-attention.html.

[BGL16] B. Blum, A. Goldfarb, and M. Lederman. El camino hacia la prescripción: cerrar la brecha entre las promesas y la realidad del bigdata. Harvard

Deusto business review, 256:56–63, 2016.

[Big] Web corporativa de bigml. https://bigml.com/. Accessed: 2018-06-04.

[CC17] Samuel W.K. Chan and Mickey W.C. Chong. Sentiment analysis in finan-cial texts. Decision Support Systems, 94:53–64, 2017.

[CCJ+14] A. Collomb, C. Costea, D. Joyeux, O. Hasan, and L. Brunie. A studyand comparison of sentiment analysis methods for reputation evaluation.Technical Report RR-LIRIS-2014-002, LIRIS UMR 5205 CNRS/INSA deLyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/ÉcoleCentrale de Lyon, mar 2014. URL http://liris.cnrs.fr/publis/?id=6508.

[CCS12] H. Chen, R.H.L. Chiang, and V.C. Storey. Business intelligence and analy-tics: From big data to big impact. MIS Quarterly: Management Information

Systems, 36(4):1165–1188, 2012.

[CH04] P.A. Cardona Hernández. Aplicación de árboles de decisión en modelos deriesgo crediticio. Revista Colombiana de Estadística, 27(2):139–151, 2004.

[CNCSKN+00] P. Chapman (NCR), J. Clinton (SPSS), R. Kerber (NCR), T. Kha-baza (SPSS), T. Reinartz (DaimlerChrysler), C. Shearer (SPSS), andWirth (DaimlerChrysler) R. Crisp-dm 1.0 step-by-step data mining guide.2000. URL https://www.the-modeling-agency.com/crisp-dm.pdf.

[Cor12] IBM Corporation. Manual crisp-dm de ibm spss modeler. 2012.URL http://public.dhe.ibm.com/software/analytics/spss/documentation/

modeler/15.0/es/CRISP-DM.pdf.

79

Page 94: Estudio del análisis de sentimiento en redes sociales para

[dE18] Banco de España. Informe de estabilidad financiera. Publicación Semestral,Mayo 2018.

[EL12] J.R. Evans and C.H. Lindner. Business analytics: The next frontier for de-cision sciences. Decision Science Institute, 2012.

[FPSS96] U Fayyad, G. Piatetsky-Shapiro, and P. Smyth. From data mining to know-ledge discovery in databases. AI Magazine, 17(3):37 – 54, 1996.

[Liu10] B. Liu. Sentiment analysis and subjectivity. Handbook of Natural Language

Processing, pages 1–38, 2010.

[Mat] Mathworks. machine learning. https://es.mathworks.com/discovery/

machine-learning.html. Accessed: 2018-09-30.

[Mer] (2015, 23 de octubre). el mercado del big data crece un 30 % cada año,siete veces más que la inversión en tecnologías. El economista. Edi-

ción digital. http://www.eleconomista.es/economia/noticias/7168957/11/

15/El-mercado-del-Big-Data-en-Espana-crece-un-30-cada-ano.html.

[MHK14] W. Medhat, A. Hassan, and H. Korashy. Sentiment analysis algorithms andapplications: A survey. Ain Shams Engineering Journal, 5(4):1093 – 1113,2014.

[Mica] Microstrategy. advanced analytics and data mining. https://www.

microstrategy.com/es/get-started/demo. Accessed: 2018-09-30.

[Micb] Web corporativa microstrategy. https://www.microstrategy.com. Accessed:2018-05-01.

[MN98] A. Mccallum and K. Nigam. A comparison of event models for naive bayestext classification. pages 41–48, 1998.

[MP] J. Minguillón and J. Pujol. Árboles de decisión. Terce-

ras Jornadas de Matemática Discreta y Algorítmica, pages 28–34. URL https://idus.us.es/xmlui/bitstream/handle/11441/75448/%C3%

81rboles%20de%20decisi%C3%B3n.pdf?sequence=1.

[Opt] Bigml release: Automatically find the optimal machine learning model withoptiml. Accessed: 2018-10-01.

[Ote] E. Otero. Machine learning + big data. https://www.beeva.com/beeva-view/cloud-enterprise/machine-learning-big-data/. Accessed: 2018-09-30.

80

Page 95: Estudio del análisis de sentimiento en redes sociales para

[PC18] J. Porras Castaño. Analítica de datos, inteligencia artificial y big data enla banca. BBVA OpenMind, 2018. URL https://www.bbvaopenmind.com/

analitica-de-datos-inteligencia-artificial-y-big-data-en-la-banca.

[PF13] F .Provost and T. Fawcett. Data science and its relationship to big data anddata-driven decision making. Big Data, 1:51–59, 2013.

[Rie] Informe con relevancia prudencial 2015 - 3. riesgos. http://

accionistaseinversores.bbva.com/TLBB/micros/pilarIII2015/es/3/

isc.html. Accessed: 2017-11-06.

[Rod16] J.R. Rodríguez. ¿cómo son las empresas orientadas a los datos? La era

del Big Data. Desafíos y oportunidades de la gestión de datos, 256:46–54,2016.

[Sen] Sentiwordnet. http://sentiwordnet.isti.cnr.it/. Accessed: 2018-09-24.

[SGORHV15] J. Serrano-Guerrero, J.A. Olivas, F.P. Romero, and E. Herrera-Viedma. Sen-timent analysis: A review and comparative analysis of web services. Infor-

mation Sciences, 311:18–38, 2015.

[Sie15] E. Siegel. 7 reasons why you need predictive analytics today. Prediction

Impact, 2015.

[SP13] A. Ferrer Sapena and E.A. Sánchez Pérez. Open data, big data: ¿haciadónde nos dirigimos? Anuario ThinkEPI, 1:150–156, 2013.

[Sua] E.J.C. Suarez. Tutorial sobre máquinas de vectores soporte (svm).

[TM06] M. Tamayo and F.J. Moreno. Análisis del modelo de almacenamiento mo-lap frente al modelo de almacenamiento rolap. 2006.

81

Page 96: Estudio del análisis de sentimiento en redes sociales para

Este documento fue editado y tipografiado con LATEX empleandola clase esi-tfm (versión 0.20181007) que se puede encontrar en:

https://bitbucket.org/arco group/esi-tfg

82