Text minig - Instituto Politécnico Nacional

1

2

3

Resumen

El sistema Noti-Explorer es una herramienta para la exploración y análisis visual de noticias publi-cadas diariamente en diversos periódicos. El sistema implementa diversas técnicas de minería de datosque ayudan a entender una gran cantidad de noticias que han sido recolectadas, preprocesadas y alma-cenadas desde septiembre del 2016 a la fecha. La interfaz de usuario provee las opciones para reducirel tamaño del corpus que se desea analizar; permite ingresar palabras de interés, fechas de inicio y �n,y elegir una sección periodística tales como: Política, Salud, Ciencia y Tecnología, Deportes, Nacional,Estados, Internacional, Sociedad, Opinión, Seguridad, entre otros. Sugerimos un sistema de análisisvisual que combina visualizaciones interactivas en una aplicación web, la implementación métodos deaprendizaje no supervisado y el reconocimiento de entidades.

Cabe mencionar que actualmente existen algunas aplicaciones web que integran diferentes perió-dicos digitales, tal como Google Noticias que te recomienda en base a una consulta y muestra unalista de posibles noticias relacionadas, NewsStand que despliega las noticias en un mapa geográ�co yAnalytix que mapea la cantidad de menciones extraídas de la API ya sea de Facebook o Twiter.

Noti-Explorer utiliza técnicas de Procesamiento de Lenguaje Natural (NLP), procesos de ExtracciónTransformación y Carga de datos (ETL), Reconocimiento de Entidades Nombradas (NER), un modeloprobabilístico de aprendizaje no supervisado Latent Dirichlet Allocation (LDA) y diferentes técnicas devisualización sobre una interfaz web tales como: Tree Maps para interactuar con los grupos generados,las nubes de palabras para observar las palabras con mayor frecuencia, grá�cas de líneas para ver lacantidad de publicaciones por día, el título y la imagen ubicadas de forma geográ�ca.

En el presente sistema se basa en la idea que la modelación de tópicos probabilísticos ayuda ala sumarización, organización y exploración de grandes colecciones de documentos. Las diferentestécnicas de visualización que combinan formas, colores, �guras, imágenes, mapas y texto, aumentan lapercepción visual y capacidad cognitiva de las personas que interactúan con la herramienta; el haceruso de la exploración de noticias por medio de entidades nombradas también llega a ser de gran ayudaal momento de buscar las noticias que suelen ser más interesantes para un analista en particular.

Con el uso de una herramienta de análisis visual se espera que las personas encargadas de leer unagran cantidad de textos periodísticos reduzcan el tiempo que emplean al visitar cada periódico digitalpor separado, disminuyan la carga de trabajo al momento de seleccionar las noticias que les interesaanalizar y aumenten la capacidad cognitiva al buscar nuevo conocimiento.

El prototipo está en fase de prueba, extrae de 32 periódicos digitales de México un promedio de1800 noticias diariamente y actualmente se tienen más de 400 mil noticias que puede presentar posiblessituaciones de interés al usuario que interactúa con él. La primera versión del sistema se puede visitaren la dirección http://148.204.66.228:8000/Noti-Explorer.

4

Abstract

A prototype called Noti-Explorer is presented, a tool for the analysis of daily news in various In-ternet newspapers. The system implements diverse data mining techniques that help to understand alarge amount of news that has been collected, The user interface provides the options to reduce thesize of the corpus that you want to analyze; allows entering words of interest, in a period of time andby classic sections such as: Politics, Health, Science and Technology, Sports, National, States, Inter-national, Society, Opinion Security, among others. We suggest a visual analysis system that combinesinteractive visualizations in a web interface, the implementation of unsupervised learning methods andthe recognition of entities.

Currently, there are some web applications that integrate di�erent digital newspapers such asGoogle News that recommend it on a basis to a query and a sample of a list of possible news toa search, NewsStand a geographical map and Analytix that only displays the number of mentionsextracted from the the Facebook or Twitter API.

Noti-Explorer uses Natural Language Processing (NLP) techniques, Transformation Extraction andData Loading (ETL) processes, Named Entity Recognition (NER), a probabilistic model of unsuper-vised learning, and Latent Dirichlet Allocation (LDA) and di�erent techniques such as Tree Maps tointeract with generated groups, word clouds to observe words more frequently, line graphs to see thenumber of publications per day, title and image located geographically.

In the present system is based on the idea that the modeling of probabilistic topics can help thesummarization, organization and exploration of large collections of documents, the di�erent visua-lization techniques that combine shapes, colors, �gures, images, maps and text can increase visualperception and cognitive capacity of the people who interact with the tool, the use of named entitiesalso comes to be of great help a moment of the search of the news that are usually interesting for ananalyst in particular.

With the use of a visual analysis tool, it is expected that the people in charge of reading a largenumber of journalistic texts reduce the time they use to visit each digital newspaper separately, reducethe workload when selecting the news that they are interested in analyzing and increase cognitivecapacity when searching for new knowledge.

The prototype is in the test phase, it extracts from 32 digital newspapers of Mexico an average of1,800 news daily and currently has more than 400 million news that can appear possible situations ofinterest to the user that interacts with it. The �rst version of the system can be visited at the addresshttp://148.204.66.228:8000/Noti-Explorer.

5

Agradecimientos

Primeramente, doy gracias a Dios por haberme permitido conocer personas maravillosas duranteel posgrado en el Centro de Investigación en Computación, lugar donde he aprendido de muchaspersonas tal como mi director de tesis Dr. Gilberto Martínez Luna quien me ha apoyado a desarrollarmis habilidades como maestro en ciencias de la computación, motivándome a impartir cursos de mineríade datos en diferentes regiones del país y por quien además obtuve un empleo inmediato sin necesidadde buscarlo, esto me lleva a creer profundamente que todo en el universo tiene un orden y cada cosatiene su tiempo.

También quiero agradecer profundamente a mi asesor Dr. Adolfo Guzmán Arenas quien con sugran experiencia y sus asesorías me motivaron a trabajar más duro y conseguir objetivos más clarosdurante el desarrollo del proyecto.

Conocer investigadores como mis directores que apliquen sus conocimientos en la industria, me hatraído una inmensa satisfacción el haber hecho colaboración con ellos.

Profesores del Laboratorio de Ciencia de datos y Tecnología de Software como Dr. Jesús Olivares yDra. Dinora Orantes quienes me impartieron clase y además motivarón a mejorar algunas cuestionesdel proyecto realizado, se les agradece sinceramente. Otros profesores del Laboratorio de Procesamientode Lenguaje Natural como Dr. Grigori Sidorov y Dr. Alexander Gelbukh me mostraron como haceruna presentación más profesional y a quienes también les agradezco.

Sin olvidar a mi apreciada familia, mi madre Jose�na Castellanos, mi padre Pedro Ortega, mishermanos Pablo y Rosalinda quienes con su apoyo me dierón esa motivación para nunca rendirmey aferrarme a mis sueños. Algunas otras personitas como mis sobrinos Alysson, Ian y Axel que meimpulsarón a seguir para algún día ser ejemplo de estudio.

Finalmente, agradezco sinceramente a todos mis amigos que conocí dentro y fuera de la maestría,tanto profesores como alumnos que me encaminarón y apoyarón a seguir con mis estudios y que aunquemuchos de ellos ya no estén cerca, se que formarón parte de este ciclo que �naliza.

6

Glosario

Noticia. Una noticia periodística es un relato que se re�ere a un hecho novedoso o no muy común, oa la relación entre hechos novedosos y/o atípicos, ocurridos dentro de una comunidad o en determinadoámbito especí�co, ya sea político, económico o social.

RSS. Son las siglas de Really Simple Syndication (en español, "sindicación realmente simple",puesto que "sindicación" en inglés se aplica a empresas de varios periódicos), un formato XML pa-ra distribuir contenido en la web. Se utiliza para difundir información actualizada frecuentemente ausuarios que se han suscrito a la fuente de contenidos.

XML. Siglas en inglés de eXtensible Markup Language, traducido como "Lenguaje de MarcadoExtensible" o "Lenguaje de Marcas Extensible", es un meta-lenguaje que permite de�nir lenguajes demarcas desarrollado por el World Wide Web Consortium (W3C) utilizado para almacenar datos enforma legible.

CSS. Hojas de estilo en cascada (o CSS, siglas en inglés de Cascading Stylesheets) es un lenguajede diseño grá�co para de�nir y crear la presentación de un documento estructurado escrito en unlenguaje de marcado

DOM. Document Object Model ('Modelo de Objetos del Documento' o 'Modelo en Objetos parala Representación de Documentos') es esencialmente una interfaz de plataforma que proporciona unconjunto estándar de objetos para representar documentos HTML, XHTML y XML.

HTML. Sigla en inglés de HyperText Markup Language (lenguaje de marcas de hipertexto), hacereferencia al lenguaje de marcado para la elaboración de páginas web.

JSON. Acrónimo de JavaScript Object Notation, es un formato de texto ligero para el intercambiode datos.

SMBD. Sistema Manejador de Bases de Datos es básicamente un sistema computarizado dondepodemos almacenar información en forma de registros. Incluso podemos considerar a la base de datoscomo una especie de archivero o cajón electrónico donde podemos guardar una colección de archivoscomputarizados.

SQL. Structured Query Language es un lenguaje especí�co del dominio que da acceso a un sistemade gestión de bases de datos relacionales que permite especi�car diversos tipos de operaciones en ellos.

IR. Recuperación de Información, llamada en inglés Information Retrieval es la ciencia de la bús-queda de información en documentos electrónicos y cualquier tipo de colección documental digital,encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos,o también la búsqueda en bases de datos relacionales, ya sea a través de Internet, una intranet, y comoobjetivo realiza la recuperación en textos, imágenes, sonido o datos de otras características, de manerapertinente y relevante.

NLP. Natural Language Processing, en ingles, es la ciencia que trata de los modelos computacio-nales del lenguaje natural y cómo hacer entender a las computadoras los idiomas humanos.

NER. El Reconocimiento de entidades nombradas (NER por sus siglas en inglés) (también conocidocomo extracción de entidades) es una tarea de extracción de información que busca localizar y clasi�caren categorías prede�nidas, como personas, organizaciones, lugares, expresiones de tiempo y cantidades,las entidades nombradas encontradas en un texto.

LDA. Latent Dirichlet Allocation es un modelo generativo que permite que conjuntos de obser-vaciones puedan ser explicados por grupos no observados que explican por qué algunas partes de los

7

8

datos son similares.ETL. Extract, Transform and Load, es el proceso que permite a las organizaciones mover datos

desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, odata warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

Índice general

1. Introducción 141.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2.2. Objetivos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3. Justi�cación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Estado del arte 172.1. Tell Finder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2. Visulizing Topic Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3. U-Rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4. NewsStand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.5. Analytix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.6. Flipboard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.7. Google Noticias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.8. Comparaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3. Marco Teórico 243.1. Minería de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2. Procesamiento de Lenguaje Natural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3. Recuperación de la Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.3.1. Modelo de Espacio Vectorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.2. Métodos de ponderación de los términos . . . . . . . . . . . . . . . . . . . . . . . 253.3.3. Palabras vacías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.4. Lematización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3.5. Similitud Coseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4. Expresiones regulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5. Aprendizaje no supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.5.1. Modelado de tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5.2. Latent Dirichlet allocation (LDA) . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.6. Reconocimiento de entidades nombradas . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.6.1. DBpedia Spotlight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.7. Visualización de la información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.7.1. Perspectivas perceptivas y cognitivas de la visualización . . . . . . . . . . . . . . 28

3.7.1.1. Perspectiva perceptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.7.1.2. Perspectiva cognitiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.7.2. Visualización para la recuperación de información . . . . . . . . . . . . . . . . . 29

9

ÍNDICE GENERAL 10

4. ETL de Noti-Explorer 304.1. Arquitectura para la extracción, trasformación y carga de noticias . . . . . . . . . . . . 304.2. Diagrama de clases para ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.3. Proceso de Extracción Transformación y Carga de noticias . . . . . . . . . . . . . . . . . 33

4.3.1. Identi�cación de periódicos digitales con RSS . . . . . . . . . . . . . . . . . . . . 334.3.2. Lector de RSS's . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.3. Extractor de imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.4. Extractor de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.5. Extractor de Entidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3.6. Etiquetador de entidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.7. Georreferenciador de entidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.8. Normalizador de Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.9. Texto2Vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.10. Encriptador MD5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.3.11. Generador de consulta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.3.12. Conector DB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3.12.1. Descripción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . 43

5. Recuperación y Visualización de Noti-Explorer 445.1. Arquitectura para la recuperación y visualización de noticias . . . . . . . . . . . . . . . 445.2. Interfaz principal de Noti-Explorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.3. Diagrama de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.4. Proceso para la recuperación y visualización . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.4.1. De�nición de los parámetros de búsqueda . . . . . . . . . . . . . . . . . . . . . . 505.4.2. Extracción de noticias con SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.4.3. De palabras clave a vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.4.4. Comparador de vectores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.4.5. Generación de Tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.4.6. Visualización por tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6. Experimentos y Resultados 566.1. Descripción de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.2. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.2.1. Diseño del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.2.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.2.3. Otros Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.2.3.1. Acontecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.2.3.2. Delitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.2.3.3. Personas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

7. Conclusiones 787.1. Resumen de los capítulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 787.2. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 787.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 797.4. Trabajos a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Índice de �guras

2.1. Visualizaciones de Tell Finder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2. Interfaz VTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3. Interfaz de U-Rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4. Interfaz principal de NewsStand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.5. Interfaz principal de Analytix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.6. Interfaz principal de Flipboard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.7. Interfaz Google Noticias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.1. ETL de Noti-Explorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2. Diagrama de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.3. Formato XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.4. Link de la imagen en el documento HTML . . . . . . . . . . . . . . . . . . . . . . . . . 374.5. Texto en el documento HTML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.6. Entidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.1. Arquitectura del recuperador y visualizador . . . . . . . . . . . . . . . . . . . . . . . . . 455.2. Interfaz principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.3. Menú de opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4. Noticias de hoy en la sección de �nanzas . . . . . . . . . . . . . . . . . . . . . . . . . . 465.5. Diagrama de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.6. Interfaz principal con datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.7. Tree Map y nube de palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.8. Segundo nivel del TreeMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.9. Exploración con entidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.10. Frecuencia de publicaciones por fecha . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.11. Noticias sobre un mapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6.1. Secciones por periódico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.2. Promedio de noticias por día en los distintos periódicos . . . . . . . . . . . . . . . . . . 596.3. Noticias recuperadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.4. Comparación de tópicos con la consulta �Samsung� . . . . . . . . . . . . . . . . . . . . 616.5. Noticias recuperadas utilizando el tópico seleccionado . . . . . . . . . . . . . . . . . . . 636.6. Comparación de tópicos con la consulta �Samsung galaxy notar 7� . . . . . . . . . . . . 636.7. Tree Map de Samsung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.8. Entidades y Noticias de Samsung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.9. Frecuencia de publicaciones a lo largo del tiempo . . . . . . . . . . . . . . . . . . . . . . 676.10. Frecuencia de publicaciones a lo largo del tiempo . . . . . . . . . . . . . . . . . . . . . . 686.11. Noticias de Samsung sobre el mapa geográ�co . . . . . . . . . . . . . . . . . . . . . . . 696.12. Noticia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.13. Primeros resultados de la búsqueda �elecciones� . . . . . . . . . . . . . . . . . . . . . . 70

11

ÍNDICE DE FIGURAS 12

6.14. Tópico 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706.15. Entidades y Noticias del Tópico 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.16. Noticias: Acusan al Bronco de utilizar recursos públicos en la aspiración por la presi-

dencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.17. Búsqueda de la palabra robo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736.18. Tópico 3 relacionado a robo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736.19. Entidades y noticias del Tópico 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746.20. Texto de la Noticia seleccionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.21. Tópicos de Peña Nieto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766.22. Entidad ubicada geográ�camente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Índice de cuadros

2.1. Fuentes de información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2. Menú de opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3. Componentes de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4. Técnicas de visualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1. Expresión regular para extraer imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2. Expresión regular para extraer el texto completo . . . . . . . . . . . . . . . . . . . . . . 394.4. Texto original . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.6. Texto normalizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.8. Vector resultante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.9. Descripción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1. Menú de opciones para el análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.1. Secciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.2. Pasos del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606.3. Pruebas en la primera iteración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606.4. Generación de diferentes tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.5. Generación de diferentes tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

13

Capítulo 1

Introducción

El ser humano por naturaleza necesita estar informado para tomar decisiones sobre sus actividadesdiarias, por consecuencia accede a noticias en diferentes medios como TV, prensa, radio o internet.Decisiones que van desde ver el clima, para decidir si sale de su casa u o�cina llevando consigo unparaguas, una chamarra o inclusive para evitar ciertas zonas de trá�co. Existen tareas más complejasque requieren leer una gran cantidad de noticias de diferentes periódicos, después seleccionar las noticiasque resultan de gran relevancia y �nalmente resumir o concluir sobre la información analizada parasaber si esto podría bene�ciar o perjudicar algo o a alguien. Ejemplos de estas tareas resultan enencontrar tópicos tales como: Regreso de más de 21,000 autos debido a que no se detecta la puertaabierta al momento en que el vehículo esta marcha. Prohibición al ingresar a un avión con ciertoscelulares debido a que podrían explotar y poner en riego a las personas. Alerta de casos epidemiológicosen cierta zona del país que provocan muertes a través del contacto con animales o insectos. Sobornoa ciertos funcionarios para facilitar procedimientos burocráticos en la apertura de nuevas empresas.Delitos a bordo de vehículos que ofrecen servicio de viajes en alguna ciudad del país. Estrategiasimplementadas durante una campaña electoral por parte de un candidato político. Entonces, suelensurgir preguntas de gran interés para alguna persona en particular, por ejemplo, ¾Qué tan continuofalla la tecnología aplicada a las tareas cotidianas?, ¾Sé presenta un patrón de fallas?, ¾En algúnlugar en especí�co?, ¾Conviene invertir en la nueva tecnología?, ¾Cuáles son las enfermedades que hanaparecido en un rango de tiempo y cuál es su tendencia o dirección?, ¾Éstas se alejan o acercan a laCiudad de México?, ¾Qué puntos de vista podrían surgir ante una nota amarillista?, ¾Sería posiblemitigar los efectos de tales publicaciones?, etc.

El prototipo realizado en el Laboratorio de Ciencia de Datos y Tecnología de Software (LCDyTS),ayuda hacer más e�ciente algunas tareas complejas en cierto grado y muestran resultados visuales conlos cuales se puede interactuar, y así permitir la exploración de las noticias recuperadas.

1.1. Planteamiento del problema

Entender y navegar entre grandes colecciones de documentos es un problema importante para mu-chas áreas de las ciencias, industria, gobierno o cultura. En tanto el conocimiento colectivo continuadigitalizándose en forma de noticias, blogs, paginas web, artículos cientí�cos, libros, imágenes, soni-do, video y redes sociales llega a ser más difícil descubrir conocimiento. Se necesitan herramientascomputacionales que ayuden a organizar, buscar y entender esa gran cantidad de información.

Especialmente, para el monitoreo de medios los principales problemas son: integrar diferentes perió-dicos digitales en un solo sistema, sintetizar la gran cantidad de documentos generada durante eventosimportantes y explorar a través de las diferentes cúmulos de notas periodísticas.

Debido a lo anterior, los interesados necesitan invertir tiempo visitando diferentes paginas y leyendoel contenido de cada nota periodística con el �n de tomar decisiones, por ejemplo, sacar del mercado

14

CAPÍTULO 1. INTRODUCCIÓN 15

un producto defectuoso, visitar algún lugar turístico, votar por algún candidato a puestos de gobierno,cambiar políticas para mejorar un servicio, implementar más seguridad publica en ciertos lugares, etc.

1.2. Objetivos

A continuación se describe el objetivo general del proyecto y los objetivos particulares que sepretenden alcanzar con el trabajo de investigación presente.

1.2.1. Objetivo general

Desarrollar un sistema de recuperación y visualización para la organización y exploración de notasperiodísticas digitales utilizando aprendizaje automático no supervisado y entidades nombradas.

1.2.2. Objetivos particulares

Identi�car los periódicos digitales que comparten su información mediante un formato RSS uti-lizando un explorador de Internet para la recolección de noticias periodísticas.

Analizar el Modelo de Objetos del Documento (DOM) de los diferentes periódicos digitales paraidenti�car el texto completo e imagen de la noticia mediante la ayuda humana.

Desarrollar un programa que extraiga, procese y guarde automáticamente el texto e imagen de lanoticia del documento HTML utilizando algún leguaje de programación y un Sistema Manejadorde Bases de Datos (SMBD) para la consulta de la información recolectada de una forma mássimple.

Desarrollar un programa que seleccione la información de interés proveniente de la base de datosutilizando técnicas de recuperación de la información, lenguajes de programación y consultas enlenguaje estrucurado (SQL).

Desarrollar un programa para la modelación de tópicos a partir de la implementación de unalgoritmo de aprendizaje automático no supervisado y un leguaje de programación.

Desarrollar una interfaz para la visualización de noticias digitales de forma grá�ca utilizandolenguajes de programación, diseño y marcado para la elaboración de aplicaciones web.

1.3. Justi�cación

Debido a la creciente cantidad de documentos y la complejidad de analizarlas rápidamente es crucialguiar a los usuarios en el proceso de toma de decisiones utilizando métodos interactivos y preservenla información. Así se da al lector una idea de su contenido sin la necesidad de que él tenga que leertodas las noticias. Diferentes enfoques computacionales de la minería de datos, aprendizaje automático,procesamiento del lenguaje natural, recuperación y visualización de la información pueden ser de granayuda para este propósito.

Representaciones visuales ampli�can la capacidad cognitiva mediante el aumento de los recursos,reduciendo esfuerzos de búsqueda, mejorando el reconocimiento de patrones, utilizando inferenciaperceptiva y manipulación del medio [20].

El sistema visual humano puede identi�car y distinguir rápidamente entre una variedad increíble-mente diversa de objetos que puede ser cromática o acromática, dinámica o estática, regular o irregularen un espacio bidimensional o tridimensional.

Un sistema de recuperación de la información debería proveer a los usuarios un ambiente donde seprocesen estructuras espaciales, objetos y lenguajes [20].

El sistema de visualización de información propuesto pretende utilizar la percepción humana yampli�car la capacidad cognitiva a través de las múltiples visualizaciones presentadas.

CAPÍTULO 1. INTRODUCCIÓN 16

1.4. Estructura de la tesis

El documento esta organizado de la siguiente manera.Capítulo 1 es una introducción la importancia de analizar las publicaciones de los periódicos digi-

tales. El planteamiento del problema que se planea atacar junto con el objetivo general, los objetivosparticulares y la justi�cación del proyecto.

Capítulo 2 sintetiza el funcionamiento de algunas herramientas para el análisis visual y otras apli-caciones web que recuperan textos periodísticos digitales. Finalmente, una comparación de dichasaplicaciones con la propuesta en la presente tesis.

Capítulo 3 provee el marco teórico que se utiliza en el sistema de visualización propuesto incluyendola de�nición de minería de datos, procesamiento de lenguaje natural, recuperación de la informacióny aprendizaje automático.

Capítulo 4 presenta el desarrollo de un programa para la extracción de las notas periodísticas dela web, transformación del texto encontrado y la carga a una base de datos.

Capítulo 5 presenta el desarrollo del sistema de visualización de noticias que integran diferentestécnicas, incluyendo Mapas de Árbol, Nubes de palabras, Mapas geográ�cos, tablas, imágenes y títulos.

Capítulo 6 muestra algunos experimentos para probar el funcionamiento del sistema propuesto yalgunas comparaciones con NewStand, Analitix y Google News.

Capítulo 7 concluye el trabajo de tesis analizando los resultados y veri�cando que los objetivos sehayan logrado. Finalmente, se presenta el trabajo futuro posible, limitaciones y debilidades.

Capítulo 2

Estado del arte

Este capítulo sintetiza dos tipos de herramientas, la primera son sistemas para el análisis visual querealizan a cierto nivel algunos procesos de minería de texto. El segundo tipo corresponde a sistemasque procesan notas periodísticas, pero que no sirven como herramienta de análisis visual.

2.1. Tell Finder

TellFinder simpli�ca el proceso de investigación de los casos de trata de personas, mediante lacaracterización y la organización automática de los anuncios disponibles de escorts en Internet. Laherramienta es alimentada por una base de datos extensa de los anuncios encontrados de los sitiosweb en el dominio de los servicios para adultos [19]. En la �gura 2.1 hay tres tipos de visualizaciones,el primero ilustra los anuncios de forma geográ�ca y permite la exploración de los anuncios por me-dio de acercamientos dentro del mapa, la segunda visualización permite ver la cantidad de anunciosencontrados por fechas y la tercera vista es una nube de palabras en función de su frecuencia.

Figura 2.1: Visualizaciones de Tell Finder

2.2. Visulizing Topic Models

En la �gura 2.2 se ve un método o representación visual que la Universidad de Princeton proponepara organizar, sumarizar, visualizar e interactuar con un corpus a partir de la utilización del modeloLDA [3]. El diseño de la interfaz está basado en la idea que la modelación de tópicos probabilísticossumariza y organiza la colección de documentos. En la primera interfaz se muestran los tres primerostérminos más representativos de cada grupo, al dar clic sobre uno, se muestra siguente pantalla,donde, del lado derecho se encuentra la lista completa de palabras, en medio se colocan los títulos de

17

CAPÍTULO 2. ESTADO DEL ARTE 18

Figura 2.2: Interfaz VTM

los documentos y del lado derecho los tópicos relacionados; la tercer pantalla aparece después de darclic sobre alguno de los documentos relacionados, en el centro aparece el texto, del lado izquierdo lostópicos y del lado derecho los documentos, los cuales permiten la interacción con el usuario �nal.

2.3. U-Rank

U-Rank es una herramienta de análisis visual que combina un leve análisis de texto y una listaordenada para ayudar en la exploración de documentos [6].

En la �gura 2.3 se muestra la interfaz de usuario que permite la exploración de documentos porpalabras clave, el ejemplo muestra el resultado de las palabras �gender�, �wage� y �gap�; en A se observanlas palabras con mayor frecuencia dentro de los documentos recuperados los cuales se pueden ver enC; para cada documento se indica que tan relevantes son las palabras (B) dentro del texto, �nalmenteen E se aprecia el texto del documento seleccionado en C.


Figura 2.3: Interfaz de U-Rank

2.4. NewsStand

EL sistema NewsStand permite realizar consultas de forma geográ�ca por medio de una interfaz,donde la información se extrae de fuentes RSS [17]. La plataforma permite visualizar las noticias pormedio de acercamientos al mapa pudiendo �ltrar las noticias por palabras clave o por categorías, talescomo: general, negocios, entretenimiento, salud, deportes, ciencia y tecnología. Figura 2.4.

Figura 2.4: Interfaz principal de NewsStand


2.5. Analytix

Berumen se ha colocado en el mercado como una de las empresas más serias para conducir inves-tigaciones de mercado y opinión publica [2]. Cuenta con amplia experiencia en estudios cuantitativosy cualitativos, con personal altamente capacitado para el desarrollo de sus proyectos.

Berumen ofrece la herramienta Analytix que obtiene su información de Facebook y Twitter paramostrar las noticias más mencionadas mediante cuadros, los cuales varían el tamaño en función a lacantidad de menciones, además permite ver noticias a lo largo del tiempo con la manipulación de uncalendario. Figura 2.5.

Figura 2.5: Interfaz principal de Analytix

2.6. Flipboard

Flipboard es una empresa que obtiene su información de medios sociales, RSS y sitios donde secomparten fotos. Ellos presentan su información en un formato de revista permitiendo a los usuariosvoltear los artículos como si estuvieran leyendo una revista de papel. Figura 2.6.


Figura 2.6: Interfaz principal de Flipboard

2.7. Google Noticias

Figura 2.7. Google Noticias es un buscador de noticias automatizado que rastrea de forma constantela información de los principales medios de comunicación en línea, principalmente utiliza los RSS parala extracción de notas periodísticas [5]. Las noticias pueden ser consultadas por secciones, palabrasclave e incluso por entidades. La lista de noticias está disponible, tanto en versión imágenes como enversión de texto y la lista de noticias es de 30 días máximo de consulta.

Los artículos se seleccionan y se clasi�can mediante un sistema informatizado que evalúa, entreotras cosas, la frecuencia y los sitios en los que aparece una noticia. Consecuentemente, las noticias seescogen independientemente de la ideología o el punto de vista político, y el usuario puede elegir deentre una amplia variedad de perspectivas sobre un mismo hecho.

Figura 2.7: Interfaz Google Noticias


2.8. Comparaciones

En esta sección se hace la comparación de los sistemas mostrados anteriormente contra el sistemapropuesto en la presente Tesis.

Las herramientas obtienen su información de diferentes medios sociales. En el cuadro 2.1 se com-paran las diferentes fuentes que utilizan las herramientas mencionadas previamente.

Fuentes RSS Twitter Facebook Otros

Noti-Explorer X × × ×NewsStand X × × ×Analytix × X X ×Flipboard × × × X

Google News X × × ×

Cuadro 2.1: Fuentes de información

En el cuadro 2.2 se observan las opciones para la generación de consultas de las diferentes interfacesdel usuario �nal que ayudan a la recuperación y navegación de las notas periodísticas.

Opciones Palabras clave Categorías Ubicación Fechas Entidades

Noti-Explorer X X X X XNewsStand X X X × ×Analytix × × × X ×Flipboard X X × X ×

Google News X X × X X

Cuadro 2.2: Menú de opciones

En el cuadro 2.3 se comparan algunas técnicas computacionales de minería de datos para la visua-lización de la información recuperada.

Minería de datos IR Clustering NER

Noti-Explorer X X XNewsStand X × ×Analytix × × ×Flipboard X × ×

Google News X X X

Cuadro 2.3: Componentes de minería de datos

Finalmente, comparamos algunas formas de visualizar las noticias recuperadas. El cuadro 2.4 seobserva que cualquier sistema es capaz de mostrar las noticias en forma de lista, mostrando una imagende la noticia, el título y en algunos casos la descripción. NewsStand también lo hace en forma geográ�cay Noti-Explorer utiliza otras técnicas que se consideran importantes para el análisis de las noticias.


Visualización TreeMap Lista Mapa Nube Entidades Serie de tiempo

Noti-Explorer X X X X X XNewsStand × X X × × ×Analytix × X × × × ×Flipboard × X × × × ×

Google News × X × × X ×

Cuadro 2.4: Técnicas de visualización

Capítulo 3

Marco Teórico

Este capítulo está destinado a proveer la teoría de las técnicas computacionales que se utilizanpara el desarrollo del sistema de visualización de noticias digitales. Se revisa la de�nición de mineríaweb, minería de texto, procesamiento de lenguaje natural, recuperación de la información, expresio-nes regulares, aprendizaje automático, reconocimiento de entidades nombradas y visualización de lainformación.

3.1. Minería de Texto

La minería de textos es el proceso de analizar colecciones de materiales de texto con el objeto decapturar los temas y conceptos clave para descubrir las relaciones ocultas y las tendencias existentessin necesidad de conocer las palabras o los términos exactos que los autores han utilizado para expresardichos conceptos [9].

Minería de textos basada en lingüística, por otro lado, aplica los principios de procesamiento delenguaje natural (NLP), análisis asistido por sistema de lenguajes humanos, al análisis de palabras,frases y sintaxis, o estructura, del texto. Un sistema que incorpora tecnología NLP puede extraerconceptos de forma inteligente (incluidas frases compuestas). Además, el conocimiento del lenguajesubyacente permite la clasi�cación de conceptos en grupos relacionados (como por ejemplo, productos,organizaciones o personas) utilizando el signi�cado y el contexto.

La minería de textos basada en lingüística encuentra signi�cado en el texto del modo en que lohacen la personas, reconociendo una variedad de formas de palabra como similares en su signi�cado yanalizando la estructura de la oración para proporcionar una infraestructura para entender el texto.Este método ofrece la velocidad y la rentabilidad propia de los sistemas basados en estadísticas, peroproporciona un grado de precisión mucho más alto y menos intervención humana.

3.2. Procesamiento de Lenguaje Natural

Es la ciencia que trata de los modelos computacionales del lenguaje natural y cómo hacer entendera las computadoras los idiomas humanos [16].

Los fundamentos del procesamiento de lenguaje natural (NLP)se encuentran en las ciencias dela información, computación, lingüística, matemáticas, ingeniería electrónica y eléctrica, inteligenciaarti�cial, robótica y psicología.

Las aplicaciones incluyen un gran número de campos de estudio, tales como traducción, generaciónde resúmenes, procesamiento de texto en lenguaje natural, interfaces de usuario, recuperación de lainformación, reconocimiento del habla y sistemas expertos. El NLP trata de diseñar mecanismos paracomunicarse que sean e�caces constitucionalmente, que se puedan realizar por medio de programas

24

CAPÍTULO 3. MARCO TEÓRICO 25

que ejecuten o simulen la comunicación. Los modelos aplicados se enfocan no solo a la comprensióndel lenguaje, sino a aspectos generales cognitivos humanos y a la organización de la memoria.

3.3. Recuperación de la Información

Recuperación de la información es un subcampo de las ciencias de la computación que trata elalmacenamiento automatizado y la recuperación de documentos a partir de la construcción de unmodelo de espacio vectorial.

3.3.1. Modelo de Espacio Vectorial

Un documento se de�ne mediante n características o atributos independientes. Esas característicasson usadas para describir un documento. En la mayoría de los casos, esas características son palabrasclaves extraídas del título, resumen o texto completo del documento.

En la 3.1dies un documento aijes una característica que describe el documento, su valor o pesore�eja que tan importante es la característica para el documento di, los valores validos para aijson de0 al in�nito y n es el número de características o dimensionalidad del espacio vectorial.

di = (ai1, ai2, ..., aij , ..., ain) (3.1)

En la 3.2D es la colección de documentos, donde aij es el peso del documento dipara la característicaj, mes el numero de documentos en la colección D.

D =

a11 a12 ... a1na21 a22 ... a2n... ... aij ...am1 am2 ... amn

(3.2)

De forma similar a la representación vectorial de un documento, la representación de una consultatambién puede ser de�nida como un vector.

Por lo tanto, en un modelo de espacio vectorial, la comparación es objetiva, pero la selección de lascaracterísticas y sus valores es subjetivo.

3.3.2. Métodos de ponderación de los términos

Asignarle un peso a cada término es fundamental, esencial y vital para la recuperación de la infor-mación. Existen muchos factores para afectar el termino de un documento, por ejemplo, la frecuenciade un termino en un documento, la distancia de un documento, la distribución de un termino en unacolección, la ubicación de un termino en el texto completo, etc.

3.3.3. Palabras vacías

La eliminación de palabras vacías o stop words es una estrategia común usada para �ltrar palabrasque proporcionan poca información y reducir el tamaño de términos indexados en un documento.Ciertas palabras, que son consideradas insigni�cantes dentro de un texto, se agregan a una lista depalabras. Las palabras vacías son comunes en el texto, algunos ejemplos son: el, la, y, los, etc. Esaspalabras no tienen sentido para el proceso de recuperación de la información y por lo tanto se eliminandel texto.


3.3.4. Lematización

La lematización es un proceso lingüístico que consiste en hallar el lema correspondiente de unapalabra, es decir, en plural, en femenino, conjugada, entre otras. El lema es la forma que se aceptacomo representante de todas las formas �exionadas de una misma palabra, esto es, el lema de unapalabra es la palabra que nos encontraríamos como entrada en un diccionario tradicional: singularpara sustantivos, masculino singular para adjetivos, in�nitivo para verbos. Por ejemplo, decir es ellema de dije, pero también de diré o dijéramos; guapo es el lema de guapas, etc.

Además, la lematización se usa en los sistemas de Recuperación de la Información (RI) para reducirel tamaño de los índices, dado que un lexema corresponde normalmente a varios temimos se puedenalcanzar factores de compresión del 50% almacenando lexemas en vez de términos.

3.3.5. Similitud Coseno

Para expresar formalmente la similitud, se utiliza la medida coseno del ángulo entre vectores: cuantomás agudo sea el ángulo, mayor será el coseno, esto es, entre mas grande sea la similitud entre vectoreslos objetos comparados serán más similares [13]. La necesidad de medir la similitud es una situaciónmuy típica en el procesamiento de lenguaje natural automático y tareas de lingüística computacional.La Eq. 3.3 genera el ángulo entre dos vectores ai y bi.

S(x, y) =

n∑i=1

ai × bi

(∑n

i=1 a2i ×

∑ni=1 b

2i )

1/2(3.3)

3.4. Expresiones regulares

En informática, las expresiones regulares proporcionan una manera muy �exible de buscar o reco-nocer cadenas de texto. Básicamente, es una secuencia de caracteres que forma un patrón de búsqueda,principalmente utilizada para la búsqueda de patrones de cadenas de caracteres u operaciones de sus-tituciones. Por ejemplo, el grupo formado por las cadenas Handel, Händel y Haendel se describe conel patrón "H(a|ä|ae)ndel".

La mayoría de las formalizaciones proporcionan los siguientes constructores: una expresión regu-lar es una forma de representar los lenguajes regulares (�nitos o in�nitos) y se construye utilizandocaracteres del alfabeto sobre el cual se de�ne el lenguaje.

3.5. Aprendizaje no supervisado

El aprendizaje no supervisado es el proceso de agrupar los datos en clases o grupos, en tanto quelos objetos dentro de un grupo tienen alta similitud en comparación a otros muy distintos objetos enotros grupos. El proceso de agrupar los objetos físicos o abstractos en clases es llamado clustering. Elmodelado de tópicos es una forma de crear grupos de una forma no supervisada.

3.5.1. Modelado de tópicos

El modelado de tópicos nos provee métodos para organizar, entender y sumarizar grandes coleccio-nes de documentos en forma de texto, básicamente nos puede ayudar a descubrir patrones de tópicosocultos que están presentes en toda la colección de documentos, etiquetar los documentos acorde aesos temas y usar estas etiquetas para organizar, buscar y resumir documentos.

Modelado de tópicos puede ser descrito como un método para encontrar un grupo de palabras,por ejemplo, temas a partir de una colección de documentos que mejor representan la información en


la colección. También puede ser pensado como una forma de extraer texto, una manera de obtenerpatrones recurrentes de palabras en material textual.

Existen muchas técnicas que son usadas para obtener modelado de tópicos. La presente tesis utilizaLatent Dirichlet Allocation (LDA).

3.5.2. Latent Dirichlet allocation (LDA)

En el modelo LDA, cada documento es visto como una mezcla de temas que están presentes en elcorpus. El modelo propone que cada palabra en el documento es atribuible a uno de los temas de losdocumentos.

El muestreo colapsado de Gibbs [14] es una forma en que la LDA aprende los temas y las repre-sentaciones de tema de cada documento. El procedimiento es el siguiente.

Va a cada documento y aleatoriamente asigna cada palabra en el documento a uno de los któpicos.

Esta asignación aleatoria proporciona representaciones temáticas de todos los documentos ydistribuciones de palabras de todos los temas, aunque no muy buenos.

Entonces para mejorar lo anterior:

• Para cada documento di toma cada palabra w y calcula:

◦ p(t|d): proporción de palabras en el documento d que son asignados al tópico t

◦ p(w|t):proporción de asignaciones al tópico t, sobre todos los documentos d, que pro-vienen de w

Reasigna la palabra w a un nuevo tópico t, donde elegimos el tópico t con probabilidad p(t′|d) ∗p(w|t′). Este modelo generativo predice la probabilidad de que el tópico t′genere la palabra w.

Repitiendo el último paso varias veces, se alcanza un estado constante donde la asignación de tópicosson bastante buenos. Esas asignaciones son entonces usadas para determinar la mezcla de temas paracada documento.

3.6. Reconocimiento de entidades nombradas

El reconocimiento de entidades nombradas es una subtarea de extracción de información que buscalocalizar y clasi�car entidades nombradas de un texto dentro de categorías prede�nidas, tal como: nom-bres de personas, organizaciones, ubicaciones, expresiones de tiempo, cantidades, valores monetarios,porcentajes, etc.

3.6.1. DBpedia Spotlight

DBpedia Spotlight es un proyecto de software libre para la anotación automática de entidades entexto en lenguaje natural. Éste provee reconocimiento de frases anotadas y desambiguación por mediode enlaces a otras entidades, así como varios formatos de salida (XML, JSON, RDF, etc.), en unservicio web basado en REST. El algoritmo de desambigüación estándar es basado en similitud cosenoy una modi�cación de los pesos TF-IDF (usando Apache Lucene). El algoritmo de localización de lafrase principal es un emparejamiento de cadenas exactas, el cual usa la implementación LingPipe'sAho-Corasick [4].


3.7. Visualización de la información

Visualización es un proceso de transformar los datos, información y conocimiento en representacio-nes grá�cas para soportar tareas tales como análisis de datos, exploración de la información, explicaciónde la información, predicción de tendencia, detección de patrones, descubrimiento del ritmo, etc. Sinla ayuda de la visualización, existe baja percepción o comprensión de los datos, información, o cono-cimiento por parte de las personas [20].

3.7.1. Perspectivas perceptivas y cognitivas de la visualización

Sin duda, la interacción con información visual implica tanto actividades cognitivas como percep-tivas.

Al momento de buscar información de igual forma implica actividades cognitivas fuertes. Visualiza-ción de recuperación de información debería ser basada en los fundamentos de la cognición con el �n demaximizar la capacidad de percepción y minimizar la carga cognitiva en la búsqueda de información.

3.7.1.1. Perspectiva perceptiva

Las personas perciben la información principalmente a través de la visión. La visualización capitalizanuestra habilidad innata del sistema de percepción humana porque la visión humana es el sentidohumano más altamente desarrollado para recibir, reconocer y comprender información en nuestroambiente [20].

La corteza visual consiste en aproximadamente treinta áreas visuales interconectadas en el cerebro.Es responsable del procesamiento de estímulos visuales y es excelente en reconocimiento de patrones.

Los cuatro sistemas paralelos dentro de la corteza visual humana trabajan simultáneamente paraprocesar la entrada visual recibida de la retina. Un sistema es responsable para el movimiento, unoes responsable del color, y dos son responsables de la forma. Éste es el Mecanismo de procesamientoparalelo que hace que el procesamiento perceptivo en el cerebro increíblemente rápido y e�ciente.

El sistema perceptivo humano no sólo recibe sino también entiende la información visual. Si lainformación conceptual se presenta especialmente, esto ayuda a los usuarios a entender, aprender yrecordar.

La mayoría de los conceptos que un ser humano establecen dentro de un entorno se realizan a travésde la percepción visual porque objetos grá�cos como punto, línea, forma, color, tamaño, ubicación ymovimiento de los objetos pueden formar una variedad de patrones, estos patrones revelan información,encapsulan conocimiento y aclaran las propiedades de los datos.

3.7.1.2. Perspectiva cognitiva

Es ampliamente reconocido que una presentación visual extiende la capacidad cognitiva de la gentehasta cierto punto. Las presentaciones visuales ampli�can la capacidad cognitiva aumentando los recur-sos, reduciendo los esfuerzos de búsqueda, el aumento del reconocimiento de los patrones, la utilizaciónde la inferencia perceptiva, y permitiendo la supervisión perceptiva y la manipulación del medio.

Existen dos mecanismos cognitivos fundamentales o dos mecanismos cognitivos que son responsablesde un proceso de conocimiento diferente y la representación del conocimiento. Una procesa estructurasespaciales y objetos, mientras que la otra procesa símbolos como lenguajes. Tiene diferentes maneras deadquirir, Analizar, transformar, clasi�car, organizar, integrar y representar conocimiento. Recuperaciónde la información es afectada por los dos mecanismos. Por lo tanto, un sistema de recuperación deinformación debe proporcionar a los usuarios un entorno en el que ambas instalaciones cognitivaspuedan utilizarse plenamente para maximizar la capacidad cognitiva en un proceso de búsqueda deinformación.


3.7.2. Visualización para la recuperación de información

La visualización de la recuperación de la información se re�ere a un proceso que transforma losdatos invisibles abstractos y sus relaciones semánticas en una colección de datos en una pantallavisible y visualiza los procesos de recuperación internos para los usuarios. Básicamente, visualizaciónde recuperación de información la tiene dos componentes: la presentación de información visual yrecuperación de la información visual.

La presentación de información visual provee una plataforma donde la recuperación de la infor-mación visual es realizada. Existen herramientas para el análisis visual con diferentes colecciones dedocumentos [1][7] [18][10].

Capítulo 4

ETL de Noti-Explorer

El objetivo de este capítulo es utilizar los conceptos revisados en el capítulo anterior para construirun sistema que extraiga las notas periodísticas de dos diferentes periódicos digitales de México, quetransforme el texto en vectores y que almacene en una base de datos la información representativa decada noticia. Para saber cómo está construida esta parte del sistema se contempla la vista lógica y lavista de proceso.

4.1. Arquitectura para la extracción, trasformación y carga de

noticias

A continuación se muestra la arquitectura para extraer, transformar y cargar las notas periodísticasdigitales almacenadas en una base de datos, �gura 4.1.

Extractor. Este módulo consultan 82 RSS's, en donde cada uno contiene diferentes noticias ypara cada noticia básicamente se tiene un título, una descripción y una liga a la noticia completa, esteúltimo es utilizado por el limpiador.

Limpiador. Aquí se extrae el código HTML donde la noticia se encuentra publicada, se busca laimagen principal y el texto de la nota periodística por medio de expresiones regulares.

Transformador. Una vez que se tiene el texto completo se normaliza para posteriormente trans-formarlo en un vector de frecuencias.

NER. Realiza la extracción y reconocimiento de entidades que se encuentran en la noticia a partirde la búsqueda de información almacenada en Wikipedia [11].

30

CAPÍTULO 4. ETL DE NOTI-EXPLORER 31

Figura 4.1: ETL de Noti-Explorer

4.2. Diagrama de clases para ETL

Básicamente esta vista ayuda a mostrar la funcionalidad del sistema para la extracción de la noticiay su imagen, la transformación del texto obtenido a vector y la carga de la información a una base dedatos para su posterior consulta. La �gura 4.2 muestra el diagrama de clases de ETL de Noti-Explorer.

En el diagrama se puede ver la relación entre clases que se usan para las siguientes vistas. El Lec-torRSS usa las semillas para extraer los ítems de cada semilla y por ende los atributos tales como:Titulo, Descripción, Link, Categoría y Fecha. El EncriptadorMD5 utiliza el Titulo del LectorRSS paragenerar una cadena más corta. El extractorHTML utiliza el Link del LectorRSS para el ExtractorDe-Texto y el ExtractorDeImagen. El NormalizadorDeTexto es usado por el Texto2Vector para generarun vector de frecuencias y por el ExtractorDeEntidades para generar una lista de entidades. Entoncesel Clasi�cadorDeEntidades asigna un tipo a cada una. El Georeferrenciador utiliza Entidades geo-grá�cas del Clasi�cadorDeEntidades para generar generar una latitud y longitud por cada entidad.Finalmente, el generador de consultas utiliza el LectorRSS, ExtractorDeTexto, NormalizadorDeTexto,ExtractorDeImagen, Texto2Vector, EncriptadorMD5, Clasi�cadorDeEntidades y el Georeferrenciadorpara generar una consulta que será utilizada por el ConectorDB.


Figura 4.2: Diagrama de clases


4.3. Proceso de Extracción Transformación y Carga de noticias

En esta sección, se presenta el proceso del sistema para la extracción, transformación y carga delas noticias. Cabe mencionar que es importante entender la secuencia de actividades y el objetivo decada actividad en el proceso. Cada proceso se describe detalladamente en los siguientes puntos.

4.3.1. Identi�cación de periódicos digitales con RSS

La primera tarea antes de estructurar la información de los periódicos digitales fue conocer quefuentes RSS disponibles existen, enseguida se enlistan todas las ligas que se utilizaron como semillaspara hallar el texto completo de cada noticia publicada diariamente.

1. https://www.elsiglodetorreon.com.mx/channel/�nanzas.xml

2. https://www.elsiglodetorreon.com.mx/channel/internacional.xml

3. https://www.elsiglodetorreon.com.mx/channel/cultura.xml

4. https://www.elsiglodetorreon.com.mx/channel/espectáculos.xml

5. https://www.elsiglodetorreon.com.mx/channel/tecnología.xml

6. https://www.elsiglodetorreon.com.mx/channel/salud.xml

7. https://www.elsiglodetorreon.com.mx/channel/policíaca.xml

8. https://www.elsiglodetorreon.com.mx/channel/ciencia.xml

9. https://www.jornada.unam.mx/rss/ciencias.xml?v=1

10. https://www.jornada.unam.mx/rss/opinión.xml?v=1

11. https://www.jornada.unam.mx/rss/política.xml?v=1

12. https://www.jornada.unam.mx/rss/economía.xml?v=1

13. https://www.jornada.unam.mx/rss/mundo.xml?v=1

14. https://www.jornada.unam.mx/rss/estados.xml?v=1

15. https://www.jornada.unam.mx/rss/capital.xml?v=1

16. https://www.jornada.unam.mx/rss/sociedad.xml?v=1

17. https://www.jornada.unam.mx/rss/cultura.xml?v=1

18. https://www.jornada.unam.mx/rss/gastronomía.xml?v=1

19. https://www.jornada.unam.mx/rss/espectáculos.xml?v=1

20. https://www.jornada.unam.mx/rss/deportes.xml?v=1

21. https://www.oem.com.mx/eloccidental/rss/rss_internacional.xml

22. https://www.oem.com.mx/eloccidental/rss/rss_�nanzas.xml

23. https://www.oem.com.mx/eloccidental/rss/rss_cultura.xml

24. https://www.oem.com.mx/eloccidental/rss/rss_cyt.xml

25. https://www.oem.com.mx/eloccidental/rss/rss_espectáculos.xml


26. https://www.oem.com.mx/eloccidental/rss/rss_esto.xml

27. https://www.aztecanoticias.com.mx/rss/seguridad.xml

28. https://www.aztecanoticias.com.mx/rss/internacional.xml

29. https://www.aztecanoticias.com.mx/rss/�nanzas.xml

30. https://www.aztecanoticias.com.mx/rss/tecnologia-y-educacion.xml

31. https://www.aztecanoticias.com.mx/rss/salud.xml

32. https://www.aztecanoticias.com.mx/rss/estados.xml

33. https://www.aztecanoticias.com.mx/rss/entretenimiento.xml

34. https://www.razon.com.mx/spip.php?page=backend_rubrique&id_rubrique=5




38. https://www.razon.com.mx/spip.php?page=backend&id_rubrique=9

39. https://www.razon.com.mx/spip.php?page=backend&id_rubrique=13

40. https://www.razon.com.mx/spip.php?page=backend_opinión&id_rubrique=17

41. https://www.lacronica.com/rss/rssdeportes.xml

42. https://www.lacronica.com/rss/rssentretenimiento.xml

43. https://www.lacronica.com/rss/rsscienciaytecnologia.xml

44. https://www.lacronica.com/rss/rssdeportes.xml

45. https://www.lacronica.com/rss/rsspoliciaca.xml

46. https://www.oem.com.mx/laprensa/rss/rss_mexico.xml


48. https://netnoticias.mx/rss/secciones/Nacional.xml https://elpais.com/tag/rss/mexico/a/

49. https://www.info7.mx/rss/nacional/

50. https://www.radioformula.com.mx/read/portadas/inicio.rss

51. https://www.20minutos.com.mx/rss/

52. https://www.lacronica.com/rss/rssnacional.xml

53. https://yucatan.com.mx/feed?cat=30

54. https://www.oem.com.mx/elsoldecuautla/rss/rss_mexico.xml

55. https://www.radioformula.com.mx/read/portadas/nacional.rss

56. https://www.oronoticias.com.mx/rss/nacional/

57. https://www.tabascohoy.com/servicios/secciones/rss_1_3_0.xml


58. https://www.diariodemexico.com.mx/feed/

59. https://www.lja.mx/feed/

60. https://www.hidrocalidodigital.com/servicios/rss/local.php

61. https://www.lacronica.com/rss/rsslocal.xml

62. https://www.frontera.info/rss/rssnacional.xml



65. https://diario.mx/RSS/Local/

66. https://netnoticias.mx/rss/secciones/Estado.xml


68. https://guanajuatonoticias.webnode.es/rss/all.xml

69. https://unisur-acapulco-guerrero.webnode.mx/rss/all.xml

70. https://www.aztecanoticias.com.mx/rss/mexico.xml

71. https://www.radioramanayarit.mx/index.php/rss?format=feed&type=rss

72. https://www.oronoticias.com.mx/rss/ciudad/

73. https://www.dossierpolitico.com/rss/sonora.php

74. https://www.tabascohoy.com/servicios/secciones/rss_1_1_0.xml

75. https://www.info7.mx/rss/tamaulipas/



78. https://www.cuasartv.com/rss

79. https://notes.e-hidalgo.gob.mx:8080/publicaciones/�ash.nsf/rss.xml

80. https://quintanaroo.webnode.es/rss/all.xml

81. https://www.elsiglodetorreon.com.mx/channel/saltillo.xml

82. https://www.elsiglodetorreon.com.mx/channel/durango.xml

83. https://www.elsiglodetorreon.com.mx/channel/nacional.xml


4.3.2. Lector de RSS's

Lo siguiente fue conocer el contenido XML de cada enlace, con lo cual se identi�có que to-dos contaban con el título de la noticia, una pequeña descripción y un link a la noticia comple-ta, este último atributo sirvió para acceder al texto y a las imágenes de cada una de ellas. En la�gura 4.3 se muestra un ejemplo de un XML del periódico Azteca Noticias utilizando la semillahttps://www.aztecanoticias.com.mx/rss/�nanzas.xml.

Figura 4.3: Formato XML

4.3.3. Extractor de imagen

Para extraer la imagen principal de la noticia de cualquier periódico digital fue necesario analizarvisualmente el Lenguaje de Marcado para Hipertextos (HTML) de cada periódico, en la �gura 4.4 semuestra un ejemplo del periódico Azteca Noticias y en éste la liga que nos lleva a su imagen.


Figura 4.4: Link de la imagen en el documento HTML

El ejercicio anterior se realizó para todos los diferentes periódicos digitales observando que la imagenprincipal siempre estaba en un formato .jpg (Grupo Conjunto de Expertos en Fotografía). Por lo tanto,con ayuda de expresiones regulares es posible hacer la extracción de la imagen que ilustra la noticia.En el cuadro 4.1 se muestra la expresión regular que se utilizó para todos lo periódicos digitales.

htt.+//.+jpg

Cuadro 4.1: Expresión regular para extraer imágenes

4.3.4. Extractor de texto

Para lograr extraer el texto de igual forma hubo que inspeccionar cada documento HTML de losdiferentes periódicos digitales. En la �gura 4.5se muestra un ejemplo del periódico Azteca Noticias yen éste la liga que nos lleva al texto completo.


Figura 4.5: Texto en el documento HTML


El ejercicio anterior de igual forma se realizó para todos los diferentes periódicos digitales obser-vando que el texto se encontraba entre una etiqueta HTML que indica que se trata de un párrafo(). Por lo tanto, con ayuda de expresiones regulares es posible hacer la extracción del texto.En el cuadro 4.2 se muestra la expresión regular que se utilizo para todos lo periódicos digitales.

.+

Cuadro 4.2: Expresión regular para extraer el texto completo

4.3.5. Extractor de Entidades

La extracción de entidades se hace utilizando DBpedia Spotlight [11] el cual permite generar unaontología por cada Entidad encontrada dentro de un texto dado. El programa hace una petición a unaAPI local por cada noticia encontrada. En la �gura 4.6 se presentan algunas entidades encontradas enun formato JSON.


Figura 4.6: Entidades


4.3.6. Etiquetador de entidades

En este punto se asigna una etiqueta a cada entidad extraída. En la �gura anterior se puedeobservar que la llave @URI de cada objeto contiene un link con la entidad encontrada, por ejemplopara https://es.dbpedia.org/resource/Estados_Unidos la entidad es �Estados Unidos�. La llave@types permite conocer a que tipo de entidad se re�ere, por ejemplo, en el caso de Estados Unidosnos dice que se trata de un lugar geográ�co o para el caso de �Vera Rubin� una persona. Finalmentesolamente se obtienen entidades y tipos.

4.3.7. Georreferenciador de entidades

En la presente tesis también es posible observar las noticias de forma geográ�ca. Después de haberextraído las entidades de cada texto se seleccionan solamente las que son del tipo geográ�co y seconsultan a una API con el �n de obtener su latitud y longitud. Dado que algunas veces una noticiallega a tener más de una entidad geográ�ca el sistema guarda una lista de todas las locaciones posibles.

4.3.8. Normalizador de Texto

Después de haber extraído el texto completo de cada documento HTML fue posible convertircada uno de ellos en un vector, es decir, una representación numérica, esto con el �n de recuperar lainformación de una forma mas rápida. En el cuadro 4.4 se muestra un ejemplo de un texto original.

La astrónoma pionera estadounidense Vera Rubin, quien aportó evidencia �rme sobre la existencia

de la materia oscura, ha fallecido, informó su hijo. Tenía 88 años.Rubin murió el domingo de

causas naturales, dijo el lunes su hijo Allan Rubin. La astrónoma oriunda de Filadel�a vivía en la

zona de Princeton, New Jersey.Rubin encontró que las galaxias no giran totalmente en la manera

pronosticada, lo cual aportó sustento a la teoría de que otra fuerza estaba interviniendo, es decir,

la materia oscura. La materia oscura, que no se ha observado directamente, conforma el 27% del

universo, en comparación con el 5% de la materia normal del universo.Los cientí�cos han

comprendido mejor qué no es la materia oscura respecto de lo que sí es. Debido a sus logros

cientí�cos, Rubin obtuvo numerosas distinciones. El presidente Bill Clinton le otorgó en 1993 la

Medalla Nacional de la Ciencia por sus investigaciones precursoras en la cosmología de

observación. Fue la segunda astrónoma incorporada a la Academia Nacional de Ciencias. Demás

está decir que, como mujer, Vera Rubin debió superar una serie de obstáculos en el camino , tuiteó

el físico Sean Carroll, del Instituto de Tecnología de California.Rubin empezó a interesarse de

joven por la astronomía. Su padre, Philip Cooper, un ingeniero electrónico, le ayudó a construir

un telescopio y la llevaba a reuniones de a�cionados a la astronomía.Rubin decía que sus padres le

dieron pleno apoyo para que se dedicara a la carrera de su elección, pero su padre le había

sugerido que se dedicara a la matemática, preocupado de que le resultara difícil ganarse la vida

como astrónoma, según dijo en 1995 en una entrevista con el Instituto Estadounidense de Física.

Fue la única graduada en astronomía de la Universidad Vassar en 1948. Cuando quiso hacer su

maestría en Princeton, se enteró de que esa universidad no admitía mujeres en el posgrado de

astronomía, de manera que lo hizo en la Universidad de Cornell. Rubin obtuvo su doctorado en la

Universidad de Georgetown, donde fue profesora durante varios años, para luego trabajar en la

Institución Carnegie de Washington, un centro de investigaciones cientí�cas sin �nes de lucro.

Cuadro 4.4: Texto original

Para normalizar el texto lo primero que se hace es pasar todas las palabras a minúsculas, lo se-gundo, parsear el texto para quitar las palabras vacías (stopwords) tales como: artículos, pronombres,preposiciones, etc. Se utiliza un diccionario con 428 palabras y caracteres. Enseguida se obtiene co-


mo resultado una lista de palabras más pequeña, también se reduce la dimensionalidad del vectorobteniendo el lema de cada palabra. El cuadro 4.6 es el resultado del ejemplo anterior.

astrónomo pionero estadounidense vera rubin aportar evidencia �rmar existencia materia oscuro

fallecer informar hijo 88 años.rubin morir domingo causa natural decir lunes hijo allan rubin

astrónomo oriundo �ladel�a vivir zona princeton new jersey.rubin encontrar galaxia girar

totalmente manera pronosticar aportar sustentar teoría forzar intervenir decir materia oscura.la

materia oscuro observar directamente conformar 27% universo comparación 5% materia normal

universo.los cientí�co comprender mejor materia oscuro respectar es.debido logro cientí�co rubin

obtener numeroso distinción presidente bill clinton otorgar 1993 medalla nacional ciencia

investigación precursor cosmología observación 2 astrónomo incorporar academia nacional ciencia

demás decir mujer vera rubin deber superar seriar obstáculo caminar tuiteó físico carroll instituto

tecnología california.rubin empezar interesarse joven astronomía padre philip cooper ingeniero

electrónico ayudar construir telescopio llevar reunión a�cionado astronomía.rubin decir padre dar

pleno apoyar dedicar carrera elección padre sugerir dedicar matemática preocupar resultar difícil

ganarse vida astrónomo decir 1995 entrever instituto estadounidense física.fue único graduado

astronomía universidad vassar 1948 querer maestría princeton enterar universidad admitir mujer

posgrado astronomía manera hacer universidad cornell.rubin obtener doctorado universidad

georgetown profesor vario año luego trabajar institución carnegie washington centrar investigación

cientí�co �n lucrar

Cuadro 4.6: Texto normalizado

4.3.9. Texto2Vector

Finalmente para construir dicho vector se calculó la frecuencia de cada una de las palabras resul-tantes y se almaceno en una lista siendo que en la primera posición de la lista se almacena la palabra,en la siguiente posición la frecuencia, en la tercera otra palabra con su frecuencia en la cuarta posicióny así sucesivamente. El cuadro 4.8 muestra el vector resultante.

manera 2 vassar 1 astrónomo 4 girar 1 enterar 1 zona 1 27 1 cientí�co 3 numeroso 1 sustentar 1

tecnología 1 vida 1 nacional 2 resultar 1 decir 5 informar 1 teoría 1 fallecer 1 �n 1 superar 1 mujer

2 electrónico 1 pronosticar 1 conformar 1 vera 2 aportar 2 investigación 2 dar 1 2 1 incorporar 1

directamente 1 oscuro 3 querer 1 caminar 1 galaxia 1 doctorado 1 años.rubin 1 respectar 1 allan 1

88 1 maestría 1 astronomía 3 oriundo 1 observación 1 posgrado 1 cooper 1 ayudar 1 academia 1

intervenir 1 sugerir 1 causa 1 new 1 trabajar 1 1948 1 medalla 1 pionero 1 philip 1 física.fue 1

instituto 2 universo 1 luego 1 precursor 1 georgetown 1 empezar 1 universidad 4 centrar 1

cosmología 1 clinton 1 evidencia 1 washington 1 obtener 2 admitir 1 morir 1 estadounidense 2

profesor 1 joven 1 presidente 1 hijo 2 california.rubin 1 distinción 1 cornell.rubin 1 �rmar 1 físico 1

ciencia 2 existencia 1 hacer 1 comprender 1 reunión 1 vivir 1 tuiteó 1 obstáculo 1 difícil 1 domingo

1 telescopio 1 lucrar 1 1993 1 astronomía.rubin 1 1995 1 princeton 2 bill 1 preocupar 1 encontrar 1

llevar 1 institución 1 construir 1 dedicar 2 seriar 1 ingeniero 1 observar 1 carroll 1 entrever 1

interesarse 1 �ladel�a 1 matemática 1 mejor 1 jersey.rubin 1 universo.los 1 deber 1 materia 5% 2

a�cionado 1 rubin 4 5 1 carrera 1 elección 1 pleno 1 lunes 1 oscura.la 1 apoyar 1 normal 1 carnegie

1 comparación 1 otorgar 1 año 1 es.debido 1 ganarse 1 vario 1 natural 1 padre 3 logro 1 forzar 1

demás 1 graduado 1 único 1 totalmente 1

Cuadro 4.8: Vector resultante


4.3.10. Encriptador MD5

Durante la carga se va generando una lista por día de los títulos encriptados con el �n de evitar quese dupliquen las noticias, es decir, se toma el título de la noticia, se aplica el encriptador MD5 [15] yse compara con las noticias anteriores del día, por lo tanto solamente se almacenan noticias diferentes.La encriptación se propone para reducir los tiempos de procesamiento al momento de querer �ltrar lasnoticias repetidas.

4.3.11. Generador de consulta

La carga se hace sobre el sistema de gestión de bases de datos MySQL [12] una vez que se hanobtenido todos los atributos de la tabla, es decir, por cada noticia se tienen las variables: Id, Semilla,Fecha, Titulo, Link, Descripción, Categoría, Texto, TextoNormalizado, Vector, Entidades, Imagen,Location. Entonces se construye una sentencia SQL del tipo Lenguaje de manipulación de datos (DML)para inserción en tablas.

4.3.12. Conector DB

En este proceso se realiza la conexión a la base de datos para realizar la inserción de los datos en latabla correspondiente, en este proceso fue necesario haber con�gurado el manejador de base de datoscon un nombre de usuario y una contraseña.

4.3.12.1. Descripción de la base de datos

Básicamente la información se almacena en en una sola tabla debido a que a futuro de planeamigrar la información a un manejador de base de datos no estructurada. Entonces la descripción de labase de datos se muestra en el cuadro 4.9.

Campo Tipo Null Key Default

id int N Pri NullSemilla varchar N NullFecha date N NullTitulo varchar N NullMD5 varchar N NullLink varchar N Null

Descripción tinytext N NullCategoría varchar N NullTexto longtext N Null

TextoNormalizado longtext N NullVector longtext N Null

Entidades varchar Y NullImagen varchar Y NullLocation �oat Y Null

Cuadro 4.9: Descripción de la base de datos

Capítulo 5

Recuperación y Visualización deNoti-Explorer

El objetivo de este capítulo es utilizar los conceptos referentes a visualización para la recuperaciónde la información vistos en el capítulo 2, esto con el �n de construir un componente que recupere lasnoticias digitales de México almacenadas en una base de datos y que posteriormente las despliegue endiferentes visualizaciones para su posterior análisis visual.

5.1. Arquitectura para la recuperación y visualización de noti-

cias

A continuación se muestra la arquitectura para recuperar, sumarizar y visualizar las notas perio-dísticas digitales almacenadas en una base de datos, �gura 5.1.

Asignador. Este módulo realiza dos tareas, la primera es construir una consulta en MySQL paraextraer los vectores relacionados a una sección y un lapso de tiempo; la segunda es pasar las palabrasclave al Normalizador.

Normalizador. Aquí se hace la normalización de las palabras introducidas en la barra de búsqueda,posteriormente construye un vector que será utilizado por el modulo SC.

SC. Aquí se realiza la comparación de los vectores extraídos de la base de datos contra el vector delas palabras clave mediante la utilización del modelo de similitud coseno. Finalmente se obtiene unamatriz termino documento cuya similitud corresponde a las palabras clave.

LDA. Utiliza la matriz termino documento generada por el modulo SC y un valor declarado porel usuario �nal desde la interfaz principal. Además este módulo se encarga de generar las estructurasde datos necesarias para cada técnica de visualización.

44

CAPÍTULO 5. RECUPERACIÓN Y VISUALIZACIÓN DE NOTI-EXPLORER 45

Figura 5.1: Arquitectura del recuperador y visualizador

5.2. Interfaz principal de Noti-Explorer

En la �gura 5.2 se muestra la interfaz principal de Noti-Explorer donde el lado izquierdo contieneun menú de opciones, tanto para personas que únicamente les interesa mantenerse informados comopara quienes les interesa hacer un análisis; del lado derecho se tiene una barra de búsqueda para escribirpalabras clave, y debajo de esta se muestran las noticias de hoy referentes a una sección y diferentesperiódicos digitales.

Figura 5.2: Interfaz principal

La herramienta de visualización de noticias te permite navegar a través de diferentes noticias deldía organizadas ya sea por secciones o estados de la república mexicana. En la �gura 5.3 se muestraen forma de lista desplegable las diferentes secciones y estados contenidos en Noti-Explorer.


Figura 5.3: Menú de opciones

En la �gura 5.4 se observa un ejemplo de las diferentes noticias del día que pertenecen a la secciónde �nanzas.

Figura 5.4: Noticias de hoy en la sección de �nanzas

Además Noti-Explorer cuenta con un menú de opciones que permite la búsqueda y �ltrado de lasnoticias digitales almacenadas en la base de datos. En la �gura 5.1 se muestra el menú de opcionespara dicho caso. En el primer �ltro se puede elegir la búsqueda en diferentes secciones, el siguiente�ltro es el tiempo, es decir, buscar entre las noticias del día, de toda la base de datos o en un rango


de fechas, y �nalmente un parámetro para la generación de grupos de noticias.

Cuadro 5.1: Menú de opciones para el análisis

5.3. Diagrama de clases

Básicamente esta vista ayuda a mostrar la funcionalidad que el sistema provee al usuario �nal,el usuario �nal es la persona interesada en explorar o analizar las noticias de diferentes periódicosdigitales. La �gura 5.5 muestra el diagrama de clases del sistema para la visualización de los datos enla interfaz �nal. Aquí, se puede ver la relación entre clases al momento de recuperar información de labase de datos. El GeneradorDeSentenciasSQL utiliza los datos que son proporcionados por el usuario�nal desde la interfaz tales como la fecha y la categoría para realizar una consulta a la base de datoscon el ConectorDB y que éste retorne una matriz con los datos de las diferentes noticias. A su vez elNormalizadordeTexto y el Texto2Vector convierten las palabras clave que son proporcionadas desde


la interfaz a un vector. Entonces el ComparadorDeVectores toma el resultado de Texto2Vector y locompara con el atributo Vector de los registros obtenidos con el ConectorDB con el �n de utilizar solo lasnoticias similares a cierta búsqueda. El Diccionario toma el atributo Vector de los registros resultantes yla MatrizTerminoDocumento utiliza el Diccionario para que ambos sean utilizados por el ClusterLDA,también éste utiliza el número de tópicos de la interfaz principal. Finalmente el GeneradorDeObjetosgenera seis diferentes JSON's por cada tópico creado, Noticias, Map, Entidades, TreeMap, Nube ySerie.


Figura 5.5: Diagrama de clases


5.4. Proceso para la recuperación y visualización

En esta sección, se presenta el proceso del sistema a partir de la recuperación de la información. Deigual manera que el diagrama anterior es importante entender la secuencia de actividades y el objetivode cada actividad en el proceso. Cada proceso se describe detalladamente en los siguientes puntos.

5.4.1. De�nición de los parámetros de búsqueda

En este punto se propone una interfaz para �ltrar las noticias por categoría, por fecha y palabrasclave. En la �gura se muestra la interfaz principal de Noti-Explorer hecha con HTML, CSS, jQuery.

Figura 5.6: Interfaz principal con datos de entrada

Básicamente el sistema recibe cuatro parámetros de búsqueda , el primero es la sección en dondese desea buscar, este menú incluye la opción de buscar en todas las secciones; el segundo es el tiempo,es decir, de que fecha a que fecha se pretende llevar a cabo el análisis, ésto puede ser por un día, unasemana o incluso desde que se inició la extracción de las noticias, o sea, poco mas de un año; establecerel numero de tópicos o grupos es el tercer parámetro, el cual solo da tres opciones, 5, 7, ó 9, basadoen la premisa que la capacidad de la memoria se limita a un promedio de siete elementos más o menosdos; �nalmente las palabras clave son requeridas para hacer la recuperación de la información. Cabemencionar que entre más palabras ingresadas el conjunto de noticias recuperadas se reduce.

5.4.2. Extracción de noticias con SQL

La categoría y las fechas son parámetros que recibe el generador de sentencias SQL, una vezgenerada la consulta éste retorna una cadena de texto, por ejemplo, �SELECT * FROM tabla_NoticiasWHERE Categoría = 'Finanzas' and Fecha > 2016-09-06 and Fecha < 2017-09-06�.

La sentencia SQL, entra como parámetro en la clase ConectorDB el cual se encargara de hacer lapetición a la base de datos y retornará como resultado una lista de noticias de la categoría de Finanzasdesde el 6 de septiembre del 2016 al 6 de septiembre del 2017.


5.4.3. De palabras clave a vector

Noti-Explorer tiene la capacidad de realizar consultas por palabras clave las cuales son ingresadasen la caja de texto que se encuentra en la parte superior de la interfaz principal. Las palabras insertadasprimero son normalizadas y convertidas a un vector de frecuencias.

5.4.4. Comparador de vectores

Una vez que se tiene la lista de noticias de la base de datos y el vector consulta se utiliza el modelode similitud coseno para comparar los vectores. Recordemos, que para cada noticia en la base de datosexiste un vector que lo representa calculado al momento de su extracción. El resultado es un conjuntode noticias con similitud diferente a cero y es utilizado por el generador de tópicos.

5.4.5. Generación de Tópicos

El método clusterLDA recibe como parámetros de entrada el número de tópicos obtenido de lainterfaz principal, un diccionario de palabras generado a partir de las noticias recuperadas y unamatriz termino documento; ya con estos parámetros listos, se introducen al algoritmo no supervisadoLDA para asignar cada noticia a un grupo. La cantidad de palabras mostradas por cada grupo sedejó con una constante de 9. Entonces, para cada grupo existe un conjunto de noticias similares y unconjunto de palabras que representan al grupo.

5.4.6. Visualización por tópicos

Una vez que a cada grupo se le asignó un conjunto diferente de noticias, el método Generador-DeObjetos se encarga de construir los diferentes objetos JSON para cada una de las visualizacionespropuestas. Las primeras visualizaciones que nos ayudaran a la exploración de las noticias recuperadasson el Tree Map y la nube de palabras ubicadas en lado izquierdo y derecho respectivamente en la�gura 5.7. El TreeMap del lado izquierdo nos permite ver los diferentes grupos generados previamenteen diferentes colores, el tamaño de cada grupo es proporcional a la cantidad de noticias publicadas y asu relevancia, además, cada cúmulo tiene por etiqueta las tres primeras palabras más representativasde cada conjunto. Por ejemplo, para el tópico 3 se tienen como palabras: estrella, tierra y año. La nubede palabras muestra las palabras mas representativas de las 48 noticias recuperadas en el ejemplo.


Figura 5.7: Tree Map y nube de palabras

En la �gura 5.8 se observa que al momento de interactuar con el TreeMap en el siguiente nivel sedespliegan las palabras más representativas y la nube de palabras se actualiza con las palabras quepertenecen al conjunto seleccionado, además, debajo del TreeMap se enlistan las entidades extraídasy reconocidas de las diferentes notas periodísticas mostradas del lado derecho. Cabe mencionar quetanto las palabras del segundo nivel como la lista de entidades permite la navegación entre las diferentesnoticias recuperadas, es decir, al darle un clic a la palabra �sol�, automáticamente aparecerán las noticiasque contengan dicha palabra; lo mismo sucede con las entidades nombradas.


Figura 5.8: Segundo nivel del TreeMap

En la �gura 5.9se observa del lado izquierdo una lista de entidades y del lado derecho algunasnoticias las cuales se obtuvieron al hacer un clic sobre la entidad Biotecnología.

Figura 5.9: Exploración con entidades

También es posible ver la cantidad de publicaciones a lo largo del tiempo, en la �gura 5.10 se muestrauna grá�ca en donde se observan 5 puntos diferentes, donde cada punto representa una noticia.


Figura 5.10: Frecuencia de publicaciones por fecha

Noti-Explorer nos muestra las noticias de forma geográ�ca partir del reconocimiento de entidadesde este tipo. En la �gura 5.11se puede observar como la noticia �Ubican nuevos planetas a 16 añosluz de distancia� la ubica en Estados Unidos debido a que dentro del texto se encuentra esta entidad.Cabe señalar que si la noticia contiene más de una entidad geográ�ca, ésta se coloca en el mapa deacuerdo a la cantidad de entidades encontradas.


Figura 5.11: Noticias sobre un mapa

Capítulo 6

Experimentos y Resultados

Este capítulo se muestra algunos experimentos realizados sobre el sistema Noti-Explorer para laexploración de grandes corpus periodísticos en múltiples periódicos digitales. El capítulo se organizade la siguiente manera. Primero, se describen los datos en donde se realiza la exploración, seguido delos experimentos y resultados en la exploración. Finalmente se ejempli�can otros resultados con otrasconsultas realizadas.

6.1. Descripción de los datos

Para las pruebas se tiene la siguiente información: del 21 de Septiembre del 2016 al 12 de Octubredel 2017 hay total de 398,399 noticias de las cuales 168,283 mil noticias son diferentes y el resto serepinten.

Noti-Explorer funciona con 32 periódicos digitales dando un total de 83 enlaces RSS y cada enlacepertenece a una sección. En la �gura 6.1 se muestra la cantidad de secciones que tiene cada periódico.

56

CAPÍTULO 6. EXPERIMENTOS Y RESULTADOS 57

Figura 6.1: Secciones por periódico

Existen 29 secciones diferentes las cuales se observan en el cuadro 6.1:


No. Sección

1 Aguascalientes2 Baja California3 Campeche4 Capital5 CDMX6 Chihuahua7 CienciaYtecnologia8 Coahuila9 Cultura10 Deportes11 Durango12 Economia13 Entretenimiento14 Estados15 Finanzas16 Hidalgo17 Internacional18 Nacional19 Nayarit20 Opinión21 Politica22 Puebla23 Salud24 Seguridad25 Sociedad26 Sonora27 Tabasco28 Tamaulipas29 Yucatan

Cuadro 6.1: Secciones


Figura 6.2: Promedio de noticias por día en los distintos periódicos

En la �gura 6.2 se muestra el total de noticias en la base de datos por cada periódico. Se puede verque la 37,840 pertenecen al periódico La jornada.

6.2. Experimentos

Este capítulo muestra el diseño de algunos experimentos y sus resultados de la exploración denoticias digitales a partir de la modelación de tópicos y el reconocimiento de entidades nombradas.Los experimentos se realizan por medio de la interacción del usuario con la herramienta y se planteala recuperación de noticias referente a marcas, catástrofes naturales, personas y enfermedades. Estecapítulo se organiza de la siguiente manera. Primero se realiza un diseño por cada experimento seguidode sus resultados y �nalmente se compara con otros sistemas.

6.2.1. Diseño del experimento

El objetivo de este experimento es mostrar un método para la exploración de notas periodísticasimportantes de acuerdo al interés de un usuario en particular. Cabe mencionar que los pasos del uno altres del cuadro 6.2 se propone repetirlos con el objetivo de reducir el número de noticias recuperadas,esto debido a que nos interesa enfocarnos en las noticias con mayor relevancia y a su vez conocer losposibles subtópicos generados.

6.2.2. Resultados

Primeramente se tiene que establecer la con�guración para cada prueba, en el cuadro 6.3 se proponeque los parámetros key words, Sección y Fechas se mantienen constantes, pero No. de Tópicos cambiaa 5, 7 y 9.


No. Paso descripción

1 Con�guración deparámetros para las

pruebas

Se realizan tres pruebas; Ingresar las palabras clave, la sección,las fechas, 5 tópicos para la primera iteración, 7 para la segunda

y 9 para la ultima.2 Comparación de

resultadosBuscar cuales son los tópicos que más se repiten, ésto mediante

la comparación de los resultados del paso anterior.3 Selección de tópico Se propone seleccionar un tópico de acuerdo al interés del usuario

�nal utilizando el análisis previo y el conocimiento obtenido apartir de la interacción con las múltiples visualizaciones.

4 Repetir los pasosanteriores

En caso de que sea necesario se repiten los pasos anteriores, peroahora colocando más palabras en la barra de búsqueda, esto es,las primeras palabras ingresadas, más las palabras de la selección

anterior.

Cuadro 6.2: Pasos del experimento

Parámetro Valor

Key words SamsungSección TodoFechas 21/09/2016 al 16/10/2017

No. de Tópicos 5, 7 y 9

Cuadro 6.3: Pruebas en la primera iteración

Después de haber ejecutado la aplicación con diferentes números de tópicos en la �gura 6.3 se puedeobservar que recuperaron 240 noticias ya sea para 5, 7 o 9 tópicos.


Figura 6.3: Noticias recuperadas

En la �gura 6.4 se observan los resultados del paso 1, en donde se hace la comparación de tresdiferentes grá�cas con la generación de 5, 7 y 9 tópicos.

Figura 6.4: Comparación de tópicos con la consulta �Samsung�


5 Tópicos 7 Tópicos 9 Tópicos

total Tópicos

60 galaxy; notar; 727 tecnología;

permitir; usuario24 millón; mil; ciento17 nokia; iphone;

pantalla15 presidente; leer;

park

total Tópicos

56 7; galaxy; notar19 iphone, apple,

teléfono17 leer; presidente;

park13 nokia; pantalla;

nuevo12 poder; información,

empresa11 méxico,

internacional,centrar

11 mil, año, millón

total Tópicos

42 notar; 7; galaxy21 millón; dolar; mil16 park; leer;

presidente16 usuario; google;

diseñar14 poder; empresa;

parte11 nokia; iphone;

pantalla10 méxico; centrar;

internacional6 sistema;

documento; cia5 peso; mil; millón

Cuadro 6.4: Generación de diferentes tópicos

En el cuadro 6.4 se comparan lo resultados obtenidos de paso anterior, y si observamos deta-lladamente los tópicos que más se repiten en las tres iteraciones son �galaxy; notar; 7� y � leer;

presidente; park� ; para dos iteraciones tenemos �nokia; iphone; panatalla� y �méxico; centrar;

internacional� .Para el siguiente paso se selecciona el tópico más importante, esto es, el conjunto de noticias con

más publicaciones, en este caso sería �galaxy; notar; 7�.

Para este ejemplo se repiten los pasos anteriores para ver cómo se reduce el número de noticiasrecuperadas, En la �gura se observa que entre más palabras se agregan a la barra de búsqueda, sereduce el numero de noticias recuperadas, de 240 ahora se exploran solo 84.


Figura 6.5: Noticias recuperadas utilizando el tópico seleccionado

Figura 6.6: Comparación de tópicos con la consulta �Samsung galaxy notar 7�

En cuadro 6.5 nuevamente se observan los resultados para 5, 7 y 9 tópicos con la consulta �Samsung

galaxy notar 7�.

Aquí observamos que las palabras que representan los tópicos se muestran de forma más dispersa,por lo tanto ahora se puede explorar el conjunto de noticias agrupadas ya sea por subtópicos o por


las entidades extraídas. Para este ejemplo comenzaremos la exploración con los resultados obtenidos apartir de la generación de nueve tópicos.

5 Tópicos 7 Tópicos 9 Tópicos

total Tópicos

18 millón; teléfono;batería

11 reportar; empresa;seguridad

7 nuevo; presentar;pantalla

8 teléfono; decir;batería

6 ciento; año;compañía

total Tópicos

18 teléfono; batería;mercado

10 corea; unir; estado8 nuevo; pantalla;

cámara;7 millón; dólar; mil7 ciento; teléfono;

venta2 hollar; tecnología;

persona2 empresa; iphone;

leer

total Tópicos

13 batería;teléfono;decir

12 millón; dólar; corea6 teléfono;

dispositivo; mes5 nuevo; pantalla;

cámara5 pasajero; avión;

seguridad5 reemplazar;

explotar; usuario3 ciento; inteligente;

año3 año; seguro;

presentar1 apple; s8;

tecnología

Cuadro 6.5: Generación de diferentes tópicos

En la �gura 6.7 se visualiza el resultado de la búsqueda para nueve tópicos, aquí vemos que el grupomás representativo contiene 20 noticias de las 84 que se encontraron; del lado derecho en la nube depalabras también se observa con un tamaño más grande las mismas tres palabras que representanal tópico cero. Al interactuar con el Tree Map dando clic sobre éste, se muestran las palabras masrepresentativas del cúmulo seleccionado, a su vez, la nube de palabras se actualiza. Se genera una listade entidades nombradas, una lista de noticias, �gura 6.8, y se grá�ca a través del tiempo la frecuenciade las publicaciones, �gura 6.10, y se colocan las noticias de forma geográ�ca, �gura 6.11.


Figura 6.7: Tree Map de Samsung

La �gura 6.8 muestra que dentro del tópico cero existen 20 noticias las cuales contienen un grannúmero de entidades, las cuales se pueden ver del lado derecho y que además permiten la exploraciónde las noticias recuperadas por medio de la interacción con ellas.


Figura 6.8: Entidades y Noticias de Samsung

La �gura 6.9 muestra del lado derecho una lista de noticias que se visualizan a partir de dar clica una entidad, en este ejemplo la entidad seleccionada es �Francia� la cual puede ser distinguida deltipo PopulatedPlace.


Figura 6.9: Frecuencia de publicaciones a lo largo del tiempo

La �gura 6.10 muestra la cantidad de noticias publicadas en determinadas fechas, en este ejemplo seobserva que el 21 de septiembre fue el día que más publicaciones se presentaron acerca del dispositivoSamsung y en donde aparentemente se dejó de hablar de este dispositivo hasta julio del 2017.


Figura 6.10: Frecuencia de publicaciones a lo largo del tiempo

La �gura 6.11 muestra las noticias ubicadas geográ�camente, las cuales pueden ser consultadas consolo dar clic sobre el icono de color rojo. Esta noticia se ubica de acuerdo a entidad extraída del texto.En este ejemplo se ubica en México debido a que dentro del texto extraído se encuentra dicha entidad.Si observamos el texto de la noticia nos podemos dar cuenta que la noticia se ubicó en Francia debidoa que ahí fue donde acorrieron los hechos, �gura.


Figura 6.11: Noticias de Samsung sobre el mapa geográ�co

Figura 6.12: Noticia

6.2.3. Otros Ejemplos

6.2.3.1. Acontecimientos

Supongamos que un analista de opinión pública quiere conocer los tópicos que surgen acerca delas próximas elecciones del 2018 debido a que pretende establecer estrategias de campaña para uncandidato en especí�co. Con ayuda de Noti-Explorer es posible conocer algunos temas referentes.

Para llevar a cabo el análisis, vamos a realizar la recuperación de las noticias desde enero a la fechasolamente en la sección de política, generando cinco grupos con la palabra elecciones. La �gura 6.13muestra el resultado obtenido de la con�guración mencionada anteriormente, en donde observamosque la nube de palabras hace mayor referencia al Tópico 3, sin embargo en este ejercicio exploraremos


las noticias del Tópico 2: partido; nacional; 2018 . La �gura 6.14 y 6.15 resulta de dar clic al cuadronaranja. Además al explorar las noticias que están relacionadas con la entidad �Facebook� vemos quese obtiene solo 22. Si comenzamos a relacionar las palabras del tópico 2 �partido, nacional, 2018�con la entidad �Facebook� y el primer título de la noticia �Exculpan a Osorio Chong de promoción enInternet�. Fácilmente se puede llegar a una hipótesis. ¾Es verdadera la hipótesis formulada después dehaber leído la noticia completa?. La �gura 6.16 es la noticia completa referente a Osorio Chong.

Figura 6.13: Primeros resultados de la búsqueda �elecciones�

Figura 6.14: Tópico 2


Figura 6.15: Entidades y Noticias del Tópico 2


Figura 6.16: Noticias: Acusan al Bronco de utilizar recursos públicos en la aspiración por la presidencia

6.2.3.2. Delitos

¾Qué tipos de robo son los que más generan noticias?, Esta pregunta se la podrían hacer autoridadesde la Ciudad de México y Noti-Explorear podría ayudar a encontrar algunas noticias relacionadas a losdelitos de robo. Como sabemos los delitos están catalogados por distinto tipos, nos gustaría conocerqué tipo de robo es el que más se publica en los medios sociales. Para esto vamos a buscar todas lasnoticias que contengan la palabra robo en la categoría seguridad y generaremos siete grupos. La �gura6.17 muestra los primeros resultados de la búsqueda realizada, en donde se pueden observar gruposinteresantes como el tópico 3: reporte; vehículo; color mostrado en la �gura 6.18 y �gura 6.19, esteúltimo visualiza las entidades pertenecientes al grupo seleccionado y las noticias que están contenidas.Fácilmente con las palabras �robo, reporte, vehículo y color� podríamos deducir de qué se está tratandolas noticias seleccionadas y así evitar que el analista se pierda en un mar de documentos. La �gura


6.20 muestra el texto completo de la exploración realizada a partir de la entidad Toyota.

Figura 6.17: Búsqueda de la palabra robo

Figura 6.18: Tópico 3 relacionado a robo


Figura 6.19: Entidades y noticias del Tópico 3


Figura 6.20: Texto de la Noticia seleccionada

6.2.3.3. Personas

EL análisis sobre ciertos políticos también llega a ser de gran interés para algunos otros políticosdebido a que ellos buscan implementar estrategias que incrementen o disminuyan la popularidad dealguna persona en particular. La herramienta propuesta también ayudaría a conocer los temas quese van generando acorde a una persona. En este ejemplo se exploran las noticias relacionadas a PeñaNieto, la �gura 6.21 muestra el primer resultado de la recuperación de información, se podría hacerla exploración como los ejercicios anteriores, sin embargo, solamente utilizaremos la exploración denoticias por medio de la exploración geográ�ca. La �gura 6.22 presenta un mapa geográ�co con lasnoticias posicionadas de acuerdo a sus entidades extraídas, la noticia que se observa en dicho mapaestatutaria interesante saber la relación entre �Peña Nieto�, la entidad �Estados Unidos� y el título�Termina Raúl Cervantesco gira por Estados Unidos�.

Esta es otra forma de explorar las noticias y conocer los temas que resulten de interés para algúnanalista en particular.


Figura 6.21: Tópicos de Peña Nieto


Figura 6.22: Entidad ubicada geográ�camente

Capítulo 7

Conclusiones

En este capítulo concluye la tesis. En la primera sección se presenta un breve resumen de cadacapítulo. Después una conclusión general seguido de las contribuciones. Finalmente el trabajo futuroen dirección a la aplicación de otras técnicas de aprendizaje automático.

7.1. Resumen de los capítulos

Este primer capítulo se estableció los principales problemas que se presentan al momento de ana-lizar diversos periódicos digitales. Entonces revisamos algunos casos de uso en donde la herramientapudiera ayudar al análisis de grandes corpus periodísticos. Finalmente, los objetivos especí�cos fueronpresentados.

Para el segundo capítulo se describieron algunas herramientas que realizan extracción y procesa-miento de textos de la web, otros que ayudan a la exploración de documentos a través de diferentestécnicas de visualización y �nalmente sistemas que integran diversos periódicos digitales utilizandoRSS's o API's.

En el capítulo tres se presentó el soporte teórico requerido para la construcción del sistema de aná-lisis visual de periódicos digitales Noti-Explorer. Se revisaron varios conceptos tales como: minería detexto, aprendizaje automático, modelación de tópicos, reconocimiento de entidades, otros más referen-tes a la recuperación de la información y las perspectivas de visualización para una mejor percepcióno comprensión de los datos, información, o conocimiento.

Capítulo cuatro presenta la primera parte de la contribución de la tesis, esto es, un programaque extrae diariamente las imágenes y noticias completas de varios periódicos digitales, transforma eltexto en vectores de características, reconoce entidades con la ayuda de la información de Dbpedia y�nalmente carga los datos a un sistema manejador de base de datos.

Capítulo cinco presenta la contribución de un software cliente-servidor que permite al analista denoticias interactuar, explorar y analizar grandes conjuntos de textos periodísticos digitales de diversosperiódicos digitales mediante múltiples técnicas de visualización.

En el capítulo seis se muestra una breve descripción de las noticias hasta ese momento procesadasy almacenadas en el Sistema Manejador de Bases de Datos (SMBD). Además un experimento queejempli�ca la utilidad del sistema propuesto a partir de la implementación de un método para búsquedade tópicos de interés.

7.2. Conclusiones

Después de haber buscado en internet los periódicos de México que comparten su información pormedio de RSS's se encontraron 82 enlaces de 32 periodicos electrónicos. Un solo periódico llega a tenerhasta doce enlaces diferentes, donde cada enlace contiene noticias de una sección en particular, por

78

CAPÍTULO 7. CONCLUSIONES 79

ejemplo, Pólitica, Cultura, Ciencia, Tecnología, Salud, Internacional, etc. Cada RSS proporciona unconjunto de noticias y cada una por lo regular solo contiene el título de la noticia, un pequeño párrafoy un enlace que direcciona a la noticia completa.

Analizando la estructura HTML de cada periódico se observó que la mayoría de los casos el textocompleto viene delimitado entre las etiquets referentes a un párrafo () y las imágenes dentrode la etiqueta correspondiente a una imagen (<img src="imagenHTML.jpg">).

Noti-Explorer toma el enlace de la noticia completa y mediante un análisis humano previo realizaun proceso de extracción del texto completo junto con su correspondiente imagen, trasforma el textoen un vector de frecuencia, extrae las entidades nombradas del texto, asigna a cada entidad geográ�cauna latitud y longitud, �nalmente se cargan los datos procesados en MySQL.

Noti-Explorer extrae de la base de datos las noticias requeridas de acuerdo a una consulta estruc-turada, utilizando los vectores calculados previamente y convirtiendo las palabras clave en vector, seaplica el modelo de similitud coseno para seleccionar solo las noticias de interés.

Después de obtener las noticias resultantes se crea un diccionario y una matriz termino documentopara aplicar la modelación de tópicos con un parametro de siete más menos dos grupos. Una vez quese tienen las noticias agrupadas, se procede a la generación de estructuras de datos entendibles por losalgoritmos de visualización.

La interfaz de usuario �nal puede utilizarse por dos tipos de personas, ya sean lectores que sololes gusta estar informados día con día, o analistas que tienen que leer una gran cantidad de noticiaspara tomar decisiones, para el primer tipo se presenta una visualización de noticias en forma de listacon un pequeño menú para la rápida navegación ya sea por estados de la República Mexicana o porlas diferentes categorías; para el segundo tipo se presentan varios formas de visualización tales como:Tree Maps, Nubes de palabras, lista de entidades reconocidas, lista de noticias con título e imagen,grá�ca de líneas y un mapa geográ�co. El código hecho en Java Script interpreta las estructuras dedatos generadas previamente para construir las diferentes visualizaciones para cada grupo de noticiasgeneradas.

En general, Noti-Explorer permite realizar consultas en múltiples periódicos digitales sin la nece-sidad de visitar sitio por sitio. La herramienta cuenta con un �ltro para reducir el número de noticiasa procesar. Noti-Explorer organiza, sumariza y presenta diferentes técnicas de visualización de notasperiodísticas permitiendo a un analista enfocarse solo en las noticias de mayor relevancia.

7.3. Contribuciones

La principal contribución de esta tesis es presentar la arquitectura de un sistema de minería detextos periodísticos y el desarrollo de una herramienta prototipo de análisis visual para apoyar alanalista medios sociales en la búsqueda de temas de su interés.

Adicionalmente, un extractor de texto completo e imagen de cada publicación de los periódicosdigitales y la base de datos con mas de 400,000 noticias.

El prototipo propuesto también provee �exibilidad para adaptar otros modelos probabilísticos parala generación de tópicos, modelos de espacio vectorial y algoritmos para la extracción de características.

Finalmente, proponemos un método basado en visualizaciones para detectar los temas con mayorrelevancia dentro de un conjunto de noticias recuperadas.

7.4. Trabajos a futuro

El trabajo a futuro puede incluir la agregación de otros periódicos digitales que permitan la ex-tracción fácil de su información. Adicionalmente, sería posible no solo extraer las noticias a partir deun RSS sino hacer la extracción desde las paginas principales de los periódicos, esto con el objetivo detambién analizar el texto que no se publica en el RSS.

En relación con la veracidad de las noticias se piensa integrar otras fuentes de información talescomo Facebook y Twitter.

CAPÍTULO 7. CONCLUSIONES 80

También, los trabajos a futuro pueden ser enfocados al análisis de sentimiento de forma automáticade la noticia y a la generación de resúmenes. El bene�cio que pueden tener estas mejoras es reducirel tiempo en que los analistas buscan las noticias con un contenido negativo hacia una entidad enparticular.

Otras técnicas de aprendizaje automático se podrían implementar, tal como el reconocimiento depreguntas habladas para la generación de respuestas. Esto haría una interfaz más amigable que pudierainteractuar con el humano de una forma más natural.

Con respecto al procesamiento de los datos tal como la extracción de noticias, reconocimiento deentidades y modelación de tópicos se puede hacer mediante la implementación de tecnología Big Data,esto para disminuir los tiempos de respuesta al momento en que el interesado desee realizar un análisisdel texto.

Bibliografía

[1] Gennady Andrienko, Natalia Andrienko, and Stefan Wrobel. Visual analytics tools for analysis ofmovement data. SIGKDD Explor. Newsl., 9(2):38�46, December 2007.

[2] Berumen. Analitix. url http://analytix.berumen.com.mx/analytixNew/, 2016.

[3] Allison June-Barlow Chaney and David M Blei. Visualizing topic models. In ICWSM, 2012.

[4] Joachim Daiber, Max Jakob, Chris Hokamp, and Pablo N Mendes. Improving e�ciency andaccuracy in multilingual entity extraction. In Proceedings of the 9th International Conference onSemantic Systems, pages 121�124. ACM, 2013.

[5] Abhinandan S. Das, Mayur Datar, Ashutosh Garg, and Shyam Rajaram. Google news personali-zation: Scalable online collaborative �ltering. In Proceedings of the 16th International Conferenceon World Wide Web, WWW '07, pages 271�280, New York, NY, USA, 2007. ACM.

[6] Cecilia di Sciascio, Vedran Sabol, and Eduardo E Veas. urank: Exploring document recommen-dations through an interactive user-driven approach. In IntRS@ RecSys, pages 29�36, 2015.

[7] Geo�rey Ellis and Florian Mansmann. Mastering the information age solving problems with visualanalytics. In Eurographics, volume 2, page 5, 2010.

[8] Mark Hall, Eibe Frank, Geo�rey Holmes, Bernhard Pfahringer, Peter Reutemann, and Ian H.Witten. The weka data mining software: An update. SIGKDD Explor. Newsl., 11(1):10�18,November 2009.

[9] IBM. Acerca de la mineria de textos. url https://www.ibm.com/, 2017.

[10] Daniel Keim, Gennady Andrienko, Jean-Daniel Fekete, Carsten Gorg, Jorn Kohlhammer, andGuy Melançon. Visual analytics: De�nition, process, and challenges. Lecture notes in computerscience, 4950:154�176, 2008.

[11] Pablo N Mendes, Max Jakob, Andrés García-Silva, and Christian Bizer. Dbpedia spotlight: shed-ding light on the web of documents. In Proceedings of the 7th international conference on semanticsystems, pages 1�8. ACM, 2011.

[12] AB MySQL. Mysql, 2001.

[13] Hieu V Nguyen and Li Bai. Cosine similarity metric learning for face veri�cation. In AsianConference on Computer Vision, pages 709�720. Springer, 2010.

[14] Ian Porteous, David Newman, Alexander Ihler, Arthur Asuncion, Padhraic Smyth, and MaxWelling. Fast collapsed gibbs sampling for latent dirichlet allocation. In Proceedings of the 14thACM SIGKDD international conference on Knowledge discovery and data mining, pages 569�577.ACM, 2008.

[15] Ronald Rivest. The md5 message-digest algorithm. 1992.

81

BIBLIOGRAFÍA 82

[16] Grigori Sidorov. Problemas actuales de lingüística computacional. Revista digital universitaria,UNAM, México, 2(1), 2001.

[17] Benjamin E. Teitler, Michael D. Lieberman, Daniele Panozzo, Jagan Sankaranarayanan, HananSamet, and Jon Sperling. Newsstand: A new view on news. In Proceedings of the 16th ACMSIGSPATIAL International Conference on Advances in Geographic Information Systems, GIS'08, pages 18:1�18:10, New York, NY, USA, 2008. ACM.

[18] J. J. Thomas and K. A. Cook. A visual analytics agenda. IEEE Computer Graphics and Appli-cations, 26(1):10�13, Jan 2006.

[19] Uncharted. Tell �nder. url https://www.tell�nder.com, 2016.

[20] Jin Zhang. Visualization for information retrieval, volume 23. Springer Science & Business Media,2007.

Apéndice

Reconocimiento de entidades con aprendizaje automático super-

visado

Se realizaron algunos experimentos para el reconocimiento de entidades a partir de la generaciónde un corpus, en donde una persona leyó 458 noticias de Ciencia y Tecnología en 7 días, 7 horas pordía y un total de 49 horas, la persona extrajo entidades y se etiquetaron de la siguiente manera:

Tipo de entidad Abreviatura cantidad

Persona per 400Localidad loc 314

Organización org 421Tecnología tec 207Otras otro 110Total 1,452

Algunos ejemplos del corpus son los siguientes:

en la ciudad de Pittsburgh||loc

en San Francisco||loc

el estado de California||loc

El director de investigaciones Johnny Stark explica||per

declaró Stark||per

explica Erika Barba-Müller, coautora||per

declaró Oropeza Colomer||per

según el Banco Mundial||org

de la �rma Kaspersky Lab||org

de la Universidad Grenoble Alpes||org

Cada entidad se extrajo con algunas palabras que se encontraban a su alrededor, esto con el objetivode que la computadora identi�cara las entidades como lo haría una persona, por ejemplo, si leyéramos�Erika Barba-Müller� pos si solo nos preguntaríamos a que tipo de entidad se re�ere lo cual podríaser el nombre de una calle, una institución u otro tipo, sin embargo, si en lugar de leer únicamentela entidad leyéramos �explica Erika Barba-Müller, coautora� rápidamente nos daríamos cuenta que lapalabra �explica� y �coautora� solamente pueden hacer referencia a una entidad de tipo persona; espor eso que se decidió generar un corpus con esas características.

83

BIBLIOGRAFÍA 84

Cada uno de los enunciados se convirtió en un vector binario y se procedió a realizar los experimentosen Weka [8] con una validación cruzada de 10 iteraciones y así obtenido los siguientes resultados:

Clasi�cador Instancias clasi�cadas correctamente Instancias clasi�cadas incorrectamente

SVM 73.1405% 26.8595%Naive Bayes 60.3994% 39.6006%

IBK 58.8843% 41.1157%J48 54.1322% 45.8678%

En la tabla anterior se observa que SVM da mejores resultados para el corpus extraído a partir dela lectura de las noticias.

Magni�co número siete

George Miller publicó un ensayo que consiste en los límites de nuestra capacidad para procesarinformación, que encontramos dentro de los rangos de la memoria a corto plazo (MCP). Según Miller,la memoria a corto plazo tiene una capacidad de almacenamiento limitada, que está entre 5 y 9, esdecir, 7 más o menos dos; dado que todos estos procesos se encuentran proporcionados por nuestraslimitaciones biológicas que nos entrega nuestro sistema nervioso característico de cada ser humano,debido a que cada ser humano procesa de distinta manera la información.

Para el psicólogo George Miller este número 7 no era accidental ya que representaba las limitacionesde las capacidades de los seres humanos para el procesamiento de información, lo cual, en el momentoque presenta su ensayo, fue una idea totalmente rechazada por los empiristas radicales, aún cuando, suteoría formal presentaba datos empíricos consistentes. �Mi problema es que he sido perseguido por unnúmero entero durante siete años este número me ha acosado por todas partes, se ha entrometido conmis datos más privados y me ha acometido desde las páginas de nuestras revistas de mayor difusión�.

Documents

Text minig - Instituto Politécnico Nacional