15
1 *Departamento de Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3º curso del grado de ingeniería informática -Computación- Minería de opiniones Alberto Donet* , J. Ángel González*, Renato Strazzulla*, Nataniel Renzo* Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Marzo 2015 Resumen La minería de opiniones es un campo de las ciencias de la computación referido al proceso que intenta descubrir opiniones en grandes volúmenes de conjuntos de datos para procesarlas y emplearlas en la toma de decisiones estratégicas. En el presente documento realizaremos una síntesis sobre un conjunto de documentos relacionados con dicha área publicados en el número 53 de la revista SEPLN entre los que se encuentran 2 proyectos, que tienen como objetivo el análisis de tendencias y temáticas a través de opiniones y sentimientos y el almacenamiento, análisis y visualización de la gran cantidad de información que los ciudadanos exponen en las redes sociales como Twitter, además de 2 artículos en los que se analizarán la adquisición de opiniones no supervisada basada en aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de polaridades semánticas a nivel de lemas para diversos idiomas. PALABRAS CLAVE: opiniones, análisis, minería de opiniones Abstract Opinions mining is a field of computer science referred to the process that attempts to discover opinions on large volumes of data sets to process and use them for making strategic decisions. In this document we will make a summary of a set of documents related to the published area number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the trends and issues through opinions and feelings and the storage, analysis and visualization of the large amount of information that citizens are exposed in social networks such as Twitter as well as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level of slogans for different languages. KEYWORDS: opinions, analysis, opinions mining

Minería de Opiniones

Embed Size (px)

DESCRIPTION

Minería de opiniones, síntesis de 2 artículos y 2 proyectos publicados en la revista SEPLN.

Citation preview

  • 1 *Departamento de Sistemas Informticos y Computacin, Universidad Politcnica de Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3 curso del grado de ingeniera informtica -Computacin-

    Minera de opiniones

    Alberto Donet* , J. ngel Gonzlez*, Renato Strazzulla*, Nataniel Renzo* Departamento de Sistemas Informticos y Computacin

    Universidad Politcnica de Valencia Marzo 2015

    Resumen La minera de opiniones es un campo de las ciencias de la computacin referido al proceso que intenta descubrir opiniones en grandes volmenes de conjuntos de datos para procesarlas y emplearlas en la toma de decisiones estratgicas. En el presente documento realizaremos una sntesis sobre un conjunto de documentos relacionados con dicha rea publicados en el nmero 53 de la revista SEPLN entre los que se encuentran 2 proyectos, que tienen como objetivo el anlisis de tendencias y temticas a travs de opiniones y sentimientos y el almacenamiento, anlisis y visualizacin de la gran cantidad de informacin que los ciudadanos exponen en las redes sociales como Twitter, adems de 2 artculos en los que se analizarn la adquisicin de opiniones no supervisada basada en aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de polaridades semnticas a nivel de lemas para diversos idiomas.

    PALABRAS CLAVE: opiniones, anlisis, minera de opiniones

    Abstract Opinions mining is a field of computer science referred to the process that attempts to discover

    opinions on large volumes of data sets to process and use them for making strategic decisions.

    In this document we will make a summary of a set of documents related to the published area

    number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the

    trends and issues through opinions and feelings and the storage, analysis and visualization of the

    large amount of information that citizens are exposed in social networks such as Twitter as well

    as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and

    a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level

    of slogans for different languages.

    KEYWORDS: opinions, analysis, opinions mining

  • 2

    ndice

    1. Artculos

    1.1 Adquisicin no supervisada de trminos para minera de opiniones 1.1.1 SemEval 2014 Task 4 1.1.2 Enfoque para generacin de listas de aspectos 1.1.2.1 Obtencin de textos 1.1.2.2 Doble propagacin 1.1.2.3 Reglas de propagacin 1.1.3 Ranking - filtrado 1.1.4 Trminos multipalabra 1.2 ML-SentiCon 1.2.1 Otros mtodos 1.2.2 Synsets,ventajas y desventajas 1.2.3 Lexicones en espaol 1.2.4 Polaridad en synsets 1.2.4.1 Nivel individual 1.2.4.2 Nivel global 1.2.5 ML-SentiCon 1.2.5.1 Capas 2. Proyectos 2.1 Anlisis semntico de la opinin en las redes sociales

    2.1.1 Arquitectura 2.1.2 Anlisis de datos 2.1.3 Output del sistema

    2.2 Proyecto ATTOS

    2.2.1 Objetivos 2.2.2 Subproyectos 2.2.3 Arquitectura 2.2.4 Resultados y contribuciones 3. Conclusiones

    4. Bibliografa

  • 3

    1. Artculos Comenzaremos el presente trabajo realizando una sntesis de los artculos a analizar, publicados en el nmero 53 de la revista SEPLN. Primero trataremos la adquisicin no supervisada de trminos de aspecto en diversos dominios para minera de opiniones basada en aspectos, lo que permitir detectar aspectos de opinin, su categora y su polaridad (pgs. 121-128 del nmero 53 del SEPLN) y continuaremos realizando una sntesis de ML-SentiCon, un lexicn multilinge de polaridades semnticas a nivel de lemas (pgs. 113-120 del nmero 53 del SEPLN), viendo, aparte de sus caractersticas bsicas, su utilidad para el anlisis de la subjetividad.

    1.1 Adquisicin no supervisada de

    trminos para minera de

    opiniones

    Existen dos tipos de sistemas de minera

    de opiniones: los supervisados y los no-

    supervisados o semi-supervisados.

    Debido a la cantidad de trabajo necesario

    para la preparacin en aquellos que son

    supervisados, la dificultad que presentan

    para aplicarlos en otros dominios o

    lenguajes es muy grande, por lo que se

    pretende utilizar aquellos no-

    supervisados, que se basan en aspectos.

    Utilizando SemEval 2014 Task 4 es

    posible detectar esos aspectos de

    opinin, as como su categora y

    polaridad, en frases; lo que permite

    generar una lista de aspectos de dominio

    para un nuevo dominio usando una

    coleccin de documentos.

    1.1.1. SemEval 2014 Task 4 SemEval consiste en una serie de evaluaciones sobre tareas de anlisis semntico computacional que evolucion desde la serie de evaluaciones Senseval.

    Como se ha comentado en la introduccin, nos centraremos en sistemas no supervisados basados en aspectos (debido a la complejidad de aplicacin de aquellos sistemas supervisados), empleando las 4 tareas presentadas en el taller SemEval 2014 (Task 4) que nos permitirn detectar aspectos de opinin en diversos dominios. Para ello, provee de 2 conjuntos de datos para entrenamiento (training datasets) relacionados con opiniones sobre restaurantes y opiniones sobre ordenadores porttiles, constando ambos de ms de 3000 frases. La tarea de procesamiento de dichos conjuntos, como hemos dicho, se dividir en 4 subtareas entre las que encontramos:

    Subtarea 1: Extraccin de trminos de aspecto, que identificar entidades en las frases y retornar una lista con los trminos de aspecto detectados.

    Subtarea 2: Deteccin de la polaridad en diversos niveles (postivo, negativo, neutral y conflictivo)

    Subtarea 3: Clasificacin de los trminos de aspecto obtenidos en la subtarea 1 en una serie de categoras predefinidas (comida, servicio, precio, ambiente, ancdotas y miscelneo)

    Subtarea 4: Anloga a la tarea 2, pero determinando la polaridad en funcin de las categoras de aspecto.

    1.1.2. Enfoque para generacin de listas de aspectos

    El principal objetivo consiste en poder

    construir una lista de trminos de

    aspecto para un dominio nuevo, as como

    los objetivos de opinin. Esta lista ser

    un recurso potencial con la funcin de

  • 4

    realizar un anlisis de sentimientos

    basado en los objetivos de opinin y los

    trminos de aspecto. Como ejemplo, en

    un texto relacionado con restaurantes,

    una lista de vinos o el men del

    restaurante pueden ser aspectos. O en un

    dominio de telefona, el procesador y la

    batera. Como vemos, dependiendo del

    dominio, el conjunto de trminos de

    aspecto va cambiando. Para poder

    extraer la lista de aspectos,

    necesitaremos una gran coleccin de

    textos sin etiquetar referentes al dominio

    que queramos analizar.

    1.1.2.1. Obtencin de textos

    Como se ha comentado en el apartado

    1.1.1. se partir de 2 conjuntos de datos

    de entrenamiento basados en revisiones

    de restaurantes y de laptops. Tales

    conjuntos de datos han sido obtenidos

    mediante software de extraccin de

    informacin de sitios web que simulan el

    comportamiento del humano durante la

    navegacin (conocido como web-

    scraping, algo similar al web-spidering

    ejecutado por los robots de los motores

    de bsqueda encargados de indexar

    contenido web) de sitios web de crticas

    de restaurantes y laptops. No se ha

    realizado ningn tipo de preproceso

    sobre los textos extrados, extrayendo de

    los propios textos un conjunto de listas

    de entidades. Para ello se han dividido

    las frases utilizando las herramientas

    Stanford NLP y se han almacenado los

    resultados en ficheros XML, obteniendo

    un conjunto de 25,000 frases que sern

    usadas junto con las 6,000 mencionadas

    en apartados anteriores (3,000 de

    restaurantes y 3,000 laptops) para

    extraer listas de trminos de aspecto.

    1.1.2.2. Doble propagacin Para realizar la obtencin/ampliacin de objetivos de opinin utilizaremos la

    doble propagacin. Este mtodo consiste en utilizar una lista de semillas inicial de trminos de aspecto y de objetivos de opinin para propagarlas a travs de un conjunto de datos cumpliendo una serie de reglas respecto a la propagacin (las cuales comentaremos en el prximo apartado). El mtodo recibe el nombre de doble propagacin porque se emplean los trminos de aspecto para descubrir nuevos objetivos de opinin, y a su vez se emplean los objetivos de opinin para descubrir nuevos trminos de aspecto. El objetivo es extraer los aspectos y las palabras de opinin y clasificarlas como palabras de polaridad de sentimiento negativo o positivo. En este caso, solo se usarn sustantivos como trminos de aspecto, y adjetivos como objetivos de opinin. Esta es una importante restriccin que limita al proceso, puesto que se basar tan solo en la obtencin de opiniones explcitas (por ejemplo: el procesador del mvil es rpido) y dejar de lado aquellas opiniones que se encuentren implcitamente en el texto (como pudiera ser: el telfono cabe en el bolsillo, lo que claramente es una buena opinin referente al tamao y a su movilidad). Para poder extraer esas opiniones explcitas se deber usar otro conjunto de tcnicas y enfoques. Durante el proceso de propagacin se aplican varias reglas para obtener nuevos trminos de aspecto o objetivos de opinin, los cuales sern aadidos al conjunto inicial determinado para expandirlo. Cuando se descubren nuevas palabras, stas son utilizadas para la activacin de las reglas de propagacin, as que en la siguiente iteracin pueden aparecer palabras nuevas. El proceso est guiado por las reglas de propagacin. Cuando una palabra coincide con una regla y la activa, la palabra se aade al conjunto correspondiente. El proceso termina cuando no se descubre ninguna palabra durante una iteracin. 1.1.2.3. Reglas de propagacin Las reglas de propagacin sern empleadas para extraer nuevos trminos

  • 5

    de aspecto y nuevas palabras de opinin, si una determinada palabra no encaja en ninguna de estas categoras se considerar como any word - cualquier palabra -. Tales reglas de propagacin estn basadas en relaciones de dependencia y en restricciones que modelan el discurso (POS) y su aplicacin puede ser observada en la figura Table 1.

    Primero ser necesario comentar la tabla, en ella , T significa trminos de aspecto, O hace referencia a las palabras de opinin y W a cualquier palabra. La primera columna identifica unvocamente a cada regla asocindole un identificador.

    En la segunda columna se observan las dependencias y se emplean varios tipos de dependencias: amod (adjetivo modificador), dobj (objeto directo), sub (sujeto) y conj (conjuncin).

    En la tercera, identificamos las restricciones adicionales asociadas a cada regla (POS).

    Finalmente, en la cuarta columna se representa el conjunto de nuevas palabras (palabras de opinin o trminos de aspecto) que ser aadido.

    Para obtener los rboles de dependencia, los lemas y las etiquetas de las restricciones (POS) se han empleado, como en apartados anteriores, las herramientas Stanford NLP. Las palabras semilla empleadas para iniciar el proceso son good y bad, aadidas inicialmente al conjunto de palabras de opinin (los trminos de aspecto inicialmente estn vacos), de esta forma la inicializacin no es dependiente del dominio y las reglas

    de propagacin funcionan correctamente.

    El proceso es iterativo y funciona de la siguiente forma. Se analiza cada frase de conjunto de datos, obteniendo su rbol de dependencia, es entonces cuando se lanzarn las reglas. Si alguna palabra y su dependencia disparan la regla y se cumplen las condiciones necesarias, la palabra se aadir al conjunto correspondiente (trminos de aspecto o palabras de opinin). As, el proceso contina linea a linea realizando el mismo proceso y aadiendo palabras a sus respectivos conjuntos hasta que se procesen todas las frases, cuando esto ocurra, si los conjuntos siguen igual que en la iteracin anterior (no se ha aadido ninguna palabra) el proceso finaliza, en caso contrario se vuelve a repetir el mismo proceso desde la primera frase pero ahora con los conjuntos enriquecidos (ya no solo con las palabras good y bad).

    1.1.3 Ranking - filtrado

    Aunque el algoritmo nos permite obtener la lista tanto de trminos de aspecto como de los objetivos de opinin, vamos a centrarnos en los trminos de aspecto. Puesto que obtendremos una gran cantidad de trminos, incluidos aquellos que son muy poco usuales ,por ejemplo porque son trminos muy especficos y en un idioma distinto al analizado, es necesario realizar un ranking de todos los trminos de aspecto para mantener los ms importantes al comienzo y los menos importantes al final de la lista. Para poder hacer el ranking de la lista de aspectos, es necesario modelar las reglas de propagacin como un grafo. Cada nueva palabra que se descubre mediante una regla de propagacin se aade al grafo como un nuevo vrtice, y esa regla utilizada se aade como una conexin entre la palabra origen y la palabra que ha sido descubierta.

  • 6

    La imagen anterior representa una pequea porcin de un grafo obtenido por el proceso de doble propagacin. Si observamos la imagen, podemos ver que los aspectos y los objetivos de opinin se diferencian unos vrtices de otros mediante diferenciacin de colores. Adems contando los vrtices que contienen una misma palabra es posible saber las veces que ha aparecido en los textos. Las palabras se identifican mediante su lema y una etiqueta de la posicin en la que aparecen. Adems, contando las veces que aparece una conexin con una regla podemos saber la veces que esa regla se ha aplicado. El grafo es tratado como un grafo bidireccional puesto que en una conexin la regla se puede aplicar en ambas direcciones. Al grafo se le aplica el algoritmo PageRank para asignar a cada vrtice un valor, de forma que los trminos de aspecto son ordenados en base a ese valor asociado siendo el trmino ms importante aquel que tenga un valor asociado mayor al resto (ejemplo de tabla de ranking en la imagen Table 2 del siguiente apartado). El algoritmo PageRank utiliza la siguiente frmula de asignacin de valor:

    donde PR(A) ser el valor asociado al

    vrtice A, PR(i) sern los valores

    asociados a cada vrtice i que est

    conectado con el vrtice A, C(i) es el

    nmero de conexiones del vrtice i y d

    es un valor de amortiguacin entre 0 y 1.

    El proceso de doble propagacin

    introduce en el conjunto trminos no

    deseados, como pudieran ser trminos

    que tienen una alta frecuencia de

    aparicin y que estn relacionados con

    muchos trminos, por lo que tienen un

    valor asociado muy alto y aparecen en las

    primeras posiciones del ranking (por

    ejemplo: la palabra cosa aparece en

    multitud de ocasiones, es una cosa

    buena). Para deshacernos de esos

    trminos es necesario realizar un filtrado

    que elimine estos trminos de forma

    automtica. Una opcin simple es

    realizar el pesado de los trminos por

    TF-IDF para identificar los trminos y

    posteriormente aadirlos a la lista

    modificable de stopwords. Esta lista

    contendr, adems de las stopwords

    bsicas, los trminos que no debern ser

    trminos de aspecto en ningn dominio.

    De esta forma, slo ser necesario pasar

    a los textos la lista de stopwords

    modificada y quedarnos con aquellos

    trminos potencialmente interesantes.

    1.1.4 Trminos multipalabra

    Hasta ahora no habamos considerado esta casustica, sin embargo es posible que los trminos de opinin no estn formados por una nica palabra, situacin que puede ser crtica en algunos dominios e irrelevante en otros. Por ejemplo, en uno de los dominios que se han tratado en el taller (laptops), como se puede observar en la figura Table 2, el trmino de opinin con un mayor ranking es battery life.

  • 7

    Esto es comn que ocurra en dominios muy especializados debido al amplio vocabulario tcnico que usualmente combina varias palabras e.g. disco duro, memoria principal,

    Para mejorar la efectividad en trminos

    de precisin y cobertura de los conjuntos

    generados, dichos trminos de aspecto

    compuestos por ms de una palabra

    deben ser detectados e incluidos en los

    conjuntos resultados. Para ello ya se han

    empleado diversas tcnicas que tienen

    como objetivo incrementar la cobertura

    evitando aadir trminos incorrectos,

    como podran ser los trminos de

    aspecto compuestos fragmentados en las

    palabras que los componen.

    Una de esas tcnicas es usar WordNet (gran base de datos de palabras del Ingls - sustantivos, verbos, adjetivos, adverbios -) y unas reglas simples. Cada vez que se va a procesar una palabra en el algoritmo de doble propagacin se comprueba la combinacin de esa palabra con la siguiente. Si alguna condicin de las siguientes se satisface entonces se trata ambas palabras como si fuera una nica:

    Si la palabra n y la palabra n+1 son sustantivos y la combinacin es una entrada de WordNet o de Wikipedia. (Ej.: battery life)

    Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la combinacin de ambas es una entrada en WordNet. (Ej.: hot dog).

    Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la palabra n es un adjetivo relacional en WordNet. (Ej.: Indian food).

    Es posible utilizar la tcnica empleando una base de datos de palabras distintas de WordNet dependiendo del lenguaje que vayamos a analizar.

    Otra tcnica puede ser la utilizacin de patrones simples. De manera que se pueden guardar combinaciones de 2, 3 o ms trminos para su tratamiento como una nica palabra. Una regla referente a esta tcnica puede ser: A de N, que indica que cuando dos sustantivos se encuentren separados por de, esos trminos se tratarn como uno solo.

    1.2 ML-SentiCon

    Hoy en da la cantidad de opiniones en

    internet con valor para organizaciones y

    empresas es inmensa y siempre esta en

    aumento esto hace que su procesamiento

    se imposible de forma manual, lo que ha

    hecho necesario el desarrollo de mtodos

    para poder analizar estas opiniones y

    poder clasificarlas segn su polaridad

    (Negativa/Positiva), para ello se utilizan

    lexicones, estos clasifican las palabras

    con una polaridad a priori resultado de

    analizar las palabras sin ningn contexto,

    los lexicones se organizan por capas con

    una relacin cantidad de

    palabras/seguridad, teniendo pocas

    palabras las primeras capas pero

    asegurando que la polaridad asignada a

    estas sea ms segura.

  • 8

    1.2.1. Otros mtodos Muchos mtodos se han utilizado para la clasificacin de la polaridad de las palabrasa lo largo de los aos cada uno con diferentes mtodos para ello a continuacin pasaremos a analizarlos.

    General Inquirer: primer lexicon con valores subjetivos , formado por lemas(unidades semnticas), es construido de forma manual y contiene aproximadamente 4206 lemas etiquetados con una polaridad dependiendo de la informacin que se posee de dicho lema, esta es sintactica, semantica y pragmatica.

    MPQA Subjectivity Lexicon: utiliza, General Inquirer para obtener palabras con valor subjetivo a partir de los lemas de General Inquirer y un tesaurus (lista de sinnimos), la obtencin de las palabras es automtica pero la polaridades fueron anotadas manualmente, pese a ser una mejora al introducir palabras flexionadas y no solo lemas, no posee trminos formados por ms de una palabra.

    Bing Lius Opinin Lexicon: esta construido de forma automtica pero la polaridad de las palabras son actualizadas de forma manual, contiene palabras flexionadas con faltas de ortografa y expresiones informales de internet .

    SentiWordNet: est construido sobre WordNet por lo que utiliza synsets(conjunto de palabras con un mismo significado) a los cuales asigna un valor para medir su negatividad o positividad este proceso se hace de forma automtica mediante unos conjuntos de synsets que se utilizan de ejemplo, el hecho de

    que este mtodo est basado en synsets hace que a los textos se les tenga que aplicar una herramienta de desambiguacin aunque estos tienen poca tasa de xito, otra solucin es calcular la polaridad utilizando todos los synsets posibles.

    1.2.2. Synsets, ventajas y desventajas A continuacin vamos a comentar la ventajas y desventajas que presenta la utilizacin de synsets en los lexicones.

    Ventajas: Los synsets nos aportan muchas ventajas a la hora de calcular la polaridad de las palabras, por ejemplo el hecho de que todas las palabras y lemas en un mismo synset tienen el mismo significado por lo que podemos asignar una misma polaridad a un gran conjunto de palabras lo cual es mucho ms eficaz que tener que ir asignando polaridad a palabras una a una , adems estos synsets pueden actualizarse aadiendo ms palabras porque el nmero de palabras de las cuales se tiene una polaridad definida no para de aumentar y se adapta a la aparicin de nuevas palabras o trminos, cuando la polaridad de una palabra debe ser cambiada se puede cambiar la del synset y as cambiar al mismo tiempo todas las palabras con el mismo significado semntico

    Desventajas: El principal problema es la polisemia es decir la dificultad de considerar una palabra en un synset u otro ya que una misma palabra puede tener diferentes significados por tanto pertenecer a diferentes synsets, para solucionar esto se pueden usar diferentes mtodos el primero sera aplicar una herramienta para saber de forma

  • 9

    clara qu significado tiene la palabra en cuestin, la mayora de estas herramientas son poco eficaces, otra solucin pasa por utilizar todos los synsets donde esta palabra aparece y calcular una polaridad diferente a nivel de palabra o lema.

    1.2.3. Lexicones en espaol A continuacin comentaremos la expansin de los lexicones en otros idiomas son por ejemplo el frances, hindu, arabe, alemn y particularmente en espaol.

    En espaol se han intentado muchos mtodos para crear lexicones, por ejemplo la utilizacin de un diccionario bilinge y de google translator, no se aportaron los resultados de estos dos lexicones, tambin se intent la creacin de un lexicn en espaol mediante la traduccin del Bing Lius Opinin Lexicon corrigiendo manualmente la expresiones informales, tampoco se reportaron los resultados de su prueba, por ltimo se utiliz el MPQA Subjectivity Lexicon y el SentiWordNet pero tomando un WordNet en espaol , el resultado fue 90% de accuracy para MPQA Subjectivity Lexicon y 74% para SentiWordNet. 1.2.4. Polaridad en synsets Se han introducido mejoras significativas en cada una de las etapas del mtodo SentiWordNet 3.0. Basndose en el mtodo empleado por (Baccianella, Esuli, y Sebastiani, 2010), el mtodo se divide en dos partes: clculo individual de la polaridad, y clculo global de la polaridad a partir de los valores obtenidos en la primera etapa.

    Una vez obtenido este recurso, se evala el lexicon tanto a nivel de synsets, como a nivel de lemas, con valores de precisin y volumen para el lexicon en espaol superiores a los de (Prez-Rosas, Banea, y Mihalcea, 2012).

    Se han calculado valores reales entre 0 y 1 de positividad, negatividad y objetividad para cada uno de los synsets de WordNet 3.0. 1.2.4.1. Nivel individual Se parte de distintos conjuntos de synsets considerados a priori positivos, negativos o neutros (se ha utilizado tambin WordNet-Affect como fuente de semillas positivas y negativas). Los clasificadores entrenados a partir de las distintas fuentes de informacin, fueron combinados en una etapa de meta-aprendizaje, y usando dos algoritmos de clasificacin distintos, llega a la construccin de clasificadores ternarios, capaces de decidir si un synset es positivo, negativo o neutro a partir de los textos de sus glosas Finalmente se obtienen tres clasificadores regresionales capaces de inducir valores de positividad, negatividad y objetividad en el intervalo [0, 1].

    1.2.4.2. Nivel global Trata de refinar los valores de positividad y negatividad asignados a cada synset, a partir de distintos tipos de relaciones entre ellos. Estas relaciones se modelan mediante un grafo en el que los synsets son nodos y las aristas dirigidas indican la relacin entre los valores de positividad y negatividad de dichos synsets. De hecho se construyen dos tipos de grafos distintos: uno a partir de las glosas y otro a partir de las relaciones semnticas.

    Los grafos incluyen aristas con peso positivo, que representan una transferencia directa entre los valores de positividad y negatividad de los synsets conectados, y aristas con peso negativo, que indican una transferencia cruzada entre ambos tipos de valores. Se aplica entonces al grafo un algoritmo de recorrido aleatorio (cada nodo es un

  • 10

    valor numrico), que permite computar los valores finales de positividad y negatividad en una sola ejecucin. Los valores fluyen a lo largo del grafo a travs de las aristas, hasta que el algoritmo obtenga valores finales para los nodos, que dependen de los valores iniciales y de las relaciones existentes entre los nodos a nivel global.

    1.2.5. ML-SentiCon Por ltimo vamos a explicar el funcionamiento de ML-SentiCon y su organizacin mediante capas, ML-SentiCon es un conjunto de lexicones de diferentes idiomas conseguidos gracias a la conexin de lemas en otros idiomas a sysnsets ya presentes, con una jerarqua de capas para clasificar los lemas en orden de fiabilidad.

    1.2.5.1. Capas En WordNet cada synset representa un conjunto de lemas, estos lemas tienen asignada una polaridad que es el resultado de la polaridad positiva menos la polaridad negativa, una vez conseguida esta polaridad se le asigna a cada lema formando una tupla lemas-polaridad, a su vez cada lema puede tener ms de un synset asociado en este caso su polaridad ser la media de la polaridad de los synsets que lo referencian, estos lemas formarn las capas siendo las dos primeras formadas por lemas pertenecientes a synsets usados en entrenamiento por lo que tienen una fiabilidad mayor, el resto de capas se forman por lemas con valores de polaridad tanto negativos como positivos, a la hora de asignar un lema a una capa o a otra lo que se valora es su valor absoluto as la cantidad de lemas que componen cada capa sigue una progresin geomtrica, para conseguir lexicones del resto de idiomas es necesario utilizar WordNets de otros idiomas en este caso los synsets se encuentran en Multilingual Central Repository 3.0 adems se ha utilizado

    EuroWordNet para conseguir una cantidad mayor de lemas

    Una vez realizadas las pruebas de fiabilidad en dos lexicones uno en ingls y el otro espaol podemos obtener conclusiones interesantes, el lexicon en ingles es mas fiable lo cual es un resultado lgico ya que la obtencin del lexicon espaol ha sido realizada por mtodos semi-automticos sin embargo esta diferencia es bastante reducida en las primeras capas estando entre el 1% y el 2% en la primera y entre 12% y 13% en la ltima, adems si comparamos el nmero de palabras de cada lema la la impresin es an ms positiva.

    2. Proyectos

    Una vez mencionados los artculos de

    referencia cuyos conceptos dan lugar a

    una serie de aplicaciones fuera del

    mbito acadmico, realizaremos una

    sntesis de 2 proyectos que representan

    el panorama actual de la minera de

    opiniones, entre los que se encuentran el

    proyecto ATTOS con la intencin de

    procesar de forma automtica la gran

    cantidad de informacin existente en la

    web y emplearla en la toma de decisiones

    estratgicas, as como el anlisis

    semntico de la opinin de los

    ciudadanos en redes sociales en la ciudad

    del futuro cuyo objetivo final es

    proporcionar a los administradores

    pblicos una herramienta potente para

    entender las tendencias de

    comportamiento y la opinin acerca de

    los servicios que ofrecen.

    2.1. Anlisis semntico de la opinin en las redes sociales El ciudadano es el principal usuario de los servicios de la ciudad pero tambin es un sensor proactivo capaz de generar grandes cantidades de datos con informacin til de su grado de satisfaccin sobre su entorno. Sin embargo se necesita procesar y anotar

  • 11

    los datos de forma automatizada para lograr que estos sean relevantes y poder utilizar un modelo de abstraccin. El objetivo ltimo es proporcionar a los administradores pblicos una herramienta potente para entender las tendencias de comportamiento, la opinin acerca de los servicios que ofrecen y proveer de un sistema de alerta que consiga mejorar la eficiencia de los servicios de emergencia.

    2.1.1. Arquitectura La arquitectura es muy sencilla. El "datawarehouse" es el componente principal basado sobre Elasticsearch donde se almacenan todos los datos. Los "recolectores" son un conjunto de procesos que sirven para acceder a las APIs de Twitter y filtrar los datos segn diferentes parmetros de bsqueda y luego hay los "consumidores" que anotan los mensajes de Twitter utilizando las APIs de Textalytic. Este proceso de anotacin semntica constituye el cuello de botella del sistema por lo tanto se utiliza una cola con prioridad a la informacin ms reciente. El ltimo componente es el "sistema de visualizacin" que explota los datos generados.

    2.1.2. Anlisis de datos Primero se hace un etiquetado semntico para el caso particular: fragmentos cortos de texto, con capitalizacin inadecuada, faltas de ortografa, emoticonos, abreviaturas, etc.

    El segundo paso es la clasificacin automtica que sigue dos modelos especficos: "SocialMedia" que define los temas generales de clasificacin, proporcionando mayor precisin cuando se evalan textos que proceden de redes sociales y "CitizenSensor" orientado a las caractersticas propias del ciudadano como sensor de eventos de la ciudad, teniendo en cuenta aspectos como su ubicacin, eventos que ocurren en la ciudad o posibles catstrofes o alertas.

    La extraccin de entidades combina varias tcnicas de procesamiento de lenguaje natural y permite al sistema de identificar distintos tipos de elementos: entidades nombradas (personas, organizaciones, lugares, etc.), conceptos, expresiones temporales, expresiones monetarias y URIs. En otro nivel de anlisis semntico, se realiza el anlisis de sentimiento que determina si el texto expresa un sentimiento positivo, neutral o negativo. Tambin se utiliza la informacin del usuario en Twitter para analizar las caractersticas demogrficas, basndose en n-gramas.

    2.1.3. Output del sistema Las capacidades de almacenamiento del sistema permiten analizar los datos en tiempo real, aplicar algoritmos de minera de datos sobre los datos almacenados mediante tcnicas de perfilado y clustering para identificar distintos grupos de ciudadanos que se encuentran en la ciudad, comparar singularidades entre los grupos detectados, etc.

    Los mensajes anotados por el sistema se almacenan en formato JSON y las consultas se realizan a travs de una interfaz web que permite ejecutar consultas complejas de manera estructurada y presenta informacin de alto nivel, agregada y resumida. Adems se puede personalizar la consola segn necesidades especficas, trmite el utilizo de widget. Actualmente se est investigando para explorar el anlisis de movilidad en la ciudad, la deteccin de los temas ms relevantes a nivel de barrios o zonas, y realizar un anlisis de reputacin o personalidad de marca.

  • 12

    2.2 Proyecto ATTOS Es necesario afrontar el tratamiento de la gran cantidad de informacin existente en la web, informacin textual en formatos muy variados y expresada de forma espontnea y subjetiva sin la correccin de los textos normativos. Con la intencin de procesar de forma automtica toda esta informacin y utilizarla en la toma de decisiones estratgicas surge el proyecto ATTOS (anlisis de tendencias y temticas a travs de opiniones y sentimientos), con 3 grandes objetivos: creacin y mejora de tcnicas y herramientas de modelado de lenguaje subjetivo, desarrollo de sistemas inteligentes que recuperen, traten y comprendan este lenguaje y la unificacin de dichos recursos en una plataforma web de monitorizacin. El seguimiento del proyecto se puede visualizar en: ATTOS.

    2.2.1 Objetivos ATTOS plantea 3 objetivos especficos para la consecucin de un objetivo global. Estos objetivos son:

    Crear, adaptar y mejorar las tcnicas y herramientas de modelado del lenguaje informal y subjetivo, - empleado en la expresin de opiniones y lejos de ser similar a los textos normativos - as como el tratamiento del lenguaje emocional y la aplicacin de dichas tcnicas en entornos reales y concretos.

    Desarrollar sistemas inteligentes

    capaces de recuperar, tratar, comprender y descubrir informacin subjetiva valorando el contexto en el que se ha expuesto tal informacin.

    Integrar todos los recursos anteriores en una plataforma web de monitorizacin, demostrando su validez sobre

    mbitos concretos, promoviendo adems las lneas de investigacin que surjan del proyecto mediante la organizacin de actividades acadmicas, congresos y talleres.

    2.2.2 Subproyectos Se propusieron 3 subproyectos complementarios entre si para la consecucin de los objetivos mencionados en el apartado anterior, un subproyecto para el cumplimiento de cada objetivo.

    El subproyecto ATTOS - Anlisis de Tendencias y Temticas a travs de Opiniones y Sentimientos - se encargar del 3 objetivo, construyendo la plataforma de procesamiento que integrar las tcnicas y recursos desarrolladas por todos los equipos del proyecto global (contando los dems subproyectos) para la explotacin de la informacin subjetiva.

    El subproyecto SOTTA - Semantic Opinion Techniques for Tendencies Analysis - se encargar del 1 objetivo, pretendiendo desarrollar una herramienta de anlisis de tendencias en funcin a los diferentes usuarios que incorpore un conjunto de tcnicas que permitan identificar caractersticas de los textos subjetivos.

    El subproyecto ACOGEUS - Anlisis de COntenidos GEnerados por USuarios - encargado del 2 objetivo, pretender desarrollar sistemas que identifiquen y recuperen informacin subjetiva de diversos dominios.

    2.2.3 Arquitectura El sistema comentado debe incorporar tcnicas y mtodos que descubran la subjetividad en distintas dimensiones (emocional, temporal, espacial, ), para su desarrollo se ha optado por una arquitectura modular capaz de extraer indicadores de utilidad mediante el

    http://attos.ujaen.es/
  • 13

    proceso de diversas fuentes online empleando tcnicas de lenguaje natural. Los distintos mdulos que componen el sistema son los siguientes:

    Se partir de diversas fuentes online de las que se extraern opiniones, vase Twitter,Amazon, etc en la parte izquierda de la figura 1.

    Posteriormente, mediante el desarrollo y la adaptacin de recursos, herramientas y tcnicas de PLH (preprocesamiento y subsistemas) se realizar un tratamiento de la informacin subjetiva as como su especializacin en diversos dominios de aplicacin, teniendo en cuenta tambin caractersticas de los perfiles de usuario que exponen dichas opiniones (reputacin, opiniones de otros usuarios, ). Algunos de estos subsistemas ya han sido tratados en otras asignaturas o en el presente trabajo como puede ser la extraccin de caractersticas y la deteccin de la polaridad.

    Finalmente se desarrollar una plataforma online de visualizacin y presentacin de los resultados, planteando tambin actividades de evaluacin de la utilidad de la plataforma (promocin, coordinacin, foros de evaluacin) y creando un plan de diseminacin de los resultados obtenidos para lograr un nivel aceptable de difusin. A pesar de la sencillez aparente de la arquitectura, hay que afrontar diversos problemas como la creciente cantidad de informacin, siendo sta muy variada y sin la precisin y correctitud de los textos

    ortogrficamente correctos y por tanto difcil de procesar. 2.2.4 Resultados y contribuciones

    Los trabajos realizados durante el desarrollo del proyecto han dado lugar a una serie contribuciones en revistas, congresos y eventos. Entre ellos podemos destacar:

    La definicin de un mtodo para obtener de forma automtica consultas que varen en funcin de un conjunto de hashtags semilla obtenidos de Twitter. Interesante para obtener tweets relacionados con temticas especficas.

    Un sistema de identificacin de opiniones con su valoracin (positividad o negatividad) correspondiente.

    Una metodologa que permite adaptar lexicones de palabras de opinin a un dominio concreto.

    Un mtodo de desambiguacin (a nivel de sentido de las palabras) que tiene en cuenta la informacin del contexto, til para clasificadores de polaridad.

    Un mtodo de deteccin de la

    subjetividad a nivel de oraciones

    basado en la desambiguacin del

    sentido de las palabras que

    conforman la oracin.

    3. Conclusiones La minera de opiniones o anlisis de sentimientos es un rea de conocimiento que se encuentra en constante crecimiento, a pesar de encontrarse en un estado todava prematuro debido a la complejidad de las tcnicas necesarias para conseguir los objetivos perseguidos como la generacin de lexicones en

  • 14

    idiomas diferentes del ingls (ML-Senticon) , definir reglas adecuadas para la extraccin de trminos de aspecto o determinar la subjetividad, la polaridad y las tendencias en un determinado texto no normativo, incluyendo tambin la dificultad de procesar dicho texto As, ya que la denominada Web 2.0 lo ha socializado todo, se ha observado un nicho de aplicacin de estas tcnicas sobre redes sociales como Twitter para tareas como recomendaciones en funcin de las preferencias de usuarios y determinacin de estados de nimo, as como la utilizacin por parte de las empresas de dichas tcnicas para tomar decisiones estratgicas en base a los resultados obtenidos. Con todo lo dicho, se ha puesto de manifiesto a lo largo de este artculo que no hay duda sobre la revolucin que implicarn estas tecnologas en el desarrollo de Internet cuando alcancen un nivel de desarrollo considerable, sin embargo, ser para beneficio de los usuarios o ir orientada la utilizacin de stas tcnicas para incrementar ms aun el control sobre nosotros?. 4. Bibliografa

    Androutsopoulos, I., Galanis,

    D.,Manandhar, S., Papageorgiou, H.,

    Pavlopoulos, J. & Pontiki, A. (2014) Task

    Description: Aspect Based Sentiment

    Analysis (ABSA). SemEval-2014. Task 4.

    Recuperado el 13 de Abril de 2015 de:

    http://alt.qcri.org/semeval2014/task4/

    Boldrini, E., Cruz Marta, F., Daz Galiano,

    M.c., Daz Madrigal, V. J., De Salamanca

    Ros, F., Garca Cumbreras, M.A., Garca

    Vallejo, F. C., Garca Vega, M., Gmez

    Soriano, J.M., Guilln Espejo, A., Gutierrez

    Vazquez, Y., Jimnez Zafra, S.M..,

    Martnez Cmara, E., Martn Valdivia, M.,

    Monroy Tenorio, F., Montejo Rez, A.,

    Moreda Pozo, P., Muoz Guillena, R.,

    Navarro Colado, B., Ortega Rodrguez, F.J.,

    Perea Ortega, J.M., Surez Cueto, A.,

    Troyano Jimnez, J.A. y Urea Lpez, L.A.

    (2013) ATTOS: Anlisis de Tendencias y

    Temticas a travs de Opiniones y

    Sentimientos. Recuperado el 13 de Abril

    de 2015, de: http://gplsi.dlsi.ua.es/attos/

    Garca Pablos, A., Cuadros, M., Rigau, G., &

    Gaines, S. (2014). Unsupervised

    acquisition of domain aspect terms for

    Aspect Based Opinion Mining.

    Procesamiento Del Lenguaje Natural, 53,

    121-128. Recuperado de

    http://journal.sepln.org/sepln/ojs/ojs/inde

    x.php/pln/article/view/5044/2932

    Cruz, F., Troyano, J., Pontes, B., & Ortega,

    F. (2014). ML-SentiCon: Un lexicn

    multilinge de polaridades semnticas a

    nivel de lemas. Procesamiento Del

    Lenguaje Natural, 53, 113-120.

    Recuperado de

    http://journal.sepln.org/sepln/ojs/ojs/inde

    x.php/pln/article/view/5041/2929

    PageRank (n.d) En Wikipedia.

    Recuperado el 13 de Abril de 2015, de:

    http://es.wikipedia.org/wiki/PageRank#

    Algoritmo

    http://alt.qcri.org/semeval2014/task4/http://gplsi.dlsi.ua.es/attos/http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5044/2932http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5044/2932http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5041/2929http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5041/2929http://es.wikipedia.org/wiki/PageRank#Algoritmohttp://es.wikipedia.org/wiki/PageRank#Algoritmo
  • 15

    Princeton University (2015) What is

    WordNet? WordNet. A lexical datbase for

    English. Recuperado el 13 de Abril de

    2015, de:

    https://wordnet.princeton.edu/

    SemEval (n.d) En Wikipedia. Recuperado

    el 13 de Abril de 2015 de:

    http://en.wikipedia.org/wiki/SemEval

    Urea Lpez, L., Muoz Guillena, R.,

    Troyano Jimnez, J., & Martn Valdivia, M.

    (2014). ATTOS: Anlisis de Tendencias y

    Temticas a travs de Opiniones y

    Sentimientos. Procesamiento Del

    Lenguaje Natural, 53, 151-154.

    Recuperado de

    http://journal.sepln.org/sepln/ojs/ojs/i

    ndex.php/pln/article/view/5062/2950

    Villena-Romn, J., Luna-Cobos, A., &

    Gonzlez Cristbal, J. (2014). Anlisis

    Semntico de la Opinin de los

    Ciudadanos en Redes Sociales en la

    Ciudad del Futuro. Procesamiento Del

    Lenguaje Natural, 53, 159-162.

    Recuperado de

    http://journal.sepln.org/sepln/ojs/ojs/i

    ndex.php/pln/article/view/5064/2952

    https://wordnet.princeton.edu/http://en.wikipedia.org/wiki/SemEvalhttp://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5062/2950http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5062/2950http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5064/2952http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5064/2952