Minería de Opiniones

1 *Departamento de Sistemas Informticos y Computacin, Universidad Politcnica de Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3 curso del grado de ingeniera informtica -Computacin-

Minera de opiniones

Alberto Donet* , J. ngel Gonzlez*, Renato Strazzulla*, Nataniel Renzo* Departamento de Sistemas Informticos y Computacin

Universidad Politcnica de Valencia Marzo 2015

Resumen La minera de opiniones es un campo de las ciencias de la computacin referido al proceso que intenta descubrir opiniones en grandes volmenes de conjuntos de datos para procesarlas y emplearlas en la toma de decisiones estratgicas. En el presente documento realizaremos una sntesis sobre un conjunto de documentos relacionados con dicha rea publicados en el nmero 53 de la revista SEPLN entre los que se encuentran 2 proyectos, que tienen como objetivo el anlisis de tendencias y temticas a travs de opiniones y sentimientos y el almacenamiento, anlisis y visualizacin de la gran cantidad de informacin que los ciudadanos exponen en las redes sociales como Twitter, adems de 2 artculos en los que se analizarn la adquisicin de opiniones no supervisada basada en aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de polaridades semnticas a nivel de lemas para diversos idiomas.

PALABRAS CLAVE: opiniones, anlisis, minera de opiniones

Abstract Opinions mining is a field of computer science referred to the process that attempts to discover

opinions on large volumes of data sets to process and use them for making strategic decisions.

In this document we will make a summary of a set of documents related to the published area

number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the

trends and issues through opinions and feelings and the storage, analysis and visualization of the

large amount of information that citizens are exposed in social networks such as Twitter as well

as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and

a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level

of slogans for different languages.

KEYWORDS: opinions, analysis, opinions mining

2

ndice

1. Artculos

1.1 Adquisicin no supervisada de trminos para minera de opiniones 1.1.1 SemEval 2014 Task 4 1.1.2 Enfoque para generacin de listas de aspectos 1.1.2.1 Obtencin de textos 1.1.2.2 Doble propagacin 1.1.2.3 Reglas de propagacin 1.1.3 Ranking - filtrado 1.1.4 Trminos multipalabra 1.2 ML-SentiCon 1.2.1 Otros mtodos 1.2.2 Synsets,ventajas y desventajas 1.2.3 Lexicones en espaol 1.2.4 Polaridad en synsets 1.2.4.1 Nivel individual 1.2.4.2 Nivel global 1.2.5 ML-SentiCon 1.2.5.1 Capas 2. Proyectos 2.1 Anlisis semntico de la opinin en las redes sociales

2.1.1 Arquitectura 2.1.2 Anlisis de datos 2.1.3 Output del sistema

2.2 Proyecto ATTOS

2.2.1 Objetivos 2.2.2 Subproyectos 2.2.3 Arquitectura 2.2.4 Resultados y contribuciones 3. Conclusiones

4. Bibliografa

3

1. Artculos Comenzaremos el presente trabajo realizando una sntesis de los artculos a analizar, publicados en el nmero 53 de la revista SEPLN. Primero trataremos la adquisicin no supervisada de trminos de aspecto en diversos dominios para minera de opiniones basada en aspectos, lo que permitir detectar aspectos de opinin, su categora y su polaridad (pgs. 121-128 del nmero 53 del SEPLN) y continuaremos realizando una sntesis de ML-SentiCon, un lexicn multilinge de polaridades semnticas a nivel de lemas (pgs. 113-120 del nmero 53 del SEPLN), viendo, aparte de sus caractersticas bsicas, su utilidad para el anlisis de la subjetividad.

1.1 Adquisicin no supervisada de

trminos para minera de

opiniones

Existen dos tipos de sistemas de minera

de opiniones: los supervisados y los no-

supervisados o semi-supervisados.

Debido a la cantidad de trabajo necesario

para la preparacin en aquellos que son

supervisados, la dificultad que presentan

para aplicarlos en otros dominios o

lenguajes es muy grande, por lo que se

pretende utilizar aquellos no-

supervisados, que se basan en aspectos.

Utilizando SemEval 2014 Task 4 es

posible detectar esos aspectos de

opinin, as como su categora y

polaridad, en frases; lo que permite

generar una lista de aspectos de dominio

para un nuevo dominio usando una

coleccin de documentos.

1.1.1. SemEval 2014 Task 4 SemEval consiste en una serie de evaluaciones sobre tareas de anlisis semntico computacional que evolucion desde la serie de evaluaciones Senseval.

Como se ha comentado en la introduccin, nos centraremos en sistemas no supervisados basados en aspectos (debido a la complejidad de aplicacin de aquellos sistemas supervisados), empleando las 4 tareas presentadas en el taller SemEval 2014 (Task 4) que nos permitirn detectar aspectos de opinin en diversos dominios. Para ello, provee de 2 conjuntos de datos para entrenamiento (training datasets) relacionados con opiniones sobre restaurantes y opiniones sobre ordenadores porttiles, constando ambos de ms de 3000 frases. La tarea de procesamiento de dichos conjuntos, como hemos dicho, se dividir en 4 subtareas entre las que encontramos:

Subtarea 1: Extraccin de trminos de aspecto, que identificar entidades en las frases y retornar una lista con los trminos de aspecto detectados.

Subtarea 2: Deteccin de la polaridad en diversos niveles (postivo, negativo, neutral y conflictivo)

Subtarea 3: Clasificacin de los trminos de aspecto obtenidos en la subtarea 1 en una serie de categoras predefinidas (comida, servicio, precio, ambiente, ancdotas y miscelneo)

Subtarea 4: Anloga a la tarea 2, pero determinando la polaridad en funcin de las categoras de aspecto.

1.1.2. Enfoque para generacin de listas de aspectos

El principal objetivo consiste en poder

construir una lista de trminos de

aspecto para un dominio nuevo, as como

los objetivos de opinin. Esta lista ser

un recurso potencial con la funcin de

4

realizar un anlisis de sentimientos

basado en los objetivos de opinin y los

trminos de aspecto. Como ejemplo, en

un texto relacionado con restaurantes,

una lista de vinos o el men del

restaurante pueden ser aspectos. O en un

dominio de telefona, el procesador y la

batera. Como vemos, dependiendo del

dominio, el conjunto de trminos de

aspecto va cambiando. Para poder

extraer la lista de aspectos,

necesitaremos una gran coleccin de

textos sin etiquetar referentes al dominio

que queramos analizar.

1.1.2.1. Obtencin de textos

Como se ha comentado en el apartado

1.1.1. se partir de 2 conjuntos de datos

de entrenamiento basados en revisiones

de restaurantes y de laptops. Tales

conjuntos de datos han sido obtenidos

mediante software de extraccin de

informacin de sitios web que simulan el

comportamiento del humano durante la

navegacin (conocido como web-

scraping, algo similar al web-spidering

ejecutado por los robots de los motores

de bsqueda encargados de indexar

contenido web) de sitios web de crticas

de restaurantes y laptops. No se ha

realizado ningn tipo de preproceso

sobre los textos extrados, extrayendo de

los propios textos un conjunto de listas

de entidades. Para ello se han dividido

las frases utilizando las herramientas

Stanford NLP y se han almacenado los

resultados en ficheros XML, obteniendo

un conjunto de 25,000 frases que sern

usadas junto con las 6,000 mencionadas

en apartados anteriores (3,000 de

restaurantes y 3,000 laptops) para

extraer listas de trminos de aspecto.

1.1.2.2. Doble propagacin Para realizar la obtencin/ampliacin de objetivos de opinin utilizaremos la

doble propagacin. Este mtodo consiste en utilizar una lista de semillas inicial de trminos de aspecto y de objetivos de opinin para propagarlas a travs de un conjunto de datos cumpliendo una serie de reglas respecto a la propagacin (las cuales comentaremos en el prximo apartado). El mtodo recibe el nombre de doble propagacin porque se emplean los trminos de aspecto para descubrir nuevos objetivos de opinin, y a su vez se emplean los objetivos de opinin para descubrir nuevos trminos de aspecto. El objetivo es extraer los aspectos y las palabras de opinin y clasificarlas como palabras de polaridad de sentimiento negativo o positivo. En este caso, solo se usarn sustantivos como trminos de aspecto, y adjetivos como objetivos de opinin. Esta es una importante restriccin que limita al proceso, puesto que se basar tan solo en la obtencin de opiniones explcitas (por ejemplo: el procesador del mvil es rpido) y dejar de lado aquellas opiniones que se encuentren implcitamente en el texto (como pudiera ser: el telfono cabe en el bolsillo, lo que claramente es una buena opinin referente al tamao y a su movilidad). Para poder extraer esas opiniones explcitas se deber usar otro conjunto de tcnicas y enfoques. Durante el proceso de propagacin se aplican varias reglas para obtener nuevos trminos de aspecto o objetivos de opinin, los cuales sern aadidos al conjunto inicial determinado para expandirlo. Cuando se descubren nuevas palabras, stas son utilizadas para la activacin de las reglas de propagacin, as que en la siguiente iteracin pueden aparecer palabras nuevas. El proceso est guiado por las reglas de propagacin. Cuando una palabra coincide con una regla y la activa, la palabra se aade al conjunto correspondiente. El proceso termina cuando no se descubre ninguna palabra durante una iteracin. 1.1.2.3. Reglas de propagacin Las reglas de propagacin sern empleadas para extraer nuevos trminos

5

de aspecto y nuevas palabras de opinin, si una determinada palabra no encaja en ninguna de estas categoras se considerar como any word - cualquier palabra -. Tales reglas de propagacin estn basadas en relaciones de dependencia y en restricciones que modelan el discurso (POS) y su aplicacin puede ser observada en la figura Table 1.

Primero ser necesario comentar la tabla, en ella , T significa trminos de aspecto, O hace referencia a las palabras de opinin y W a cualquier palabra. La primera columna identifica unvocamente a cada regla asocindole un identificador.

En la segunda columna se observan las dependencias y se emplean varios tipos de dependencias: amod (adjetivo modificador), dobj (objeto directo), sub (sujeto) y conj (conjuncin).

En la tercera, identificamos las restricciones adicionales asociadas a cada regla (POS).

Finalmente, en la cuarta columna se representa el conjunto de nuevas palabras (palabras de opinin o trminos de aspecto) que ser aadido.

Para obtener los rboles de dependencia, los lemas y las etiquetas de las restricciones (POS) se han empleado, como en apartados anteriores, las herramientas Stanford NLP. Las palabras semilla empleadas para iniciar el proceso son good y bad, aadidas inicialmente al conjunto de palabras de opinin (los trminos de aspecto inicialmente estn vacos), de esta forma la inicializacin no es dependiente del dominio y las reglas

de propagacin funcionan correctamente.

El proceso es iterativo y funciona de la siguiente forma. Se analiza cada frase de conjunto de datos, obteniendo su rbol de dependencia, es entonces cuando se lanzarn las reglas. Si alguna palabra y su dependencia disparan la regla y se cumplen las condiciones necesarias, la palabra se aadir al conjunto correspondiente (trminos de aspecto o palabras de opinin). As, el proceso contina linea a linea realizando el mismo proceso y aadiendo palabras a sus respectivos conjuntos hasta que se procesen todas las frases, cuando esto ocurra, si los conjuntos siguen igual que en la iteracin anterior (no se ha aadido ninguna palabra) el proceso finaliza, en caso contrario se vuelve a repetir el mismo proceso desde la primera frase pero ahora con los conjuntos enriquecidos (ya no solo con las palabras good y bad).

1.1.3 Ranking - filtrado

Aunque el algoritmo nos permite obtener la lista tanto de trminos de aspecto como de los objetivos de opinin, vamos a centrarnos en los trminos de aspecto. Puesto que obtendremos una gran cantidad de trminos, incluidos aquellos que son muy poco usuales ,por ejemplo porque son trminos muy especficos y en un idioma distinto al analizado, es necesario realizar un ranking de todos los trminos de aspecto para mantener los ms importantes al comienzo y los menos importantes al final de la lista. Para poder hacer el ranking de la lista de aspectos, es necesario modelar las reglas de propagacin como un grafo. Cada nueva palabra que se descubre mediante una regla de propagacin se aade al grafo como un nuevo vrtice, y esa regla utilizada se aade como una conexin entre la palabra origen y la palabra que ha sido descubierta.

6

La imagen anterior representa una pequea porcin de un grafo obtenido por el proceso de doble propagacin. Si observamos la imagen, podemos ver que los aspectos y los objetivos de opinin se diferencian unos vrtices de otros mediante diferenciacin de colores. Adems contando los vrtices que contienen una misma palabra es posible saber las veces que ha aparecido en los textos. Las palabras se identifican mediante su lema y una etiqueta de la posicin en la que aparecen. Adems, contando las veces que aparece una conexin con una regla podemos saber la veces que esa regla se ha aplicado. El grafo es tratado como un grafo bidireccional puesto que en una conexin la regla se puede aplicar en ambas direcciones. Al grafo se le aplica el algoritmo PageRank para asignar a cada vrtice un valor, de forma que los trminos de aspecto son ordenados en base a ese valor asociado siendo el trmino ms importante aquel que tenga un valor asociado mayor al resto (ejemplo de tabla de ranking en la imagen Table 2 del siguiente apartado). El algoritmo PageRank utiliza la siguiente frmula de asignacin de valor:

donde PR(A) ser el valor asociado al

vrtice A, PR(i) sern los valores

asociados a cada vrtice i que est

conectado con el vrtice A, C(i) es el

nmero de conexiones del vrtice i y d

es un valor de amortiguacin entre 0 y 1.

El proceso de doble propagacin

introduce en el conjunto trminos no

deseados, como pudieran ser trminos

que tienen una alta frecuencia de

aparicin y que estn relacionados con

muchos trminos, por lo que tienen un

valor asociado muy alto y aparecen en las

primeras posiciones del ranking (por

ejemplo: la palabra cosa aparece en

multitud de ocasiones, es una cosa

buena). Para deshacernos de esos

trminos es necesario realizar un filtrado

que elimine estos trminos de forma

automtica. Una opcin simple es

realizar el pesado de los trminos por

TF-IDF para identificar los trminos y

posteriormente aadirlos a la lista

modificable de stopwords. Esta lista

contendr, adems de las stopwords

bsicas, los trminos que no debern ser

trminos de aspecto en ningn dominio.

De esta forma, slo ser necesario pasar

a los textos la lista de stopwords

modificada y quedarnos con aquellos

trminos potencialmente interesantes.

1.1.4 Trminos multipalabra

Hasta ahora no habamos considerado esta casustica, sin embargo es posible que los trminos de opinin no estn formados por una nica palabra, situacin que puede ser crtica en algunos dominios e irrelevante en otros. Por ejemplo, en uno de los dominios que se han tratado en el taller (laptops), como se puede observar en la figura Table 2, el trmino de opinin con un mayor ranking es battery life.

7

Esto es comn que ocurra en dominios muy especializados debido al amplio vocabulario tcnico que usualmente combina varias palabras e.g. disco duro, memoria principal,

Para mejorar la efectividad en trminos

de precisin y cobertura de los conjuntos

generados, dichos trminos de aspecto

compuestos por ms de una palabra

deben ser detectados e incluidos en los

conjuntos resultados. Para ello ya se han

empleado diversas tcnicas que tienen

como objetivo incrementar la cobertura

evitando aadir trminos incorrectos,

como podran ser los trminos de

aspecto compuestos fragmentados en las

palabras que los componen.

Una de esas tcnicas es usar WordNet (gran base de datos de palabras del Ingls - sustantivos, verbos, adjetivos, adverbios -) y unas reglas simples. Cada vez que se va a procesar una palabra en el algoritmo de doble propagacin se comprueba la combinacin de esa palabra con la siguiente. Si alguna condicin de las siguientes se satisface entonces se trata ambas palabras como si fuera una nica:

Si la palabra n y la palabra n+1 son sustantivos y la combinacin es una entrada de WordNet o de Wikipedia. (Ej.: battery life)

Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la combinacin de ambas es una entrada en WordNet. (Ej.: hot dog).

Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la palabra n es un adjetivo relacional en WordNet. (Ej.: Indian food).

Es posible utilizar la tcnica empleando una base de datos de palabras distintas de WordNet dependiendo del lenguaje que vayamos a analizar.

Otra tcnica puede ser la utilizacin de patrones simples. De manera que se pueden guardar combinaciones de 2, 3 o ms trminos para su tratamiento como una nica palabra. Una regla referente a esta tcnica puede ser: A de N, que indica que cuando dos sustantivos se encuentren separados por de, esos trminos se tratarn como uno solo.

1.2 ML-SentiCon

Hoy en da la cantidad de opiniones en

internet con valor para organizaciones y

empresas es inmensa y siempre esta en

aumento esto hace que su procesamiento

se imposible de forma manual, lo que ha

hecho necesario el desarrollo de mtodos

para poder analizar estas opiniones y

poder clasificarlas segn su polaridad

(Negativa/Positiva), para ello se utilizan

lexicones, estos clasifican las palabras

con una polaridad a priori resultado de

analizar las palabras sin ningn contexto,

los lexicones se organizan por capas con

una relacin cantidad de

palabras/seguridad, teniendo pocas

palabras las primeras capas pero

asegurando que la polaridad asignada a

estas sea ms segura.

8

1.2.1. Otros mtodos Muchos mtodos se han utilizado para la clasificacin de la polaridad de las palabrasa lo largo de los aos cada uno con diferentes mtodos para ello a continuacin pasaremos a analizarlos.

General Inquirer: primer lexicon con valores subjetivos , formado por lemas(unidades semnticas), es construido de forma manual y contiene aproximadamente 4206 lemas etiquetados con una polaridad dependiendo de la informacin que se posee de dicho lema, esta es sintactica, semantica y pragmatica.

MPQA Subjectivity Lexicon: utiliza, General Inquirer para obtener palabras con valor subjetivo a partir de los lemas de General Inquirer y un tesaurus (lista de sinnimos), la obtencin de las palabras es automtica pero la polaridades fueron anotadas manualmente, pese a ser una mejora al introducir palabras flexionadas y no solo lemas, no posee trminos formados por ms de una palabra.

Bing Lius Opinin Lexicon: esta construido de forma automtica pero la polaridad de las palabras son actualizadas de forma manual, contiene palabras flexionadas con faltas de ortografa y expresiones informales de internet .

SentiWordNet: est construido sobre WordNet por lo que utiliza synsets(conjunto de palabras con un mismo significado) a los cuales asigna un valor para medir su negatividad o positividad este proceso se hace de forma automtica mediante unos conjuntos de synsets que se utilizan de ejemplo, el hecho de

que este mtodo est basado en synsets hace que a los textos se les tenga que aplicar una herramienta de desambiguacin aunque estos tienen poca tasa de xito, otra solucin es calcular la polaridad utilizando todos los synsets posibles.

1.2.2. Synsets, ventajas y desventajas A continuacin vamos a comentar la ventajas y desventajas que presenta la utilizacin de synsets en los lexicones.

Ventajas: Los synsets nos aportan muchas ventajas a la hora de calcular la polaridad de las palabras, por ejemplo el hecho de que todas las palabras y lemas en un mismo synset tienen el mismo significado por lo que podemos asignar una misma polaridad a un gran conjunto de palabras lo cual es mucho ms eficaz que tener que ir asignando polaridad a palabras una a una , adems estos synsets pueden actualizarse aadiendo ms palabras porque el nmero de palabras de las cuales se tiene una polaridad definida no para de aumentar y se adapta a la aparicin de nuevas palabras o trminos, cuando la polaridad de una palabra debe ser cambiada se puede cambiar la del synset y as cambiar al mismo tiempo todas las palabras con el mismo significado semntico

Desventajas: El principal problema es la polisemia es decir la dificultad de considerar una palabra en un synset u otro ya que una misma palabra puede tener diferentes significados por tanto pertenecer a diferentes synsets, para solucionar esto se pueden usar diferentes mtodos el primero sera aplicar una herramienta para saber de forma

9

clara qu significado tiene la palabra en cuestin, la mayora de estas herramientas son poco eficaces, otra solucin pasa por utilizar todos los synsets donde esta palabra aparece y calcular una polaridad diferente a nivel de palabra o lema.

1.2.3. Lexicones en espaol A continuacin comentaremos la expansin de los lexicones en otros idiomas son por ejemplo el frances, hindu, arabe, alemn y particularmente en espaol.

En espaol se han intentado muchos mtodos para crear lexicones, por ejemplo la utilizacin de un diccionario bilinge y de google translator, no se aportaron los resultados de estos dos lexicones, tambin se intent la creacin de un lexicn en espaol mediante la traduccin del Bing Lius Opinin Lexicon corrigiendo manualmente la expresiones informales, tampoco se reportaron los resultados de su prueba, por ltimo se utiliz el MPQA Subjectivity Lexicon y el SentiWordNet pero tomando un WordNet en espaol , el resultado fue 90% de accuracy para MPQA Subjectivity Lexicon y 74% para SentiWordNet. 1.2.4. Polaridad en synsets Se han introducido mejoras significativas en cada una de las etapas del mtodo SentiWordNet 3.0. Basndose en el mtodo empleado por (Baccianella, Esuli, y Sebastiani, 2010), el mtodo se divide en dos partes: clculo individual de la polaridad, y clculo global de la polaridad a partir de los valores obtenidos en la primera etapa.

Una vez obtenido este recurso, se evala el lexicon tanto a nivel de synsets, como a nivel de lemas, con valores de precisin y volumen para el lexicon en espaol superiores a los de (Prez-Rosas, Banea, y Mihalcea, 2012).

Se han calculado valores reales entre 0 y 1 de positividad, negatividad y objetividad para cada uno de los synsets de WordNet 3.0. 1.2.4.1. Nivel individual Se parte de distintos conjuntos de synsets considerados a priori positivos, negativos o neutros (se ha utilizado tambin WordNet-Affect como fuente de semillas positivas y negativas). Los clasificadores entrenados a partir de las distintas fuentes de informacin, fueron combinados en una etapa de meta-aprendizaje, y usando dos algoritmos de clasificacin distintos, llega a la construccin de clasificadores ternarios, capaces de decidir si un synset es positivo, negativo o neutro a partir de los textos de sus glosas Finalmente se obtienen tres clasificadores regresionales capaces de inducir valores de positividad, negatividad y objetividad en el intervalo [0, 1].

1.2.4.2. Nivel global Trata de refinar los valores de positividad y negatividad asignados a cada synset, a partir de distintos tipos de relaciones entre ellos. Estas relaciones se modelan mediante un grafo en el que los synsets son nodos y las aristas dirigidas indican la relacin entre los valores de positividad y negatividad de dichos synsets. De hecho se construyen dos tipos de grafos distintos: uno a partir de las glosas y otro a partir de las relaciones semnticas.

Los grafos incluyen aristas con peso positivo, que representan una transferencia directa entre los valores de positividad y negatividad de los synsets conectados, y aristas con peso negativo, que indican una transferencia cruzada entre ambos tipos de valores. Se aplica entonces al grafo un algoritmo de recorrido aleatorio (cada nodo es un

10

valor numrico), que permite computar los valores finales de positividad y negatividad en una sola ejecucin. Los valores fluyen a lo largo del grafo a travs de las aristas, hasta que el algoritmo obtenga valores finales para los nodos, que dependen de los valores iniciales y de las relaciones existentes entre los nodos a nivel global.

1.2.5. ML-SentiCon Por ltimo vamos a explicar el funcionamiento de ML-SentiCon y su organizacin mediante capas, ML-SentiCon es un conjunto de lexicones de diferentes idiomas conseguidos gracias a la conexin de lemas en otros idiomas a sysnsets ya presentes, con una jerarqua de capas para clasificar los lemas en orden de fiabilidad.

1.2.5.1. Capas En WordNet cada synset representa un conjunto de lemas, estos lemas tienen asignada una polaridad que es el resultado de la polaridad positiva menos la polaridad negativa, una vez conseguida esta polaridad se le asigna a cada lema formando una tupla lemas-polaridad, a su vez cada lema puede tener ms de un synset asociado en este caso su polaridad ser la media de la polaridad de los synsets que lo referencian, estos lemas formarn las capas siendo las dos primeras formadas por lemas pertenecientes a synsets usados en entrenamiento por lo que tienen una fiabilidad mayor, el resto de capas se forman por lemas con valores de polaridad tanto negativos como positivos, a la hora de asignar un lema a una capa o a otra lo que se valora es su valor absoluto as la cantidad de lemas que componen cada capa sigue una progresin geomtrica, para conseguir lexicones del resto de idiomas es necesario utilizar WordNets de otros idiomas en este caso los synsets se encuentran en Multilingual Central Repository 3.0 adems se ha utilizado

EuroWordNet para conseguir una cantidad mayor de lemas

Una vez realizadas las pruebas de fiabilidad en dos lexicones uno en ingls y el otro espaol podemos obtener conclusiones interesantes, el lexicon en ingles es mas fiable lo cual es un resultado lgico ya que la obtencin del lexicon espaol ha sido realizada por mtodos semi-automticos sin embargo esta diferencia es bastante reducida en las primeras capas estando entre el 1% y el 2% en la primera y entre 12% y 13% en la ltima, adems si comparamos el nmero de palabras de cada lema la la impresin es an ms positiva.

2. Proyectos

Una vez mencionados los artculos de

referencia cuyos conceptos dan lugar a

una serie de aplicaciones fuera del

mbito acadmico, realizaremos una

sntesis de 2 proyectos que representan

el panorama actual de la minera de

opiniones, entre los que se encuentran el

proyecto ATTOS con la intencin de

procesar de forma automtica la gran

cantidad de informacin existente en la

web y emplearla en la toma de decisiones

estratgicas, as como el anlisis

semntico de la opinin de los

ciudadanos en redes sociales en la ciudad

del futuro cuyo objetivo final es

proporcionar a los administradores

pblicos una herramienta potente para

entender las tendencias de

comportamiento y la opinin acerca de

los servicios que ofrecen.

2.1. Anlisis semntico de la opinin en las redes sociales El ciudadano es el principal usuario de los servicios de la ciudad pero tambin es un sensor proactivo capaz de generar grandes cantidades de datos con informacin til de su grado de satisfaccin sobre su entorno. Sin embargo se necesita procesar y anotar

11

los datos de forma automatizada para lograr que estos sean relevantes y poder utilizar un modelo de abstraccin. El objetivo ltimo es proporcionar a los administradores pblicos una herramienta potente para entender las tendencias de comportamiento, la opinin acerca de los servicios que ofrecen y proveer de un sistema de alerta que consiga mejorar la eficiencia de los servicios de emergencia.

2.1.1. Arquitectura La arquitectura es muy sencilla. El "datawarehouse" es el componente principal basado sobre Elasticsearch donde se almacenan todos los datos. Los "recolectores" son un conjunto de procesos que sirven para acceder a las APIs de Twitter y filtrar los datos segn diferentes parmetros de bsqueda y luego hay los "consumidores" que anotan los mensajes de Twitter utilizando las APIs de Textalytic. Este proceso de anotacin semntica constituye el cuello de botella del sistema por lo tanto se utiliza una cola con prioridad a la informacin ms reciente. El ltimo componente es el "sistema de visualizacin" que explota los datos generados.

2.1.2. Anlisis de datos Primero se hace un etiquetado semntico para el caso particular: fragmentos cortos de texto, con capitalizacin inadecuada, faltas de ortografa, emoticonos, abreviaturas, etc.

El segundo paso es la clasificacin automtica que sigue dos modelos especficos: "SocialMedia" que define los temas generales de clasificacin, proporcionando mayor precisin cuando se evalan textos que proceden de redes sociales y "CitizenSensor" orientado a las caractersticas propias del ciudadano como sensor de eventos de la ciudad, teniendo en cuenta aspectos como su ubicacin, eventos que ocurren en la ciudad o posibles catstrofes o alertas.

La extraccin de entidades combina varias tcnicas de procesamiento de lenguaje natural y permite al sistema de identificar distintos tipos de elementos: entidades nombradas (personas, organizaciones, lugares, etc.), conceptos, expresiones temporales, expresiones monetarias y URIs. En otro nivel de anlisis semntico, se realiza el anlisis de sentimiento que determina si el texto expresa un sentimiento positivo, neutral o negativo. Tambin se utiliza la informacin del usuario en Twitter para analizar las caractersticas demogrficas, basndose en n-gramas.

2.1.3. Output del sistema Las capacidades de almacenamiento del sistema permiten analizar los datos en tiempo real, aplicar algoritmos de minera de datos sobre los datos almacenados mediante tcnicas de perfilado y clustering para identificar distintos grupos de ciudadanos que se encuentran en la ciudad, comparar singularidades entre los grupos detectados, etc.

Los mensajes anotados por el sistema se almacenan en formato JSON y las consultas se realizan a travs de una interfaz web que permite ejecutar consultas complejas de manera estructurada y presenta informacin de alto nivel, agregada y resumida. Adems se puede personalizar la consola segn necesidades especficas, trmite el utilizo de widget. Actualmente se est investigando para explorar el anlisis de movilidad en la ciudad, la deteccin de los temas ms relevantes a nivel de barrios o zonas, y realizar un anlisis de reputacin o personalidad de marca.

12

2.2 Proyecto ATTOS Es necesario afrontar el tratamiento de la gran cantidad de informacin existente en la web, informacin textual en formatos muy variados y expresada de forma espontnea y subjetiva sin la correccin de los textos normativos. Con la intencin de procesar de forma automtica toda esta informacin y utilizarla en la toma de decisiones estratgicas surge el proyecto ATTOS (anlisis de tendencias y temticas a travs de opiniones y sentimientos), con 3 grandes objetivos: creacin y mejora de tcnicas y herramientas de modelado de lenguaje subjetivo, desarrollo de sistemas inteligentes que recuperen, traten y comprendan este lenguaje y la unificacin de dichos recursos en una plataforma web de monitorizacin. El seguimiento del proyecto se puede visualizar en: ATTOS.

2.2.1 Objetivos ATTOS plantea 3 objetivos especficos para la consecucin de un objetivo global. Estos objetivos son:

Crear, adaptar y mejorar las tcnicas y herramientas de modelado del lenguaje informal y subjetivo, - empleado en la expresin de opiniones y lejos de ser similar a los textos normativos - as como el tratamiento del lenguaje emocional y la aplicacin de dichas tcnicas en entornos reales y concretos.

Desarrollar sistemas inteligentes

capaces de recuperar, tratar, comprender y descubrir informacin subjetiva valorando el contexto en el que se ha expuesto tal informacin.

Integrar todos los recursos anteriores en una plataforma web de monitorizacin, demostrando su validez sobre

mbitos concretos, promoviendo adems las lneas de investigacin que surjan del proyecto mediante la organizacin de actividades acadmicas, congresos y talleres.

2.2.2 Subproyectos Se propusieron 3 subproyectos complementarios entre si para la consecucin de los objetivos mencionados en el apartado anterior, un subproyecto para el cumplimiento de cada objetivo.

El subproyecto ATTOS - Anlisis de Tendencias y Temticas a travs de Opiniones y Sentimientos - se encargar del 3 objetivo, construyendo la plataforma de procesamiento que integrar las tcnicas y recursos desarrolladas por todos los equipos del proyecto global (contando los dems subproyectos) para la explotacin de la informacin subjetiva.

El subproyecto SOTTA - Semantic Opinion Techniques for Tendencies Analysis - se encargar del 1 objetivo, pretendiendo desarrollar una herramienta de anlisis de tendencias en funcin a los diferentes usuarios que incorpore un conjunto de tcnicas que permitan identificar caractersticas de los textos subjetivos.

El subproyecto ACOGEUS - Anlisis de COntenidos GEnerados por USuarios - encargado del 2 objetivo, pretender desarrollar sistemas que identifiquen y recuperen informacin subjetiva de diversos dominios.

2.2.3 Arquitectura El sistema comentado debe incorporar tcnicas y mtodos que descubran la subjetividad en distintas dimensiones (emocional, temporal, espacial, ), para su desarrollo se ha optado por una arquitectura modular capaz de extraer indicadores de utilidad mediante el
http://attos.ujaen.es/

13

proceso de diversas fuentes online empleando tcnicas de lenguaje natural. Los distintos mdulos que componen el sistema son los siguientes:

Se partir de diversas fuentes online de las que se extraern opiniones, vase Twitter,Amazon, etc en la parte izquierda de la figura 1.

Posteriormente, mediante el desarrollo y la adaptacin de recursos, herramientas y tcnicas de PLH (preprocesamiento y subsistemas) se realizar un tratamiento de la informacin subjetiva as como su especializacin en diversos dominios de aplicacin, teniendo en cuenta tambin caractersticas de los perfiles de usuario que exponen dichas opiniones (reputacin, opiniones de otros usuarios, ). Algunos de estos subsistemas ya han sido tratados en otras asignaturas o en el presente trabajo como puede ser la extraccin de caractersticas y la deteccin de la polaridad.

Finalmente se desarrollar una plataforma online de visualizacin y presentacin de los resultados, planteando tambin actividades de evaluacin de la utilidad de la plataforma (promocin, coordinacin, foros de evaluacin) y creando un plan de diseminacin de los resultados obtenidos para lograr un nivel aceptable de difusin. A pesar de la sencillez aparente de la arquitectura, hay que afrontar diversos problemas como la creciente cantidad de informacin, siendo sta muy variada y sin la precisin y correctitud de los textos

ortogrficamente correctos y por tanto difcil de procesar. 2.2.4 Resultados y contribuciones

Los trabajos realizados durante el desarrollo del proyecto han dado lugar a una serie contribuciones en revistas, congresos y eventos. Entre ellos podemos destacar:

La definicin de un mtodo para obtener de forma automtica consultas que varen en funcin de un conjunto de hashtags semilla obtenidos de Twitter. Interesante para obtener tweets relacionados con temticas especficas.

Un sistema de identificacin de opiniones con su valoracin (positividad o negatividad) correspondiente.

Una metodologa que permite adaptar lexicones de palabras de opinin a un dominio concreto.

Un mtodo de desambiguacin (a nivel de sentido de las palabras) que tiene en cuenta la informacin del contexto, til para clasificadores de polaridad.

Un mtodo de deteccin de la

subjetividad a nivel de oraciones

basado en la desambiguacin del

sentido de las palabras que

conforman la oracin.

3. Conclusiones La minera de opiniones o anlisis de sentimientos es un rea de conocimiento que se encuentra en constante crecimiento, a pesar de encontrarse en un estado todava prematuro debido a la complejidad de las tcnicas necesarias para conseguir los objetivos perseguidos como la generacin de lexicones en

14

idiomas diferentes del ingls (ML-Senticon) , definir reglas adecuadas para la extraccin de trminos de aspecto o determinar la subjetividad, la polaridad y las tendencias en un determinado texto no normativo, incluyendo tambin la dificultad de procesar dicho texto As, ya que la denominada Web 2.0 lo ha socializado todo, se ha observado un nicho de aplicacin de estas tcnicas sobre redes sociales como Twitter para tareas como recomendaciones en funcin de las preferencias de usuarios y determinacin de estados de nimo, as como la utilizacin por parte de las empresas de dichas tcnicas para tomar decisiones estratgicas en base a los resultados obtenidos. Con todo lo dicho, se ha puesto de manifiesto a lo largo de este artculo que no hay duda sobre la revolucin que implicarn estas tecnologas en el desarrollo de Internet cuando alcancen un nivel de desarrollo considerable, sin embargo, ser para beneficio de los usuarios o ir orientada la utilizacin de stas tcnicas para incrementar ms aun el control sobre nosotros?. 4. Bibliografa

Androutsopoulos, I., Galanis,

D.,Manandhar, S., Papageorgiou, H.,

Pavlopoulos, J. & Pontiki, A. (2014) Task

Description: Aspect Based Sentiment

Analysis (ABSA). SemEval-2014. Task 4.

Recuperado el 13 de Abril de 2015 de:

http://alt.qcri.org/semeval2014/task4/

Boldrini, E., Cruz Marta, F., Daz Galiano,

M.c., Daz Madrigal, V. J., De Salamanca

Ros, F., Garca Cumbreras, M.A., Garca

Vallejo, F. C., Garca Vega, M., Gmez

Soriano, J.M., Guilln Espejo, A., Gutierrez

Vazquez, Y., Jimnez Zafra, S.M..,

Martnez Cmara, E., Martn Valdivia, M.,

Monroy Tenorio, F., Montejo Rez, A.,

Moreda Pozo, P., Muoz Guillena, R.,

Navarro Colado, B., Ortega Rodrguez, F.J.,

Perea Ortega, J.M., Surez Cueto, A.,

Troyano Jimnez, J.A. y Urea Lpez, L.A.

(2013) ATTOS: Anlisis de Tendencias y

Temticas a travs de Opiniones y

Sentimientos. Recuperado el 13 de Abril

de 2015, de: http://gplsi.dlsi.ua.es/attos/

Garca Pablos, A., Cuadros, M., Rigau, G., &

Gaines, S. (2014). Unsupervised

acquisition of domain aspect terms for

Aspect Based Opinion Mining.

Procesamiento Del Lenguaje Natural, 53,

121-128. Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/inde

x.php/pln/article/view/5044/2932

Cruz, F., Troyano, J., Pontes, B., & Ortega,

F. (2014). ML-SentiCon: Un lexicn

multilinge de polaridades semnticas a

nivel de lemas. Procesamiento Del

Lenguaje Natural, 53, 113-120.

Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/inde

x.php/pln/article/view/5041/2929

PageRank (n.d) En Wikipedia.

Recuperado el 13 de Abril de 2015, de:

http://es.wikipedia.org/wiki/PageRank#

Algoritmo
http://alt.qcri.org/semeval2014/task4/http://gplsi.dlsi.ua.es/attos/http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5044/2932http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5044/2932http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5041/2929http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5041/2929http://es.wikipedia.org/wiki/PageRank#Algoritmohttp://es.wikipedia.org/wiki/PageRank#Algoritmo

15

Princeton University (2015) What is

WordNet? WordNet. A lexical datbase for

English. Recuperado el 13 de Abril de

2015, de:

https://wordnet.princeton.edu/

SemEval (n.d) En Wikipedia. Recuperado

el 13 de Abril de 2015 de:

http://en.wikipedia.org/wiki/SemEval

Urea Lpez, L., Muoz Guillena, R.,

Troyano Jimnez, J., & Martn Valdivia, M.

(2014). ATTOS: Anlisis de Tendencias y

Temticas a travs de Opiniones y

Sentimientos. Procesamiento Del


Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/i

ndex.php/pln/article/view/5062/2950

Villena-Romn, J., Luna-Cobos, A., &

Gonzlez Cristbal, J. (2014). Anlisis

Semntico de la Opinin de los

Ciudadanos en Redes Sociales en la

Ciudad del Futuro. Procesamiento Del


Recuperado de

http://journal.sepln.org/sepln/ojs/ojs/i

ndex.php/pln/article/view/5064/2952
https://wordnet.princeton.edu/http://en.wikipedia.org/wiki/SemEvalhttp://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5062/2950http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5062/2950http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5064/2952http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5064/2952

Documents

Minería de Opiniones