Upload
jose-angel-gonzalez
View
19
Download
1
Embed Size (px)
DESCRIPTION
Minería de opiniones, síntesis de 2 artículos y 2 proyectos publicados en la revista SEPLN.
Citation preview
1 *Departamento de Sistemas Informticos y Computacin, Universidad Politcnica de Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3 curso del grado de ingeniera informtica -Computacin-
Minera de opiniones
Alberto Donet* , J. ngel Gonzlez*, Renato Strazzulla*, Nataniel Renzo* Departamento de Sistemas Informticos y Computacin
Universidad Politcnica de Valencia Marzo 2015
Resumen La minera de opiniones es un campo de las ciencias de la computacin referido al proceso que intenta descubrir opiniones en grandes volmenes de conjuntos de datos para procesarlas y emplearlas en la toma de decisiones estratgicas. En el presente documento realizaremos una sntesis sobre un conjunto de documentos relacionados con dicha rea publicados en el nmero 53 de la revista SEPLN entre los que se encuentran 2 proyectos, que tienen como objetivo el anlisis de tendencias y temticas a travs de opiniones y sentimientos y el almacenamiento, anlisis y visualizacin de la gran cantidad de informacin que los ciudadanos exponen en las redes sociales como Twitter, adems de 2 artculos en los que se analizarn la adquisicin de opiniones no supervisada basada en aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de polaridades semnticas a nivel de lemas para diversos idiomas.
PALABRAS CLAVE: opiniones, anlisis, minera de opiniones
Abstract Opinions mining is a field of computer science referred to the process that attempts to discover
opinions on large volumes of data sets to process and use them for making strategic decisions.
In this document we will make a summary of a set of documents related to the published area
number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the
trends and issues through opinions and feelings and the storage, analysis and visualization of the
large amount of information that citizens are exposed in social networks such as Twitter as well
as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and
a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level
of slogans for different languages.
KEYWORDS: opinions, analysis, opinions mining
2
ndice
1. Artculos
1.1 Adquisicin no supervisada de trminos para minera de opiniones 1.1.1 SemEval 2014 Task 4 1.1.2 Enfoque para generacin de listas de aspectos 1.1.2.1 Obtencin de textos 1.1.2.2 Doble propagacin 1.1.2.3 Reglas de propagacin 1.1.3 Ranking - filtrado 1.1.4 Trminos multipalabra 1.2 ML-SentiCon 1.2.1 Otros mtodos 1.2.2 Synsets,ventajas y desventajas 1.2.3 Lexicones en espaol 1.2.4 Polaridad en synsets 1.2.4.1 Nivel individual 1.2.4.2 Nivel global 1.2.5 ML-SentiCon 1.2.5.1 Capas 2. Proyectos 2.1 Anlisis semntico de la opinin en las redes sociales
2.1.1 Arquitectura 2.1.2 Anlisis de datos 2.1.3 Output del sistema
2.2 Proyecto ATTOS
2.2.1 Objetivos 2.2.2 Subproyectos 2.2.3 Arquitectura 2.2.4 Resultados y contribuciones 3. Conclusiones
4. Bibliografa
3
1. Artculos Comenzaremos el presente trabajo realizando una sntesis de los artculos a analizar, publicados en el nmero 53 de la revista SEPLN. Primero trataremos la adquisicin no supervisada de trminos de aspecto en diversos dominios para minera de opiniones basada en aspectos, lo que permitir detectar aspectos de opinin, su categora y su polaridad (pgs. 121-128 del nmero 53 del SEPLN) y continuaremos realizando una sntesis de ML-SentiCon, un lexicn multilinge de polaridades semnticas a nivel de lemas (pgs. 113-120 del nmero 53 del SEPLN), viendo, aparte de sus caractersticas bsicas, su utilidad para el anlisis de la subjetividad.
1.1 Adquisicin no supervisada de
trminos para minera de
opiniones
Existen dos tipos de sistemas de minera
de opiniones: los supervisados y los no-
supervisados o semi-supervisados.
Debido a la cantidad de trabajo necesario
para la preparacin en aquellos que son
supervisados, la dificultad que presentan
para aplicarlos en otros dominios o
lenguajes es muy grande, por lo que se
pretende utilizar aquellos no-
supervisados, que se basan en aspectos.
Utilizando SemEval 2014 Task 4 es
posible detectar esos aspectos de
opinin, as como su categora y
polaridad, en frases; lo que permite
generar una lista de aspectos de dominio
para un nuevo dominio usando una
coleccin de documentos.
1.1.1. SemEval 2014 Task 4 SemEval consiste en una serie de evaluaciones sobre tareas de anlisis semntico computacional que evolucion desde la serie de evaluaciones Senseval.
Como se ha comentado en la introduccin, nos centraremos en sistemas no supervisados basados en aspectos (debido a la complejidad de aplicacin de aquellos sistemas supervisados), empleando las 4 tareas presentadas en el taller SemEval 2014 (Task 4) que nos permitirn detectar aspectos de opinin en diversos dominios. Para ello, provee de 2 conjuntos de datos para entrenamiento (training datasets) relacionados con opiniones sobre restaurantes y opiniones sobre ordenadores porttiles, constando ambos de ms de 3000 frases. La tarea de procesamiento de dichos conjuntos, como hemos dicho, se dividir en 4 subtareas entre las que encontramos:
Subtarea 1: Extraccin de trminos de aspecto, que identificar entidades en las frases y retornar una lista con los trminos de aspecto detectados.
Subtarea 2: Deteccin de la polaridad en diversos niveles (postivo, negativo, neutral y conflictivo)
Subtarea 3: Clasificacin de los trminos de aspecto obtenidos en la subtarea 1 en una serie de categoras predefinidas (comida, servicio, precio, ambiente, ancdotas y miscelneo)
Subtarea 4: Anloga a la tarea 2, pero determinando la polaridad en funcin de las categoras de aspecto.
1.1.2. Enfoque para generacin de listas de aspectos
El principal objetivo consiste en poder
construir una lista de trminos de
aspecto para un dominio nuevo, as como
los objetivos de opinin. Esta lista ser
un recurso potencial con la funcin de
4
realizar un anlisis de sentimientos
basado en los objetivos de opinin y los
trminos de aspecto. Como ejemplo, en
un texto relacionado con restaurantes,
una lista de vinos o el men del
restaurante pueden ser aspectos. O en un
dominio de telefona, el procesador y la
batera. Como vemos, dependiendo del
dominio, el conjunto de trminos de
aspecto va cambiando. Para poder
extraer la lista de aspectos,
necesitaremos una gran coleccin de
textos sin etiquetar referentes al dominio
que queramos analizar.
1.1.2.1. Obtencin de textos
Como se ha comentado en el apartado
1.1.1. se partir de 2 conjuntos de datos
de entrenamiento basados en revisiones
de restaurantes y de laptops. Tales
conjuntos de datos han sido obtenidos
mediante software de extraccin de
informacin de sitios web que simulan el
comportamiento del humano durante la
navegacin (conocido como web-
scraping, algo similar al web-spidering
ejecutado por los robots de los motores
de bsqueda encargados de indexar
contenido web) de sitios web de crticas
de restaurantes y laptops. No se ha
realizado ningn tipo de preproceso
sobre los textos extrados, extrayendo de
los propios textos un conjunto de listas
de entidades. Para ello se han dividido
las frases utilizando las herramientas
Stanford NLP y se han almacenado los
resultados en ficheros XML, obteniendo
un conjunto de 25,000 frases que sern
usadas junto con las 6,000 mencionadas
en apartados anteriores (3,000 de
restaurantes y 3,000 laptops) para
extraer listas de trminos de aspecto.
1.1.2.2. Doble propagacin Para realizar la obtencin/ampliacin de objetivos de opinin utilizaremos la
doble propagacin. Este mtodo consiste en utilizar una lista de semillas inicial de trminos de aspecto y de objetivos de opinin para propagarlas a travs de un conjunto de datos cumpliendo una serie de reglas respecto a la propagacin (las cuales comentaremos en el prximo apartado). El mtodo recibe el nombre de doble propagacin porque se emplean los trminos de aspecto para descubrir nuevos objetivos de opinin, y a su vez se emplean los objetivos de opinin para descubrir nuevos trminos de aspecto. El objetivo es extraer los aspectos y las palabras de opinin y clasificarlas como palabras de polaridad de sentimiento negativo o positivo. En este caso, solo se usarn sustantivos como trminos de aspecto, y adjetivos como objetivos de opinin. Esta es una importante restriccin que limita al proceso, puesto que se basar tan solo en la obtencin de opiniones explcitas (por ejemplo: el procesador del mvil es rpido) y dejar de lado aquellas opiniones que se encuentren implcitamente en el texto (como pudiera ser: el telfono cabe en el bolsillo, lo que claramente es una buena opinin referente al tamao y a su movilidad). Para poder extraer esas opiniones explcitas se deber usar otro conjunto de tcnicas y enfoques. Durante el proceso de propagacin se aplican varias reglas para obtener nuevos trminos de aspecto o objetivos de opinin, los cuales sern aadidos al conjunto inicial determinado para expandirlo. Cuando se descubren nuevas palabras, stas son utilizadas para la activacin de las reglas de propagacin, as que en la siguiente iteracin pueden aparecer palabras nuevas. El proceso est guiado por las reglas de propagacin. Cuando una palabra coincide con una regla y la activa, la palabra se aade al conjunto correspondiente. El proceso termina cuando no se descubre ninguna palabra durante una iteracin. 1.1.2.3. Reglas de propagacin Las reglas de propagacin sern empleadas para extraer nuevos trminos
5
de aspecto y nuevas palabras de opinin, si una determinada palabra no encaja en ninguna de estas categoras se considerar como any word - cualquier palabra -. Tales reglas de propagacin estn basadas en relaciones de dependencia y en restricciones que modelan el discurso (POS) y su aplicacin puede ser observada en la figura Table 1.
Primero ser necesario comentar la tabla, en ella , T significa trminos de aspecto, O hace referencia a las palabras de opinin y W a cualquier palabra. La primera columna identifica unvocamente a cada regla asocindole un identificador.
En la segunda columna se observan las dependencias y se emplean varios tipos de dependencias: amod (adjetivo modificador), dobj (objeto directo), sub (sujeto) y conj (conjuncin).
En la tercera, identificamos las restricciones adicionales asociadas a cada regla (POS).
Finalmente, en la cuarta columna se representa el conjunto de nuevas palabras (palabras de opinin o trminos de aspecto) que ser aadido.
Para obtener los rboles de dependencia, los lemas y las etiquetas de las restricciones (POS) se han empleado, como en apartados anteriores, las herramientas Stanford NLP. Las palabras semilla empleadas para iniciar el proceso son good y bad, aadidas inicialmente al conjunto de palabras de opinin (los trminos de aspecto inicialmente estn vacos), de esta forma la inicializacin no es dependiente del dominio y las reglas
de propagacin funcionan correctamente.
El proceso es iterativo y funciona de la siguiente forma. Se analiza cada frase de conjunto de datos, obteniendo su rbol de dependencia, es entonces cuando se lanzarn las reglas. Si alguna palabra y su dependencia disparan la regla y se cumplen las condiciones necesarias, la palabra se aadir al conjunto correspondiente (trminos de aspecto o palabras de opinin). As, el proceso contina linea a linea realizando el mismo proceso y aadiendo palabras a sus respectivos conjuntos hasta que se procesen todas las frases, cuando esto ocurra, si los conjuntos siguen igual que en la iteracin anterior (no se ha aadido ninguna palabra) el proceso finaliza, en caso contrario se vuelve a repetir el mismo proceso desde la primera frase pero ahora con los conjuntos enriquecidos (ya no solo con las palabras good y bad).
1.1.3 Ranking - filtrado
Aunque el algoritmo nos permite obtener la lista tanto de trminos de aspecto como de los objetivos de opinin, vamos a centrarnos en los trminos de aspecto. Puesto que obtendremos una gran cantidad de trminos, incluidos aquellos que son muy poco usuales ,por ejemplo porque son trminos muy especficos y en un idioma distinto al analizado, es necesario realizar un ranking de todos los trminos de aspecto para mantener los ms importantes al comienzo y los menos importantes al final de la lista. Para poder hacer el ranking de la lista de aspectos, es necesario modelar las reglas de propagacin como un grafo. Cada nueva palabra que se descubre mediante una regla de propagacin se aade al grafo como un nuevo vrtice, y esa regla utilizada se aade como una conexin entre la palabra origen y la palabra que ha sido descubierta.
6
La imagen anterior representa una pequea porcin de un grafo obtenido por el proceso de doble propagacin. Si observamos la imagen, podemos ver que los aspectos y los objetivos de opinin se diferencian unos vrtices de otros mediante diferenciacin de colores. Adems contando los vrtices que contienen una misma palabra es posible saber las veces que ha aparecido en los textos. Las palabras se identifican mediante su lema y una etiqueta de la posicin en la que aparecen. Adems, contando las veces que aparece una conexin con una regla podemos saber la veces que esa regla se ha aplicado. El grafo es tratado como un grafo bidireccional puesto que en una conexin la regla se puede aplicar en ambas direcciones. Al grafo se le aplica el algoritmo PageRank para asignar a cada vrtice un valor, de forma que los trminos de aspecto son ordenados en base a ese valor asociado siendo el trmino ms importante aquel que tenga un valor asociado mayor al resto (ejemplo de tabla de ranking en la imagen Table 2 del siguiente apartado). El algoritmo PageRank utiliza la siguiente frmula de asignacin de valor:
donde PR(A) ser el valor asociado al
vrtice A, PR(i) sern los valores
asociados a cada vrtice i que est
conectado con el vrtice A, C(i) es el
nmero de conexiones del vrtice i y d
es un valor de amortiguacin entre 0 y 1.
El proceso de doble propagacin
introduce en el conjunto trminos no
deseados, como pudieran ser trminos
que tienen una alta frecuencia de
aparicin y que estn relacionados con
muchos trminos, por lo que tienen un
valor asociado muy alto y aparecen en las
primeras posiciones del ranking (por
ejemplo: la palabra cosa aparece en
multitud de ocasiones, es una cosa
buena). Para deshacernos de esos
trminos es necesario realizar un filtrado
que elimine estos trminos de forma
automtica. Una opcin simple es
realizar el pesado de los trminos por
TF-IDF para identificar los trminos y
posteriormente aadirlos a la lista
modificable de stopwords. Esta lista
contendr, adems de las stopwords
bsicas, los trminos que no debern ser
trminos de aspecto en ningn dominio.
De esta forma, slo ser necesario pasar
a los textos la lista de stopwords
modificada y quedarnos con aquellos
trminos potencialmente interesantes.
1.1.4 Trminos multipalabra
Hasta ahora no habamos considerado esta casustica, sin embargo es posible que los trminos de opinin no estn formados por una nica palabra, situacin que puede ser crtica en algunos dominios e irrelevante en otros. Por ejemplo, en uno de los dominios que se han tratado en el taller (laptops), como se puede observar en la figura Table 2, el trmino de opinin con un mayor ranking es battery life.
7
Esto es comn que ocurra en dominios muy especializados debido al amplio vocabulario tcnico que usualmente combina varias palabras e.g. disco duro, memoria principal,
Para mejorar la efectividad en trminos
de precisin y cobertura de los conjuntos
generados, dichos trminos de aspecto
compuestos por ms de una palabra
deben ser detectados e incluidos en los
conjuntos resultados. Para ello ya se han
empleado diversas tcnicas que tienen
como objetivo incrementar la cobertura
evitando aadir trminos incorrectos,
como podran ser los trminos de
aspecto compuestos fragmentados en las
palabras que los componen.
Una de esas tcnicas es usar WordNet (gran base de datos de palabras del Ingls - sustantivos, verbos, adjetivos, adverbios -) y unas reglas simples. Cada vez que se va a procesar una palabra en el algoritmo de doble propagacin se comprueba la combinacin de esa palabra con la siguiente. Si alguna condicin de las siguientes se satisface entonces se trata ambas palabras como si fuera una nica:
Si la palabra n y la palabra n+1 son sustantivos y la combinacin es una entrada de WordNet o de Wikipedia. (Ej.: battery life)
Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la combinacin de ambas es una entrada en WordNet. (Ej.: hot dog).
Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la palabra n es un adjetivo relacional en WordNet. (Ej.: Indian food).
Es posible utilizar la tcnica empleando una base de datos de palabras distintas de WordNet dependiendo del lenguaje que vayamos a analizar.
Otra tcnica puede ser la utilizacin de patrones simples. De manera que se pueden guardar combinaciones de 2, 3 o ms trminos para su tratamiento como una nica palabra. Una regla referente a esta tcnica puede ser: A de N, que indica que cuando dos sustantivos se encuentren separados por de, esos trminos se tratarn como uno solo.
1.2 ML-SentiCon
Hoy en da la cantidad de opiniones en
internet con valor para organizaciones y
empresas es inmensa y siempre esta en
aumento esto hace que su procesamiento
se imposible de forma manual, lo que ha
hecho necesario el desarrollo de mtodos
para poder analizar estas opiniones y
poder clasificarlas segn su polaridad
(Negativa/Positiva), para ello se utilizan
lexicones, estos clasifican las palabras
con una polaridad a priori resultado de
analizar las palabras sin ningn contexto,
los lexicones se organizan por capas con
una relacin cantidad de
palabras/seguridad, teniendo pocas
palabras las primeras capas pero
asegurando que la polaridad asignada a
estas sea ms segura.
8
1.2.1. Otros mtodos Muchos mtodos se han utilizado para la clasificacin de la polaridad de las palabrasa lo largo de los aos cada uno con diferentes mtodos para ello a continuacin pasaremos a analizarlos.
General Inquirer: primer lexicon con valores subjetivos , formado por lemas(unidades semnticas), es construido de forma manual y contiene aproximadamente 4206 lemas etiquetados con una polaridad dependiendo de la informacin que se posee de dicho lema, esta es sintactica, semantica y pragmatica.
MPQA Subjectivity Lexicon: utiliza, General Inquirer para obtener palabras con valor subjetivo a partir de los lemas de General Inquirer y un tesaurus (lista de sinnimos), la obtencin de las palabras es automtica pero la polaridades fueron anotadas manualmente, pese a ser una mejora al introducir palabras flexionadas y no solo lemas, no posee trminos formados por ms de una palabra.
Bing Lius Opinin Lexicon: esta construido de forma automtica pero la polaridad de las palabras son actualizadas de forma manual, contiene palabras flexionadas con faltas de ortografa y expresiones informales de internet .
SentiWordNet: est construido sobre WordNet por lo que utiliza synsets(conjunto de palabras con un mismo significado) a los cuales asigna un valor para medir su negatividad o positividad este proceso se hace de forma automtica mediante unos conjuntos de synsets que se utilizan de ejemplo, el hecho de
que este mtodo est basado en synsets hace que a los textos se les tenga que aplicar una herramienta de desambiguacin aunque estos tienen poca tasa de xito, otra solucin es calcular la polaridad utilizando todos los synsets posibles.
1.2.2. Synsets, ventajas y desventajas A continuacin vamos a comentar la ventajas y desventajas que presenta la utilizacin de synsets en los lexicones.
Ventajas: Los synsets nos aportan muchas ventajas a la hora de calcular la polaridad de las palabras, por ejemplo el hecho de que todas las palabras y lemas en un mismo synset tienen el mismo significado por lo que podemos asignar una misma polaridad a un gran conjunto de palabras lo cual es mucho ms eficaz que tener que ir asignando polaridad a palabras una a una , adems estos synsets pueden actualizarse aadiendo ms palabras porque el nmero de palabras de las cuales se tiene una polaridad definida no para de aumentar y se adapta a la aparicin de nuevas palabras o trminos, cuando la polaridad de una palabra debe ser cambiada se puede cambiar la del synset y as cambiar al mismo tiempo todas las palabras con el mismo significado semntico
Desventajas: El principal problema es la polisemia es decir la dificultad de considerar una palabra en un synset u otro ya que una misma palabra puede tener diferentes significados por tanto pertenecer a diferentes synsets, para solucionar esto se pueden usar diferentes mtodos el primero sera aplicar una herramienta para saber de forma
9
clara qu significado tiene la palabra en cuestin, la mayora de estas herramientas son poco eficaces, otra solucin pasa por utilizar todos los synsets donde esta palabra aparece y calcular una polaridad diferente a nivel de palabra o lema.
1.2.3. Lexicones en espaol A continuacin comentaremos la expansin de los lexicones en otros idiomas son por ejemplo el frances, hindu, arabe, alemn y particularmente en espaol.
En espaol se han intentado muchos mtodos para crear lexicones, por ejemplo la utilizacin de un diccionario bilinge y de google translator, no se aportaron los resultados de estos dos lexicones, tambin se intent la creacin de un lexicn en espaol mediante la traduccin del Bing Lius Opinin Lexicon corrigiendo manualmente la expresiones informales, tampoco se reportaron los resultados de su prueba, por ltimo se utiliz el MPQA Subjectivity Lexicon y el SentiWordNet pero tomando un WordNet en espaol , el resultado fue 90% de accuracy para MPQA Subjectivity Lexicon y 74% para SentiWordNet. 1.2.4. Polaridad en synsets Se han introducido mejoras significativas en cada una de las etapas del mtodo SentiWordNet 3.0. Basndose en el mtodo empleado por (Baccianella, Esuli, y Sebastiani, 2010), el mtodo se divide en dos partes: clculo individual de la polaridad, y clculo global de la polaridad a partir de los valores obtenidos en la primera etapa.
Una vez obtenido este recurso, se evala el lexicon tanto a nivel de synsets, como a nivel de lemas, con valores de precisin y volumen para el lexicon en espaol superiores a los de (Prez-Rosas, Banea, y Mihalcea, 2012).
Se han calculado valores reales entre 0 y 1 de positividad, negatividad y objetividad para cada uno de los synsets de WordNet 3.0. 1.2.4.1. Nivel individual Se parte de distintos conjuntos de synsets considerados a priori positivos, negativos o neutros (se ha utilizado tambin WordNet-Affect como fuente de semillas positivas y negativas). Los clasificadores entrenados a partir de las distintas fuentes de informacin, fueron combinados en una etapa de meta-aprendizaje, y usando dos algoritmos de clasificacin distintos, llega a la construccin de clasificadores ternarios, capaces de decidir si un synset es positivo, negativo o neutro a partir de los textos de sus glosas Finalmente se obtienen tres clasificadores regresionales capaces de inducir valores de positividad, negatividad y objetividad en el intervalo [0, 1].
1.2.4.2. Nivel global Trata de refinar los valores de positividad y negatividad asignados a cada synset, a partir de distintos tipos de relaciones entre ellos. Estas relaciones se modelan mediante un grafo en el que los synsets son nodos y las aristas dirigidas indican la relacin entre los valores de positividad y negatividad de dichos synsets. De hecho se construyen dos tipos de grafos distintos: uno a partir de las glosas y otro a partir de las relaciones semnticas.
Los grafos incluyen aristas con peso positivo, que representan una transferencia directa entre los valores de positividad y negatividad de los synsets conectados, y aristas con peso negativo, que indican una transferencia cruzada entre ambos tipos de valores. Se aplica entonces al grafo un algoritmo de recorrido aleatorio (cada nodo es un
10
valor numrico), que permite computar los valores finales de positividad y negatividad en una sola ejecucin. Los valores fluyen a lo largo del grafo a travs de las aristas, hasta que el algoritmo obtenga valores finales para los nodos, que dependen de los valores iniciales y de las relaciones existentes entre los nodos a nivel global.
1.2.5. ML-SentiCon Por ltimo vamos a explicar el funcionamiento de ML-SentiCon y su organizacin mediante capas, ML-SentiCon es un conjunto de lexicones de diferentes idiomas conseguidos gracias a la conexin de lemas en otros idiomas a sysnsets ya presentes, con una jerarqua de capas para clasificar los lemas en orden de fiabilidad.
1.2.5.1. Capas En WordNet cada synset representa un conjunto de lemas, estos lemas tienen asignada una polaridad que es el resultado de la polaridad positiva menos la polaridad negativa, una vez conseguida esta polaridad se le asigna a cada lema formando una tupla lemas-polaridad, a su vez cada lema puede tener ms de un synset asociado en este caso su polaridad ser la media de la polaridad de los synsets que lo referencian, estos lemas formarn las capas siendo las dos primeras formadas por lemas pertenecientes a synsets usados en entrenamiento por lo que tienen una fiabilidad mayor, el resto de capas se forman por lemas con valores de polaridad tanto negativos como positivos, a la hora de asignar un lema a una capa o a otra lo que se valora es su valor absoluto as la cantidad de lemas que componen cada capa sigue una progresin geomtrica, para conseguir lexicones del resto de idiomas es necesario utilizar WordNets de otros idiomas en este caso los synsets se encuentran en Multilingual Central Repository 3.0 adems se ha utilizado
EuroWordNet para conseguir una cantidad mayor de lemas
Una vez realizadas las pruebas de fiabilidad en dos lexicones uno en ingls y el otro espaol podemos obtener conclusiones interesantes, el lexicon en ingles es mas fiable lo cual es un resultado lgico ya que la obtencin del lexicon espaol ha sido realizada por mtodos semi-automticos sin embargo esta diferencia es bastante reducida en las primeras capas estando entre el 1% y el 2% en la primera y entre 12% y 13% en la ltima, adems si comparamos el nmero de palabras de cada lema la la impresin es an ms positiva.
2. Proyectos
Una vez mencionados los artculos de
referencia cuyos conceptos dan lugar a
una serie de aplicaciones fuera del
mbito acadmico, realizaremos una
sntesis de 2 proyectos que representan
el panorama actual de la minera de
opiniones, entre los que se encuentran el
proyecto ATTOS con la intencin de
procesar de forma automtica la gran
cantidad de informacin existente en la
web y emplearla en la toma de decisiones
estratgicas, as como el anlisis
semntico de la opinin de los
ciudadanos en redes sociales en la ciudad
del futuro cuyo objetivo final es
proporcionar a los administradores
pblicos una herramienta potente para
entender las tendencias de
comportamiento y la opinin acerca de
los servicios que ofrecen.
2.1. Anlisis semntico de la opinin en las redes sociales El ciudadano es el principal usuario de los servicios de la ciudad pero tambin es un sensor proactivo capaz de generar grandes cantidades de datos con informacin til de su grado de satisfaccin sobre su entorno. Sin embargo se necesita procesar y anotar
11
los datos de forma automatizada para lograr que estos sean relevantes y poder utilizar un modelo de abstraccin. El objetivo ltimo es proporcionar a los administradores pblicos una herramienta potente para entender las tendencias de comportamiento, la opinin acerca de los servicios que ofrecen y proveer de un sistema de alerta que consiga mejorar la eficiencia de los servicios de emergencia.
2.1.1. Arquitectura La arquitectura es muy sencilla. El "datawarehouse" es el componente principal basado sobre Elasticsearch donde se almacenan todos los datos. Los "recolectores" son un conjunto de procesos que sirven para acceder a las APIs de Twitter y filtrar los datos segn diferentes parmetros de bsqueda y luego hay los "consumidores" que anotan los mensajes de Twitter utilizando las APIs de Textalytic. Este proceso de anotacin semntica constituye el cuello de botella del sistema por lo tanto se utiliza una cola con prioridad a la informacin ms reciente. El ltimo componente es el "sistema de visualizacin" que explota los datos generados.
2.1.2. Anlisis de datos Primero se hace un etiquetado semntico para el caso particular: fragmentos cortos de texto, con capitalizacin inadecuada, faltas de ortografa, emoticonos, abreviaturas, etc.
El segundo paso es la clasificacin automtica que sigue dos modelos especficos: "SocialMedia" que define los temas generales de clasificacin, proporcionando mayor precisin cuando se evalan textos que proceden de redes sociales y "CitizenSensor" orientado a las caractersticas propias del ciudadano como sensor de eventos de la ciudad, teniendo en cuenta aspectos como su ubicacin, eventos que ocurren en la ciudad o posibles catstrofes o alertas.
La extraccin de entidades combina varias tcnicas de procesamiento de lenguaje natural y permite al sistema de identificar distintos tipos de elementos: entidades nombradas (personas, organizaciones, lugares, etc.), conceptos, expresiones temporales, expresiones monetarias y URIs. En otro nivel de anlisis semntico, se realiza el anlisis de sentimiento que determina si el texto expresa un sentimiento positivo, neutral o negativo. Tambin se utiliza la informacin del usuario en Twitter para analizar las caractersticas demogrficas, basndose en n-gramas.
2.1.3. Output del sistema Las capacidades de almacenamiento del sistema permiten analizar los datos en tiempo real, aplicar algoritmos de minera de datos sobre los datos almacenados mediante tcnicas de perfilado y clustering para identificar distintos grupos de ciudadanos que se encuentran en la ciudad, comparar singularidades entre los grupos detectados, etc.
Los mensajes anotados por el sistema se almacenan en formato JSON y las consultas se realizan a travs de una interfaz web que permite ejecutar consultas complejas de manera estructurada y presenta informacin de alto nivel, agregada y resumida. Adems se puede personalizar la consola segn necesidades especficas, trmite el utilizo de widget. Actualmente se est investigando para explorar el anlisis de movilidad en la ciudad, la deteccin de los temas ms relevantes a nivel de barrios o zonas, y realizar un anlisis de reputacin o personalidad de marca.
12
2.2 Proyecto ATTOS Es necesario afrontar el tratamiento de la gran cantidad de informacin existente en la web, informacin textual en formatos muy variados y expresada de forma espontnea y subjetiva sin la correccin de los textos normativos. Con la intencin de procesar de forma automtica toda esta informacin y utilizarla en la toma de decisiones estratgicas surge el proyecto ATTOS (anlisis de tendencias y temticas a travs de opiniones y sentimientos), con 3 grandes objetivos: creacin y mejora de tcnicas y herramientas de modelado de lenguaje subjetivo, desarrollo de sistemas inteligentes que recuperen, traten y comprendan este lenguaje y la unificacin de dichos recursos en una plataforma web de monitorizacin. El seguimiento del proyecto se puede visualizar en: ATTOS.
2.2.1 Objetivos ATTOS plantea 3 objetivos especficos para la consecucin de un objetivo global. Estos objetivos son:
Crear, adaptar y mejorar las tcnicas y herramientas de modelado del lenguaje informal y subjetivo, - empleado en la expresin de opiniones y lejos de ser similar a los textos normativos - as como el tratamiento del lenguaje emocional y la aplicacin de dichas tcnicas en entornos reales y concretos.
Desarrollar sistemas inteligentes
capaces de recuperar, tratar, comprender y descubrir informacin subjetiva valorando el contexto en el que se ha expuesto tal informacin.
Integrar todos los recursos anteriores en una plataforma web de monitorizacin, demostrando su validez sobre
mbitos concretos, promoviendo adems las lneas de investigacin que surjan del proyecto mediante la organizacin de actividades acadmicas, congresos y talleres.
2.2.2 Subproyectos Se propusieron 3 subproyectos complementarios entre si para la consecucin de los objetivos mencionados en el apartado anterior, un subproyecto para el cumplimiento de cada objetivo.
El subproyecto ATTOS - Anlisis de Tendencias y Temticas a travs de Opiniones y Sentimientos - se encargar del 3 objetivo, construyendo la plataforma de procesamiento que integrar las tcnicas y recursos desarrolladas por todos los equipos del proyecto global (contando los dems subproyectos) para la explotacin de la informacin subjetiva.
El subproyecto SOTTA - Semantic Opinion Techniques for Tendencies Analysis - se encargar del 1 objetivo, pretendiendo desarrollar una herramienta de anlisis de tendencias en funcin a los diferentes usuarios que incorpore un conjunto de tcnicas que permitan identificar caractersticas de los textos subjetivos.
El subproyecto ACOGEUS - Anlisis de COntenidos GEnerados por USuarios - encargado del 2 objetivo, pretender desarrollar sistemas que identifiquen y recuperen informacin subjetiva de diversos dominios.
2.2.3 Arquitectura El sistema comentado debe incorporar tcnicas y mtodos que descubran la subjetividad en distintas dimensiones (emocional, temporal, espacial, ), para su desarrollo se ha optado por una arquitectura modular capaz de extraer indicadores de utilidad mediante el
http://attos.ujaen.es/13
proceso de diversas fuentes online empleando tcnicas de lenguaje natural. Los distintos mdulos que componen el sistema son los siguientes:
Se partir de diversas fuentes online de las que se extraern opiniones, vase Twitter,Amazon, etc en la parte izquierda de la figura 1.
Posteriormente, mediante el desarrollo y la adaptacin de recursos, herramientas y tcnicas de PLH (preprocesamiento y subsistemas) se realizar un tratamiento de la informacin subjetiva as como su especializacin en diversos dominios de aplicacin, teniendo en cuenta tambin caractersticas de los perfiles de usuario que exponen dichas opiniones (reputacin, opiniones de otros usuarios, ). Algunos de estos subsistemas ya han sido tratados en otras asignaturas o en el presente trabajo como puede ser la extraccin de caractersticas y la deteccin de la polaridad.
Finalmente se desarrollar una plataforma online de visualizacin y presentacin de los resultados, planteando tambin actividades de evaluacin de la utilidad de la plataforma (promocin, coordinacin, foros de evaluacin) y creando un plan de diseminacin de los resultados obtenidos para lograr un nivel aceptable de difusin. A pesar de la sencillez aparente de la arquitectura, hay que afrontar diversos problemas como la creciente cantidad de informacin, siendo sta muy variada y sin la precisin y correctitud de los textos
ortogrficamente correctos y por tanto difcil de procesar. 2.2.4 Resultados y contribuciones
Los trabajos realizados durante el desarrollo del proyecto han dado lugar a una serie contribuciones en revistas, congresos y eventos. Entre ellos podemos destacar:
La definicin de un mtodo para obtener de forma automtica consultas que varen en funcin de un conjunto de hashtags semilla obtenidos de Twitter. Interesante para obtener tweets relacionados con temticas especficas.
Un sistema de identificacin de opiniones con su valoracin (positividad o negatividad) correspondiente.
Una metodologa que permite adaptar lexicones de palabras de opinin a un dominio concreto.
Un mtodo de desambiguacin (a nivel de sentido de las palabras) que tiene en cuenta la informacin del contexto, til para clasificadores de polaridad.
Un mtodo de deteccin de la
subjetividad a nivel de oraciones
basado en la desambiguacin del
sentido de las palabras que
conforman la oracin.
3. Conclusiones La minera de opiniones o anlisis de sentimientos es un rea de conocimiento que se encuentra en constante crecimiento, a pesar de encontrarse en un estado todava prematuro debido a la complejidad de las tcnicas necesarias para conseguir los objetivos perseguidos como la generacin de lexicones en
14
idiomas diferentes del ingls (ML-Senticon) , definir reglas adecuadas para la extraccin de trminos de aspecto o determinar la subjetividad, la polaridad y las tendencias en un determinado texto no normativo, incluyendo tambin la dificultad de procesar dicho texto As, ya que la denominada Web 2.0 lo ha socializado todo, se ha observado un nicho de aplicacin de estas tcnicas sobre redes sociales como Twitter para tareas como recomendaciones en funcin de las preferencias de usuarios y determinacin de estados de nimo, as como la utilizacin por parte de las empresas de dichas tcnicas para tomar decisiones estratgicas en base a los resultados obtenidos. Con todo lo dicho, se ha puesto de manifiesto a lo largo de este artculo que no hay duda sobre la revolucin que implicarn estas tecnologas en el desarrollo de Internet cuando alcancen un nivel de desarrollo considerable, sin embargo, ser para beneficio de los usuarios o ir orientada la utilizacin de stas tcnicas para incrementar ms aun el control sobre nosotros?. 4. Bibliografa
Androutsopoulos, I., Galanis,
D.,Manandhar, S., Papageorgiou, H.,
Pavlopoulos, J. & Pontiki, A. (2014) Task
Description: Aspect Based Sentiment
Analysis (ABSA). SemEval-2014. Task 4.
Recuperado el 13 de Abril de 2015 de:
http://alt.qcri.org/semeval2014/task4/
Boldrini, E., Cruz Marta, F., Daz Galiano,
M.c., Daz Madrigal, V. J., De Salamanca
Ros, F., Garca Cumbreras, M.A., Garca
Vallejo, F. C., Garca Vega, M., Gmez
Soriano, J.M., Guilln Espejo, A., Gutierrez
Vazquez, Y., Jimnez Zafra, S.M..,
Martnez Cmara, E., Martn Valdivia, M.,
Monroy Tenorio, F., Montejo Rez, A.,
Moreda Pozo, P., Muoz Guillena, R.,
Navarro Colado, B., Ortega Rodrguez, F.J.,
Perea Ortega, J.M., Surez Cueto, A.,
Troyano Jimnez, J.A. y Urea Lpez, L.A.
(2013) ATTOS: Anlisis de Tendencias y
Temticas a travs de Opiniones y
Sentimientos. Recuperado el 13 de Abril
de 2015, de: http://gplsi.dlsi.ua.es/attos/
Garca Pablos, A., Cuadros, M., Rigau, G., &
Gaines, S. (2014). Unsupervised
acquisition of domain aspect terms for
Aspect Based Opinion Mining.
Procesamiento Del Lenguaje Natural, 53,
121-128. Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/inde
x.php/pln/article/view/5044/2932
Cruz, F., Troyano, J., Pontes, B., & Ortega,
F. (2014). ML-SentiCon: Un lexicn
multilinge de polaridades semnticas a
nivel de lemas. Procesamiento Del
Lenguaje Natural, 53, 113-120.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/inde
x.php/pln/article/view/5041/2929
PageRank (n.d) En Wikipedia.
Recuperado el 13 de Abril de 2015, de:
http://es.wikipedia.org/wiki/PageRank#
Algoritmo
http://alt.qcri.org/semeval2014/task4/http://gplsi.dlsi.ua.es/attos/http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5044/2932http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5044/2932http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5041/2929http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5041/2929http://es.wikipedia.org/wiki/PageRank#Algoritmohttp://es.wikipedia.org/wiki/PageRank#Algoritmo15
Princeton University (2015) What is
WordNet? WordNet. A lexical datbase for
English. Recuperado el 13 de Abril de
2015, de:
https://wordnet.princeton.edu/
SemEval (n.d) En Wikipedia. Recuperado
el 13 de Abril de 2015 de:
http://en.wikipedia.org/wiki/SemEval
Urea Lpez, L., Muoz Guillena, R.,
Troyano Jimnez, J., & Martn Valdivia, M.
(2014). ATTOS: Anlisis de Tendencias y
Temticas a travs de Opiniones y
Sentimientos. Procesamiento Del
Lenguaje Natural, 53, 151-154.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/i
ndex.php/pln/article/view/5062/2950
Villena-Romn, J., Luna-Cobos, A., &
Gonzlez Cristbal, J. (2014). Anlisis
Semntico de la Opinin de los
Ciudadanos en Redes Sociales en la
Ciudad del Futuro. Procesamiento Del
Lenguaje Natural, 53, 159-162.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/i
ndex.php/pln/article/view/5064/2952
https://wordnet.princeton.edu/http://en.wikipedia.org/wiki/SemEvalhttp://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5062/2950http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5062/2950http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5064/2952http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5064/2952