Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a

Mineração de Opinião

João Emanoel [email protected]

Recife-PE 17/03/2012

Agenda

•  Conceitualização

•  Mineração de Opinião

•  Objetivos

•  Trabalhos Relacionados

•  Protótipo Implementado

•  Testes e Resultados

•  Considerações e resultados Esperados

•  Referências

2

Conceitualização

•  Mudanças na Web

•  Surgimento das Redes Sociais

•  Oportunidades

•  Análise de Redes Sociais

•  Análise de Sentimentos

•  A web vista como uma plataforma para serviços e exploração de conteúdo

3

4

Fonte: comScore

5

6

Mineração de opinião

•  Tornando evidente a necessidade de criar sistemas computacionais capazes de extrair e analisar, de forma inteligente, o conhecimento sobre tais volumes de dados (FREITAS et al., 2008)

•  Problema de categorização de textos pelo qual deseja-se detectar opiniões favoráveis e adversas com relação a um tema

7


•  Problemas Relacionados

– Análise de Influências

–  Inteligência Competitiva

– Mineração de Subjetividade

8

Objetivo •  Realizar uma analise comparativa entre diferentes

técnicas de aprendizagem supervisionada para o problema de Análise de Sentimentos – Objetivos Específicos:

•  Realizar uma revisão bibliográfica sobre as técnicas de aprendizado supervisionado para o problema de Mineração de Opinião

•  Identificar diferentes modelos textuais e técnicas para seleção de características, aplicáveis a análise de sentimentos

•  Comparar e analisar o desempenho dos classificadores para cada modelo encontrado, aplicando diferentes métricas de avaliação

9

Trabalhos Relacionados

•  (Pang, 2002) •  Corpus extraído do IMBd (base de dados de filmes na

internet), composto por 2000 avaliações de filmes (1000 positivas e 1000 negativas)

•  Compara 3 técnicas de aprendizagem de máquina: Naive Bayes, Máxima Entropia e SVM

10


•  (Pedro Oguri, 2006) – Mesmo Corpus utilizado por Pang (2002) – Comparou o desempenho dos Classificadores Naive

Bayes E SVM – Testes: Validação cruzada com K-folds

11


•  (Pedro Oguri, 2006) – Os modelos e classif icadores apresentaram

desempenhos muitos parecidos – Corpus utilizado é razoavelmente pequeno e limitado a

um domínio e fonte específicos – O autor conclui que os experimentos não trazem

conclusões definitivas quanto aos melhores modelos

12

Protótipo Desenvolvido •  Objetivo Geral

o  Efetuar a mineração de opiniões a partir dos tweets coletados no Twitter, utilizando os algoritmos de aprendizagem supervisionada Naive Bayes e KNN ;

•  Entrada o  Tweets coletados

•  Saída o  Análise de sentimentos. o  Resultados da análise para os diferentes algoritmos

§ Precisão

13

Base de Dados

•  Twitter – Rede Social que utiliza o conceito de Microblogging – Tweets (140 caracteres) – Busca de FeedBack pelas Organizações – API Twitter4j – Grande diversidade de Usuário (Empresários, políticos,

Artistas, etc), possibilitando a coleta de diferentes domínios e classes de usuários

–  “Objetividade” dos Tweets.

14

Protótipo Desenvolvido

15

Descrição dos Experimentos •  Corpus utilizado: tweets (em português) opiniativos

ou neutros (não expressam opinião) sobre diversos produtos, serviços e empresas (Bradesco, Santander, DELL, etc) –  450 Tweets

•  150 para cada categoria (Positivo, Negativo e Neutro)

– Corpus dividido em duas partes •  65% para Treinamento •  35% para Testes

•  API Twitter4j •  Modelo textual Utilizado: Saco de Palavras(binário)

16

Descrição dos Experimentos

•  Variações de técnicas de pré-processamento: –  (1) apenas Tokenização; –  (2) variação (1) + eliminação de stopwords e caracteres

especiais; –  (3) variação (2) + Stemming; –  (4) variação (3) + utilização de adjetivos e verbos como

atributos relevantes; –  (5) variação (3) + utilização de adjetivos, substantivos,

verbos e advérbios como atributos relevantes.

17

Descrição dos Experimentos

•  APIs Utilizadas: – Lucene – TreeTagger – LingPipe

•  Avaliação – Precisão

18

Metodologia de Testes

FONTE: Carrilho Junior (2007)

Validação cruzada com K-folds

19

Resultados Obtidos Desempenho do Classificador Naive Bayes

20

Resultados Obtidos Desempenho do Classificador KNN com K = 7

21

Resultados Obtidos Desempenho do Classificador KNN com K = 13

22

Resultados Obtidos Resultado dos Classificadores Naive Bayes e KNN

Técnicas de Pré-Processamento/Algoritmos

Naive Bayes KNN

com K = 7

KNN

Com K = 13

(1) Tokenização 52.22% 38.44% 38.66%

(2) (1) + StopWords 50.66% 39.33% 39.99%

(3) (2) + Stemming 48.88% 40.22% 40.66%

(4) (3) + POS (ADJ, V, NOM e ADV)

48.88% 40.60% 36.44%

23

Possíveis modelagens textuais a serem adicionadas

•  Saco de Palavras (Utilizada no Experimento) •  N-Gramas •  Part of Speech tagging •  Filtro de Subjetividade •  Seleção de Features

–  Informação Mutua Média

24

Possíveis Algoritmos adicionados •  Baseado em Wu (2008) – onde o autor lista os 10

principais algoritmos de Data Mining •  Além dos dois já implementados (Naive Bayes e

KNN): •  SVM •  PageRank •  Máxima Entropia (ME) •  AdaBoost

25

Considerações

•  Apenas um protótipo inicial •  Analisar novos modelos de representação textual •  Incluir técnicas mais eficientes para a etapa de extração de

atributos relevantes, e medir o impacto dessas técnicas na precisão dos classificadores;

•  Realizar novos experimentos utilizando outros algoritmos de Aprendizagem Supervisionada

•  Problema de pesquisa relevante – Porque realizar Uma Análise Comparativa de Técnicas

de Aprendizagem Supervisionada aplicadas a Mineração de Opinião?

26

Resultados Esperados

•  Elencar para as diversas variações de modelos textuais e técnicas para seleção de características, quais Class i f icadores de aprendizagem supervisionada apresentam melhores resultados para as métricas de avaliações definidas

27

Referências FREEMAN, 1979] FREEMAN, Linton C.. Centrality in social networks: Conceptual clarification. Social Networks, 1:215-239, 1979. [HANNEMAN; RIDDLE, 2005] HANNEMAN, Robert A.; RIDDLE, Mark. Introduction to social network methods. University of California, Riverside, CA, 2005. [PAGERANK, 2007] Google PageRank: What Do We Know About It?. 2007. Disponível em: <http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/>. Acesso em: 21 nov. 2011. [KLEINBERG, 1999] KLEINBERG, Jon M. Authoritative sources in a hyperlinked environment. J. ACM, 46:604-632, September 1999. B. Pang, L. Lee and S. Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques, In Proc. of the EMNLP, 2002 FREITAS, C. M. D. S.; NEDEL, L. P.; GALANTE, R.; et al. Extração de Conhecimento e Análise Visual de Redes Sociais. In: XXVIII CONGRESSO DO SBC, 2008, Bélem do Pará, PA, Brasil. Anais... 2008. p. 106-120. 28

Referências [NIELSEN, 2009] NIELSEN, Global faces and networked places, A Nielsen Report on Social Networkings:New Global Footprint Nielson Online. Março, 2009. [CARRILHO JUNIOR, 2007] João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos. 2007. 96 f. Dissertação (Mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007. [LIU, 2010] LIU, Bing. Sentiment Analysis and Subjectivity. In. Handbook of Natural Language Processing. Segunda Edição. 2010. [ABBASI, 2008] ABBASI, Ahmed, et. al. Sentiment Analysis in Multiple Languages: Feature Selection for Opinion Classification in Web Forums. ACM Transactions on Information Systems, Vol. 26, No. 3, Artigo 12. 2008. [oguri, 2006] Aprendizado de Máquina para o Problema de Sentiment Classification. 2006. 54 f. Dissertação (Mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2006.

29

Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a


João Emanoel [email protected]

Orientadores: Silvio Meira e Vinicius Garcia

Recife-PE 17/03/2012

Documents

Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião