Upload
vinicius-cardoso-garcia
View
295
Download
0
Embed Size (px)
DESCRIPTION
Apresentação de seminário, 17-Mar-2012, Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião
Citation preview
Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a
Mineração de Opinião
João Emanoel [email protected]
Recife-PE 17/03/2012
Agenda
• Conceitualização
• Mineração de Opinião
• Objetivos
• Trabalhos Relacionados
• Protótipo Implementado
• Testes e Resultados
• Considerações e resultados Esperados
• Referências
2
Conceitualização
• Mudanças na Web
• Surgimento das Redes Sociais
• Oportunidades
• Análise de Redes Sociais
• Análise de Sentimentos
• A web vista como uma plataforma para serviços e exploração de conteúdo
3
4
Fonte: comScore
5
6
Mineração de opinião
• Tornando evidente a necessidade de criar sistemas computacionais capazes de extrair e analisar, de forma inteligente, o conhecimento sobre tais volumes de dados (FREITAS et al., 2008)
• Problema de categorização de textos pelo qual deseja-se detectar opiniões favoráveis e adversas com relação a um tema
7
Mineração de Opinião
• Problemas Relacionados
– Análise de Influências
– Inteligência Competitiva
– Mineração de Subjetividade
8
Objetivo • Realizar uma analise comparativa entre diferentes
técnicas de aprendizagem supervisionada para o problema de Análise de Sentimentos – Objetivos Específicos:
• Realizar uma revisão bibliográfica sobre as técnicas de aprendizado supervisionado para o problema de Mineração de Opinião
• Identificar diferentes modelos textuais e técnicas para seleção de características, aplicáveis a análise de sentimentos
• Comparar e analisar o desempenho dos classificadores para cada modelo encontrado, aplicando diferentes métricas de avaliação
9
Trabalhos Relacionados
• (Pang, 2002) • Corpus extraído do IMBd (base de dados de filmes na
internet), composto por 2000 avaliações de filmes (1000 positivas e 1000 negativas)
• Compara 3 técnicas de aprendizagem de máquina: Naive Bayes, Máxima Entropia e SVM
10
Trabalhos Relacionados
• (Pedro Oguri, 2006) – Mesmo Corpus utilizado por Pang (2002) – Comparou o desempenho dos Classificadores Naive
Bayes E SVM – Testes: Validação cruzada com K-folds
11
Trabalhos Relacionados
• (Pedro Oguri, 2006) – Os modelos e classif icadores apresentaram
desempenhos muitos parecidos – Corpus utilizado é razoavelmente pequeno e limitado a
um domínio e fonte específicos – O autor conclui que os experimentos não trazem
conclusões definitivas quanto aos melhores modelos
12
Protótipo Desenvolvido • Objetivo Geral
o Efetuar a mineração de opiniões a partir dos tweets coletados no Twitter, utilizando os algoritmos de aprendizagem supervisionada Naive Bayes e KNN ;
• Entrada o Tweets coletados
• Saída o Análise de sentimentos. o Resultados da análise para os diferentes algoritmos
§ Precisão
13
Base de Dados
• Twitter – Rede Social que utiliza o conceito de Microblogging – Tweets (140 caracteres) – Busca de FeedBack pelas Organizações – API Twitter4j – Grande diversidade de Usuário (Empresários, políticos,
Artistas, etc), possibilitando a coleta de diferentes domínios e classes de usuários
– “Objetividade” dos Tweets.
14
Protótipo Desenvolvido
15
Descrição dos Experimentos • Corpus utilizado: tweets (em português) opiniativos
ou neutros (não expressam opinião) sobre diversos produtos, serviços e empresas (Bradesco, Santander, DELL, etc) – 450 Tweets
• 150 para cada categoria (Positivo, Negativo e Neutro)
– Corpus dividido em duas partes • 65% para Treinamento • 35% para Testes
• API Twitter4j • Modelo textual Utilizado: Saco de Palavras(binário)
16
Descrição dos Experimentos
• Variações de técnicas de pré-processamento: – (1) apenas Tokenização; – (2) variação (1) + eliminação de stopwords e caracteres
especiais; – (3) variação (2) + Stemming; – (4) variação (3) + utilização de adjetivos e verbos como
atributos relevantes; – (5) variação (3) + utilização de adjetivos, substantivos,
verbos e advérbios como atributos relevantes.
17
Descrição dos Experimentos
• APIs Utilizadas: – Lucene – TreeTagger – LingPipe
• Avaliação – Precisão
18
Metodologia de Testes
FONTE: Carrilho Junior (2007)
Validação cruzada com K-folds
19
Resultados Obtidos Desempenho do Classificador Naive Bayes
20
Resultados Obtidos Desempenho do Classificador KNN com K = 7
21
Resultados Obtidos Desempenho do Classificador KNN com K = 13
22
Resultados Obtidos Resultado dos Classificadores Naive Bayes e KNN
Técnicas de Pré-Processamento/Algoritmos
Naive Bayes KNN
com K = 7
KNN
Com K = 13
(1) Tokenização 52.22% 38.44% 38.66%
(2) (1) + StopWords 50.66% 39.33% 39.99%
(3) (2) + Stemming 48.88% 40.22% 40.66%
(4) (3) + POS (ADJ, V, NOM e ADV)
48.88% 40.60% 36.44%
23
Possíveis modelagens textuais a serem adicionadas
• Saco de Palavras (Utilizada no Experimento) • N-Gramas • Part of Speech tagging • Filtro de Subjetividade • Seleção de Features
– Informação Mutua Média
24
Possíveis Algoritmos adicionados • Baseado em Wu (2008) – onde o autor lista os 10
principais algoritmos de Data Mining • Além dos dois já implementados (Naive Bayes e
KNN): • SVM • PageRank • Máxima Entropia (ME) • AdaBoost
25
Considerações
• Apenas um protótipo inicial • Analisar novos modelos de representação textual • Incluir técnicas mais eficientes para a etapa de extração de
atributos relevantes, e medir o impacto dessas técnicas na precisão dos classificadores;
• Realizar novos experimentos utilizando outros algoritmos de Aprendizagem Supervisionada
• Problema de pesquisa relevante – Porque realizar Uma Análise Comparativa de Técnicas
de Aprendizagem Supervisionada aplicadas a Mineração de Opinião?
26
Resultados Esperados
• Elencar para as diversas variações de modelos textuais e técnicas para seleção de características, quais Class i f icadores de aprendizagem supervisionada apresentam melhores resultados para as métricas de avaliações definidas
27
Referências FREEMAN, 1979] FREEMAN, Linton C.. Centrality in social networks: Conceptual clarification. Social Networks, 1:215-239, 1979. [HANNEMAN; RIDDLE, 2005] HANNEMAN, Robert A.; RIDDLE, Mark. Introduction to social network methods. University of California, Riverside, CA, 2005. [PAGERANK, 2007] Google PageRank: What Do We Know About It?. 2007. Disponível em: <http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/>. Acesso em: 21 nov. 2011. [KLEINBERG, 1999] KLEINBERG, Jon M. Authoritative sources in a hyperlinked environment. J. ACM, 46:604-632, September 1999. B. Pang, L. Lee and S. Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques, In Proc. of the EMNLP, 2002 FREITAS, C. M. D. S.; NEDEL, L. P.; GALANTE, R.; et al. Extração de Conhecimento e Análise Visual de Redes Sociais. In: XXVIII CONGRESSO DO SBC, 2008, Bélem do Pará, PA, Brasil. Anais... 2008. p. 106-120. 28
Referências [NIELSEN, 2009] NIELSEN, Global faces and networked places, A Nielsen Report on Social Networkings:New Global Footprint Nielson Online. Março, 2009. [CARRILHO JUNIOR, 2007] João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos. 2007. 96 f. Dissertação (Mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007. [LIU, 2010] LIU, Bing. Sentiment Analysis and Subjectivity. In. Handbook of Natural Language Processing. Segunda Edição. 2010. [ABBASI, 2008] ABBASI, Ahmed, et. al. Sentiment Analysis in Multiple Languages: Feature Selection for Opinion Classification in Web Forums. ACM Transactions on Information Systems, Vol. 26, No. 3, Artigo 12. 2008. [oguri, 2006] Aprendizado de Máquina para o Problema de Sentiment Classification. 2006. 54 f. Dissertação (Mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2006.
29
Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a
Mineração de Opinião
João Emanoel [email protected]
Orientadores: Silvio Meira e Vinicius Garcia
Recife-PE 17/03/2012