23
1 BUAA BUAA BUAA-SA: NLP&CC 2012 中中中中中中中中中中中中 巢巢巢 [email protected] 010-82338927 巢巢巢巢巢巢巢巢巢巢巢巢巢 2012.11.01

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告

  • Upload
    acacia

  • View
    197

  • Download
    20

Embed Size (px)

DESCRIPTION

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告. 巢文涵 [email protected] 010-82338927 北京航空航天大学计算机学院 2012.11.01. 大纲. 引言 BUAA-SA 系统结构 实验 总结. 引言. BUAA-SA 是一个规则与统计相结合的情感分析系统 情感词处理 细节处理:反讽、程度词等 话题自适应 参加了三个子任务 观点句识别 极性判断 情感要素抽取. BUAA-SA 结构. 应用层. 情感分析接口. 处理层. 观点句识别. 情感倾向判断. 情感要素抽取. 基础层. - PowerPoint PPT Presentation

Citation preview

Page 1: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

1

BUAABUAA

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报

告巢文涵

[email protected]

北京航空航天大学计算机学院2012.11.01

Page 2: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

2

BUAABUAA

大纲• 引言• BUAA-SA 系统结

构• 实验• 总结

Page 3: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

BUAABUAA

3

引言• BUAA-SA 是一个规则与统计相结合的情感分析系统

• 情感词处理• 细节处理:反讽、程度词等• 话题自适应

• 参加了三个子任务• 观点句识别• 极性判断• 情感要素抽取

Page 4: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

BUAABUAA

4

BUAA-SA结构

情感词处理 话题自适应

观点句识别 情感倾向判断 情感要素抽取

细节处理

原始情感词库 分级情感词库 反讽词表、程度词 话题情感要素表

情感分析接口应用层

处理层

基础层

数据层

Page 5: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

5

BUAABUAA情感词处理

• 数据源• Hownet 情感词• 台湾大学情感词( http://nlg18.csie.ntu.edu.tw:8080/lwku/index.htm

l )• 清华大学情感词( nlp.csai.tsinghua.edu.cn/site2/ )

• 极性值判断及分级• 将情感词的权值定义为情感词的“专注性”

• 即如果情感词修饰的名词性成分越固定,则它在句子中表示一个修饰成分的可能性越高,其权值越高

• 将情感词划分为 5 个等级

Page 6: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

6

BUAABUAA细节处理

• 讽刺• 就算、竟

• 程度词• 增强

• 彻头彻尾、地地道道、极度

• 弱化• 有点、颇为、未免

Page 7: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

7

BUAABUAA话题自适应

• 话题评价元素获取• 建立一个通用的情感词种子词集• 根据具体的话题,从互联网爬取相关文本• 抽取评价对象和情感词

• 参见: Expanding Domain Sentiment Lexicon through Double Propagation

Page 8: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

8

BUAABUAA任务 -1 :观点句识别

• 规则方法• 至少包含一个强情感词或者两个弱情感词 [Y]

• 普通情感词 + 话题情感词

• 特征 +SVM 方法

Page 9: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

9

BUAABUAA任务 -1分类特征选择 ( 续 )• F1 :情感词(可含话题相关情感词)• F2 :不规范标点 [Y]• F3 :否定词• F4 :程度词• F5 :表情符号• F6 :特殊符号 [N]• F7 :叹词与带有情感色彩的标点融合• F8 :主张词• F9 :第一、二人称代词• F10 :祝愿、但愿、希望等表达愿望的词• F11 :程度词 + 情感词• F12 :否定词 + 程度词 + 情感词• F13 :其它融合特征或者其它特征

Page 10: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

10

BUAABUAA任务 -2 :极性判断

• 规则方法• 对每个情感词进行分类,判断它是否表达情感• 对句子中的情感词加权

• 特征 +SVM 方法

Page 11: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

11

BUAABUAA任务 -2分类特征选择 ( 续 )• 句子中表情符号个数• 积极表情符号的个数• 消极表情符号的个数• 句子是问句、陈述句、还是感叹句。。。。• 情感词对应的词性标记分别为 {"n", "v", "a", "z", "d"} 的个数• 情感词对应的词性标记分别为 {"n", "v", "a", "z", "d"} 的情感极值和• 积极词个数• 消极词个数• 句子的情感词极值和• 否定词的个数• 感叹号个数• 问号个数• 非情感词的各类词性标记个数 n 、 t 、 s 、 f 、 v 、 a 、 b 、 z 、 r 、 m 、 q 、 d 、 p 、 c 、 u 、 e 、 y 、 o 、

h 、 x 、 w• 主题相关的情感词个数 {"n", "v", "a", "z", "d"} 等话题相关的情感词对应词性标记的个数• 句子包含 target 数量• 话题总体情感倾向• 话题正面情感倾向• 话题负面情感倾向

Page 12: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

12

BUAABUAA任务 -3 :情感要素抽取• 候选评价对象生成

• 判断句子中是否包含话题相关的评价对象,如果有则直接选用它作为候选评价对象

• 如果没有,则对句子中的所有可能的评价对象(主要是词性为n 的词)进行分类

• 观察候选评价对象的个数,如果为 0 ,则选择 hashTAG 中出现的名词作为唯一的候选评价对象

Page 13: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

13

BUAABUAA任务 -3 :情感要素抽取 ( 续 )

• 识别句子中的评价词• 观察句子中是否有强烈的情感词(强情感词定义为程度为 4 和

5 的词),如果有则直接作为候选,• 如果没有则把句子中情感词作为可能的评价词,如果其个数小于等于 2 则直接将它们作为候选,如果大于 2 ,则进行分类

Page 14: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

14

BUAABUAA任务 -3 :情感要素抽取 ( 续 )

• 生成所有候选搭配,并输出最佳结果 • 如果候选搭配个数小于等于 2 ,则直接输出结果 • 如果候选数量大于 2 ,则对所有候选进行分类

• 分类特征包括

Page 15: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

15

BUAABUAA任务 -3 :情感要素抽取 ( 续 )• 分类特征

• 评价对象是否在 hashtag 中出现• 评价词是否为主题相关的评价词• 评价对象与评价词之间的的依存关系• 评价词极值• 评价词是否与程度词存在依存关系• 评价词是否与形容词存在依存关系• 评价词是否与副词存在依存关系• 评价词前后词汇及其词性• 评价词是否存在否定依存关系• 评价词一定窗口(窗口大小可设为 2 )内是否出现讽刺性词语。• 候选搭配的个数• 句子中表情符号个数• 积极表情符号的个数• 消极表情符号的个数

Page 16: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

16

BUAABUAA实验结果

表 1 观点句识别评果

微平均 宏平均正确率 召回率 F值 正确率 召回率 F值

SVM 0.681 0.918 0.782 0.684 0.914 0.779

规则 0.707 0.577 0.635 0.715 0.577 0.632

Page 17: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

17

BUAABUAA实验结果

表 2 情感倾向性判断评测结果

微平均 宏平均正确率 召回率 F值 正确率 召回率 F值

SVM 0.761 0.698 0.728 0.768 0.702 0.733

规则 0.764 0.440 0.559 0.758 0.445 0.559

Page 18: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

18

BUAABUAA实验结果

表 3 情感要素抽取评测结果

微平均 宏平均正确率 召回率 F值 正确率 召回率 F值

严格 0.066 0.147 0.091 0.070 0.144 0.093

宽松 0.264 0.325 0.291 0.269 0.330 0.291

Page 19: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

19

BUAABUAA总结

• BUAA-SA 系统参加了三个评测子任务

• 主要的特点在于• 情感词的处理• 细节的处理• 话题适应性

Page 20: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

20

BUAABUAA思考• 话题的倾向性太强?

• 训练集、测试集的主观性太强?• 在应用中如何提高用户的满意度?

Page 21: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

21

BUAABUAA主要参考文献

• Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009.

• Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010.

• 赵妍妍 , 秦兵 , 刘挺 .文本情感分析综述 . 2009.• 许洪波 , 孙乐 , 姚天昉 ( 主编 ). 第三届中文倾向性分析评测

(COAE2011)论文集 . 中国科学院计算技术研究所 ,2011.

Page 22: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

22

BUAABUAA

谢谢!Thank you very much!

Page 23: BUAA-SA:  NLP&CC 2012 中文微博情感分析评测报告

23

BUAABUAA附录• 北航计算机学院 信息安全与智能信息处理实验室

• 研究方向:• 机器翻译、情感分析、自然语言处理• 文本挖掘、机器学习• 信息安全、内容安全、舆情分析

• 联系• 北航新主楼 G1001/G930• [email protected]; 010-82338927 (O)

• 欢迎各位专家莅临指导