BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告

1

BUAABUAA

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报

告巢文涵

[email protected]

北京航空航天大学计算机学院2012.11.01

2

BUAABUAA

大纲• 引言• BUAA-SA 系统结

构• 实验• 总结

BUAABUAA

3

引言• BUAA-SA 是一个规则与统计相结合的情感分析系统

• 情感词处理• 细节处理：反讽、程度词等• 话题自适应

• 参加了三个子任务• 观点句识别• 极性判断• 情感要素抽取

BUAABUAA

4

BUAA-SA结构

情感词处理话题自适应

观点句识别情感倾向判断情感要素抽取

细节处理

原始情感词库分级情感词库反讽词表、程度词话题情感要素表

情感分析接口应用层

处理层

基础层

数据层

5

BUAABUAA情感词处理

• 数据源• Hownet 情感词• 台湾大学情感词（ http://nlg18.csie.ntu.edu.tw:8080/lwku/index.htm

l ）• 清华大学情感词（ nlp.csai.tsinghua.edu.cn/site2/ ）

• 极性值判断及分级• 将情感词的权值定义为情感词的“专注性”

• 即如果情感词修饰的名词性成分越固定，则它在句子中表示一个修饰成分的可能性越高，其权值越高

• 将情感词划分为 5 个等级

6

BUAABUAA细节处理

• 讽刺• 就算、竟

• 程度词• 增强

• 彻头彻尾、地地道道、极度

• 弱化• 有点、颇为、未免

7

BUAABUAA话题自适应

• 话题评价元素获取• 建立一个通用的情感词种子词集• 根据具体的话题，从互联网爬取相关文本• 抽取评价对象和情感词

• 参见： Expanding Domain Sentiment Lexicon through Double Propagation

8

BUAABUAA任务 -1 ：观点句识别

• 规则方法• 至少包含一个强情感词或者两个弱情感词 [Y]

• 普通情感词 + 话题情感词

• 特征 +SVM 方法

9

BUAABUAA任务 -1分类特征选择 ( 续 )• F1 ：情感词（可含话题相关情感词）• F2 ：不规范标点 [Y]• F3 ：否定词• F4 ：程度词• F5 ：表情符号• F6 ：特殊符号 [N]• F7 ：叹词与带有情感色彩的标点融合• F8 ：主张词• F9 ：第一、二人称代词• F10 ：祝愿、但愿、希望等表达愿望的词• F11 ：程度词 + 情感词• F12 ：否定词 + 程度词 + 情感词• F13 ：其它融合特征或者其它特征

10

BUAABUAA任务 -2 ：极性判断

• 规则方法• 对每个情感词进行分类，判断它是否表达情感• 对句子中的情感词加权

• 特征 +SVM 方法

11

BUAABUAA任务 -2分类特征选择 ( 续 )• 句子中表情符号个数• 积极表情符号的个数• 消极表情符号的个数• 句子是问句、陈述句、还是感叹句。。。。• 情感词对应的词性标记分别为 {"n", "v", "a", "z", "d"} 的个数• 情感词对应的词性标记分别为 {"n", "v", "a", "z", "d"} 的情感极值和• 积极词个数• 消极词个数• 句子的情感词极值和• 否定词的个数• 感叹号个数• 问号个数• 非情感词的各类词性标记个数 n 、 t 、 s 、 f 、 v 、 a 、 b 、 z 、 r 、 m 、 q 、 d 、 p 、 c 、 u 、 e 、 y 、 o 、

h 、 x 、 w• 主题相关的情感词个数 {"n", "v", "a", "z", "d"} 等话题相关的情感词对应词性标记的个数• 句子包含 target 数量• 话题总体情感倾向• 话题正面情感倾向• 话题负面情感倾向

12

BUAABUAA任务 -3 ：情感要素抽取• 候选评价对象生成

• 判断句子中是否包含话题相关的评价对象，如果有则直接选用它作为候选评价对象

• 如果没有，则对句子中的所有可能的评价对象（主要是词性为n 的词）进行分类

• 观察候选评价对象的个数，如果为 0 ，则选择 hashTAG 中出现的名词作为唯一的候选评价对象

13

BUAABUAA任务 -3 ：情感要素抽取 ( 续 )

• 识别句子中的评价词• 观察句子中是否有强烈的情感词（强情感词定义为程度为 4 和

5 的词），如果有则直接作为候选，• 如果没有则把句子中情感词作为可能的评价词，如果其个数小于等于 2 则直接将它们作为候选，如果大于 2 ，则进行分类

14

BUAABUAA任务 -3 ：情感要素抽取 ( 续 )

• 生成所有候选搭配，并输出最佳结果 • 如果候选搭配个数小于等于 2 ，则直接输出结果 • 如果候选数量大于 2 ，则对所有候选进行分类

• 分类特征包括

15

BUAABUAA任务 -3 ：情感要素抽取 ( 续 )• 分类特征

• 评价对象是否在 hashtag 中出现• 评价词是否为主题相关的评价词• 评价对象与评价词之间的的依存关系• 评价词极值• 评价词是否与程度词存在依存关系• 评价词是否与形容词存在依存关系• 评价词是否与副词存在依存关系• 评价词前后词汇及其词性• 评价词是否存在否定依存关系• 评价词一定窗口（窗口大小可设为 2 ）内是否出现讽刺性词语。• 候选搭配的个数• 句子中表情符号个数• 积极表情符号的个数• 消极表情符号的个数

16

BUAABUAA实验结果

表 1 观点句识别评果

微平均宏平均正确率召回率 F值正确率召回率 F值

SVM 0.681 0.918 0.782 0.684 0.914 0.779

规则 0.707 0.577 0.635 0.715 0.577 0.632

17


表 2 情感倾向性判断评测结果


SVM 0.761 0.698 0.728 0.768 0.702 0.733

规则 0.764 0.440 0.559 0.758 0.445 0.559

18


表 3 情感要素抽取评测结果


严格 0.066 0.147 0.091 0.070 0.144 0.093

宽松 0.264 0.325 0.291 0.269 0.330 0.291

19

BUAABUAA总结

• BUAA-SA 系统参加了三个评测子任务

• 主要的特点在于• 情感词的处理• 细节的处理• 话题适应性

20

BUAABUAA思考• 话题的倾向性太强？

• 训练集、测试集的主观性太强？• 在应用中如何提高用户的满意度？

21

BUAABUAA主要参考文献

• Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009.

• Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010.

• 赵妍妍 , 秦兵 , 刘挺 .文本情感分析综述 . 2009.• 许洪波 , 孙乐 , 姚天昉 ( 主编 ). 第三届中文倾向性分析评测

(COAE2011)论文集 . 中国科学院计算技术研究所 ,2011.

22

BUAABUAA

谢谢！Thank you very much!

23

BUAABUAA附录• 北航计算机学院信息安全与智能信息处理实验室

• 研究方向：• 机器翻译、情感分析、自然语言处理• 文本挖掘、机器学习• 信息安全、内容安全、舆情分析

• 联系• 北航新主楼 G1001/G930• [email protected]; 010-82338927 (O)

• 欢迎各位专家莅临指导

Documents

BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告