Upload
acacia
View
197
Download
20
Embed Size (px)
DESCRIPTION
BUAA-SA: NLP&CC 2012 中文微博情感分析评测报告. 巢文涵 [email protected] 010-82338927 北京航空航天大学计算机学院 2012.11.01. 大纲. 引言 BUAA-SA 系统结构 实验 总结. 引言. BUAA-SA 是一个规则与统计相结合的情感分析系统 情感词处理 细节处理:反讽、程度词等 话题自适应 参加了三个子任务 观点句识别 极性判断 情感要素抽取. BUAA-SA 结构. 应用层. 情感分析接口. 处理层. 观点句识别. 情感倾向判断. 情感要素抽取. 基础层. - PowerPoint PPT Presentation
Citation preview
2
BUAABUAA
大纲• 引言• BUAA-SA 系统结
构• 实验• 总结
BUAABUAA
3
引言• BUAA-SA 是一个规则与统计相结合的情感分析系统
• 情感词处理• 细节处理:反讽、程度词等• 话题自适应
• 参加了三个子任务• 观点句识别• 极性判断• 情感要素抽取
BUAABUAA
4
BUAA-SA结构
情感词处理 话题自适应
观点句识别 情感倾向判断 情感要素抽取
细节处理
原始情感词库 分级情感词库 反讽词表、程度词 话题情感要素表
情感分析接口应用层
处理层
基础层
数据层
5
BUAABUAA情感词处理
• 数据源• Hownet 情感词• 台湾大学情感词( http://nlg18.csie.ntu.edu.tw:8080/lwku/index.htm
l )• 清华大学情感词( nlp.csai.tsinghua.edu.cn/site2/ )
• 极性值判断及分级• 将情感词的权值定义为情感词的“专注性”
• 即如果情感词修饰的名词性成分越固定,则它在句子中表示一个修饰成分的可能性越高,其权值越高
• 将情感词划分为 5 个等级
6
BUAABUAA细节处理
• 讽刺• 就算、竟
• 程度词• 增强
• 彻头彻尾、地地道道、极度
• 弱化• 有点、颇为、未免
7
BUAABUAA话题自适应
• 话题评价元素获取• 建立一个通用的情感词种子词集• 根据具体的话题,从互联网爬取相关文本• 抽取评价对象和情感词
• 参见: Expanding Domain Sentiment Lexicon through Double Propagation
8
BUAABUAA任务 -1 :观点句识别
• 规则方法• 至少包含一个强情感词或者两个弱情感词 [Y]
• 普通情感词 + 话题情感词
• 特征 +SVM 方法
9
BUAABUAA任务 -1分类特征选择 ( 续 )• F1 :情感词(可含话题相关情感词)• F2 :不规范标点 [Y]• F3 :否定词• F4 :程度词• F5 :表情符号• F6 :特殊符号 [N]• F7 :叹词与带有情感色彩的标点融合• F8 :主张词• F9 :第一、二人称代词• F10 :祝愿、但愿、希望等表达愿望的词• F11 :程度词 + 情感词• F12 :否定词 + 程度词 + 情感词• F13 :其它融合特征或者其它特征
10
BUAABUAA任务 -2 :极性判断
• 规则方法• 对每个情感词进行分类,判断它是否表达情感• 对句子中的情感词加权
• 特征 +SVM 方法
11
BUAABUAA任务 -2分类特征选择 ( 续 )• 句子中表情符号个数• 积极表情符号的个数• 消极表情符号的个数• 句子是问句、陈述句、还是感叹句。。。。• 情感词对应的词性标记分别为 {"n", "v", "a", "z", "d"} 的个数• 情感词对应的词性标记分别为 {"n", "v", "a", "z", "d"} 的情感极值和• 积极词个数• 消极词个数• 句子的情感词极值和• 否定词的个数• 感叹号个数• 问号个数• 非情感词的各类词性标记个数 n 、 t 、 s 、 f 、 v 、 a 、 b 、 z 、 r 、 m 、 q 、 d 、 p 、 c 、 u 、 e 、 y 、 o 、
h 、 x 、 w• 主题相关的情感词个数 {"n", "v", "a", "z", "d"} 等话题相关的情感词对应词性标记的个数• 句子包含 target 数量• 话题总体情感倾向• 话题正面情感倾向• 话题负面情感倾向
12
BUAABUAA任务 -3 :情感要素抽取• 候选评价对象生成
• 判断句子中是否包含话题相关的评价对象,如果有则直接选用它作为候选评价对象
• 如果没有,则对句子中的所有可能的评价对象(主要是词性为n 的词)进行分类
• 观察候选评价对象的个数,如果为 0 ,则选择 hashTAG 中出现的名词作为唯一的候选评价对象
13
BUAABUAA任务 -3 :情感要素抽取 ( 续 )
• 识别句子中的评价词• 观察句子中是否有强烈的情感词(强情感词定义为程度为 4 和
5 的词),如果有则直接作为候选,• 如果没有则把句子中情感词作为可能的评价词,如果其个数小于等于 2 则直接将它们作为候选,如果大于 2 ,则进行分类
14
BUAABUAA任务 -3 :情感要素抽取 ( 续 )
• 生成所有候选搭配,并输出最佳结果 • 如果候选搭配个数小于等于 2 ,则直接输出结果 • 如果候选数量大于 2 ,则对所有候选进行分类
• 分类特征包括
15
BUAABUAA任务 -3 :情感要素抽取 ( 续 )• 分类特征
• 评价对象是否在 hashtag 中出现• 评价词是否为主题相关的评价词• 评价对象与评价词之间的的依存关系• 评价词极值• 评价词是否与程度词存在依存关系• 评价词是否与形容词存在依存关系• 评价词是否与副词存在依存关系• 评价词前后词汇及其词性• 评价词是否存在否定依存关系• 评价词一定窗口(窗口大小可设为 2 )内是否出现讽刺性词语。• 候选搭配的个数• 句子中表情符号个数• 积极表情符号的个数• 消极表情符号的个数
16
BUAABUAA实验结果
表 1 观点句识别评果
微平均 宏平均正确率 召回率 F值 正确率 召回率 F值
SVM 0.681 0.918 0.782 0.684 0.914 0.779
规则 0.707 0.577 0.635 0.715 0.577 0.632
17
BUAABUAA实验结果
表 2 情感倾向性判断评测结果
微平均 宏平均正确率 召回率 F值 正确率 召回率 F值
SVM 0.761 0.698 0.728 0.768 0.702 0.733
规则 0.764 0.440 0.559 0.758 0.445 0.559
18
BUAABUAA实验结果
表 3 情感要素抽取评测结果
微平均 宏平均正确率 召回率 F值 正确率 召回率 F值
严格 0.066 0.147 0.091 0.070 0.144 0.093
宽松 0.264 0.325 0.291 0.269 0.330 0.291
19
BUAABUAA总结
• BUAA-SA 系统参加了三个评测子任务
• 主要的特点在于• 情感词的处理• 细节的处理• 话题适应性
20
BUAABUAA思考• 话题的倾向性太强?
• 训练集、测试集的主观性太强?• 在应用中如何提高用户的满意度?
21
BUAABUAA主要参考文献
• Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. Expanding Domain Sentiment Lexicon through Double Propagation, IJCAI 2009.
• Valentin Jijkoun, Maarten de Rijke and Wouter Weerkamp. Generating Focused Topic-specific Sentiment Lexicons, ACL 2010.
• 赵妍妍 , 秦兵 , 刘挺 .文本情感分析综述 . 2009.• 许洪波 , 孙乐 , 姚天昉 ( 主编 ). 第三届中文倾向性分析评测
(COAE2011)论文集 . 中国科学院计算技术研究所 ,2011.
22
BUAABUAA
谢谢!Thank you very much!
23
BUAABUAA附录• 北航计算机学院 信息安全与智能信息处理实验室
• 研究方向:• 机器翻译、情感分析、自然语言处理• 文本挖掘、机器学习• 信息安全、内容安全、舆情分析
• 联系• 北航新主楼 G1001/G930• [email protected]; 010-82338927 (O)
• 欢迎各位专家莅临指导