Predicting Emotion Labels for Chinese Microblog Texts
2012
情感分析与情绪分析
情感分析
Sentiment
情绪分析
Emotion
分类
正、反、中性
高兴、生气、愤怒、厌恶、恐惧、悲伤
数据来源
商品评价(电影、电商、图书)
众包
微博*
众包
*本篇论文数据源
给微博打标签
使用微博内的表情和文字标签打标签
问题:错误率实际比较高
原因:无太好的已标注数据
文字表情
Emoticons
表情符号
Smilies
weibo数据
文字表情
Emoticons
表情符号
Smilies
总量
Mixed
原文准确率
SVM,word vs char
Happy
一大早,分享一个安静的书房,新中式的风格,有点被穿越了的味道,其实重点在墙上的那四个字:!各位日日忙碌的童鞋们,努力工作吧,为自己、为理想、为家人、为生活……
happy
(200,)
happy 58.72%
sad 11.47%
disgust 11.35%
fear 10.59%
angry 5.91%
suprise 1.96%
Sad
我们的国家,我们要说话才对!/我们的生活总被赋予悲凉的新意,有人不过为了同工同酬,就进了精神病院;有人不过想吃顿安全的饭菜,被逼成了化学家;有人不过是深爱着他的家,却走在了卖国的路上。所以这里的荒诞并不是荒诞,而是一种荒诞必演化成另一种荒诞。
sad
(200,)
sad 53.83%
fear 27.38%
happy 5.87%
disgust 5.71%
angry 4.58%
suprise 2.63%
结果(qhduan, Keras+GRU)
https://github.com/qhduan/Chinese_emotion_predict
Disgust
,你就继续舔恒大吧,去广州住顶级酒店?免费?还报销找小姐的钱?达10哪不如孔卡?前锋进球才是王道!什么位置干什么事。孔卡拿着欧洲一线球员的年薪他就应该有那样的表现。别再BB了。
happy
(200,)
disgust 28.87%
happy 25.97%
angry 21.36%
fear 8.38%
suprise 8.10%
sad 7.32%
Angry
爲了兩件垃圾系度同我講錢仲要問候埋我娘親求你都系多餘,個晚擔心你安危都系多7魚,仲講乜野朋友我呸呸甘多年10年我都未講耐1000蚊買起你人格,講錢傷感情,講到錢乜野兄弟朋友都無得做,全部通通走開,全都爲個區區臭錢,從今開始互不借錢,終於明白咩叫借錢如送禮,還錢如乞米
angry
(200,)
angry 69.69%
disgust 10.22%
sad 8.71%
suprise 4.87%
fear 4.67%
happy 1.84%
结果(qhduan)
https://github.com/qhduan/Chinese_emotion_predict
可能的优化:
解决数据偏差
不同情感类别数据差距太大
happy最多
先聚类,只保留部分数据,去掉更多情绪不明显数据
去掉聚类中心点太远数据
增加数据量
原文数据量比较少
Repo中的数据是香港的大学做的,繁体用户较多
Softmax or Tanh ?
待验证:当需要给出具体“分数“时,softmax模型是否给出的分值特别极端?
Thanks
Predicting Emotion Labels for Chinese Mcroblog Texts 2012