Predicting Emotion Labels for Chinese Microblog Texts

2012

情感分析与情绪分析

情感分析
Sentiment
情绪分析
Emotion
分类 正、反、中性
 
高兴、生气、愤怒、厌恶、恐惧、悲伤
 
数据来源 商品评价(电影、电商、图书)
众包
微博*
众包

*本篇论文数据源

给微博打标签

使用微博内的表情和文字标签打标签

 

问题:错误率实际比较高

原因:无太好的已标注数据

文字表情

Emoticons

表情符号

Smilies

weibo数据

文字表情

Emoticons

表情符号

Smilies

总量

Mixed

原文准确率

SVM,word vs char

Happy

一大早,分享一个安静的书房,新中式的风格,有点被穿越了的味道,其实重点在墙上的那四个字:!各位日日忙碌的童鞋们,努力工作吧,为自己、为理想、为家人、为生活……
happy
(200,)
happy		58.72%
sad		11.47%
disgust		11.35%
fear		10.59%
angry		5.91%
suprise		1.96%

Sad

我们的国家,我们要说话才对!/我们的生活总被赋予悲凉的新意,有人不过为了同工同酬,就进了精神病院;有人不过想吃顿安全的饭菜,被逼成了化学家;有人不过是深爱着他的家,却走在了卖国的路上。所以这里的荒诞并不是荒诞,而是一种荒诞必演化成另一种荒诞。
sad
(200,)
sad		53.83%
fear		27.38%
happy		5.87%
disgust		5.71%
angry		4.58%
suprise		2.63%

结果(qhduan,  Keras+GRU)

https://github.com/qhduan/Chinese_emotion_predict

Disgust

,你就继续舔恒大吧,去广州住顶级酒店?免费?还报销找小姐的钱?达10哪不如孔卡?前锋进球才是王道!什么位置干什么事。孔卡拿着欧洲一线球员的年薪他就应该有那样的表现。别再BB了。
happy
(200,)
disgust		28.87%
happy		25.97%
angry		21.36%
fear		8.38%
suprise		8.10%
sad		7.32%

Angry

爲了兩件垃圾系度同我講錢仲要問候埋我娘親求你都系多餘,個晚擔心你安危都系多7魚,仲講乜野朋友我呸呸甘多年10年我都未講耐1000蚊買起你人格,講錢傷感情,講到錢乜野兄弟朋友都無得做,全部通通走開,全都爲個區區臭錢,從今開始互不借錢,終於明白咩叫借錢如送禮,還錢如乞米
angry
(200,)
angry		69.69%
disgust		10.22%
sad		8.71%
suprise		4.87%
fear		4.67%
happy		1.84%

结果(qhduan)

https://github.com/qhduan/Chinese_emotion_predict

可能的优化:

  • 解决数据偏差
    • 不同情感类别数据差距太大
    • happy最多
  • 先聚类,只保留部分数据,去掉更多情绪不明显数据
    • 去掉聚类中心点太远数据
  • 增加数据量
    • 原文数据量比较少
    • Repo中的数据是香港的大学做的,繁体用户较多

Softmax or Tanh ?

待验证:当需要给出具体“分数“时,softmax模型是否给出的分值特别极端?

Thanks

Predicting Emotion Labels for Chinese Mcroblog Texts 2012

By qhduan

Predicting Emotion Labels for Chinese Mcroblog Texts 2012

  • 517