异常检测

2014.07.30
吴畏远 <doomsplayer@gmail.com>




Language analysis





每个人可以和一组文档相关联。
这些文档可以包括由他产生的文档和牵涉到他的文档。

信息提取





像个人的姓名,政治组织,地理位置等在一篇文档中属于比较显著的特征。

BBN SERIF




BBN的SERIF信息提取引擎采用基于语言学的统计模型,是一个可训练的信息提取引擎。
它能提取出信息元素,并得出元素在文章中扮演的角色,元素之间的关系等等。其中,SERIF使用一种投票算法来检测文档中的名字。







其中,很关键的一点是SERIF能够跨文档的把文档中共指向的元素识别出来。

主题探测





主题探测其实是一个降维的算法。

两种主题探测方法





BBN‘s UTD System
Latent Dirichlet Allocation

UTD





Unsupervised Topic Discovery





UTD使用最小描述长度方法。
把多字词作为一个元素,使得用这些元素来表达这篇文章时,所需要的比特量最少。





然后UTD将语义化的推广这个规则,来搜寻和这篇文档相关的文档,甚至能够在这些元素没有形式化的出现在文档里的情况下,都能够发现其中的关联性。

BBN's Ontopic



其中,语义化的推广采用的是 OnTopic这个算法。
它实质上是一个HMM。

其中,文章的主题是HMM的状态,而单词的概率分布是HMM的输出。
这样我们就可以通过输出来推断HMM的隐状态,即HMM第三问题:针对某输出序列,寻找最可能的状态转移以及输出概率

LDA




Latent Dirichlet Allocation

隐含狄利克雷分布

词袋模型





隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)
是一种主题模型
它可以将文档集中每篇文档的主题按照概率分布的形式给出







因此我们,给定K个主题,使用LDA可以得到每个文档的主题分布。






利用主题分布的差异性,可以来推断异常




比如使用 
KL divergence
Jensen-Shannon divergence
Hellinger distence等






其中,
参照对象可以时此人历史的文档集,
或者是类似岗位的人的文档集合等等

LDA的改进





因为LDA需要手动确定K个主题
一旦发生主题增多的情况
会导致新主题被误分类

改进:HDP-LDA





Hierarchical Dirichlet Process
广泛使用的非参数学习模型

情感分析




伊拉克战争事实观测结果:
负面情感词会集中在一份文档中.
因此可以用一个回归模型来做情感分析

总结


Anormal Detection

By Weiyüen Wu

Anormal Detection

  • 680