异常检测

2014.07.30

吴畏远 <doomsplayer@gmail.com>

Language analysis

每个人可以和一组文档相关联。

这些文档可以包括由他产生的文档和牵涉到他的文档。

信息提取

像个人的姓名，政治组织，地理位置等在一篇文档中属于比较显著的特征。

BBN SERIF™

BBN的SERIF信息提取引擎采用基于语言学的统计模型，是一个可训练的信息提取引擎。

它能提取出信息元素，并得出元素在文章中扮演的角色，元素之间的关系等等。其中，SERIF使用一种投票算法来检测文档中的名字。

其中，很关键的一点是SERIF能够跨文档的把文档中共指向的元素识别出来。

主题探测

主题探测其实是一个降维的算法。

两种主题探测方法

BBN‘s UTD System

Latent Dirichlet Allocation

UTD

Unsupervised Topic Discovery

UTD使用最小描述长度方法。

把多字词作为一个元素，使得用这些元素来表达这篇文章时，所需要的比特量最少。

然后UTD将语义化的推广这个规则，来搜寻和这篇文档相关的文档，甚至能够在这些元素没有形式化的出现在文档里的情况下，都能够发现其中的关联性。

BBN's Ontopic

其中，语义化的推广采用的是 OnTopic这个算法。

它实质上是一个HMM。

其中，文章的主题是HMM的状态，而单词的概率分布是HMM的输出。

这样我们就可以通过输出来推断HMM的隐状态，即HMM第三问题：针对某输出序列，寻找最可能的状态转移以及输出概率

LDA

Latent Dirichlet Allocation

隐含狄利克雷分布

词袋模型

隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)

是一种主题模型

它可以将文档集中每篇文档的主题按照概率分布的形式给出

因此我们，给定K个主题，使用LDA可以得到每个文档的主题分布。

利用主题分布的差异性，可以来推断异常

比如使用

KL divergence

Jensen-Shannon divergence

Hellinger distence等

其中，

参照对象可以时此人历史的文档集，

或者是类似岗位的人的文档集合等等

LDA的改进

因为LDA需要手动确定K个主题

一旦发生主题增多的情况

会导致新主题被误分类

改进：HDP-LDA

Hierarchical Dirichlet Process

广泛使用的非参数学习模型

情感分析

伊拉克战争事实观测结果:

负面情感词会集中在一份文档中.

因此可以用一个回归模型来做情感分析

总结

Anormal Detection

By Weiyüen Wu

Anormal Detection

Weiyüen Wu

wooya.me

异常检测

Language analysis

信息提取

BBN SERIF™

主题探测

两种主题探测方法

UTD

BBN's Ontopic

LDA

LDA的改进

改进：HDP-LDA

情感分析

总结

Anormal Detection

More from Weiyüen Wu