UTD
Unsupervised Topic Discovery
UTD使用最小描述长度方法。
把多字词作为一个元素,使得用这些元素来表达这篇文章时,所需要的比特量最少。
然后UTD将语义化的推广这个规则,来搜寻和这篇文档相关的文档,甚至能够在这些元素没有形式化的出现在文档里的情况下,都能够发现其中的关联性。
BBN's Ontopic
其中,语义化的推广采用的是 OnTopic这个算法。
它实质上是一个HMM。
其中,文章的主题是HMM的状态,而单词的概率分布是HMM的输出。
这样我们就可以通过输出来推断HMM的隐状态,即HMM第三问题:针对某输出序列,寻找最可能的状态转移以及输出概率