主题模型之LDA

[TOC]

在原始的pLSA模型中,我们求解出两个参数:“主题-词项”矩阵 $\Phi$ 和“文档-主题”矩阵 $\Theta$ ,但是我们并未考虑参数的先验知识;而LDA的改进之处,是对这俩参数之上分别增加了先验分布,相应参数称作超参数(hyperparamter)。概率图表示如下:

lda pgm

其中,单圆......

2013-02-23

主题模型之pLSA

我们了解到通过SVD可以进行LSA,把给定文档投影到语义空间,但语义的权重不好解释。pLSA是从概率分布的角度建模的一种方法,它假设在词和文档之间有一层主题隐语义,而主题符合多项分布,一个主题中的词项也符合多项分布,由这两层分布的模型,生成各种文档。

想象某个人要写 $N$ 篇文档,他需要确定每篇文档里每个位置上的词。假定他一共有 $K$ 个可选的主题,有 $V$ 个可选的词项,所以,他制作了 ......

2013-02-15

一组延时数据

2010年Jeff Dean在一次演讲中给出了一份所有程序员都应该了解的数据。不过这组数据其实有些过时了,Colin Scott这位有心人重新整理了一份数据,并且还是随时间变化的,对比起来看非常有意思。更新今年的数据如下:

L1 cache reference ........................... 1 ns

Branch mispredict ......................

2013-01-11
上一页