频繁集和关联分析

关联分析是一种非监督学习算法,最早用于从购物数据库中挖掘有意义的联系,所发现的联系可以用强关联规则或者频繁集的形式表示。

令 $I=\{i_1,\dots,i_d\}$ 是类似购物篮数据中所有项的集合(比如所有商品的集合),包含0个或多个项的集合称作项集(itemset),如果一个项集包含 $k$ 项,则称作 k-项集。令 $T=\{t_1,\dots,t_N\}$ 是所有事务的集合(比如一次购......

2012-12-02
ml

高斯混合模型

高斯混合模型(GMM, Gaussian Mixture Model)是混合模型的一种,它可以和k-means算法一样用于聚类,但k-means是把数据直接划分到某个cluster,而GMM则可以进一步给出该数据点可以被划分到该cluster的概率。

给定 $N$ 个训练样本 $\{x^{(1)},\dots,x^{(N)}\}$ 。同样,假设样本集合可以被分成 $K$ 类(又称componen......

2012-09-13

k-means聚类方法

k-means可能是最简单的一种聚类方法,它通常也被当作一种基准方法,用于比较其他聚类方法的性能。它的基本思想是假定数据分布为k个簇(cluster);所以,先随机或者按照某种启发式方法选择k个质心(cluster centroids)作为起始簇,然后为每个数据点寻找距离最近的质心,并把它分配(assign)给该质心对应的簇,处理完所有数据点后,重新给这k个簇更新质心到该簇所有点的平均值;然后,不......

2012-09-10
上一页