我最近开始研究非参数聚类方法,并遇到了 CRP。在阅读了我在网上找到的所有材料后,有一点我并不完全清楚:这个过程的目的是什么?您不能根据“距离”进行聚类(实际上它是发明了另一种称为距离相关 CRP 的方法),那么为什么有人要应用这种技术呢?作为一个“菜鸟”,我确信我错过了一些东西……什么?
中餐厅流程... 为什么?
计算科学
可能性
高性能计算
2021-12-01 01:21:23
1个回答
中餐厅流程是查看狄利克雷流程的一种方式。它是分布之上的分布。有多种思考方式。一种看待它的方法是,当您绘制样本时,对于每个新样本:
- 将新样本分配给现有集群的概率是有限的
- 否则它将成为新集群中的第一个样本
因此,您不必指定有多少集群,这就是它是“非参数”的原因。但是,您必须指定每个新样本被分配到新集群的概率,因此有一个参数,例如alpha。
然后,您使用 DP(“Dirichlet 过程”)作为模型的一部分,为其提供数据,并使用某种方法来求解模型。通常,该模型在分析上是不可处理的,因此可以使用马尔可夫链蒙特卡罗或变分近似来解决它,并在给定数据和alpha参数的情况下对聚类数量进行一些估计。
请注意,我已经简化了一点:DP 是分布上的分布。上面抽取的样本对应于来自分布的单次抽取的样本。可以重复抽取样本的过程,以便从分布中的新抽取中抽取样本...
其它你可能感兴趣的问题