X-mean算法BIC计算题

机器算法验证 k-均值 比克
2022-04-16 20:52:09

我无法理解本文中与 BIC 计算相关的一些公式 Dan Pelleg 和 Andrew Moore,X-means:Extended K-means with Efficient Estimation of the Clusters)。

首先是方差方程:

  • R - 点数
  • K - 簇数
  • μi - 与第 i 个点相关的质心。
  • σ2=1RKi(xiμ(i))2

对数可能性然后使用这个 sigma。我读对了吗,他们对所有集群都使用了 1 个协方差矩阵(参见下面的引用,它们是)?这是没有意义的。如果你有 5 个集群,根据 k-means 算法,每个集群都是高斯的。那么为每个集群计算协方差并使用它是否有意义?σi2

我的第二个问题是关于 BIC 分数中使用的参数数量。论文提到

自由参数的数量只是 K-1 类概率、M*K 质心坐标和一个方差估计的总和。pj

您如何获得 K-1 班级的概率?我可以做我类中的点数/总点数。但接下来是 K-1,总和中遗漏了哪个概率?

PS如果有人有更好的关于使用类似方法估计k的论文,我也想阅读。在这一点上,我不太关心速度。

谢谢你的帮助。

1个回答

让集群由中有个点(下标周围没有括号)指定集群的平均值。然后,因为根据定义所属集群的平均值,我们可以按集群对总和中的项进行分组:j=1,,KKj>0jμjjμ(i)xi

σ2=1RKi(xiμ(i))2=1RKj=1Kk=1Kj(xkμj)2=1RKj=1KKj1Kjk=1Kj(xkμj)2=1RKj=1KKjσj2,

其中是集群内的方差(我们必须在分母中使用而不是来处理单例集群)。我相信这是你所期待的。σj2jKjKj1