如何计算聚类向量的方差?

机器算法验证 聚类 方差
2022-03-14 14:21:45

我对主要用于聚类分析的各种测量矢量分散的方法感兴趣。我可以想到三种方法:

  1. 找到均值向量(质心),然后计算所有向量到这个均值向量的距离的方差。这组向量可能都不同,但与平均向量的距离相同。在这种情况下,这似乎不是一个很好的措施,尽管这种情况在实践中可能不太可能发生。Davies-Bouldin 集群质量度量似乎使用它来衡量集群内质量。
  2. 使用向量之间的平均成对距离。我已经看到这用于测量集群内和集群间的质量。这似乎需要某种距离矩阵。如果尝试添加或删除向量并动态更新距离矩阵,则实现可能会很困难。
  3. 计算向量的每个分量的总体方差。这将产生一个包含每个分量的总体方差的向量。然后取这个向量中分量的总和。

我的问题:

  • 对这些措施有什么想法吗?
  • 还有什么好的措施吗?
  • 也有人知道计算#1 和#2 的一次性算法。

我知道如何用数值稳定的单程算法计算#3。基本上每次我从集群中添加或删除向量时,我都希望质量度量自动更新。对于某些措施,我有一些运气。

2个回答

请注意,并非所有聚类算法都假定球形聚类。您描述的所有措施对于非凸集群(例如香蕉形集群)似乎都不太明智;基于密度的聚类中的一个常见概念。在这个例子中,平均值甚至不在集群内。方差主要衡量集群的空间扩展,而不是其连通性和类似属性......

我认为这个问题可以回答。我不喜欢这些措施中的任何一个。你为什么不包括我认为最合适和最明显的向量与质心的均方距离作为方差?如果你对它们进行平均,第 3 名将是我的。由于您已经给出的原因,第 1 个不好。我不喜欢 2,因为您正在比较各个向量之间的距离,而方差是根据距中心点或平均点的距离来衡量的。