我对主要用于聚类分析的各种测量矢量分散的方法感兴趣。我可以想到三种方法:
- 找到均值向量(质心),然后计算所有向量到这个均值向量的距离的方差。这组向量可能都不同,但与平均向量的距离相同。在这种情况下,这似乎不是一个很好的措施,尽管这种情况在实践中可能不太可能发生。Davies-Bouldin 集群质量度量似乎使用它来衡量集群内质量。
- 使用向量之间的平均成对距离。我已经看到这用于测量集群内和集群间的质量。这似乎需要某种距离矩阵。如果尝试添加或删除向量并动态更新距离矩阵,则实现可能会很困难。
- 计算向量的每个分量的总体方差。这将产生一个包含每个分量的总体方差的向量。然后取这个向量中分量的总和。
我的问题:
- 对这些措施有什么想法吗?
- 还有什么好的措施吗?
- 也有人知道计算#1 和#2 的一次性算法。
我知道如何用数值稳定的单程算法计算#3。基本上每次我从集群中添加或删除向量时,我都希望质量度量自动更新。对于某些措施,我有一些运气。