Ward (1963) 为层次聚类提供了一个常用的标准。它基于以下定义(第 237 页):
给定 10 个人的一组评分,通常的做法是使用平均值来表示所有分数,而不是考虑个人分数。将 10 个分数视为一个平均值为 2.5 的一组而导致的信息“损失”可以通过“反映价值”的数字,即误差平方和 (ESS) 来表示。
误差平方和由函数关系给出,
其中是第个个体的得分。该示例的 ESS 为 […] 50.5。
如果有人问我如何量化用平均值表示向量所导致的信息丢失,我会说 SD 或方差。或者,如果您想要平方和而不是平方均值,您可以将方差乘以样本大小,并得到。这是与平均值的平方距离之和。那么为什么要使用 Ward 的 ESS 而不是这些数量之一呢?
沃德,JH (1963)。分层分组以优化目标函数。美国统计协会杂志,58 (301), 236–244。doi:10.2307/2282967。取自https://web.archive.org/web/20050312103440/http://iv.slis.indiana.edu/sw/data/ward.pdf