机器算法验证 - Ward 定义误差平方和 (ESS) 的动机 - 吾爱随笔录

Ward (1963) 为层次聚类提供了一个常用的标准。它基于以下定义（第 237 页）：

给定 10 个人的一组评分，通常的做法是使用平均值来表示所有分数，而不是考虑个人分数。将 10 个分数视为一个平均值为 2.5 的一组而导致的信息“损失”可以通过“反映价值”的数字，即误差平方和 (ESS) 来表示。 $\{2, 6, 5, 6, 2, 2, 2, 0, 0, 0\}$

误差平方和由函数关系给出，

$ESS = \sum_{i = 1}^{n} x_{i}^{2} - \frac{1}{n} {(\sum_{i = 1}^{n} x_{i})}^{2}$ $\text{ESS} = \sum_{i=1}^n x_i^2 - \frac{1}{n}\left( \sum_{i=1}^n x_i \right)^2$

其中是第个个体的得分。该示例的 ESS 为 […] 50.5。 $x_i$ $i$

如果有人问我如何量化用平均值表示向量所导致的信息丢失，我会说 SD 或方差。或者，如果您想要平方和而不是平方均值，您可以将方差乘以样本大小，并得到。这是与平均值的平方距离之和。那么为什么要使用 Ward 的 ESS 而不是这些数量之一呢？ $\sum_{i=1}^n (x_i - \bar{x})^2$

沃德，JH (1963)。分层分组以优化目标函数。美国统计协会杂志，58 (301), 236–244。doi:10.2307/2282967。取自https://web.archive.org/web/20050312103440/http://iv.slis.indiana.edu/sw/data/ward.pdf