Ward 定义误差平方和 (ESS) 的动机

机器算法验证 聚类 层次聚类 平方和
2022-04-15 02:08:21

Ward (1963) 为层次聚类提供了一个常用的标准。它基于以下定义(第 237 页):

给定 10 个人的一组评分,通常的做法是使用平均值来表示所有分数,而不是考虑个人分数。将 10 个分数视为一个平均值为 2.5 的一组而导致的信息“损失”可以通过“反映价值”的数字,即误差平方和 (ESS) 来表示。{2,6,5,6,2,2,2,0,0,0}

误差平方和由函数关系给出,

ESS=i=1nxi21n(i=1nxi)2

其中是第个个体的得分。该示例的 ESS 为 […] 50.5。xii

如果有人问我如何量化用平均值表示向量所导致的信息丢失,我会说 SD 或方差。或者,如果您想要平方和而不是平方均值,您可以将方差乘以样本大小,并得到这是与平均值的平方距离之和。那么为什么要使用 Ward 的 ESS 而不是这些数量之一呢?i=1n(xix¯)2

沃德,JH (1963)。分层分组以优化目标函数。美国统计协会杂志,58 (301), 236–244。doi:10.2307/2282967。取自https://web.archive.org/web/20050312103440/http://iv.slis.indiana.edu/sw/data/ward.pdf

2个回答

Var(x)i=1n(xix¯)2=ixi22x¯ixi+nx¯2=ixi2nx¯2=ixi21n(ixi)2=ESS.

我认为在谈论压缩时更明智,因为所以这与上的通常规范一致。ESSESS=||xx¯1||22Rn

Ward的ESS和你提到的SS一样。如果您在公式中分配条款,您会得到:

(xix¯)2=xi2+x¯22x¯xi=xi2nx¯2=xi2(xi)2/n