聚类标准的解释tr(小号− 1W小号乙)tr⁡(SW−1SB)

机器算法验证 聚类 判别分析 特征值 逆矩阵
2022-04-17 12:53:52

有一个聚类标准定义为:

C=tr(SW1SB)=i=1dλi,

其中是迹线,是合并的组内散布矩阵,是组间散布矩阵;是特征的数量(或散布矩阵的维度)。我有两个来源,一个在这里 (eq 103)和另一个在这里 (p.22)trSWSBd

R 包clusterCrit将其计算为的矩阵倒数(我将它们的输出与“手动”计算进行了比较),但幻灯片基于 Duda 的书,称其为“方向上的簇内散布之间的比率特征向量”。SW

我的问题:

  1. 是矩阵逆还是除法?我在线性判别分析中发现了一个类似的术语,这显然是一个划分。编辑:显然这是矩阵逆(没有“矩阵除法”)。

  2. 哪些特征向量的方向上?这个方向代表什么?的特征向量代表什么?SW1SB

  3. 如果这是矩阵逆,那么我知道可以解释为精度矩阵。的迹线的直观解释是什么SW1SW1SB

1个回答

SW1SB可以解释为多元信噪比。

类间散布矩阵告诉我们每个类均值的距离。类内散布矩阵告诉我们每个类内有多少可变性。如果类对应于“信号”并且类内可变性可以被视为噪声,那么SBSWSW1SB可以解释为多变量信噪比。

如果类分开得很好,那么信噪比应该是“大的”(SWSB)。如果它们完全重叠,那么信噪比应该是“小”(SWSB)。问题是SW1SB不是数字而是矩阵;那么“大”和“小”到底是什么意思呢?

有几种合理的方法可以量化“多大”SW1SB是。一种方法是将其特征值相加,即计算迹线。正如@ttnphns 所提到的,这被称为Hotelling 的轨迹,并用作MANOVA 中的测试统计数据之一。所以解释是这是量化信噪比的一种可能方法SW1SB.

反过来,特征向量SW1SB表示类可辨别性最高的空间方向。最大特征值对应的特征向量是最佳类分离的轴。在线性判别分析 (LDA) 中的特征向量SW1SB称为“判别轴”。

一旦数据被投影到i-th 判别轴,定义为类间平方和除以类内平方和的标准单变量信噪比,将等于λi. 这解释了杜达的引述。


进一步阅读: