我想问一个关于高尔相似度/不相似度指数的问题。可以将 Gower 相异性度量与 Ward 链接聚类一起使用吗?我读到 Gower 相似性指数不应该与 Ward 链接一起使用,因为该指数不是度量标准。我想知道这是否只是相似性的情况,而不是也可以处理 odrinal 变量的相异指数?!
高尔(不)相似指数
机器算法验证
聚类
距离
公制
病房
高尔相似度
2022-04-11 18:05:10
2个回答
- Gower 相异度只是 1 减去Gower 相似度,。所以,它们是“相同的”,一个的限制就是另一个的限制。
- Ward 聚类计算聚类质心,并且为了使这些质心在几何上“真实”,它需要(平方)欧几里德距离作为其输入。欧几里得距离是公制的。并非每个度量距离都是欧几里得。因此,对于 Ward,并非每个度量距离都是正确的。尽管如此,在实践中,不是欧几里得距离的度量距离可以启发式地与 Ward 方法一起使用。非公制距离 - Ward 完全不推荐使用它们。
- 按原点,高尔相异是非欧式和非度量的(即使计算它的所有变量都是区间,高尔指数将更接近曼哈顿距离,而不是欧式距离),因此您不能使用 Ward.
- 但是,在几何上,Gower 相异的具体矩阵可能恰好接近欧几里德距离,然后您可能会获得使用 Ward 的许可(仅使用这些特定数据!)。要检查相异矩阵是否(接近)欧几里得,应该将其双中心并检查结果矩阵的特征值。负特征值之和相对于正特征值之和越小,与欧几里德距离的差异越接近。但即使在这种情况下,使用带有 Gower 距离的 Ward 也纯粹是启发式的。
- 当没有使用特殊处理的序数变量时,定义为的高尔相异实际上是欧几里德距离(因此是度量,自动)。在双中心化之后,矩阵没有负特征值(因此它跨越欧几里得空间并收敛)。因此,如果您想使用要求欧几里得空间的方法并且如果取平方根是您的研究设置可接受的变换,则只需使用此版本的相异性。
由于高尔(1971)的以下段落,我对上面的答案感到有些困惑:
- 相似矩阵的正半定性质
对于 n 个个体,可以形成 n X n 矩阵 S,其元素 Sij 是个体 i 和 j 之间的相似度,如第 2 节所述。我们经常需要将样本的 n 个个体表示为欧几里得空间中的一组点。Gower (1966) 讨论了这个问题,并表明可以通过将第 i 个和第 j 个个体之间的距离与 (1 - Sij)^(1/2) 成比例来获得方便的表示。具有这些距离的点的坐标是 S 的潜在向量的元素,它们的平方和等于潜在根。因此,要获得距离为 (1 - Sij)^(1/2) 的真实欧几里德表示,S 为半正定 (psd) 就足够了。在附录中显示了当没有缺失值时 S 是 psd
根据我的阅读,虽然 Gower 距离函数(例如D=as.matrix(daisy(data, metric="gower")))的输出本身不是欧几里得,但如果没有丢失数据,则应该可以获得欧几里得变换——如果有丢失数据,但是您发现这S=1-D是半正定的(例如使用matrixcalc::is.positive.semi.definite(S)),那么您仍然应该能够进行相同的转换。
(顺便说一句,我认为 Ward 的方法是想要欧几里得距离还是平方欧几里得距离取决于实现。根据文档,我相信版本需要agnes()欧几里得距离。)
其它你可能感兴趣的问题