成分数据的多元数据分析

机器算法验证 聚类 主成分分析 组成数据
2022-03-29 13:10:50

假设我有一个描述不同元素浓度的多元组成数据集。然而,这些数据不是单一尺度的;即,有些是 0.00x 的形式,而有些是整数。我应该在应用之前应用任何类型的标准化/标准化技术,还是在应用转换(等距对数比 [ilr]、居中对数比 [clr] 等)之前对数据做任何事情并开始数据使用稳健的方法、稳健的 PCA 和数据聚类分析、填补缺失值?

也欢迎一些理解成分数据分析的指针。

[更新]

例如:考虑两个向量:

[ 0.016, 71.2, 0.123, 1.74, 14.0, 0.002, 2310, 0.064, 0.29, 0.32,5.63, 96.5, 0.044, 
  4360, 1110, 585, 0.052, 62.9, 4.45, 1110, 1.50, 15.10, 783, 0.015,78.9, 5.61, 0.007, 
  0.022, 0.007, 0.53, 29.3 ]  
[ 0.073, 245.0, 0.299, 2.77, 17.4, 0.039, 2460, 0.145, 0.85, 0.99, 20.40, 359.0 0.062, 
  4040, 1530, 148, 0.113, 217.0, 18.10, 1310, 4.61, 4.56, 880, 0.069, 230.0, 12.20, 
  0.028, 0.025, 0.013, 9.92, 34.1]

这两个代表从两个不同位置收集的土壤样品中不同元素的浓度。如果我要使用稳健的方法对它们进行分析,我应该对它们进行预处理以任何形式标准化/归一化,还是应该简单地将它们转换为 Aitchison 几何并开始我的分析?

1个回答

在使用它们之前,请确保您了解这些算法。

例如,k-means 将方差最小化,当然,具有更大尺度的属性也具有更大的方差。因此,标准化数据通常是有益的。

但是对于例如层次聚类,你需要给出一个距离函数。欧几里得距离只是众多选择之一也许您可以更具体地确定哪个属性应该对结果产生多大的影响。

关键问题是:什么是您的域的相似性的合理衡量标准。没有普遍的措施。使用层次聚类,这更加明确 - K-means 基于偏差平方和,因此您需要重新缩放/转换数据以提供适当的权重,这比指定相似性度量要有限得多为您的数据。

所以:什么时候两个土壤样本是一样的——正如你所看到的,这是一个领域和目的问题,而不是一个统计问题。