假设我有一个描述不同元素浓度的多元组成数据集。然而,这些数据不是单一尺度的;即,有些是 0.00x 的形式,而有些是整数。我应该在应用之前应用任何类型的标准化/标准化技术,还是在应用转换(等距对数比 [ilr]、居中对数比 [clr] 等)之前对数据做任何事情并开始数据使用稳健的方法、稳健的 PCA 和数据聚类分析、填补缺失值?
也欢迎一些理解成分数据分析的指针。
[更新]
例如:考虑两个向量:
[ 0.016, 71.2, 0.123, 1.74, 14.0, 0.002, 2310, 0.064, 0.29, 0.32,5.63, 96.5, 0.044,
4360, 1110, 585, 0.052, 62.9, 4.45, 1110, 1.50, 15.10, 783, 0.015,78.9, 5.61, 0.007,
0.022, 0.007, 0.53, 29.3 ]
[ 0.073, 245.0, 0.299, 2.77, 17.4, 0.039, 2460, 0.145, 0.85, 0.99, 20.40, 359.0 0.062,
4040, 1530, 148, 0.113, 217.0, 18.10, 1310, 4.61, 4.56, 880, 0.069, 230.0, 12.20,
0.028, 0.025, 0.013, 9.92, 34.1]
这两个代表从两个不同位置收集的土壤样品中不同元素的浓度。如果我要使用稳健的方法对它们进行分析,我应该对它们进行预处理以任何形式标准化/归一化,还是应该简单地将它们转换为 Aitchison 几何并开始我的分析?