我正在研究一个包含 81 个样本 x 407 个变量的代谢组学数据集,其中约 17% 的数据缺失。我想比较一些插补方法,看看哪种方法最适合我的数据。
预处理数据集的顺序是否有一般规则?我应该先归一化,然后规范化还是先规范化?
我已经尝试了 k-最近邻插补和对中位数进行归一化的两种方法,并使用 PCA 比较了结果,因子映射几乎没有差异。
然而,当使用随机森林插补时,如果我首先对数据进行归一化(归一化数据 NRMSE = 0.708,原始数据 NRMSE = 0.122),则插补误差会高得多。
我的两个主要问题是:
应该首先进行数据的插补或规范化吗?和
顺序是否取决于使用的插补函数?