在制作模型之前,变量通常会被调整(例如标准化)——什么时候这是个好主意,什么时候是坏主意?

机器算法验证 造型 预测模型 特征选择 数理统计 标准化
2022-02-13 02:38:33

在什么情况下,您希望或不想在模型拟合之前对变量进行缩放或标准化?缩放变量的优点/缺点是什么?

3个回答

标准化就是模型中不同变量的权重。如果您“仅”为了数值稳定性而进行标准化,则可能会有一些转换产生非常相似的数值属性但不同的物理含义可能更适合解释。居中也是如此,这通常是标准化的一部分。

您可能想要标准化的情况:

  • 变量是不同的物理量
  • 并且数值在非常不同的量级上
  • 并且没有“外部”知识表明具有高(数字)变化的变量应该被认为更重要。

您可能不想标准化的情况:

  • 如果变量是相同的物理量,并且(大致)具有相同的大小,例如
    • 不同化学物质的相对浓度
    • 不同波长的吸光度
    • 不同波长下的发射强度(否则测量条件相同)
  • 您绝对不想标准化样本(基线通道)之间不变的变量 - 您只会放大测量噪声(您可能希望将它们从模型中排除)
  • 如果您有这样的物理相关变量,则所有变量的测量噪声可能大致相同,但信号强度变化更大。即具有低值的变量具有较高的相对噪声。标准化会炸毁噪音。换句话说,您可能必须决定是要标准化相对噪声还是绝对噪声。
  • 可能有物理上有意义的值,您可以使用这些值将您的测量值关联到,例如,使用透射强度的百分比(透射率 T)代替透射强度。

您可以在“中间”做一些事情,并转换变量或选择单位,以便新变量仍然具有物理意义,但数值的变化并没有那么不同,例如

  • 如果您与小鼠一起工作,请使用体重 g 和以 cm 为单位的长度(两者的预期变化范围约为 5)而不是基本单位 kg 和 m(预期变化范围为 0.005 kg 和 0.05 m - 相差一个数量级)。
  • 对于上面的透射率 T,您可以考虑使用吸光度A=log10T

居中类似:

  • 可能有(物理上/化学上/生物上/...)有意义的基线值可用(例如对照、盲等)
  • 平均值真的有意义吗?(一般人有一个卵巢和一个睾丸)

在标准化之前我总是问自己一件事是“我将如何解释输出?” 如果有一种方法可以在不进行转换的情况下分析数据,那么纯粹从解释的角度来看,这可能更可取。

一般来说,除非绝对必要,否则我不建议进行缩放或标准化。这种过程的优点或吸引力在于,当解释变量具有与响应变量完全不同的物理维度和大小时,通过除以标准差进行缩放可能有助于数值稳定性,并使人们能够比较多个影响解释变量。对于最常见的标准化,变量效应是解释变量增加一个标准差时响应变量的变化量;它还表明,尽管解释变量的统计值保持不变,但变量效应(解释变量增加一个单位时响应变量的变化量)的意义将丢失。然而,当在模型中考虑交互时,即使对于统计测试,缩放也可能会出现很大问题,因为在计算交互效应的标准误差时涉及随机缩放调整(Preacher,2003)。出于这个原因,通常不建议按标准差(或标准化/标准化)进行缩放,尤其是在涉及交互时。

Preacher, KJ, Curran, PJ 和 Bauer, DJ, 2006。用于探测多元线性回归、多级建模和潜在曲线分析中的交互效应的计算工具。教育和行为统计杂志,31(4),437-448。