数据挖掘 - 多元回归中归一化和标准化的区别 - 吾爱随笔录

数据挖掘机器学习 Python 回归数据科学模型正常化

2022-02-10 12:10:19

考虑以下有关多元回归的问题

1）有人可以解释为什么当回归模型中出现正偏y变量时我们必须使用对数变换（归一化）来变换因变量？

2）对数转换后，是否需要使用 min max scale 或 StandardScaler 方法标准化 y 变量？

3）如果自变量也有偏斜的数据，那么我是否需要对该变量进行标准化或标准化就足够了？

1个回答

我会一一解答你的问题。

1）有人可以解释为什么当回归模型中出现正偏y变量时我们必须使用对数变换（归一化）来变换因变量？

不一定是对数转换，任何类型的转换（平方、平方根、对数、Z-scores，你可以命名）都是使数据分布看起来更“正常”（即高斯）所必需的。这是因为所有主流（频繁）统计模型都依赖于数据（和残差）的正态假设。当数据不够正态时，置信区间、标准误差和 p 值等参数的计算将不可靠。

2）对数转换后，是否需要使用 min max scale 或 StandardScaler 方法标准化 y 变量？

这也不是强制性的。有时，在一个范围内缩放因变量是有用的，这样所有可能的值都可以通过预测模型的参数“轻松达到”。

3）如果自变量也有偏斜的数据，那么我是否需要对该变量进行标准化或标准化就足够了？

规范化是一种可行的技术。虽然没有一般规则。有时您可以使用最小-最大缩放，有时 Z 分数效果更好。其他时候，您会再次使用一些发明ad hoc的自定义缩放技术来获得更好的性能。

其它你可能感兴趣的问题