多元回归中归一化和标准化的区别

数据挖掘 机器学习 Python 回归 数据科学模型 正常化
2022-02-10 12:10:19

考虑以下有关多元回归的问题

1)有人可以解释为什么当回归模型中出现正偏y变量时我们必须使用对数变换(归一化)来变换因变量?

2)对数转换后,是否需要使用 min max scale 或 StandardScaler 方法标准化 y 变量?

3)如果自变量也有偏斜的数据,那么我是否需要对该变量进行标准化或标准化就足够了?

1个回答

我会一一解答你的问题。


1)有人可以解释为什么当回归模型中出现正偏y变量时我们必须使用对数变换(归一化)来变换因变量?

不一定是对数转换,任何类型的转换(平方、平方根、对数、Z-scores,你可以命名)都是使数据分布看起来更“正常”(即高斯)所必需的。这是因为所有主流(频繁)统计模型都依赖于数据(和残差)的正态假设。当数据不够正态时,置信区间、标准误差和 p 值等参数的计算将不可靠。


2)对数转换后,是否需要使用 min max scale 或 StandardScaler 方法标准化 y 变量?

这也不是强制性的。有时,在一个范围内缩放因变量是有用的,这样所有可能的值都可以通过预测模型的参数“轻松达到”。


3)如果自变量也有偏斜的数据,那么我是否需要对该变量进行标准化或标准化就足够了?

规范化是一种可行的技术。虽然没有一般规则。有时您可以使用最小-最大缩放,有时 Z 分数效果更好。其他时候,您会再次使用一些发明ad hoc的自定义缩放技术来获得更好的性能。