考虑以下有关多元回归的问题
1)有人可以解释为什么当回归模型中出现正偏y变量时我们必须使用对数变换(归一化)来变换因变量?
2)对数转换后,是否需要使用 min max scale 或 StandardScaler 方法标准化 y 变量?
3)如果自变量也有偏斜的数据,那么我是否需要对该变量进行标准化或标准化就足够了?
考虑以下有关多元回归的问题
1)有人可以解释为什么当回归模型中出现正偏y变量时我们必须使用对数变换(归一化)来变换因变量?
2)对数转换后,是否需要使用 min max scale 或 StandardScaler 方法标准化 y 变量?
3)如果自变量也有偏斜的数据,那么我是否需要对该变量进行标准化或标准化就足够了?
我会一一解答你的问题。
1)有人可以解释为什么当回归模型中出现正偏y变量时我们必须使用对数变换(归一化)来变换因变量?
不一定是对数转换,任何类型的转换(平方、平方根、对数、Z-scores,你可以命名)都是使数据分布看起来更“正常”(即高斯)所必需的。这是因为所有主流(频繁)统计模型都依赖于数据(和残差)的正态假设。当数据不够正态时,置信区间、标准误差和 p 值等参数的计算将不可靠。
2)对数转换后,是否需要使用 min max scale 或 StandardScaler 方法标准化 y 变量?
这也不是强制性的。有时,在一个范围内缩放因变量是有用的,这样所有可能的值都可以通过预测模型的参数“轻松达到”。
3)如果自变量也有偏斜的数据,那么我是否需要对该变量进行标准化或标准化就足够了?
规范化是一种可行的技术。虽然没有一般规则。有时您可以使用最小-最大缩放,有时 Z 分数效果更好。其他时候,您会再次使用一些发明ad hoc的自定义缩放技术来获得更好的性能。