在建立回归模型时,应在什么情况下对数据进行归一化/标准化。当我向一位统计学专业的学生提出这个问题时,他给了我一个模棱两可的答案“取决于数据”。
但这究竟意味着什么?它应该是通用规则或各种检查列表,如果满足某些条件,则数据应该/不应该被规范化。
在建立回归模型时,应在什么情况下对数据进行归一化/标准化。当我向一位统计学专业的学生提出这个问题时,他给了我一个模棱两可的答案“取决于数据”。
但这究竟意味着什么?它应该是通用规则或各种检查列表,如果满足某些条件,则数据应该/不应该被规范化。
有时标准化有助于解决数值问题(这些天对于现代数值线性代数例程而言并不那么重要)或有助于解释,如另一个答案中所述。这是我将用于自己回答答案的一个“规则”:您使用的回归方法是否不变,因为实质性答案不会随着标准化而改变?普通最小二乘法是不变的,而 lasso 或岭回归等方法则不是。因此,对于不变方法,没有真正需要标准化,而对于非不变方法,您可能应该标准化。(或者至少考虑一下)。
以下内容有些相关: 使用 one-hot encoding 时删除其中一列
如果您减去平均值或实际值范围内的某个数字,有时会使解释更容易,因为这可以使截距更有意义。例如,如果您有 65 岁及以上的人减去 65,则截距是 65 岁而不是新生儿的预测值。如果您有诸如幂之类的非线性术语,这会使它们的相关性降低,因此您可以更轻松地看到正在发生的事情。它还可以使缩放预测器变得更容易,以便将系数移动到更可打印的范围内。例如,将天数转换为数周或数月。除此之外应该没关系。我想我刚才写的一些可能是你朋友的意思,这取决于数据。