机器算法验证 - 分类变量在惩罚回归中的标准化是否不同？ - 吾爱随笔录

机器算法验证回归标准化正则化

2022-02-04 13:13:56

在惩罚/正则化回归（套索、岭等）中，预测变量通常被标准化为以 0 为中心并且通常具有方差 1。分类预测变量是否被区别对待。如果是这样，为什么？使用相同的标准化会有什么后果？可以参考吗？

1个回答

我认为重点是你想用模型做什么。对于是否应该对所有变量、部分变量或所有变量进行标准化，没有一个单一的答案。这取决于你想要你的模型做什么。

使用预测变量的 z 分数（您称之为标准化），将所有预测变量置于相同的比例，但会使解释变得更加困难。现在对系数的解释是“标准偏差的变化对输出变量的影响有多大”。

很多时候，惩罚/正则化回归不适合解释，因为您在系数中引入了偏差。通常，当您使用此类模型时，您对预测感兴趣，而不是进行反事实分析。标准化很有用，因为它们使问题在数值上更稳定。如果您的情况是这样，那么您是否“标准化”您的分类预测变量并没有太大的区别。

试着问一个更具体的答案，包括你想对你的问题做什么样的分析，你可以获得更具体的答案:)

其它你可能感兴趣的问题