在惩罚/正则化回归(套索、岭等)中,预测变量通常被标准化为以 0 为中心并且通常具有方差 1。分类预测变量是否被区别对待。如果是这样,为什么?使用相同的标准化会有什么后果?可以参考吗?
分类变量在惩罚回归中的标准化是否不同?
机器算法验证
回归
标准化
正则化
2022-02-04 13:13:56
1个回答
我认为重点是你想用模型做什么。对于是否应该对所有变量、部分变量或所有变量进行标准化,没有一个单一的答案。这取决于你想要你的模型做什么。
使用预测变量的 z 分数(您称之为标准化),将所有预测变量置于相同的比例,但会使解释变得更加困难。现在对系数的解释是“标准偏差的变化对输出变量的影响有多大”。
很多时候,惩罚/正则化回归不适合解释,因为您在系数中引入了偏差。通常,当您使用此类模型时,您对预测感兴趣,而不是进行反事实分析。标准化很有用,因为它们使问题在数值上更稳定。如果您的情况是这样,那么您是否“标准化”您的分类预测变量并没有太大的区别。
试着问一个更具体的答案,包括你想对你的问题做什么样的分析,你可以获得更具体的答案:)