人们普遍认为,在惩罚回归模型中,例如岭回归、套索和弹性网络,应该标准化预测变量(例如将每个变量除以其 SD),以便惩罚同样适用于不同的预测变量,而不是根据预测变量的规模不同程度地应用。但是,即使对于编码为 0 和 1 的二进制预测变量,也应该这样做吗?
更具体地说,假设我的目标是最大化我的模型的预测准确性(即最小化测试误差),并且我对预测变量的相对重要性几乎没有先验知识。哪个可能会获得更好的预测准确性,将我的二进制预测器与我的连续预测器一起重新缩放,或者不理会它们?
以下是在预测器标准化和二元预测器的上下文中经常提到的论文,但它似乎没有考虑惩罚回归的情况。
格尔曼,A.(2008 年)。通过除以两个标准差来缩放回归输入。医学统计,27,2865–2873。doi:10.1002/sim.3107。http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf
一个类似但更普遍的问题是:分类变量在惩罚回归中的标准化是否不同?
编辑:一个更密切相关的问题是:是否重新调整 LASSO 的指标/二进制/虚拟预测器