是否重新调整 LASSO 的指标/二进制/虚拟预测器
机器算法验证
预测模型
模型选择
套索
正常化
标准化
2022-01-19 11:32:11
3个回答
根据 Tibshirani(COX 模型中变量选择的套索方法,医学统计,第 16 卷,385-395 (1997)),他写了一本关于正则化方法的书,你应该标准化假人。但是,您将失去系数的直接可解释性。如果你不这样做,你的变量就不是一个公平的竞争环境。您基本上是在倾斜天平以支持您的连续变量(很可能)。因此,如果您的主要目标是模型选择,那么这是一个严重的错误。但是,如果您对解释更感兴趣,那么这可能不是最好的主意。
建议在第 394 页:
lasso 方法需要对回归器进行初始标准化,以便惩罚方案对所有回归器都是公平的。对于分类回归变量,可以使用虚拟变量对回归变量进行编码,然后对虚拟变量进行标准化。然而,正如裁判所指出的,该方案中连续变量和分类变量之间的相对比例可能有些随意。
Andrew Gelman 的博客文章何时标准化回归输入以及何时不处理它们也值得一看。这部分特别相关:
为了比较模型中不同预测变量的系数,标准化得到了认可。(虽然我没有标准化二进制输入。我将它们编码为 0/1,然后通过除以两个标准差来标准化所有其他数字输入,从而使它们与 0/1 变量的比例大致相同。)
这更像是一个评论,但太长了。套索(和朋友)最常用的软件之一是 R's glmnet
。在帮助页面上,由以下人员打印?glmnet
:
标准化:在拟合模型序列之前,x 变量标准化的逻辑标志。系数始终以原始比例返回。默认为“标准化=真”。如果变量已经采用相同的单位,您可能不希望标准化。有关使用 'family="gaussian"' 的 y 标准化,请参见下面的详细信息。
标准化是参数之一,默认为真。所以变量通常是标准化的,这包括虚拟变量(因为没有提及它们的例外)。但系数是按原始比例报告的。
其它你可能感兴趣的问题