是否重新调整 LASSO 的指标/二进制/虚拟预测器

机器算法验证 预测模型 模型选择 套索 正常化 标准化
2022-01-19 11:32:11

对于 LASSO(和其他模型选择程序),重新调整预测变量至关重要。我遵循一般 建议 只是对连续变量使用 0 均值、1 标准差标准化。但是跟假人有什么关系呢?

例如,我链接到的同一所(优秀)暑期学校的一些应用示例将连续变量重新调整为 0 和 1 之间(尽管异常值不是很好),可能与假人相当。但即使这样也不能保证系数应该是相同的数量级,因此受到类似的惩罚,这是重新调整的关键原因,不是吗?

3个回答

根据 Tibshirani(COX 模型中变量选择的套索方法,医学统计,第 16 卷,385-395 (1997)),他写了一本关于正则化方法的书,你应该标准化假人。但是,您将失去系数的直接可解释性。如果你不这样做,你的变量就不是一个公平的竞争环境。您基本上是在倾斜天平以支持您的连续变量(很可能)。因此,如果您的主要目标是模型选择,那么这是一个严重的错误。但是,如果您对解释更感兴趣,那么这可能不是最好的主意。

建议在第 394 页:

lasso 方法需要对回归器进行初始标准化,以便惩罚方案对所有回归器都是公平的。对于分类回归变量,可以使用虚拟变量对回归变量进行编码,然后对虚拟变量进行标准化。然而,正如裁判所指出的,该方案中连续变量和分类变量之间的相对比例可能有些随意。

Andrew Gelman 的博客文章何时标准化回归输入以及何时不处理它们也值得一看。这部分特别相关:

为了比较模型中不同预测变量的系数,标准化得到了认可。(虽然我没有标准化二进制输入。我将它们编码为 0/1,然后通过除以两个标准差来标准化所有其他数字输入,从而使它们与 0/1 变量的比例大致相同。)

这更像是一个评论,但太长了。套索(和朋友)最常用的软件之一是 R's glmnet在帮助页面上,由以下人员打印?glmnet

标准化:在拟合模型序列之前,x 变量标准化的逻辑标志。系数始终以原始比例返回。默认为“标准化=真”。如果变量已经采用相同的单位,您可能不希望标准化。有关使用 'family="gaussian"' 的 y 标准化,请参见下面的详细信息。

标准化是参数之一,默认为真。所以X变量通常是标准化的,这包括虚拟变量(因为没有提及它们的例外)。但系数是按原始比例报告的。