机器算法验证 - 是否重新调整 LASSO 的指标/二进制/虚拟预测器 - 吾爱随笔录

是否重新调整 LASSO 的指标/二进制/虚拟预测器

机器算法验证预测模型模型选择套索正常化标准化

2022-01-19 11:32:11

对于 LASSO（和其他模型选择程序），重新调整预测变量至关重要。我遵循的一般建议只是对连续变量使用 0 均值、1 标准差标准化。但是跟假人有什么关系呢？

例如，我链接到的同一所（优秀）暑期学校的一些应用示例将连续变量重新调整为 0 和 1 之间（尽管异常值不是很好），可能与假人相当。但即使这样也不能保证系数应该是相同的数量级，因此受到类似的惩罚，这是重新调整的关键原因，不是吗？

3个回答

根据 Tibshirani（COX 模型中变量选择的套索方法，医学统计，第 16 卷，385-395 (1997)），他写了一本关于正则化方法的书，你应该标准化假人。但是，您将失去系数的直接可解释性。如果你不这样做，你的变量就不是一个公平的竞争环境。您基本上是在倾斜天平以支持您的连续变量（很可能）。因此，如果您的主要目标是模型选择，那么这是一个严重的错误。但是，如果您对解释更感兴趣，那么这可能不是最好的主意。

建议在第 394 页：

lasso 方法需要对回归器进行初始标准化，以便惩罚方案对所有回归器都是公平的。对于分类回归变量，可以使用虚拟变量对回归变量进行编码，然后对虚拟变量进行标准化。然而，正如裁判所指出的，该方案中连续变量和分类变量之间的相对比例可能有些随意。

Andrew Gelman 的博客文章何时标准化回归输入以及何时不处理它们也值得一看。这部分特别相关：

为了比较模型中不同预测变量的系数，标准化得到了认可。（虽然我没有标准化二进制输入。我将它们编码为 0/1，然后通过除以两个标准差来标准化所有其他数字输入，从而使它们与 0/1 变量的比例大致相同。）

这更像是一个评论，但太长了。套索（和朋友）最常用的软件之一是 R's glmnet。在帮助页面上，由以下人员打印?glmnet：

标准化：在拟合模型序列之前，x 变量标准化的逻辑标志。系数始终以原始比例返回。默认为“标准化=真”。如果变量已经采用相同的单位，您可能不希望标准化。有关使用 'family="gaussian"' 的 y 标准化，请参见下面的详细信息。

标准化是参数之一，默认为真。所以 $X$ 变量通常是标准化的，这包括虚拟变量（因为没有提及它们的例外）。但系数是按原始比例报告的。

其它你可能感兴趣的问题

上一篇为什么我们需要多元回归（而不是一堆单变量回归）？下一篇如何在加权社交网络/图中进行社区检测？