机器算法验证 - 调整时的网格细度和过拟合λλ在 LASSO，脊，弹性网 - 吾爱随笔录

调整时的网格细度和过拟合λλ在 LASSO，脊，弹性网

机器算法验证套索正则化岭回归过拟合弹性网

2022-03-27 01:07:01

我想知道

最佳网格细度和
网格细度和过拟合的关系是什么

在 LASSO、岭回归或弹性网络等正则化方法中。

假设我想使用 LASSO 将回归模型拟合到包含 500 个观测值的样本（我没有数据；这只是一个示例）。还假设我有
(A)和之间的范围内有 100 个不同的值(B)一个在同一范围内有 1000 个不同值的网格，其中是控制惩罚程度的参数。 $\lambda$ $\lambda_{min}$ $\lambda_{max}$
$\lambda$
$\lambda$

问题：

我能说一下(A)与(B)中过度拟合的倾向吗？
我可以确定最佳网格细度吗？如何？

1个回答

我能说一下 (A) 与 (B) 中过度拟合的倾向吗？

假设两个网格都覆盖了足够的范围，那么网格细度与这个问题中的过度拟合没有任何关系（尽管如果粗网格跳过了一个有利可图的区间，它可能会欠拟合）。并不是说测试太多的值会以某种方式改变样本外的样子。*在这些惩罚回归的情况下，我们肯定希望优化我们的惩罚似然函数的值 $\lambda$ ，并且有多少个值并不重要 $\lambda$ 我们进行测试，因为固定数据集和固定分区的样本外性能完全是确定性的。更重要的是，样本外指标根本不会因值的多少而改变 $\lambda$ 你测试。较粗的网格可能意味着您跳过了样本外度量中的绝对最小值，但首先可能不希望找到绝对最小值，因为超参数往往估计不佳，而有限样本属性意味着数据限制将是该估计中的源噪声，它将压倒相邻网格点之间距离的微小变化：估计的标准误差将倾向于淹没网格细度的差异。

如果您真的担心样本外性能指标可能过于乐观，您可以采用 1 个标准误差规则，该规则在最小值的 1 个标准误差内选择最正规化的模型。这样，您会稍微保守一些并选择不太复杂的模型。

我可以确定最佳网格细度吗？如何？

LARS 算法没有先验定义 $\lambda$ 去检查; 相当， $\lambda$ 不断变化，算法检查的值 $\lambda$ 系数从 0 变为非零值。那些价值观 $\lambda$ 保留一个非零的新系数，观察到在套索的情况下系数路径是分段线性的，因此在这种情况下仅存储结点不会丢失信息。不过，LARS 仅在系数路径为分段线性时才有效。岭惩罚永远不会将系数缩小到精确为零，因此所有系数路径都是平滑的并且始终非零；同样是弹性网络回归（不包括同样是套索回归的弹性网络回归的情况）。

但大多数人使用 GLMNET，因为它通常更快。在确定什么网格方面 $\lambda$ 要进行搜索，我建议阅读 Jerome Friedman、Trevor Hastie 和 Rob Tibshirani 撰写的GLMNET 文章“通过坐标下降的广义线性模型的正则化路径”。在其中，他们开发了一种非常有效的算法来估计岭回归、套索回归和弹性网络回归。该算法检查值 $\lambda_\text{max}$ 为此 $\beta$ 是零向量，然后确定一个最小值 $\lambda_\text{min}$ 关系到 $\lambda_\text{max}$ . 最后，它们在对数尺度上均匀地生成两者之间的一系列值。这个网格对于大多数用途来说已经足够了，尽管它确实省略了当系数估计为非零值时您将准确知道的属性。热启动用于更快地提供解决方案，它支持许多常见的 GLM。

*您可能是从人工神经网络的角度考虑这个问题，其中有时会使用提前停止来完成正则化，但这是一个完全不相关的问题（即，优化算法无法达到最佳状态，因此模型是被迫不那么复杂）。

其它你可能感兴趣的问题

上一篇使用 Epanechnikov 内核的 np 包内核密度估计下一篇如何使用高斯朴素贝叶斯的对数概率？