我想知道
- 最佳网格细度和
- 网格细度和过拟合的关系是什么
在 LASSO、岭回归或弹性网络等正则化方法中。
假设我想使用 LASSO 将回归模型拟合到包含 500 个观测值的样本(我没有数据;这只是一个示例)。还假设我有
(A)和之间的范围内有 100 个不同的值(B)一个在同一范围内有 1000 个不同值的网格,
其中是控制惩罚程度的参数。
问题:
- 我能说一下(A)与(B)中过度拟合的倾向吗?
- 我可以确定最佳网格细度吗?如何?
我想知道
在 LASSO、岭回归或弹性网络等正则化方法中。
假设我想使用 LASSO 将回归模型拟合到包含 500 个观测值的样本(我没有数据;这只是一个示例)。还假设我有
(A)和之间的范围内有 100 个不同的值(B)一个在同一范围内有 1000 个不同值的网格,
其中是控制惩罚程度的参数。
问题:
我能说一下 (A) 与 (B) 中过度拟合的倾向吗?
假设两个网格都覆盖了足够的范围,那么网格细度与这个问题中的过度拟合没有任何关系(尽管如果粗网格跳过了一个有利可图的区间,它可能会欠拟合)。并不是说测试太多的值会以某种方式改变样本外的样子。*在这些惩罚回归的情况下,我们肯定希望优化我们的惩罚似然函数的值,并且有多少个值并不重要我们进行测试,因为固定数据集和固定分区的样本外性能完全是确定性的。更重要的是,样本外指标根本不会因值的多少而改变你测试。较粗的网格可能意味着您跳过了样本外度量中的绝对最小值,但首先可能不希望找到绝对最小值,因为超参数往往估计不佳,而有限样本属性意味着数据限制将是该估计中的源噪声,它将压倒相邻网格点之间距离的微小变化:估计的标准误差将倾向于淹没网格细度的差异。
如果您真的担心样本外性能指标可能过于乐观,您可以采用 1 个标准误差规则,该规则在最小值的 1 个标准误差内选择最正规化的模型。这样,您会稍微保守一些并选择不太复杂的模型。
我可以确定最佳网格细度吗?如何?
LARS 算法没有先验定义去检查; 相当,不断变化,算法检查的值系数从 0 变为非零值。那些价值观保留一个非零的新系数,观察到在套索的情况下系数路径是分段线性的,因此在这种情况下仅存储结点不会丢失信息。不过,LARS 仅在系数路径为分段线性时才有效。岭惩罚永远不会将系数缩小到精确为零,因此所有系数路径都是平滑的并且始终非零;同样是弹性网络回归(不包括同样是套索回归的弹性网络回归的情况)。
但大多数人使用 GLMNET,因为它通常更快。在确定什么网格方面要进行搜索,我建议阅读 Jerome Friedman、Trevor Hastie 和 Rob Tibshirani 撰写的GLMNET 文章“通过坐标下降的广义线性模型的正则化路径”。在其中,他们开发了一种非常有效的算法来估计岭回归、套索回归和弹性网络回归。该算法检查值为此是零向量,然后确定一个最小值关系到. 最后,它们在对数尺度上均匀地生成两者之间的一系列值。这个网格对于大多数用途来说已经足够了,尽管它确实省略了当系数估计为非零值时您将准确知道的属性。热启动用于更快地提供解决方案,它支持许多常见的 GLM。
*您可能是从人工神经网络的角度考虑这个问题,其中有时会使用提前停止来完成正则化,但这是一个完全不相关的问题(即,优化算法无法达到最佳状态,因此模型是被迫不那么复杂)。