套索滞后的顺序?

机器算法验证 特征选择 套索 正则化
2022-03-26 03:00:50

假设我有形式为的纵向数据(我有多个观察值,这只是单个观察值的形式)。我对的限制感兴趣。一个不受限制的等价于 Y=(Y1,,YJ)N(μ,Σ)ΣΣ

Yj=αj+=1j1ϕjYj+εj
εjN(0,σj)

通常不这样做,因为它需要估计协方差参数。如果我们取 则模型是“ ”, 即我们只使用前面的项从历史中预测O(J2)k

Yj=αj+=1kϕjYj+εj,
kYj

我真正想做的是使用某种收缩想法将一些归零,比如 LASSO。但问题是,我也希望我使用的方法更喜欢对于某些的模型;我想惩罚高阶滞后而不是低阶滞后。鉴于预测变量高度相关,我认为这是我们特别想做的事情。ϕjkk

另一个问题是,如果(比如说)缩小到我也希望缩小到,即在所有条件分布中使用相同的滞后。ϕ350ϕ360

我可以推测这一点,但我不想重新发明轮子。是否有任何 LASSO 技术旨在解决此类问题?我是否最好完全做其他事情,比如逐步包含滞后订单?由于我的模型空间很小,我猜我什至可以对这个问题L0

4个回答

您可以从 k = 0 到最大值反复进行交叉验证,并根据 k 绘制性能。由于模型是在以前从未见过的数据上进行测试的,因此无法保证复杂模型的性能会更好,而且实际上,如果模型由于过度拟合而变得过于复杂,您应该会看到性能下降。就我个人而言,我认为这比任意惩罚因素更安全,更容易证明,但你的里程可能会有所不同。

我也不太了解 Lasso 是如何回答这个问题的。它似乎过于严格,它完全强制了系数的排序。而原始问题可能最终会导致某些数据有一个解,其中不严格随 l 递减。ϕlj

有序 LASSO似乎正是您要寻找的:它计算标准 LASSO 中的正则化回归系数\,但受制于.β1...j|β1||β2|...|βj|

这实现了将高阶滞后的系数归零的第二个目标,但比首选较低滞后模型的唯一限制更具限制性。正如其他人指出的那样,这是一个很难证明的严格限制。

省略了警告,本文介绍了该方法在真实和模拟时间序列数据上的结果,并详细介绍了查找系数的算法。结论提到了一个 R 包,但这篇论文是相当新的,并且在 CRAN 上搜索“ordered LASSO”是空的,所以我怀疑这个包仍在开发中。

该论文还提供了一种通用方法,其中两个正则化参数“鼓励接近单调性”。(参见第 6 页。)换句话说,应该能够调整参数以允许轻松排序。遗憾的是,既没有提供放松方法的示例,也没有提供比较。但是,作者写道,实现这一改变只是用一种算法替换另一种算法的简单问题,因此希望它将成为即将到来的 R 包的一部分。

可以使用嵌套的 LASSO 惩罚 ( pdf ),但没有 R 包。

我知道你把它写成一个前提,但我不会使用有序 LASSO,除非绝对确定这是需要的东西,因为有序 LASSO 的假设并不直接适用于时间序列预测。作为反例,考虑在测量和目标之间有十个时间步长的延迟时间的情况。显然,如果不将前九个参数归咎于无意义,有序 LASSO 约束就无法处理这样的效果。

相比之下,我宁愿坚持使用普通 LASSO 并包含所有先前的观察结果——特别是因为您编写的模型空间很小,并且 LASSO 的坐标下降优化例程(如此所述)也适用于大型数据集。然后计算正则化强度参数的路径,并查看从大时包含哪些参数。尤其是前面提到的那些是重要的。λλλ=0

最后,您必须选择适当的标准并使用交叉验证、标准一维最小化或其他方法例如,标准可以是“预测误差 + 包含变量的数量”(--AIC 标准)。λ