为了解决问题的多样性,我正在尝试逐步回归。所以,我有两个问题:
逐步回归的优点是什么?它的具体优势是什么?
您如何看待混合方法,您使用逐步回归来选择特征,然后应用常规回归将所有选择的特征放在一起?
为了解决问题的多样性,我正在尝试逐步回归。所以,我有两个问题:
逐步回归的优点是什么?它的具体优势是什么?
您如何看待混合方法,您使用逐步回归来选择特征,然后应用常规回归将所有选择的特征放在一起?
逐步回归的主要优点是计算效率高。但是,它的性能通常比替代方法差。问题是太贪心了。通过对下一个回归量进行硬选择并“冻结”权重,它会在每一步做出局部最优的选择,但通常不是最优的。而且,它不能回去修改它过去的选择。
据我所知,与正则化回归 (LASSO) 相比,逐步回归通常不受欢迎,后者往往会产生更好的解决方案。
蒂布希拉尼 (1996)。通过 Lasso 进行回归收缩和选择
LASSO 惩罚权重的范数,这会导致解中的稀疏性(许多权重被强制为零)。这将执行变量选择(“相关”变量允许具有非零权重)。稀疏程度由惩罚项控制,必须使用一些程序来选择它(交叉验证是一种常见的选择)。LASSO 比逐步回归的计算量更大,但存在许多有效的算法。一些例子是最小角度回归 ( LARS ),以及基于坐标下降的方法。
与您在 (2) 中建议的方法类似的方法称为正交匹配追踪。它是匹配追踪的概括,是信号处理文献中逐步回归的名称。
帕蒂等人。(1993 年)。正交匹配追踪:递归函数逼近与小波分解的应用
在每次迭代中,下一个最佳回归量被添加到活动集中。然后,重新计算活动集中所有回归器的权重。由于重新加权步骤,这种方法比常规匹配追踪/逐步回归更不贪心(并且具有更好的性能)。但是,它仍然采用贪婪搜索启发式。
所有这些方法(逐步回归、LASSO 和正交匹配追踪)都可以被认为是以下问题的近似:
在回归上下文中,列对应于自变量,列对应于因变量。在信号处理中,的列对应于基函数,是要近似的信号。目标是找到一组稀疏的权重的最佳(最小二乘)近似值。l_0中非零条目的数量。不幸的是,这个问题是 NP-hard,所以在实践中必须使用近似算法。逐步回归和正交匹配追踪尝试使用贪婪搜索策略来解决问题。LASSO 使用对范数到范数。在这里,优化问题变得凸出(因此易于处理)。而且,虽然问题不再相同,但解决方案是相似的。如果我没记错的话,LASSO 和正交匹配追踪都被证明可以在特定条件下恢复精确解。
逐步选择通常不是一个好主意。要理解为什么,它可能会帮助您阅读我的答案:自动模型选择算法。
就优势而言,在搜索所有可能的特征组合对于计算机来说计算量太大而无法处理的日子里,逐步选择可以节省时间并且易于处理。但是,请注意,我在上面的链接答案中讨论的问题同样适用于“最佳子集”回归,因此逐步不会产生好的解决方案,只会更快地产生不好的解决方案。
只要将第二个模型(具有所选特征)安装在新数据集上,您对混合方法的想法就可以了。
我刚刚在谷歌搜索什么是逐步回归。我不确定我是否完全理解它,但这是我的第一个想法