计算线性回归预测变量的最佳子集

机器算法验证 造型 回归 多变量 模型选择 特征选择
2022-03-10 09:46:25

对于具有个合适预测变量的多元线性回归中的预测变量选择,有哪些方法可以在不明确测试所有个子集的情况下找到预测变量的“最佳”子集?在“应用生存分析”中,Hosmer & Lemeshow 参考了 Kuk 的方法,但我找不到原始论文。谁能描述这种方法,或者更好的是,一种更现代的技术?可以假设正态分布的误差。p2p

3个回答

我从来没有听说过 Kuk 的方法,但最近的热门话题是 L1 最小化。基本原理是,如果您使用回归系数绝对值的惩罚项,那么不重要的应该归零。

这些技术有一些有趣的名字:Lasso、LARS、Dantzig 选择器。您可以阅读论文,但最好从Elements of Statistical Learning开始,第 3 章。

这是一个巨大的话题。如前所述,Hastie、Tibshirani 和 Friedman 在第 3 章的统计学习要素中给出了很好的介绍。

几点。1)“最佳”或“最佳”是什么意思?在某种意义上最好的东西在另一种意义上可能不是最好的。两个常见的标准是预测准确性(预测结果变量)和产生系数的无偏估计。一些方法,例如 Lasso & Ridge Regression 不可避免地会产生有偏的系数估计量。

2)短语“最佳子集”本身可以在两种不同的意义上使用。通常是指优化某些模型构建标准的所有预测变量中的最佳子集。更具体地说,它可以参考 Furnival 和 Wilson 的有效算法,用于在中等(~50)个线性预测变量中找到该子集(Regressions by Leaps and Bounds. Technometrics,第 16 卷,第 4 期(1974 年 11 月),pp. 499-51)

http://www.jstor.org/stable/1267601

我了解到,首先使用最佳子集方法作为筛选工具,然后逐步选择程序可以帮助您最终确定哪些模型可能是最佳子集模型(此时这些模型的数量很少处理)。如果其中一个模型满足模型条件,很好地总结了数据中的趋势,最重要的是可以回答你的研究问题,那么恭喜你的工作完成了。