线性回归模型中的变量是否显着?

机器算法验证 回归
2022-03-16 05:38:04

我有一个包含样本和变量观察的线性回归模型,我想知道:

  1. 特定变量是否足够重要以保持包含在模型中。
  2. 模型中是否应该包含另一个变量(带有观察值)。

哪些统计数据可以帮助我?如何才能最有效地获得它们?

4个回答

统计显着性通常不是确定变量是否应包含在模型中的良好基础。统计测试旨在测试假设,而不是选择变量。我知道很多教科书都在讨论使用统计测试进行变量选择,但这通常是一种不好的方法。请参阅 Harrell 的书Regression Modeling Strategies了解其中的一些原因。如今,通常首选基于 AIC(或类似的东西)的变量选择。

我赞同 Rob 的评论。一个越来越受欢迎的替代方法是包含所有变量并将它们缩小到 0。参见 Tibshirani, R. (1996)。通过套索进行回归收缩和选择。

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

对于第 1 部分,您正在寻找F-test计算每个模型拟合的残差平方和并计算 F 统计量,您可以使用它从 F 分布或您自己生成的其他一些空分布中找到 p 值。

对 Rob 的回答再投一票。

在“相对重要性”文献中也有一些有趣的想法。这项工作开发了一些方法,旨在确定与多个候选预测变量中的每一个相关联的重要性。有贝叶斯方法和频率方法。检查 R 中的“relaimpo”包以获取引用和代码。