机器算法验证 - 线性回归模型中的变量是否显着？ - 吾爱随笔录

线性回归模型中的变量是否显着？

机器算法验证回归

2022-03-16 05:38:04

我有一个包含样本和变量观察的线性回归模型，我想知道：

特定变量是否足够重要以保持包含在模型中。
模型中是否应该包含另一个变量（带有观察值）。

哪些统计数据可以帮助我？如何才能最有效地获得它们？

4个回答

统计显着性通常不是确定变量是否应包含在模型中的良好基础。统计测试旨在测试假设，而不是选择变量。我知道很多教科书都在讨论使用统计测试进行变量选择，但这通常是一种不好的方法。请参阅 Harrell 的书Regression Modeling Strategies了解其中的一些原因。如今，通常首选基于 AIC（或类似的东西）的变量选择。

我赞同 Rob 的评论。一个越来越受欢迎的替代方法是包含所有变量并将它们缩小到 0。参见 Tibshirani, R. (1996)。通过套索进行回归收缩和选择。

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

对于第 1 部分，您正在寻找F-test。计算每个模型拟合的残差平方和并计算 F 统计量，您可以使用它从 F 分布或您自己生成的其他一些空分布中找到 p 值。

对 Rob 的回答再投一票。

在“相对重要性”文献中也有一些有趣的想法。这项工作开发了一些方法，旨在确定与多个候选预测变量中的每一个相关联的重要性。有贝叶斯方法和频率方法。检查 R 中的“relaimpo”包以获取引用和代码。

其它你可能感兴趣的问题

上一篇为什么连续均匀分布中的概率之和不是无穷大？下一篇在 R 中，在 Microsoft Word 中使用图形的最佳图形驱动程序是什么？