如何测试总体显着性?

数据挖掘 统计数据 线性回归
2022-02-20 08:22:57

我有两个模型:一个是简单的线性回归,另一个是多元线性回归。

最强的关系是简单线性回归中的两个变量之间的关系。多元线性回归包括两个可以与因变量相关的额外变量,但是在统计上它们不显着(P > 0)。

我如何解释要使用的最佳模型是简单线性回归还是多元线性回归?

以下是回归的一些值:

简单线性: F(1, 77) = 21.07 , Prob > F = 0.0000 , Rsquared = 0.2148, Adj Rsquared = 0.2046

多线性:F(3, 75) = 7.29 , Prob > F = 0.0002, Rsquared = 0.2258, Adj Rsquared = 0.1948

2个回答

假设“最佳”模型是做出最准确的训练外样本预测的模型,您可以使用两种类型的度量。R 平方只会随着您添加更多变量而增加,因此它不是合适的度量。

有两种常见的方法:

(1) 通过对训练误差进行调整来间接估计测试误差(例如 Adjusted Rsquared / BIC/ AIC)。在您的情况下,简单线性回归在 Adj Rsquared 方面的表现略好。

(2) 使用验证集或交叉验证直接估计测试误差。

大多数软件包允许您执行联合 wald 测试,以确定附加参数是否重要。换句话说,您估计更复杂的模型并测试是否可以通过将一些参数设置为零来将其简化为更简单的模型。