简单线性回归的报告结果:包含哪些信息?

机器算法验证 回归 报告
2022-03-09 01:48:22

我刚刚在 Genstat 中执行了一些(非常)简单的线性回归,并希望在我的报告中包含一个简洁而有意义的输出摘要。我不确定我应该包含哪些信息或包含多少信息。

我的 Genstat 输出的主要部分如下所示:

Summary of analysis 
Source      d.f.    s.s.       m.s.       v.r.    F pr.
Regression    1   8128935.   8128935.    814.41   <.001
Residual     53    529015.      9981.        
Total        54   8657950.    160332.        

Percentage variance accounted for 93.8
Standard error of observations is estimated to be 99.9.

Estimates of parameters 
Parameter    estimate    s.e.     t(53)   t pr.
Constant      41.5      30.7       1.35   0.182
UKHR_Ref       0.8659    0.0303   28.54   <.001

我打算将其简单地报告为:

Adjusted R2 = 0.94 (slope = 0.87, p < 0.001; intercept not significantly different from 0).

但一位同事建议我至少也应该包括root mean squared error(我相信在这种情况下等于观察的标准误差,即 99.9?)。

包括 RMSE 是否提供了额外的有用信息,或者调整后的 R2 值是否已经充分解释了拟合优度?

是否有关于报告多少信息的硬性规定,或者是否相当主观?

非常感谢!

2个回答

对于简单的线性回归,我总是会生成 x 变量与 y 变量的图,回归线叠加在图上(只要可行,总是绘制数据!)。这将很容易地告诉您模型的拟合程度,并且易于阅读 1 变量回归。将其添加到您已经拥有的内容中可能就足够了,尽管您可能希望包含一些诊断图(杠杆、厨师距离、残差等)。这取决于 xy 情节有多好,以及您的目标受众以及您的受众期望的任何协议。

R2与 RMSE

R2是一个相对度量,而 RMSE 更像是一个绝对度量,因为您会期望大多数观测值在 RMSE 范围内,并且几乎所有观测值都在 RMSE 范围内。如果你想表达“解释力”可能更好,如果你想表达“预测力”,RMSE 可能更好。±±2R2

我用来报告 β 系数加上 95% CI、p 值和调整后的 Rsquared。前任:

(β = 1.46, 95% CI [1.19, 1.8], p = 0.001 **, 调整后的 R2 = 0.48)

如果报告多元回归或包含因子变量的回归,我会报告系数、95% CI、p 值,然后分别报告 F(自由度)统计量、调整后的 R2 和模型的 p 值。