针对 1 而不是 0 测试回归系数

机器算法验证 回归 线性模型 回归系数
2022-03-19 08:20:27

简短的警告-自从几年前的一些大学课程以来,我还没有掸掉我的统计知识,而且我正在与蜘蛛网作斗争。

我有一个模型,过去假设线性 1 对 1 关系。该模型假设产品 A 的收入将转化为产品 B——它并不完美,但这是我们目前一直在使用的。我被赋予了对这种关系进行一些探索性工作的任务。

我模拟了收入 B 和收入 A 之间的关系,并且能够计算出一个粗略的系数。这个系数似乎很重要(t 检验在界限内),但我知道 t 检验是检验这条回归线的斜率是否显着不同于零。我想知道这个斜率是否与我们假设的先前关系 1 显着不同。我该如何为此调整假设检验?我知道我会看到答案,讨厌自己问,谢谢你帮我摆脱了这个问题。

2个回答

检查斜率系数的置信区间。如果它包括 1,那么我们将不会拒绝指出斜率为 1 的原假设。缺点是您不会知道 p 值,除非它必须小于 0.05。

一些软件,如 Stata,允许用户对系数进行自定义测试。这可以为您提供特定的 p 值。例如,在 Stata 中,可以使用该test命令进一步测试斜率与空值是否不为零。

. sysuse auto
(1978 Automobile Data)

. reg price mpg

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   20.26
       Model |   139449474     1   139449474           Prob > F      =  0.0000
    Residual |   495615923    72  6883554.48           R-squared     =  0.2196
-------------+------------------------------           Adj R-squared =  0.2087
       Total |   635065396    73  8699525.97           Root MSE      =  2623.7

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -238.8943   53.07669    -4.50   0.000    -344.7008   -133.0879
       _cons |   11253.06   1170.813     9.61   0.000     8919.088    13587.03
------------------------------------------------------------------------------

在这里,我们看到英里/加仑的回归系数为 -238.9,95% CI 为 -344.7 和 -133.1。使用test,我们可以测试我们的值,例如 -400:

. test mpg = -400

 ( 1)  mpg = -400

       F(  1,    72) =    9.21
            Prob > F =    0.0033

p 值为 0.0033,我们拒绝系数等于 -400 的空值。(还应注意 95% CI 不包括 -400。)在其他软件中也可以找到类似的功能。例如,在 SAS 中,同样的函数也被调用,在模型语句test之后赋值。proc reg


另一种方法(我认为更好,感谢 whuber 的评论)是计算对的平均值,然后使用单样本 t 检验来检查它们的平均值是否等于零。但是,如果其中一种方法持续不断地变大,并且您知道差异是什么,您还可以根据该数字而不是零来测试差异。

关键是使用偏移量偏移量是对线性模型的简单代数操作。在这种情况下,通过拟合仅截距模型(因为截距是自由参数)并offset(mpg)在选项中指定来使用偏移拟合简化模型。这在代数上等价于将新的响应变量计算为price-mpg您可以指定在给出的线性模型中offset(2*mpg)检验β=2

E[price|mpg]=α+βmpg

这比 Penguin_Knight 方法中的置信区间要好,因为:

  1. 您可以使用其他测试,例如似然比和分数。
  2. 您可以报告显着性检验的实际值。p
  3. 当 CI 的报告限制的 sig-figs 与空值相关时,您将获得更精确的估计,可以打破联系。