机器算法验证 - 针对 1 而不是 0 测试回归系数 - 吾爱随笔录

针对 1 而不是 0 测试回归系数

机器算法验证回归线性模型回归系数

2022-03-19 08:20:27

简短的警告-自从几年前的一些大学课程以来，我还没有掸掉我的统计知识，而且我正在与蜘蛛网作斗争。

我有一个模型，过去假设线性 1 对 1 关系。该模型假设产品 A 的收入将转化为产品 B——它并不完美，但这是我们目前一直在使用的。我被赋予了对这种关系进行一些探索性工作的任务。

我模拟了收入 B 和收入 A 之间的关系，并且能够计算出一个粗略的系数。这个系数似乎很重要（t 检验在界限内），但我知道 t 检验是检验这条回归线的斜率是否显着不同于零。我想知道这个斜率是否与我们假设的先前关系 1 显着不同。我该如何为此调整假设检验？我知道我会看到答案，讨厌自己问，谢谢你帮我摆脱了这个问题。

2个回答

检查斜率系数的置信区间。如果它包括 1，那么我们将不会拒绝指出斜率为 1 的原假设。缺点是您不会知道 p 值，除非它必须小于 0.05。

一些软件，如 Stata，允许用户对系数进行自定义测试。这可以为您提供特定的 p 值。例如，在 Stata 中，可以使用该test命令进一步测试斜率与空值是否不为零。

. sysuse auto
(1978 Automobile Data)

. reg price mpg

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   20.26
       Model |   139449474     1   139449474           Prob > F      =  0.0000
    Residual |   495615923    72  6883554.48           R-squared     =  0.2196
-------------+------------------------------           Adj R-squared =  0.2087
       Total |   635065396    73  8699525.97           Root MSE      =  2623.7

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -238.8943   53.07669    -4.50   0.000    -344.7008   -133.0879
       _cons |   11253.06   1170.813     9.61   0.000     8919.088    13587.03
------------------------------------------------------------------------------

在这里，我们看到英里/加仑的回归系数为 -238.9，95% CI 为 -344.7 和 -133.1。使用test，我们可以测试我们的值，例如 -400：

. test mpg = -400

 ( 1)  mpg = -400

       F(  1,    72) =    9.21
            Prob > F =    0.0033

p 值为 0.0033，我们拒绝系数等于 -400 的空值。（还应注意 95% CI 不包括 -400。）在其他软件中也可以找到类似的功能。例如，在 SAS 中，同样的函数也被调用，在模型语句test之后赋值。proc reg

另一种方法（我认为更好，感谢 whuber 的评论）是计算对的平均值，然后使用单样本 t 检验来检查它们的平均值是否等于零。但是，如果其中一种方法持续不断地变大，并且您知道差异是什么，您还可以根据该数字而不是零来测试差异。

关键是使用偏移量。偏移量是对线性模型的简单代数操作。在这种情况下，通过拟合仅截距模型（因为截距是自由参数）并offset(mpg)在选项中指定来使用偏移拟合简化模型。这在代数上等价于将新的响应变量计算为price-mpg。您可以指定在给出的线性模型中offset(2*mpg)检验 $\beta=2$

E [price | mpg] = α + β \cdot mpg

$E[\text{price}|\text{mpg}] = \alpha + \beta \cdot \text{mpg}$

这比 Penguin_Knight 方法中的置信区间要好，因为：

您可以使用其他测试，例如似然比和分数。
您可以报告显着性检验的实际值。 $p$
当 CI 的报告限制的 sig-figs 与空值相关时，您将获得更精确的估计，可以打破联系。

其它你可能感兴趣的问题

上一篇在 Fisher p 值框架中使用多重比较校正下一篇k-fold 交叉验证是否总是意味着 k 个大小一致的子集？