检验系数之间显着差异的正确方法是什么?

机器算法验证 回归 假设检验 多重回归
2022-02-03 23:00:28

我希望有人可以帮助理清我的困惑。假设我想测试两组回归系数是否存在显着差异,设置如下:

  • yi=α+βxi+ϵi,有 5 个自变量。
  • 2 组,大小大致相等(尽管这可能会有所不同)n1,n2
  • 数千个类似的回归将同时进行,因此必须进行某种多假设校正。

向我建议的一种方法是使用 Z 检验:

Z=b1b2(SEb12+SEb22)

我在这个板上看到的另一个建议是引入一个用于分组的虚拟变量并将模型重写为:

yi=α+βxi+δ(xigi)+ϵi,其中是分组变量,编码为 0, 1。g

我的问题是,这两种方法有何不同(例如做出不同的假设、灵活性)?一个比另一个更合适吗?我怀疑这是非常基本的,但任何澄清将不胜感激。

2个回答

这两种方法确实不同。

让两个回归的估计标准误差为然后,因为组合回归(具有所有系数-虚拟交互)拟合相同的系数,它具有相同的残差,因此其标准误差可以计算为s1s2

s=(n1p)s12+(n2p)s22)n1+n22p.

在示例中,参数的数量等于:每个回归中的五个斜率和一个截距。p6

在一个回归中估计一个参数,在另一个回归中估计相同的参数,在组合回归中估计它们的差异。那么他们的标准误与b1b2b

SE(b)=s(SE(b1)/s1)2+(SE(b2)/s2)2.

插入前面的等式这将是 t 检验的分母。显然,它与问题中提出的分母不同。s

组合回归的假设是残差的方差在两个单独的回归中基本相同。但是,如果不是这种情况,z 检验也不会很好(除非样本量很大):您可能希望使用CABF 检验Welch-Satterthwaite t 检验。

测试两组之间系数差异的最直接方法是将交互项包含在您的回归中,这几乎就是您在问题中所描述的。您将运行的模型如下:

yi=α+βxi+γgi+δ(xi×gi)+εi

请注意,我已将组变量作为单独的回归量包含在模型中。有了这个模型,一个t- 用零假设检验H0:δ=0是检验两组之间的系数是否相同。要看到这个,首先让gi=0在上述模型中。然后,我们得到第 0 组的以下等式:

yi=α+βxi+εi

现在,如果gi=1,那么我们有:

yi=(α+γ)+(β+δ)xi+εi

因此,当δ为 0,则两组的系数相同。