具有交互项的联合模型与用于组比较的单独回归

机器算法验证 统计学意义 相互作用 回归系数
2022-03-07 20:26:09

在从之前的问题和讨论中收集到有价值的反馈后,我提出了以下问题:假设目标是检测两组之间的效果差异,例如男性与女性。有两种方法可以做到:

  1. 对两组进行两个单独的回归,并使用 Wald 检验拒绝(或不拒绝)原假设H0b1b2=0, 在哪里b1是男性回归中一个 IV 的系数,并且b2是女性回归中相同IV的系数。

  2. 将两组合并在一起,并通过包含一个性别假人和一个交互项(IV*genderdummy)来运行一个联合模型。然后,群体效应的检测将基于交互的符号和显着性的 t 检验。

如果在情况(1)中Ho被拒绝,即组差异显着,但情况(2)中的交互项系数在统计上不显着,即组差异不显着。反之亦然,Ho 在情况(1)中未被拒绝,并且交互项在情况(2)中是显着的。我已经多次得到这个结果,我想知道哪个结果会更可靠,这个矛盾背后的原因是什么。

3个回答

第一个模型将与模型中的所有其他协变量完全交互性别。本质上,每个协变量(b2,b3...bn)的影响。在第二个模型中,性别的影响只与您的 IV 相互作用。因此,假设您有更多的协变量,而不仅仅是 IV 和性别,这可能会产生一些不同的结果。

如果您只有两个协变量,那么在某些情况下,Wald 检验和似然比检验之间的最大化差异会导致不同的答案(请参阅wikipedia上的更多信息)。

根据我自己的经验,我试图以理论为指导。如果有一个占主导地位的理论表明性别只会与 IV 相互作用,而不与其他协变量相互作用,我会选择部分相互作用。

任何时候使用两种不同的程序来检验一个特定的假设都会有不同的 p 值。说一个重要而另一个不重要可以只是在 0.05 水平上做出黑白决定。如果一个测试给出的 p 值为 0.03 而另一个说是 0.07,我不会称结果自相矛盾。如果您要严格考虑重要性,那么当板线重要性是这种情况时,很容易出现情况(i)或(ii)。

正如我在回答上一个问题时提到的,我更喜欢寻找交互是做一个组合回归。

在第二种情况下,标准软件会建议您使用 t-stat 和 t-student pvalues,而对于第一种情况,Wald 测试可能有两个选项。在错误正态性假设下,Wald 统计量遵循精确的 Fisher 统计量(这等效于 t-stat,因为它假设错误的正态性)。而在渐近正态性下,Wald 统计量遵循 Chi2 分布(这与遵循正态分布的 t-stat 相似)您假设什么分布?根据这一点,您的 p 值可能会给您带来不同的结果。

在教科书中,您会发现对于双边单项测试(一个参数),t-student 和 Fisher 统计量都是等价的。

如果您的样本不大,那么比较 chi2 和 t-stat pvalues 肯定会产生不同的结果。在那种情况下,假设渐近分布是不合理的。如果您的样本相当小,那么假设正态性似乎更合理,这分别意味着案例 2 和案例 1 的 t-stat 和 Fisher pvalues。