如何测试单独适用于两组的线性模型是否优于适用于两组的单一模型?

机器算法验证 回归 相互作用 线性模型
2022-03-28 14:23:56

我的问题是如何判断两个回归是否比一个更好地解释数据。

让我举一个更具体的例子(我正在编造,这并不合理)。假设我对收入和幸福之间的关系感兴趣。然后我问很多人他们的收入和幸福感。但是说我问的有些人是男人,有些是女人。现在,我对收入和幸福进行线性回归,发现收入确实根据一些系数预测幸福,这很重要,模型解释了很多方差等。

我的问题是,我如何测试幸福和收入之间是否存在适用于男性和女性的独特关系,或者数据可以通过两个模型更好地解释,每个模型都是通过分别回归男性和女性获得的?

我正在考虑针对每个模型计算数据的残差,然后比较残差的总和,或者类似的东西。这是合理的做法吗?我将如何比较残差?

所以,总而言之,我怎么知道更好的假设是所有数据的唯一线性模型,还是数据的每个子集(先验定义的子集)都有自己的线性模型的假设?

1个回答

如果您正在进行研究以加深对某个主题的理论理解,那么这是一件值得思考的大事。幸运的是,有成熟的统计方法来评估这个问题。您所做的既适合包含男女之间关系不同可能性的完整模型,也适合假设不存在这种差异的简化模型。然后执行嵌套模型测试。

制作允许存在不同性别关系的模型的方法是,除了收入和性别变量之外,还包括一个交互项。下面是这样一个模型的样子: 请注意,性别将由一个虚拟代码表示,即 s 和 s 的向量,其中 s 表示,例如,该人是男性。简化后的模型如下所示: 因此,模型在两个参数上有所不同,如果较大的模型“减少”为较小的参数,如果

Happiness=β0+β1Income+β2Sex+β3Income×Sex+ε
101
Happiness=β0+β1Income+ε
β2=β3=0要同时测试两个参数是否为 0,请执行嵌套模型测试。(我在这里讨论过这样的测试:Testing for moderation with continuous vs categorical moderators,尽管在不同的上下文中。)

如果您决定保留较大的模型,则暗示女性的收入与幸福之间的关系是: 而男性的关系是: (再次假设男性为,女性为。)

Happiness=β0+β1Income+ε

Happiness=(β0+β2)intercept+(β1+β3)slopeIncome+ε
10