我需要使用多元回归还是多个回归分析?

机器算法验证 回归 多元分析 多元回归
2022-04-05 16:24:08

我有一个包含 45 个参与者的数据集,每个参与者有 96 个变量(尽管缺少一些测量值)。一些变量很简单,例如年龄和残疾,而其他测量是某些给定测试的分数(例如,一个测试有 5 个值作为结果)。我有 5 个测试的数据,在 3 个不同的时间点给出,如前所述,有时每个测试有多个分数。

由于数据集如此之大(考虑到参与者数量的特征数量),我决定在给定所有先前结果(例如年龄、残疾和同一先前测试的所有分数)的情况下预测测试的分数。所以这基本上归结为我想使用回归预测 5 个特征,给定 45 个参与者的大约 10 个特征(我希望查看确切的系数、p 值和 R 平方测量值)。

我应该对我希望预测的每个特征进行常规回归,还是应该对我希望一次预测的所有特征使用多元回归?有什么区别?

1个回答

表示第个响应在您的示例为 5,因为您有 5 个测试分数。是一个的预测变量矩阵。如果您实现单独的回归(每个一个),Yiii=1,,rrXn×prYi

Yi=Xβi+ϵi,

其中使用 OLS,您可以得到的估计值。您还可以进行多元回归,ϵiNn(0,σi2In)β

Y=XB+E,

其中响应矩阵,回归系数矩阵,是误差矩阵,使得第列,在这种情况下,的 OLS 估计等价 OLS 估计Yn×rBp×rEiϵiiidNn(0,σi2In)Brβi

但是,如果您有理由假设以为条件,5 个预测变量是相关的(在您的情况下这似乎是一个合理的假设),那么被假设为这里现在也表示预测变量的相关结构。XEj=1,2,,n,ϵjiidNr(0,Σ)Σ

需要注意的是,即使在这种情况下,的估计值与 OLS 估计值相同,但估计值的误差结构会发生变化,因此对估计值的推断也会发生变化。因此,值会发生变化。Bp

MRCE R 包允许这样的模型拟合相比不够大时,此包还使用正则化方法,因此您可能不会被迫减少预测变量的数量。您还可以在此处找到更详细的理论以及激励示例。作者陈述了以下动机np

这种通用模型的应用出现在化学计量学、计量经济学、心理计量学和其他定量学科中,在这些学科中,人们使用一组预测变量来预测多个响应。例如,使用与其生产相关的一组变量来预测纸张质量的几种测量方法。

同样,在您的设置中,您似乎有 5 组来自相同预测变量的响应,响应之间具有固有的相关结构。