因变量多,样本少:这是“大pp,小 ”的问题?nn

机器算法验证 多元分析 术语 多重共线性 马诺瓦 多元回归
2022-04-10 04:23:27

大,小”通常是指“变量多,样本少”。pn

就我而言,我有自变量、因变量和样本。1300n<20

因此,我的情况不是典型的“大,小 ”场景(尽管我确实有许多回归系数要估计——只是它们不是由于自变量,而是由于因变量的数量) .pn

我的情况如何分类? 它是否适合“大,小 ”场景,尽管我的变量实际上比样本少?pn


注意:我想对我的数据进行多元回归或 MANOVA,但存在“多重共线性”问题。但这并不是真正的多重共线性,因为我只有一个变量。这里发生了什么?

2个回答

大小有几种组合np: 小的n- 大的p, 小的p- 大的n, 大的n- 大的p... 有关概述,请参阅Johnstone 和 Titterington,2009 年,高维数据的统计挑战。

就您而言,您的情况似乎很小p=1并且相对较小n,因变量维数高。您的自变量可能没有足够的信息来正确建模300回应。

该主张的理由如下。如果您对数据使用GLM,那么您有20估计样本300+误差协方差矩阵中的参数。这可能会导致过度拟合,并且估计器的精度将不必要地模糊(从某种意义上说,这些参数的置信区间可能太宽)和不准确(远离真实值)。但是,如果您限制协方差矩阵的结构,那么可能可以更准确地估计参数(如何限制协方差矩阵的结构?这是一个取决于上下文的大问题)。此外,您使用的协变量越少,残差对解释未观察到的变异性的“责任”就越大。例如,这可能会夸大方差或导致需要比正常分布更灵活的分布来对残差进行建模。


可能感兴趣的其他参考资料:

[当我读到它时,这个问题主要是关于术语的,@East 的回答(虽然很好)并没有明确解决这个问题。]

有时因变量和自变量之间的区别不是很清楚。当您指的是 MANOVA 时,您可能有300为两组测量的变量。从技术上讲,你是对的,它是300因变量,但假设您想通过查看变量来预测组成员身份(毕竟,运行 MANOVA 的目的是测试组是否不同)。现在群体身份突然变成了一个变量,你有300 进行预测的自变量。

所以我认为在这里区分因变量和自变量不是很重要,你的情况可以放心地描述为“大p, 小的n”。

在实践中,人们肯定会提到分类问题,例如线性判别分析,具有许多特征pn作为“大p, 小的n”(参见例如统计学习的要素18.2)。但是线性判别分析几乎与 MANOVA 相同,请参见此处:MANOVA 如何与 LDA 相关?所以我主张继续并称其为“大p, 小的n“在 MANOVA 上下文中也是如此。