机器算法验证 - 因变量多，样本少：这是“大pp，小 ”的问题？nn - 吾爱随笔录

因变量多，样本少：这是“大pp，小 ”的问题？nn

机器算法验证多元分析术语多重共线性马诺瓦多元回归

2022-04-10 04:23:27

“大，小”通常是指“自变量多，样本少”。 $p$ $n$

就我而言，我有自变量、因变量和样本。 $1$ $300$ $n < 20$

因此，我的情况不是典型的“大，小 ”场景（尽管我确实有许多回归系数要估计——只是它们不是由于自变量，而是由于因变量的数量） . $p$ $n$

我的情况如何分类？ 它是否适合“大，小 ”场景，尽管我的自变量实际上比样本少？ $p$ $n$

注意：我想对我的数据进行多元回归或 MANOVA，但存在“多重共线性”问题。但这并不是真正的多重共线性，因为我只有一个自变量。这里发生了什么？

2个回答

大小有几种组合 $n$ 和 $p$ ：小的 $n$ - 大的 $p$ ，小的 $p$ - 大的 $n$ ，大的 $n$ - 大的 $p$ ... 有关概述，请参阅Johnstone 和 Titterington，2009 年，高维数据的统计挑战。

就您而言，您的情况似乎很小 $p=1$ 并且相对较小 $n$ ，因变量维数高。您的自变量可能没有足够的信息来正确建模 $300$ 回应。

该主张的理由如下。如果您对数据使用GLM，那么您有 $20$ 估计样本 $300+$ 误差协方差矩阵中的参数。这可能会导致过度拟合，并且估计器的精度将不必要地模糊（从某种意义上说，这些参数的置信区间可能太宽）和不准确（远离真实值）。但是，如果您限制协方差矩阵的结构，那么可能可以更准确地估计参数（如何限制协方差矩阵的结构？这是一个取决于上下文的大问题）。此外，您使用的协变量越少，残差对解释未观察到的变异性的“责任”就越大。例如，这可能会夸大方差或导致需要比正常分布更灵活的分布来对残差进行建模。

可能感兴趣的其他参考资料：

West，2003，“大 p，小 n”范式中的贝叶斯因子回归模型
CV 问题：“Large p, Small n”结果总结

[当我读到它时，这个问题主要是关于术语的，@East 的回答（虽然很好）并没有明确解决这个问题。]

有时因变量和自变量之间的区别不是很清楚。当您指的是 MANOVA 时，您可能有 $300$ 为两组测量的变量。从技术上讲，你是对的，它是 $300$ 因变量，但假设您想通过查看变量来预测组成员身份（毕竟，运行 MANOVA 的目的是测试组是否不同）。现在群体身份突然变成了一个因变量，你有 $300$ 进行预测的自变量。

所以我认为在这里区分因变量和自变量不是很重要，你的情况可以放心地描述为“大 $p$ ，小的 $n$ ”。

在实践中，人们肯定会提到分类问题，例如线性判别分析，具有许多特征 $p\gg n$ 作为“大 $p$ ，小的 $n$ ”（参见例如统计学习的要素18.2）。但是线性判别分析几乎与 MANOVA 相同，请参见此处：MANOVA 如何与 LDA 相关？所以我主张继续并称其为“大 $p$ ，小的 $n$ “在 MANOVA 上下文中也是如此。

其它你可能感兴趣的问题

上一篇编写统计分析计划的资源下一篇在 Kernel PCA 中获得的特征向量是正交的吗？