当统计学家谈论回归模型中的预测变量多于观察值时,这意味着什么?这怎么可能呢?为什么它在回归中是一个问题?抱歉,我是量化分析和统计的新手,所以不太清楚为什么会这样?我将不胜感激最简单的解释-
预测变量多于观察结果?
机器算法验证
回归
2022-03-28 09:30:24
1个回答
我认为混淆来自有时使用“观察”这个词的方式。假设您想知道 20,000 个基因的表达与血压等一些连续的生物学变量有何关联。您拥有 20,000 个基因的表达和 10,000 个个体的血压数据。您可能会认为这涉及 10,000 * 20,001 = 200,010,000 次观察。当然有很多单独的数据点。但是当人们在这种情况下说“预测变量多于观察”时,他们只将每个人都算作“观察”;然后,“观察”是在单个个体上收集的所有数据点的向量. 说“案例”而不是“观察”可能更容易让人困惑,但在实践中的使用通常隐藏着这样的假设。
预测变量多于案例的问题(通常表示为“") 是标准线性回归问题没有唯一的解决方案。如果数据点矩阵的行代表案例,列代表预测变量,则矩阵的列之间必然存在线性相关性。所以一旦你发现系数预测变量的系数,其他的系数预测变量可以表示为第一个变量的任意线性组合预测器。其他方法,如 LASSO 或岭回归,或各种其他机器学习方法,提供了在这种情况下进行的方法。