维数诅咒对普通最小二乘线性回归有何影响?

机器算法验证 回归 最小二乘 高维
2022-03-20 16:05:50

我的理解是,维度灾难意味着我们需要相对于我们模型中包含的特征数量呈指数级的数据。这个对吗?

如果是这样,“我们需要”是什么意思?这是否意味着我们至少需要那么多数据点来确保我们不会犯错?...否定维度的影响?...确保我们达到全局最优?...其他?

对我来说最重要的问题:

维度诅咒对普通最小二乘线性回归有何具体影响?

如果我们使用p个协变量执行 OLS 线性回归,我们需要 2^ p个数据点吗?

我已经阅读了关于确定 OLS 回归相对于模型中包含的协变量数量需要多少数据点的经验法则,我知道答案完全取决于数据的属性,但我试图更好地理解维度诅咒如何在其中发挥作用/影响。

2个回答

编辑:正如@Richard Hardy 所指出的,平方损失和普通最小二乘法(OLS)下的线性模型是不同的东西。我修改了我的答案,只讨论线性回归模型,我们试图检查在解决以下优化问题时是否存在维度诅咒 (CoD):

minXβy22.

在大多数情况下,线性回归模型不会受到 CoD 的影响。这是因为 OLS 中的参数数量不会相对于特征/自变量/列的数量呈指数增长。(除非我们包含评论中提到的所有功能的所有“交互”术语。)

假设我们有一个数据矩阵,它是,即我们有数据点和个特征。在“机器学习上下文”中,可能在数百万的范围内,而在数千到数百万的范围内。一旦我们添加正则化,线性模型甚至也适用于Xn×pnpnppn

总结

  • 对于线性模型,参数的数量与特征的数量相同(假设我们没有截距。)

  • 当我们的参数数量随着特征数量呈指数增长时,就会发生 CoD。这是一个例子:假设我们有个离散(二进制)随机变量。联合分布表有 行。在这种情况下,会发生 CoD。p2p

我认为 hxd1011 所说的一切都是正确的,但是如果一个人对预测而不是描述感兴趣,那么 CoD 可以抬起它的丑陋脑袋。例如,如果使用 Akaike I]information Criteria 来决定模型精度,则该值与变量的数量 p 成正比。由于较低的 AIC 被解释为意味着较高的模型质量,因此使用的变量数量会影响模型质量。贝叶斯信息标准也会出现同样的情况,但 BIC 值取决于 log(n)*p,因此效果更加明显。
如果这些示例还不够“指数化”,那么请考虑最佳子集回归。同样,对于预测,最好的模型很可能不包含所有变量。最佳子集着眼于通过考虑 p 个变量的所有不同子集获得的所有不同模型。然后它使用一些标准(通常是 AIC 或 BIC!)来选择“最佳”模型。如果有 p 个变量,则 这样的模型使用恰好 k 个变量并对所有 k 求和,我们得到一个必须比较(通过一些计算)个不同的模型。有一个指数!(pk)k=0k=p(pk)=2pp 的指数!

最初,这是一条评论,但它太长了,我不知道如何编辑它,所以我发布了这条评论作为答案。