数学证明为什么稀疏导致模型过拟合

数据挖掘 过拟合 特征
2022-02-16 19:09:16

关于这里的stackoverflow帖子:https
://stackoverflow.com/a/59566478/9130959 我不太明白为什么逻辑成立:当#特征增加时,假设空间扩大,导致数据稀疏,因此很容易过拟合。有没有办法在数学上解释所有这些?

提前谢谢。

2个回答

我不认为稀疏本身会导致模型过度拟合,但它会增加它的机会。

过度拟合本身并不是一种状态。我的意思是,如果我说我的训练准确率为 92%。你能预测它是否过拟合吗?
这是一个相对状态,即只有当我告诉测试/新数据的准确性时,您才能知道它。

这意味着,新数据距离训练数据越远,模型越有可能过度拟合。

在高维空间中,假设有 10 个特征数据集 -
要均匀填充空间,您需要10 10条记录,即10Bn通常你可能有1Mn
因此,您将获得训练数据之外的新数据的可能性 几乎是 9999/10000 。
该模型肯定有很高的失败机会(假设没有正则化)(我并不是说它会失败 9999 次


但这
完全基于这样一个假设,即每个特征都将具有跨越整个空间的值。
假设 10 个特征中有 6 个只有 2 个可能的值。然后我们将只需要640 万个数据集来均匀填充空间。在这种情况下,与上一种情况相比,模型过拟合的可能性要小得多。
虽然模型会非常复杂且摇摆不定(很多树枝/树叶),但不会过度拟合

对我来说,最直观的例子是线性分类器

  • 如果您有 1 行和 1 列的火车,并且您适合线性分类器,那么您的分数将为 100%

  • 如果你有 2 行 2 列并且你训练一个线性分类器,你的分数将是 100%

……

  • 如果你有 N 行和 N 列并且你训练一个线性分类器,你的分数将是 100%

这是为什么?您将始终拥有一个穿过所有点的 N 维超平面。对于 2 点,您将拥有一条线,对于 3 点,您将拥有一架飞机......

这根本不现实,因此你过拟合了......因为其他方法并不那么直观,因为对算法的作用有直觉会更复杂