数据挖掘 - 数学证明为什么稀疏导致模型过拟合 - 吾爱随笔录

数学证明为什么稀疏导致模型过拟合

数据挖掘过拟合特征

2022-02-16 19:09:16

关于这里的stackoverflow帖子：https
://stackoverflow.com/a/59566478/9130959 我不太明白为什么逻辑成立：当#特征增加时，假设空间扩大，导致数据稀疏，因此很容易过拟合。有没有办法在数学上解释所有这些？

提前谢谢。

2个回答

我不认为稀疏本身会导致模型过度拟合，但它会增加它的机会。

过度拟合本身并不是一种状态。我的意思是，如果我说我的训练准确率为 92%。你能预测它是否过拟合吗？
这是一个相对状态，即只有当我告诉测试/新数据的准确性时，您才能知道它。

这意味着，新数据距离训练数据越远，模型越有可能过度拟合。

在高维空间中，假设有 10 个特征数据集 -
要均匀填充空间，您需要10 ¹⁰条记录，即10Bn。通常你可能有1Mn。
因此，您将获得训练数据之外的新数据的可能性几乎是 9999/10000 。
该模型肯定有很高的失败机会（假设没有正则化）（我并不是说它会失败 9999 次）

但这
完全基于这样一个假设，即每个特征都将具有跨越整个空间的值。
假设 10 个特征中有 6 个只有 2 个可能的值。然后我们将只需要640 万个数据集来均匀填充空间。在这种情况下，与上一种情况相比，模型过拟合的可能性要小得多。
虽然模型会非常复杂且摇摆不定（很多树枝/树叶），但不会过度拟合

对我来说，最直观的例子是线性分类器

如果您有 1 行和 1 列的火车，并且您适合线性分类器，那么您的分数将为 100%
如果你有 2 行 2 列并且你训练一个线性分类器，你的分数将是 100%

……

如果你有 N 行和 N 列并且你训练一个线性分类器，你的分数将是 100%

这是为什么？您将始终拥有一个穿过所有点的 N 维超平面。对于 2 点，您将拥有一条线，对于 3 点，您将拥有一架飞机......

这根本不现实，因此你过拟合了......因为其他方法并不那么直观，因为对算法的作用有直觉会更复杂

其它你可能感兴趣的问题

上一篇使用 GPU 进行数据验证的 Keras OOM 下一篇您应该在执行协同过滤之前进行集群吗？