关于这里的stackoverflow帖子:https
://stackoverflow.com/a/59566478/9130959
我不太明白为什么逻辑成立:当#特征增加时,假设空间扩大,导致数据稀疏,因此很容易过拟合。有没有办法在数学上解释所有这些?
提前谢谢。
关于这里的stackoverflow帖子:https
://stackoverflow.com/a/59566478/9130959
我不太明白为什么逻辑成立:当#特征增加时,假设空间扩大,导致数据稀疏,因此很容易过拟合。有没有办法在数学上解释所有这些?
提前谢谢。
我不认为稀疏本身会导致模型过度拟合,但它会增加它的机会。
过度拟合本身并不是一种状态。我的意思是,如果我说我的训练准确率为 92%。你能预测它是否过拟合吗?
这是一个相对状态,即只有当我告诉测试/新数据的准确性时,您才能知道它。
这意味着,新数据距离训练数据越远,模型越有可能过度拟合。
在高维空间中,假设有 10 个特征数据集 -
要均匀填充空间,您需要10 10条记录,即10Bn。通常你可能有1Mn。
因此,您将获得训练数据之外的新数据的可能性
几乎是 9999/10000 。
该模型肯定有很高的失败机会(假设没有正则化)(我并不是说它会失败 9999 次)
但这
完全基于这样一个假设,即每个特征都将具有跨越整个空间的值。
假设 10 个特征中有 6 个只有 2 个可能的值。然后我们将只需要640 万个数据集来均匀填充空间。在这种情况下,与上一种情况相比,模型过拟合的可能性要小得多。
虽然模型会非常复杂且摇摆不定(很多树枝/树叶),但不会过度拟合
对我来说,最直观的例子是线性分类器
如果您有 1 行和 1 列的火车,并且您适合线性分类器,那么您的分数将为 100%
如果你有 2 行 2 列并且你训练一个线性分类器,你的分数将是 100%
……
这是为什么?您将始终拥有一个穿过所有点的 N 维超平面。对于 2 点,您将拥有一条线,对于 3 点,您将拥有一架飞机......
这根本不现实,因此你过拟合了......因为其他方法并不那么直观,因为对算法的作用有直觉会更复杂