过拟合和 COLT/统计学习理论

数据挖掘 过拟合
2022-03-03 08:50:34

通常从准确性和模型复杂性的角度来看过度拟合的方面。为了减轻过拟合,我们通常采用 k 折验证、训练-验证-测试集的实用方法。

问题:理论上,我们是否可以利用统计学习理论 (COLT) 来确定学习效果的置信度以及对未见过的示例进行分类的效果如何?

例如,很多时候我们考虑学习所需的最小样本数(上限/足够样本)(VC Dimension)。同意,这是一个高估,加上|H| 或者 VC Dimension 在实践中可能是未知的。另一种观点是,给定样本数量“m”和“delta”(失败概率)——我们发现误差界限(在未见过的例子上)——我们可以从理论上解释这个误差界限是对过度拟合的估计吗?我从 Nello Cristianini 的关于 SVM 的书中得到了这种直觉。

感谢任何指针。

0个回答
没有发现任何回复~