我正在使用增强树分类器,它比我尝试过的所有其他线性分类器提供更好的准确性。我有几乎无限的训练数据可供我使用,我想知道训练中是否存在饱和点,即使你增加训练规模,在提升树分类器的情况下准确性也不会增加?
训练集大小的增加是否有助于永久提高准确性或是否存在饱和点?
有一个饱和点。
增加训练集的大小并不能帮助您超越建模方法的假设。例如,如果您使用线性模型对以非线性方式可分离的数据进行分类,您将永远无法获得完美的准确性。由于我们几乎从不完全了解底层过程,因此模型不匹配是常态。正如 George Box 所说的“所有模型都是错误的,但有些模型是有用的”。
强大的学习方法,如神经网络(又名深度学习)或随机森林,可以比不太灵活的方法(例如核方法)稍微突破界限,但即使对它们来说,也只能学到这么多。此外,您需要获得有价值的改进所需的数据量和其他资源在某些时候变得过多。
您的训练数据集需要代表您需要分类的数据集。即使它很大,如果它没有捕捉到极端情况,它们也会被错误分类。但是,另一方面,如果适用于您的情况,您需要小心过度拟合。
此外,如果您有一个几乎无限的注释数据集可供使用,您可以在训练/验证/测试中反复随机拆分它,以确保您拥有最好的模型。运行可能需要几天时间,但我认为这是值得的。
在我看来,关键问题是我们永远不会确切地知道底层过程。
- 我们不知道哪些因素会影响班级成员资格。(我坚信所谓的“逐渐减少的效果大小”:本质上,一切都会对其他一切产生影响,只是程度越来越小。)
- 通常情况下,我们甚至在操作那些我们知道的影响者方面也遇到了问题。例如,我确信智力会影响收入,但我同样确信“智力”不能完美地(!)通过智商测试来衡量。心理学家非常担心所谓的“建构效度”,这是正确的。
- 即使我们知道一个因素并且已经很好地操作了它,我们也不知道它的影响是线性的、对数的还是其他一些奇怪的形状……我们有一个完整的标签来解决预测变量的影响可以改变它的问题。定义域。在我写这篇文章时,我脑子里只有逻辑回归——同样的问题也适用于任何其他类型的分类器。
- 最后,所有这些问题都被交互的可能性无限放大:双向、三向、四向……
我们可能认为收集越来越多的数据并使用越来越复杂的算法将解决这些问题。然而,我们可以适应任何给定大小的数据集的“合理”模型的数量总是至少与数据集一样快,因为有很多可能的预测因子,从月相到参与者吃的东西早餐。最后,你总是会被偏差-方差权衡所绊倒。
一组可能的预测模型的最大性能有一个上限。例如,看一个二元结果. 简单地假设我们知道先验概率为 0.5。这意味着两种结果的可能性相同。让是一个包含预测变量值的向量。贝叶斯:
.
理论上的最佳预测模型将预测生产的可能性更高. 但除非分母中的两项之一为零,否则贝叶斯定理会为您提供最佳预测错误的非零概率。
最简单的例子是和完全不相关。然后你预测任何事情并且总是错误的概率为 0.5。没有任何方法可以改善这一点。
以最佳方式,您的算法将收敛到理论最优值。然后,您通常不会在任何有限样本量下达到最佳性能,但改进会越来越小。