上下文:
我有一些模拟数据,用来制作和训练模型。在我的训练期间,我喜欢拥有大量样本,因此我的模型通过相当复杂来利用它。然而,由于该模型是在模拟数据上训练的,因此在实际操作中,一旦收集到真实数据,就必须再次训练该模型。获取这些真实数据很困难,我们想知道在模型开始给出准确预测之前需要多少数据样本。所以我们开始研究学习曲线。
总之,
在现实世界的问题中,检查模型的学习曲线至关重要,但这并不是因为我们想知道是否使用了过多的数据,而是要确保向模型提供了足够的数据并且模型实际上已经学到了一些东西。
一些经验:
我们应该确保模型的收敛性,以便对样本的充分性做出决定。然而,使用少量样本的模型的收敛速度可能与使用大量样本进行训练时的收敛速度不同。
通过实验,我意识到要达到最佳解决方案,您可能需要更改学习率或估计器/优化器的某些结构特征。例如,一旦学习了基于树的模型,人们可能想再次考虑她/他希望在每个叶子中拥有的最小样本数。
问题
仅仅为了在少量样本中收敛而改变估计器中的元参数是否可以接受?
真的需要在小规模的训练集上收敛吗?我的直觉是,一旦给出足够数量的样本,模型就会开始表现不同(并偏离其瞬态行为)。
在实践中如何使用学习曲线?我假设所有的企业都渴望数据,除了已经获得了数以亿计的样本的公司。所以我想,没有人真正从我上面提到的第一个角度考虑学习曲线。