估计和/或确定足以训练模型的数据量

数据挖掘 机器学习 神经网络 深度学习 数据集 数据
2022-01-23 19:43:39

要训​​练一个好的监督算法(例如,依赖解析器、词性标注器或NER)数据是必不可少的,但是有多少样本是必要的或足够的呢?我们可以从什么样的角度来尝试估计或/和确定我们应该注释多少数据?或者在我们得到第一次尝试的结果之前,我们可以使用什么样的技术来预测数量?

我知道单词可以分为两种类型:封闭类类型和开放类类型。我们应该考虑吗?

如果不存在这样的方法,我们如何知道我们的模型(主要是高方差)是否存在数据短缺(知道数据永远不够)或其他原因(如结构差或训练过程差或超参数差等)我们得到了模型的第一个版本的结果并认为结果不令人满意?

1个回答

有几个不同的角度可以确定您需要的数据量。其中包括:

  • 项目复杂性:模型执行任务时必须考虑的每个参数都会增加训练所需的数据量。
  • 训练方法:当你的模型被迫理解更多的相互关联的参数时,由此产生的复杂性迫使它改变训练方式。
  • 标注需求:根据您正在执行的任务,可以以不同方式标注数据点。
  • 输入的多样性:如果您的模型输入不会受到高度控制,则需要更多数据来帮助您的模型在不可预测的环境中发挥作用。

您可以开始使用您拥有的数据处理您的模型,然后在您认为有必要时添加更多数据。理想情况下,这将使您非常清楚地了解您的数据需求,并且它们很可能属于上述类别之一。

本文深入介绍了训练数据的需求,因此可能会有所帮助。它还包括各种基于语言和 NLP 项目的数据集大小示例。不幸的是,项目之间没有太多的一致性。一些项目(文本语言识别)使用了 3000 个训练样本和 1000 个测试样本,而其他项目(情感分析)使用了超过 10,000 个样本的数据集。此处的差异可能归因于数据的可用性(例如,推文数据比南非语言文本更容易收集)。