为什么小数据集需要更多样本,而大数据集在负采样中需要更少样本?

人工智能 循环神经网络 序列建模
2021-11-17 08:02:57

在 Andrew Ng 的深度学习专业课程中,在视频序列模型(4:13 分钟)中,他说在负采样中,我们必须从语料库中选择一个单词样本进行训练,而不是选择整个语料库。但他说,对于较小的数据集,我们需要更多的样本,例如 5-20,而对于较大的数据集,我们需要较小的样本,例如,2-5。通过样本,我指的是我们用来训练模型的单词数和目标词。

为什么小数据集需要更多样本,而大数据集需要更少样本?

1个回答

他可能发现这是避免过度拟合的最佳实践,如果您只使用小型且易于学习(更少的单词 -> 更少的自由度)序列,那么使用小型数据集,那么您打开模型就有过度拟合的风险拟合该数据集,因为在具有更多总信息的大型数据集上,您可以在小序列上进行训练,而不会有过度拟合的风险,因为尽管较小的序列更容易学习,但序列的方差会高得多。