我有一个庞大的数据集(超过 100 万个数据点)。我的数据集是文本。我正在对其进行 NER 以识别少数实体。如果我从总数据集中随机选择 100 个数据点并训练我的模型(LSTM),这会产生好的结果吗?我将20k
随机批量运行。这是否正确地近似数据或者我需要运行比数据点总数更多的批次?
来自大型数据集的随机样本的训练模型
数据挖掘
深度学习
lstm
小批量梯度下降
2022-01-29 14:21:17
1个回答
完全取决于您的数据,如果您的变量主要是数字,那么您可以使用小样本。但是,如果您有很多分类变量,则需要确保每个变量的每个类别都在子样本中得到很好的表示。如果它们都是数字的,我会选择重复 1000 次的 1000 个数据点。
其它你可能感兴趣的问题