我如何知道我的训练数据集是否足够?

数据挖掘 分类 数据集
2022-03-07 17:37:26

如果班级数量是C=5, 训练集包含N=3000样品,和D=4方面。

我的数据集是否足够?

2个回答

我们无法直接从您数据的形状描述中判断我们的训练数据集是否足够。

大多数时候,我们会采样一些实例,希望它们作为真实世界的数据分布,以便通过这些数据构建的最终模型能够揭示真实世界的真相。理论上,训练数据的大小不是问题,但我们应该尽可能多地收集训练样本,以确保我们的模型在预测实例上具有良好的性能。

无论如何,我们可以通过测试我们的预测值的分布是否与真值的分布一致来得到答案。

这取决于您的训练模型。

数据需要足够大,以便您可以对数据进行二次采样(替换)而不会丢失 F1 分数这就是理论。

对于神经网络,经验法则是 P^2,P 是参数的数量。这通常很难实现。

在实践中,如果您有机会创建更多数据,制作一些,检查改进,如果有,您需要更多数据(即对于您的模型)