如何为机器学习的训练集找到正确的数字

数据挖掘 机器学习 分类 k-nn
2022-03-02 23:40:16

我想开发一种使用 knn 模型的机器学习算法来对我的数据记录进行分类。我的问题是:是否有一种通用的方法可以确定我的训练数据集应该有多大?

1个回答

是否有通用方法可以确定我的训练数据集应该有多大?

不,没有通用方法,因为它取决于数据:特征的数量、特征值的数量、实例的多样性......

取而代之的是间接方法:

  • 训练集太小时的主要问题是过拟合的风险。因此,如果模型在训练时过度拟合ñ实例则表明ñ太低了。当训练集的性能远高于测试集时,通常会检测到过度拟合。
  • 更一般地说:消融研究包括评估用不同数量的实例训练的模型,并观察它们的性能作为大小的函数。如果性能在尺寸附近变得稳定ñ那么这表明ñ实例就足够了。