我想开发一种使用 knn 模型的机器学习算法来对我的数据记录进行分类。我的问题是:是否有一种通用的方法可以确定我的训练数据集应该有多大?
如何为机器学习的训练集找到正确的数字
数据挖掘
机器学习
分类
k-nn
2022-03-02 23:40:16
1个回答
是否有通用方法可以确定我的训练数据集应该有多大?
不,没有通用方法,因为它取决于数据:特征的数量、特征值的数量、实例的多样性......
取而代之的是间接方法:
- 训练集太小时的主要问题是过拟合的风险。因此,如果模型在训练时过度拟合实例则表明太低了。当训练集的性能远高于测试集时,通常会检测到过度拟合。
- 更一般地说:消融研究包括评估用不同数量的实例训练的模型,并观察它们的性能作为大小的函数。如果性能在尺寸附近变得稳定那么这表明实例就足够了。