更多的训练数据是否有助于降低高偏差模型的偏差?

机器算法验证 机器学习 偏差-方差-权衡
2022-03-30 03:52:25

很明显,更多的训练数据将有助于降低高方差模型的方差,因为如果学习算法暴露于更多的数据样本,就会减少过度拟合。

但是,训练数据大小对高偏差模型有什么影响?一般来说,更多的训练数据会降低偏差,会没有效果,还是会导致偏差进一步增加?

这个问题比以下类似的问题更具体: 增加训练数据对整体系统准确性有什么影响?

其中一个答案实际上是说“高偏差模型不会从更多的训练示例中受益”。但似乎没有任何共识。

2个回答

但是,训练数据大小对高偏差模型有什么影响?一般来说,更多的训练数据会降低偏差,会没有效果,还是会导致偏差进一步增加?

您的意思是由于高偏差而导致预测错误的模型?

偏差,定义为偏见[F^(X)]=[F^(X)]-F(X)因此不会受到增加训练集大小的影响。如果您的模型在训练集发生变化时预测的值大不相同,即,如果误差主要由预测的方差定义,那么您可以通过更多的训练数据来改善整体损失,因为模型将学会更好地泛化,并且因此方差项将下降。要减少偏差项,您可能需要选择不同的模型。

1-增加训练数据大小会导致方差减少。2-减少方差会导致偏差增加。因此增加训练数据大小会导致方差减小和方差增加。