机器算法验证 - 更多的训练数据是否有助于降低高偏差模型的偏差？ - 吾爱随笔录

更多的训练数据是否有助于降低高偏差模型的偏差？

机器算法验证机器学习偏差-方差-权衡

2022-03-30 03:52:25

很明显，更多的训练数据将有助于降低高方差模型的方差，因为如果学习算法暴露于更多的数据样本，就会减少过度拟合。

但是，训练数据大小对高偏差模型有什么影响？一般来说，更多的训练数据会降低偏差，会没有效果，还是会导致偏差进一步增加？

这个问题比以下类似的问题更具体：增加训练数据对整体系统准确性有什么影响？

其中一个答案实际上是说“高偏差模型不会从更多的训练示例中受益”。但似乎没有任何共识。

2个回答

但是，训练数据大小对高偏差模型有什么影响？一般来说，更多的训练数据会降低偏差，会没有效果，还是会导致偏差进一步增加？

您的意思是由于高偏差而导致预测错误的模型？

偏差，定义为 $\operatorname{Bias}[\hat{f}(x)]=\mathrm{E}[\hat{f}(x)]-f(x)$ 因此不会受到增加训练集大小的影响。如果您的模型在训练集发生变化时预测的值大不相同，即，如果误差主要由预测的方差定义，那么您可以通过更多的训练数据来改善整体损失，因为模型将学会更好地泛化，并且因此方差项将下降。要减少偏差项，您可能需要选择不同的模型。

1-增加训练数据大小会导致方差减少。2-减少方差会导致偏差增加。因此增加训练数据大小会导致方差减小和方差增加。

其它你可能感兴趣的问题

上一篇为什么统计课程的博士课程相对于基础科学的博士课程来说很重？下一篇如何测试生成时间序列的过程是否随时间变化