在这个网站https://scikit-learn.org/stable/modules/learning_curve.html上,作者正在谈论方差和偏差,他们给出了一个简单的例子来说明线性模型是如何工作的。
如何确定随机森林的偏差和方差?
在这个网站https://scikit-learn.org/stable/modules/learning_curve.html上,作者正在谈论方差和偏差,他们给出了一个简单的例子来说明线性模型是如何工作的。
如何确定随机森林的偏差和方差?
为了更好地理解这一点,我建议首先阅读有关 ML 和 AI 方法中偏差和方差之间的权衡。
我推荐的关于这个主题的一篇很棒的文章作为简单的数学介绍是这样的: https ://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229
简而言之:偏差代表模型对样本进行泛化的努力,而方差则代表模型努力符合新数据的努力。因此,高偏差、低方差模型看起来更像是一条直线(欠拟合),而低偏差、高方差模型将看起来参差不齐并且到处都是(过拟合)。
从本质上讲,您需要在两者之间找到平衡,以避免针对您的特定应用程序的过度拟合(高方差,低偏差)和欠拟合(高偏差,低方差)。
但是,对于诸如 Random Forrest 分类器之类的模型,我该如何确定呢?
要确定您的模型偏差和方差配置(如果太高/太低),您可以查看模型在验证集和测试集上的性能。我们将数据划分为训练-验证-测试集的真正原因是,我们可以在提供训练期间未见过的样本时验证模型的性能。