如何确定分类器具有高偏差或高方差?

机器算法验证 机器学习 分类 偏差-方差-权衡
2022-03-04 23:54:52

分类器的偏差和方差分别决定了它对数据的欠拟合和过拟合的程度。如何确定一个分类器的特征是高偏差还是高方差?

我很清楚什么是偏差-方差权衡及其分解以及它如何依赖于训练数据和模型。例如,如果数据不包含与目标函数相关的足够信息(简单地说,缺少样本),那么分类器将由于可能做出的不正确假设而经历高偏差。相反,如果分类器与给定的训练数据紧密匹配(例如,具有大量运行多个 epoch 的节点的 ANN 或具有高深度的决策树),那么它将表现出高方差,因为它不能很好地泛化以预测不可见样品。

但是,在某些情况下,我看到讲座谈论选择高偏差低方差分类器或低偏差高方差分类器。例如,朴素贝叶斯被认为是一个高偏差低方差分类器(我认为这是由于条件独立假设)。如何确定这一点?那么如何描述 SVM、ID3、随机森林和k神经网络?它们是高偏差还是高方差?

1个回答

我假设您对算法的内在质量感兴趣。这是一个重要的问题,也是积极研究的主题。

算法的偏差和方差的界限可以通过算法稳定性的概念来证明- 请参阅:

亚利桑那州的论文展示了 K-NN 和 1-NN 算法的证明,这几乎是完全无偏的(第 4 页)。您将不得不阅读其他论文以了解其他类型的算法。请注意,并非所有算法都有证明,并且存在许多不同形式的稳定性及其相应的界限。

一种不同(但相关)的方法是研究 VC 理论https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_theory