分类器的偏差和方差分别决定了它对数据的欠拟合和过拟合的程度。如何确定一个分类器的特征是高偏差还是高方差?
我很清楚什么是偏差-方差权衡及其分解以及它如何依赖于训练数据和模型。例如,如果数据不包含与目标函数相关的足够信息(简单地说,缺少样本),那么分类器将由于可能做出的不正确假设而经历高偏差。相反,如果分类器与给定的训练数据紧密匹配(例如,具有大量运行多个 epoch 的节点的 ANN 或具有高深度的决策树),那么它将表现出高方差,因为它不能很好地泛化以预测不可见样品。
但是,在某些情况下,我看到讲座谈论选择高偏差低方差分类器或低偏差高方差分类器。例如,朴素贝叶斯被认为是一个高偏差低方差分类器(我认为这是由于条件独立假设)。如何确定这一点?那么如何描述 SVM、ID3、随机森林和神经网络?它们是高偏差还是高方差?