是什么让机器学习算法成为低方差算法或高方差算法?

人工智能 机器学习 线性回归 统计人工智能 决策树 偏差-方差-权衡
2021-11-05 08:18:29

低方差机器学习算法的一些示例包括线性回归、线性判别分析和逻辑回归。

高方差机器学习算法的示例包括决策树、k 最近邻和支持向量机。

来源:

是什么让机器学习算法成为低方差算法或高方差算法?例如,为什么决策树、k-NN 和 SVM 具有高方差?

2个回答

这是在谈论机器学习算法在“记忆”数据方面的能力。决策树,就其本质而言,往往很容易过拟合,这是因为它们可以沿着非常非线性的曲线分隔空间,特别是如果你得到一棵非常深的树。另一方面,更简单的算法倾向于沿着线性超曲面分离空间,因此倾向于欠拟合数据并且可能无法给出很好的预测,但可能在与训练非常不同的新的看不见的数据上表现更好数据。

一个算法的偏差和方差可以被认为是它的属性,这可以用我们称之为超参数的东西来调整,但是每个算法都有它自己的一组假设,如果这些假设得到满足,算法的性能会更好。

一些算法,如逻辑回归、线性支持向量机(不是内核支持向量机,因为它们也可以用于非线性问题)等是线性模型,如果数据是线性可分的,则效果很好。如果数据不能被一个线性平面隔开,那么无论你怎么微调和微调都行不通,因为数据根本不能被一个线性平面隔开,这就是大家的偏见谈论这些类型的算法。

另一方面,决策树可以将整个空间分成几个超立方体,并根据数据点所在的超立方体对该数据点进行分类。另一方面,KNN 使用数据点的邻居及其类型/属性进行预测。因此,这些数据点位置的变化将在很大程度上影响这两种算法的决策边界,这就是为什么它们很容易过度拟合并具有高方差的原因。

希望这可以帮助。