我最近读到了面部识别中的算法偏差。
算法偏差是由于使用了训练数据集,还是由于其他原因?
我最近读到了面部识别中的算法偏差。
算法偏差是由于使用了训练数据集,还是由于其他原因?
只是为了补充@BlueMoon93的回答中已经说过的话:
算法偏差是算法内置的偏差。现在长答案:
正如所谓的无免费午餐定理所述:无论您使用哪种算法,您都无法“免费”学习(即仅通过查看训练示例)。这样做的原因是,您对数据的唯一了解是基于您在训练集中看到的有限示例。为了概括,您的算法必须对数据集的基本性质以及可以表示/解释的方式做出某种假设。
每个算法都内置了一组关于数据集的假设,例如,卷积神经网络内置的假设是可以通过模仿人眼来理解数据集(例如,您用于训练卷积神经网络的图像)已知有效(即偏见)。一些算法可能具有如此强烈的偏差,以至于它们无法学习某些类型的函数。例如,线性模型假设基础数据是线性的(偏差),注意这可能不适用于手头的数据集,在这种情况下,模型中内置的偏差对手头的数据集不利。
正如@BlueMoon93 所指出的,还有另一种形式的偏差,通常简称为“偏差”,它是由所使用的数据集引入的。