是否由于使用了训练数据集而导致算法偏差?

人工智能 机器学习 图像识别 面部识别 算法偏差
2021-11-01 02:51:55

我最近读到了面部识别中的算法偏差。

算法偏差是由于使用了训练数据集,还是由于其他原因?

2个回答

顾名思义,算法偏差与使用的算法有关。由于它的编程或设计方式,该算法将在其某些样本中存在偏差。

来自ACM 的通讯

[算法] 经常在不经意间拾取在算法编程时或人类与该算法交互时包含的人类偏见。

当然,如果使用了错误的数据集,机器学习模型可能会出现偏差。这通常只被称为偏差,并且通常与偏差-方差权衡相关。

只是为了补充@BlueMoon93的回答中已经说过的话

算法偏差是算法内置的偏差。现在长答案:

正如所谓的无免费午餐定理所述:无论您使用哪种算法,您都无法“免费”学习(即仅通过查看训练示例)。这样做的原因是,您对数据的唯一了解是基于您在训练集中看到的有限示例。为了概括,您的算法必须对数据集的基本性质以及可以表示/解释的方式做出某种假设。

每个算法都内置了一组关于数据集的假设,例如,卷积神经网络内置的假设是可以通过模仿人眼来理解数据集(例如,您用于训练卷积神经网络的图像)已知有效(即偏见)。一些算法可能具有如此强烈的偏差,以至于它们无法学习某些类型的函数。例如,线性模型假设基础数据是线性的(偏差),注意这可能不适用于手头的数据集,在这种情况下,模型中内置的偏差对手头的数据集不利。

正如@BlueMoon93 所指出的,还有另一种形式的偏差,通常简称为“偏差”,它是由所使用的数据集引入的。