需要做什么才能做出公平的算法?

人工智能 无监督学习 社会的 监督学习 可解释的ai 算法偏差
2021-11-17 20:01:32

需要做什么才能做出公平的算法(有监督和无监督)?

在这种情况下,公平的定义没有达成共识,所以你可以使用你认为最合适的定义。

1个回答

论文《公平和无偏见的算法决策:当前状态和未来挑战》认为,确保公平并不是一项微不足道的任务,当前的公平统计形式化导致一长串标准在不同情况下都有缺陷(甚至有害) ,也就是说,在提议的形式化之间存在权衡。因此,算法中的公平性约束必须特定于算法应用的领域。为了实现这一目标,需要与领域专家和可解释的人工智能合作。

公平机器学习算法的主要障碍是算法偏差的存在,可以细分为以下主要类别:

  • 数据中的偏差,和
  • 归纳偏差(算法或模型背后的隐含或显式假设),或者一般来说,在算法或模型开发过程中引入的任何偏差(例如,对特征子集的特定选择可能会改变模型的结果)。

数据中的偏差可能是由于不同的因素造成的,例如对收集的(或标记的)数据的选择有偏差或测量错误(这可能使数据不能代表总体)。因果推理可以用来理解数据中的因果关系,从而可以找到数据中偏差的来源。为避免因数据偏差而造成的不公平,需要对数据进行分析和理解,从而提高其质量(例如,通过增加数据的多样性)。然而,数据中的偏差并不总是很容易减少,因为实验的某些结果可能很少发生或在实践中难以产生,因此无偏差的数据可能并不总是容易收集。

在论文选择性标签问题:在存在不可观察的情况下评估算法预测(2017)中,作者解决了选择性标签问题(即决策者的判断决定了哪些实例在数据中被标记,从而可以引入数据中的偏差)并开发一种称为收缩的方法,该方法可用于比较预测模型和人类决策者的性能(即使存在不可观察的情况)。还有一些基于贝叶斯或因果推理的作品(例如,风险调整回归

样本偏差(由于数据收集中的系统性有意或无意错误,测量误差,也可能是由于社会偏见造成的数据不能代表总体人口)也是数据中的一种偏差形式来自偏见数据的公平机器学习中的残余不公平论文(2018 年)中,作者在警察拦截搜身的背景下解决了这个问题(其中有偏见的警察行为导致种族少数群体的过度拦截)。Nathan Kallus 和 Angela Zhou表明,为公平调整分类器并不能解决样本偏差问题

在论文《公平和无偏见的算法决策:当前状态和未来挑战》中,作者认为,如果不考虑具体的社会和道德背景,任何减少算法或模型开发过程中引入的偏见的尝试它们应该被应用,仍然会导致算法偏差。此外,算法应该经常进行重新评估,例如,底层人口或应用程序上下文可能会发生变化。