需要做什么才能做出公平的算法(有监督和无监督)?
在这种情况下,对公平的定义没有达成共识,所以你可以使用你认为最合适的定义。
需要做什么才能做出公平的算法(有监督和无监督)?
在这种情况下,对公平的定义没有达成共识,所以你可以使用你认为最合适的定义。
论文《公平和无偏见的算法决策:当前状态和未来挑战》认为,确保公平并不是一项微不足道的任务,当前的公平统计形式化导致一长串标准在不同情况下都有缺陷(甚至有害) ,也就是说,在提议的形式化之间存在权衡。因此,算法中的公平性约束必须特定于算法应用的领域。为了实现这一目标,需要与领域专家和可解释的人工智能合作。
公平机器学习算法的主要障碍是算法偏差的存在,可以细分为以下主要类别:
数据中的偏差可能是由于不同的因素造成的,例如对收集的(或标记的)数据的选择有偏差或测量错误(这可能使数据不能代表总体)。因果推理可以用来理解数据中的因果关系,从而可以找到数据中偏差的来源。为避免因数据偏差而造成的不公平,需要对数据进行分析和理解,从而提高其质量(例如,通过增加数据的多样性)。然而,数据中的偏差并不总是很容易减少,因为实验的某些结果可能很少发生或在实践中难以产生,因此无偏差的数据可能并不总是容易收集。
在论文选择性标签问题:在存在不可观察的情况下评估算法预测(2017)中,作者解决了选择性标签问题(即决策者的判断决定了哪些实例在数据中被标记,从而可以引入数据中的偏差)并开发一种称为收缩的方法,该方法可用于比较预测模型和人类决策者的性能(即使存在不可观察的情况)。还有一些基于贝叶斯或因果推理的作品(例如,风险调整回归)
样本偏差(由于数据收集中的系统性有意或无意错误,测量误差,也可能是由于社会偏见造成的数据不能代表总体人口)也是数据中的一种偏差形式。在来自偏见数据的公平机器学习中的残余不公平论文(2018 年)中,作者在警察拦截搜身的背景下解决了这个问题(其中有偏见的警察行为导致种族少数群体的过度拦截)。Nathan Kallus 和 Angela Zhou表明,为公平调整分类器并不能解决样本偏差问题。
在论文《公平和无偏见的算法决策:当前状态和未来挑战》中,作者认为,如果不考虑具体的社会和道德背景,任何减少算法或模型开发过程中引入的偏见的尝试它们应该被应用,仍然会导致算法偏差。此外,算法应该经常进行重新评估,例如,底层人口或应用程序上下文可能会发生变化。