通过不提供不相关的数据来防止偏见

人工智能 神经网络 机器学习 社会的 算法偏差
2021-11-01 05:59:09

这似乎是一个简单的想法,但我从来没有听说过有人解决过这个问题,而且快速的谷歌没有发现任何东西,所以就这样吧。

我了解机器学习的方式是它识别数据中的模式,而不一定是存在的模式——这可能会导致偏见。一个这样的例子是雇佣 AI:如果一个 AI 被训练来根据之前的例子雇佣员工,它可能会重现之前的人类偏见,比如说,女性。

为什么我们不能只提供没有我们认为具有歧视性或不相关的数据的训练数据,例如,没有性别、种族等字段,人工智能仍然可以绘制那些带有偏见的联系吗?如果是这样,怎么做?如果没有,为什么以前没有考虑到这一点?

同样,这似乎是一个如此简单的话题,所以如果我只是无知,我深表歉意。但是一段时间以来,我已经专门了解了一些关于 AI 和机器学习的知识,我只是很惊讶这从未被提及,甚至没有作为“这是什么不起作用”的例子。

3个回答

为什么我们不能只提供没有我们认为具有歧视性或不相关的数据的训练数据,例如,没有性别、种族等字段,人工智能仍然可以绘制那些带有偏见的联系吗?如果是这样,怎么做?如果没有,为什么以前没有考虑到这一点?

是的。AI/模型仍然可以学习那些带有偏见的联系。假设您有第三个变量,它是一个混杂变量或具有与偏差变量 (BV) 和因变量 (DV) 相关的虚假关系。并且,分析师删除了 BV,但未能从提供给模型的数据中删除第三个变量。然后模型将学习分析师不想学习的关系。

但是,同时删除变量可能会导致遗漏变量偏差,当相关变量被遗漏时会发生这种情况。

前任:

假设目标是预测薪水(小号) 的个体和自变量是年龄 (一个) 和经验 () 个人。分析师希望消除可能因年龄而产生的偏见。因此,她从其中一个模型中删除了年龄,并提出了两个相互竞争的线性模型:

小号=β0+β1+ε

小号=β0+β1*+β2一个+ε

由于经验与年龄高度相关,在模型中存在年龄的情况下,很可能β1*<β1.β1将是对一个人的薪水经验的虚假估计,因为第一个模型存在遗漏变量偏差。

同时,第一个模型的预测会相当不错,尽管第二个模型很可能会击败第一个模型。因此,如果分析师想要消除由于年龄而可能出现的任何“偏见”,即一个她还必须删除从模型。

有时,这不是一个选项的原因是您对提供的数据没有太多控制权。例如,假设您想要一个花哨的 AI,它可以读取简历并过滤是否适合工作。关于人们在简历中填写的内容并没有一个特别严格的公式,这使得您很难排除您不想考虑的内容。

如果您确实可以更好地控制您所考虑的信息,它仍然可能会受到相关性的阻碍。想一想,这对人类决策者来说是如何实现的。您要确保 Joe Sexist 为女性提供公平的受聘机会,因此您要确保申请表中没有性别字段。您还忽略了应聘者的姓名,因为没有充分的理由让姓名决定是否适合某个职位,并且包括它会揭示很多性别。但是你不会阻止兴趣爱好、俱乐部和社团的进入,因为如果他们是大学运动队的队长,这被认为是对申请者的正面评价。然而,Joe Sexist 认为,如果申请人担任美式橄榄球等男性主导的球队的队长,那是积极的,但认为消极是女性主导的球队的队长!有人可能会说这并不完全是对女性的偏见。Joe Sexist 认为这是对运动员的偏见。但真的,任何其他名字的臭鼬都会臭臭的。

人工智能也可能发生同样的事情。现在要明确一点,人工智能不是性别歧视。在获得数据之前,它是一张没有任何先入之见的空白纸。但是当它获得数据时,它会以同样的方式找到模式。它获得的数据集是 Joe Sexist 多年的招聘决定。正如建议的那样,没有性别条目,但所有可能被认为稍微相关的事物都有字段。例如,我们包括他们是否拥有干净的驾驶执照。人工智能注意到申请人的道路交通违法行为数量与乔雇用他们的可能性之间存在正相关(因为,当然,危险驾驶和性别之间恰好存在性别相关性)。同样,人工智能没有先入之见。它不知道交通违法行为是危险的,应该予以重视。就其数据集而言,它们是点!有了数据集中的这种信息,人工智能可以表现出与乔性别歧视者相同的偏见,即使它不知道什么是“女人”!


为了用特定的数字扩展它,假设您的数据集有 1000 名男性和 1000 名女性申请者,共有 1000 个名额。其中,有 400 名男性和 100 名女性的交通记录已被玷污。

Joe Sexist 不赞成鲁莽的司机:事实上,一个干净的交通记录保证你会击败一个有污点记录的同等候选人。但他非常喜欢男性:男性使你获得录用的可能性是女性的 9 倍。

所以他给了 900 个男人的位置:所有 600 个干净的司机和 300 个肮脏的司机。他为 100 名女性分配了名额:全部给清洁司机。

现在,您删除了数据集中对性别的任何提及。有2000人,500开车不好,1500开车很好。其中,300 名坏司机找到工作,700 名好司机找到工作。因此,25% 的驾驶不好的人得到了 30% 的工作,这意味着(就盲目看数字的 AI 而言)驾驶不好表明你应该得到这份工作。那是个问题。

此外,假设你有一批新的 2000 名申请人,他们的比例相同,轮到 AI 来决定了。现在 AI 通常会通过夸大微妙指标的重要性来使情况变得更糟,但让我们假设这个 AI 以严格的比例做所有事情。AI 了解到 60% (300 / 500) 的不良司机应该得到这份工作。它不知道性别,所以它至少“公平地”分配坏司机奖金:240名男性和60名女性坏司机找到工作。然后280名男性和420名女性好司机找到工作。这涉及到 520 名男性和 480 名女性申请者进入。即使最初的申请者池是平衡的,如果女性更好(至少在驾驶方面),训练数据集中的原始性别歧视仍然给男性带来了一些优势。


现在,不要让我完全劝阻你。就人类而言,一个众所周知的事实是,隐藏某些信息确实可以做出更平衡的招聘决策。即使在我的玩具示例中,虽然它没有达到公平,但它已经大大减少了性别歧视的规模。所以,是的,如果数据集中没有提供最明显的指标,它可能会使人工智能不那么性别歧视。但也许这给出了一些关于为什么它不是问题的完整解决方案的直觉。有一些性别歧视会泄露出来,它也会导致系统与数据集的其他部分产生非常奇怪的关联。

这里还有一个更广泛的社会问题需要考虑。当我们制造机器时,我们会评估它们所做的事情并决定它们所采取的行动是否对我们有利。所有社会都这样做,尽管您可能比您自己的社会更了解诸如阿米什人之类的明显例子。

当人们抱怨人工智能系统做出有偏见的决策时,他们不仅在评估结果是否准确,而且还在评估该决策是否支持他们希望在社会中体现的价值观。

你可以让人类在做出决定时考虑文化因素,但人工智能却不能完全不知道这些因素。人们将此描述为抱怨“偏见”,但这并不总是完全准确的。他们真的在抱怨人工智能系统的使用没有考虑到他们认为重要的更广泛的社会问题。