有时,这不是一个选项的原因是您对提供的数据没有太多控制权。例如,假设您想要一个花哨的 AI,它可以读取简历并过滤是否适合工作。关于人们在简历中填写的内容并没有一个特别严格的公式,这使得您很难排除您不想考虑的内容。
如果您确实可以更好地控制您所考虑的信息,它仍然可能会受到相关性的阻碍。想一想,这对人类决策者来说是如何实现的。您要确保 Joe Sexist 为女性提供公平的受聘机会,因此您要确保申请表中没有性别字段。您还忽略了应聘者的姓名,因为没有充分的理由让姓名决定是否适合某个职位,并且包括它会揭示很多性别。但是你不会阻止兴趣爱好、俱乐部和社团的进入,因为如果他们是大学运动队的队长,这被认为是对申请者的正面评价。然而,Joe Sexist 认为,如果申请人担任美式橄榄球等男性主导的球队的队长,那是积极的,但认为消极是女性主导的球队的队长!有人可能会说这并不完全是对女性的偏见。Joe Sexist 认为这是对运动员的偏见。但真的,任何其他名字的臭鼬都会臭臭的。
人工智能也可能发生同样的事情。现在要明确一点,人工智能不是性别歧视。在获得数据之前,它是一张没有任何先入之见的空白纸。但是当它获得数据时,它会以同样的方式找到模式。它获得的数据集是 Joe Sexist 多年的招聘决定。正如建议的那样,没有性别条目,但所有可能被认为稍微相关的事物都有字段。例如,我们包括他们是否拥有干净的驾驶执照。人工智能注意到申请人的道路交通违法行为数量与乔雇用他们的可能性之间存在正相关(因为,当然,危险驾驶和性别之间恰好存在性别相关性)。同样,人工智能没有先入之见。它不知道交通违法行为是危险的,应该予以重视。就其数据集而言,它们是点!有了数据集中的这种信息,人工智能可以表现出与乔性别歧视者相同的偏见,即使它不知道什么是“女人”!
为了用特定的数字扩展它,假设您的数据集有 1000 名男性和 1000 名女性申请者,共有 1000 个名额。其中,有 400 名男性和 100 名女性的交通记录已被玷污。
Joe Sexist 不赞成鲁莽的司机:事实上,一个干净的交通记录保证你会击败一个有污点记录的同等候选人。但他非常喜欢男性:男性使你获得录用的可能性是女性的 9 倍。
所以他给了 900 个男人的位置:所有 600 个干净的司机和 300 个肮脏的司机。他为 100 名女性分配了名额:全部给清洁司机。
现在,您删除了数据集中对性别的任何提及。有2000人,500开车不好,1500开车很好。其中,300 名坏司机找到工作,700 名好司机找到工作。因此,25% 的驾驶不好的人得到了 30% 的工作,这意味着(就盲目看数字的 AI 而言)驾驶不好表明你应该得到这份工作。那是个问题。
此外,假设你有一批新的 2000 名申请人,他们的比例相同,轮到 AI 来决定了。现在 AI 通常会通过夸大微妙指标的重要性来使情况变得更糟,但让我们假设这个 AI 以严格的比例做所有事情。AI 了解到 60% (300 / 500) 的不良司机应该得到这份工作。它不知道性别,所以它至少“公平地”分配坏司机奖金:240名男性和60名女性坏司机找到工作。然后280名男性和420名女性好司机找到工作。这涉及到 520 名男性和 480 名女性申请者进入。即使最初的申请者池是平衡的,如果女性更好(至少在驾驶方面),训练数据集中的原始性别歧视仍然给男性带来了一些优势。
现在,不要让我完全劝阻你。就人类而言,一个众所周知的事实是,隐藏某些信息确实可以做出更平衡的招聘决策。即使在我的玩具示例中,虽然它没有达到公平,但它已经大大减少了性别歧视的规模。所以,是的,如果数据集中没有提供最明显的指标,它可能会使人工智能不那么性别歧视。但也许这给出了一些关于为什么它不是问题的完整解决方案的直觉。有一些性别歧视会泄露出来,它也会导致系统与数据集的其他部分产生非常奇怪的关联。