人工智能是如何变得有偏见的,有什么建议可以减轻这种偏见?

人工智能 哲学 类人 社会的 算法偏差
2021-10-20 23:45:49

这并不意味着消极或玩笑,而是在寻找关于人工智能开发、工程及其对人类生活影响的富有成效的解决方案:

最近在我的谷歌搜索中,人工智能模型不断自动填充我搜索的结尾:

“......越南语”

“……在越南的家里”

问题是我从未搜索过,但由于我的姓氏,模型正在创建这个上下文。

另一个问题是我是一个半人半,我父亲实际上是第三代,我在主流美国人中长大,甚至不会说越南语。我什至不确定越南的家是什么意思。

我的朋友在南亚地区也有类似的情况,并且在 YouTube 推荐的视频中发现了同样的情况。

我们在美国已经有足够多的种族主义问题,根据任何数量的事情预测其他人期望我们是谁,刻板印象和将人们放在盒子里以限制他们——我真的相信人工智能正在加剧这个问题,而不是帮助。

我们该如何解决这个问题。此外,我们如何使用人工智能来激发人们的真实自我、才能和能力,让他们自由地创造自己喜欢的生活?

这里有巨大的潜力来利用人工智能,以给我们带来更多的自由、快乐和美丽,这样人们就可以成为完整的自己和真正的自己。然后满足人们的需求、愿望、梦想和希望。给他们肩膀来创造他们的现实,而不是过着别人对自己的投射。

3个回答

最近在我的谷歌搜索中,人工智能模型不断自动填充我搜索的结尾:

“......越南语”

我可以看到这会很烦人。

我不认为谷歌的自动完成算法和训练数据是公开的。当他们努力改善服务时,它也会经常变化。因此,很难说出究竟是什么导致它提出这个不太有用的建议。

您怀疑这与 Google 检测您的遗产的服务有关,这似乎是合理的。

整个事情都是基于统计推断的。任何机器都不会“知道”越南语 - 或者实际上是您查询中的任何单词 - 的实际含义这是人工智能中几乎所有核心​​ NLP 工作的弱点,被称为接地问题例如,这就是为什么计算机生成的文本样本会产生这种超现实和喜剧材料的原因。遵循语法规则,但语义和长期连贯性是一团糟。

商业聊天机器人系统通过围绕某些主题领域的大量定制编码来解决这个问题,例如订票、购物等。人类开发人员可以“监管”这些较小的领域,将它们与现实联系起来,并避免开放式整个人类语言的本质。然而,搜索引擎文本自动完成功能并不能真正使用这种方法。

您最好的选择可能是:

  • 等等吧。服务会改进。无论在这里使用什么语言使用统计数据,都可能随着时间而改变。您自己在不使用建议的情况下正常使用系统将成为更正数据流的一部分。

  • 向 Google 发送投诉。谷歌某处的某个人会关心这些结果,并将它们视为需要修复的错误。

可悲的是,这些方法都不能保证在任何时间范围内都有结果。

我们在美国已经有足够多的种族主义问题,根据任何数量的事情预测其他人期望我们是谁,刻板印象和将人们放在盒子里以限制他们——我真的相信人工智能正在加剧这个问题,而不是帮助。

有这些担忧的不止您一个人。机器学习算法的统计驱动性质和使用“大数据”来训练它们意味着机器正在暴露长期埋藏在我们语言中的偏见和偏见。这些偏见被机器拾取,然后被不一定想要反映这些态度的公司使用。

类似的例子出现在带有词嵌入的自然语言处理模型中。学习统计语言模型的 LSTM 神经网络的一个非常有趣的特性是,您可以查看单词嵌入、单词的数学表示,并进行“单词数学”:

W(king)W(man)+W(woman)W(queen)

W(he)W(male)+W(female)W(she)

这非常酷,并且意味着学习的嵌入确实在一定深度上捕获了语义。但是,相同的模型可以产生如下结果:

W(doctor)W(male)+W(female)W(nurse)

这并不反映现代对性别平等的敏感性。这显然有一个深刻的原因,因为它来自对来自各种来源的数十亿个文本单词的非偏见统计分析。尽管如此,负责这些系统的工程师更希望他们的模型没有这些缺陷。

我们该如何解决这个问题。此外,我们如何使用人工智能来激发人们的真实自我、才能和能力,让他们自由地创造自己喜欢的生活?

主要是通过认识到统计机器学习和人工智能本质上没有偏见或任何议程。它反映了世界上已经存在的丑陋。根本问题是解决人问题(超出了这个答案的范围,如果我对此有扎实的想法,我就不会从事软件工程工作,而是从事更以人为本的工作)。

但是,我们可以从 AI 系统中消除一些不需要的偏见。大致的步骤是:

  • 认识到特定的人工智能系统已经捕获并正在使用不受欢迎的性别、种族、宗教等偏见。

  • 就无偏模型的行为方式达成共识。它必须仍然有用。

  • 将所需的模型行为添加到 AI 的训练和评估例程中。

例如,在您的情况下,Google 系统的某些用户可能更喜欢阅读越南语文章,或者将英语翻译成越南语,并且发现默认假设所有内容都应该以英语呈现,这很尴尬。这些用户不一定需要为此使用搜索文本,但可能出于某种原因。一个合理的方法是弄清楚如何在不在每个自动完成建议的末尾发送“越南语”垃圾邮件的情况下满足他们的需求,并且通常将建议通过文化差异本地化搜索从自动完成转移到系统的不同部分。

对于 NLP 系统中的性别偏见,Andrew Ng 关于 RNN 的 Coursera 课程展示了如何使用嵌入本身来实现这一点。本质上,它可以通过从一组词(例如“他/她”、“男性/女性”)中识别一个偏差方向来完成,并为大多数其他词消除该方向上的偏差,只保留它固有的词可以反映差异(例如性别偏见的“国王”和“女王”)。

尽管每个不受欢迎的偏见案例都需要人们发现,并将其作为政治和社会问题进行监督,而不是主要是技术问题。

大多数搜索引擎常见的另一个谬误是,一个人搜索的任何东西都是他们自己身份的一个方面。我曾经在步入式浴缸中搜索一位非常年长的亲戚,然后在整个网络上都看到了为体弱多病的老人提供辅助工具的广告。认识到谷歌使用他们的搜索来建立他们的个人资料的用户可以相应地改变他们的搜索。弄乱谷歌的模型也很有趣。尝试搜索“龙图片”,看看 Google 和广告商以多快的速度判定您是少女。玩得开心。尽力把谷歌的你模型变成自相矛盾的垃圾。

我认为关键是通过提供更好的数据来教授算法。人工智能唯一可以使用的就是自己可用的数据。找出它所能做的不是偏见,因为它是基于客观事实的。

如果它知道 98% 的 Nguyens 对 X 感兴趣,对您个人一无所知,那么向您展示 X 可能是件好事。如果您一直点击网站上的否决/不感兴趣等按钮,您的个人数据将覆盖默认值,您将不会再看到 X。

作为用户,您可以提供更好的评​​论以获得更好的结果,作为开发人员,您可以提供更好的方法来获得它:通过记录您点击的内容、搜索并显示“不感兴趣/感兴趣/赞成/反对/喜欢”等。纽扣。

请注意,我使用的是来自不同的、未链接的机器/浏览器的 youtube,并且我从所有这些中得到了不同的建议,可能是因为我用不同的数据训练了 AI。

您还可以使用侵入性较小的数据收集服务,例如,duckduckgo、bitchute 等。