最近在我的谷歌搜索中,人工智能模型不断自动填充我搜索的结尾:
“......越南语”
我可以看到这会很烦人。
我不认为谷歌的自动完成算法和训练数据是公开的。当他们努力改善服务时,它也会经常变化。因此,很难说出究竟是什么导致它提出这个不太有用的建议。
您怀疑这与 Google 检测您的遗产的服务有关,这似乎是合理的。
整个事情都是基于统计推断的。任何机器都不会“知道”越南语 - 或者实际上是您查询中的任何单词 - 的实际含义。这是人工智能中几乎所有核心 NLP 工作的弱点,被称为接地问题。例如,这就是为什么计算机生成的文本样本会产生这种超现实和喜剧材料的原因。遵循语法规则,但语义和长期连贯性是一团糟。
商业聊天机器人系统通过围绕某些主题领域的大量定制编码来解决这个问题,例如订票、购物等。人类开发人员可以“监管”这些较小的领域,将它们与现实联系起来,并避免开放式整个人类语言的本质。然而,搜索引擎文本自动完成功能并不能真正使用这种方法。
您最好的选择可能是:
可悲的是,这些方法都不能保证在任何时间范围内都有结果。
我们在美国已经有足够多的种族主义问题,根据任何数量的事情预测其他人期望我们是谁,刻板印象和将人们放在盒子里以限制他们——我真的相信人工智能正在加剧这个问题,而不是帮助。
有这些担忧的不止您一个人。机器学习算法的统计驱动性质和使用“大数据”来训练它们意味着机器正在暴露长期埋藏在我们语言中的偏见和偏见。这些偏见被机器拾取,然后被不一定想要反映这些态度的公司使用。
类似的例子出现在带有词嵌入的自然语言处理模型中。学习统计语言模型的 LSTM 神经网络的一个非常有趣的特性是,您可以查看单词嵌入、单词的数学表示,并进行“单词数学”:
W(king)−W(man)+W(woman)≈W(queen)
W(he)−W(male)+W(female)≈W(she)
这非常酷,并且意味着学习的嵌入确实在一定深度上捕获了语义。但是,相同的模型可以产生如下结果:
W(doctor)−W(male)+W(female)≈W(nurse)
这并不反映现代对性别平等的敏感性。这显然有一个深刻的原因,因为它来自对来自各种来源的数十亿个文本单词的非偏见统计分析。尽管如此,负责这些系统的工程师更希望他们的模型没有这些缺陷。
我们该如何解决这个问题。此外,我们如何使用人工智能来激发人们的真实自我、才能和能力,让他们自由地创造自己喜欢的生活?
主要是通过认识到统计机器学习和人工智能本质上没有偏见或任何议程。它反映了世界上已经存在的丑陋。根本问题是解决人问题(超出了这个答案的范围,如果我对此有扎实的想法,我就不会从事软件工程工作,而是从事更以人为本的工作)。
但是,我们可以从 AI 系统中消除一些不需要的偏见。大致的步骤是:
例如,在您的情况下,Google 系统的某些用户可能更喜欢阅读越南语文章,或者将英语翻译成越南语,并且发现默认假设所有内容都应该以英语呈现,这很尴尬。这些用户不一定需要为此使用搜索文本,但可能出于某种原因。一个合理的方法是弄清楚如何在不在每个自动完成建议的末尾发送“越南语”垃圾邮件的情况下满足他们的需求,并且通常将建议通过文化差异本地化搜索从自动完成转移到系统的不同部分。
对于 NLP 系统中的性别偏见,Andrew Ng 关于 RNN 的 Coursera 课程展示了如何使用嵌入本身来实现这一点。本质上,它可以通过从一组词(例如“他/她”、“男性/女性”)中识别一个偏差方向来完成,并为大多数其他词消除该方向上的偏差,只保留它固有的词可以反映差异(例如性别偏见的“国王”和“女王”)。
尽管每个不受欢迎的偏见案例都需要人们发现,并将其作为政治和社会问题进行监督,而不是主要是技术问题。