微软“Tay”聊天机器人的腐败是灾难性遗忘的一个例子吗?

人工智能 聊天机器人 历史 灾难性遗忘
2021-10-28 01:07:20

Tay 是一个聊天机器人,他向 Twitter 用户学习。

来自互联网的微软 AI 家族零寒意。你说得越多,Tay 就越聪明。——推特标语。

微软训练人工智能具备基本的沟通能力,并教它一些雇佣喜剧演员的笑话,然后让它失去从对话中学习的能力。

这是一个错误。

但是为什么Tay会出错呢?这是灾难性遗忘的一个例子,短期的、最近的趋势压倒了大的、最近的训练,还是完全是别的什么?

2个回答

看看发生的事情,这是类似的事情。不过,从一个角度来看,这个案例在我看来是不同的:如果它只能做一些喜剧笑话,那可能不是在 Twitter 中脱颖而出的一个深刻的起点。

首先,Twitter 是关于现实生活的,而不是关于喜剧的。讨论有时很艰难,你很容易陷入社交媒体泡沫,只培养某种说话风格和话题。所以,即使是人类也走错了路;为什么不是新手机器人?而且,通过笑话你可能会发现一些关于语言本身的东西,而不是关于主题的东西。所以,成为一个混蛋而不是一个好的喜剧演员是一个合乎逻辑的方向,机器人甚至必须去,至少一点,在同一水平上交流,而不是孤单。

与 Twitter 数据集相比,喜剧演员数据集在技术意义上也非常小,因此在这种情况下谈论小趋势过度扼杀大趋势可能是不正确的,因为有大量可用的示例。

因此,在学习中发生了灾难性的事情,但在该术语的定义下没有发生灾难性的学习。

这本质上是缺乏对众包训练数据的控制。

虽然Tay最初设置了一些会话能力,但它似乎被编程为从与其他用户的交互中学习。一旦用户意识到这一点,他们基本上是通过将机器人暴露在不恰当的语言中来玩弄它,然后 Tay 的算法会选择并重复这些语言。根据有关该主题的Wikipedia 文章,尚不清楚它在我设施之后的重复是否完全有错,或者是否有其他行为导致它。

这并不是灾难性遗忘的真正例子有一次我们不知道 Tay 在内部是如何工作的。我认为这只是它被与预设不同的新数据所淹没。它所接触到的语言似乎不太可能以任何方式预先知道并且是其训练集的一部分(并被标记为“不合适的”)。

从本质上讲,从中得到的教训是永远不要相信任何未经审查的输入数据进行训练,除非你想冒着人们滥用这种信任的风险,就像在这种情况下发生的那样。