如何测量 AI 程序的情商?

人工智能 情商 智力测验
2021-11-11 22:50:26

人工智能程序可以有情商(情商或情商)吗?

换句话说,一个AI程序的情商能测出来吗?

如果 EQ 比 IQ 更难衡量(至少有一个适用于人类和 AI 程序的标准),为什么会这样?

1个回答

您的问题的答案是“原则上是的”-在最一般的形式中,情商测试只是图灵测试的一个特定案例(“您对……感觉如何?”)。

要了解为什么有意义的情商测试可能难以实现,请考虑以下两种可能的测试:

在一个极端复杂的情况下,电影《银翼杀手》著名地展示了一项根据对情绪化问题的回答来区分人类和机器人的测试。

如果您尝试向现代聊天机器人询问这些问题(甚至更简单的问题),您可能很快就会得出结论,您不是在与人交谈。

评估 EQ 的问题在于,测试的情感越复杂,人工智能系统可能必须越通用,以便将输入转化为有意义的表示。

在上述的另一个极端,假设 EQ 测试以非常结构化的方式表达,结构化输入由人类提供。在这种情况下,“情商测试”的成功并不是真正基于现实世界。

在一篇题为“不可消除的伊丽莎效应及其危险”的文章中,Douglas Hofstadter 给出了以下示例,其中 ACME 程序被声称(不是 Hofstadter)“理解”类比。

在这里,计算机了解到一个名叫斯拉戈的人带着他的妻子简和他的好伙伴巴克去了一家酒吧,在那里事情顺其自然,简最终被巴克怀孕了。她有了孩子却不想要,于是在丈夫的帮助下,将孩子淹死在河里,从而“巧妙地解决了小鹿斑比的“问题”。

这个故事以下列形式呈现给 ACME:

ql: (neglectful-husband (Sluggo))
q2: (lonely-and-sex-starved-wife (Jane-Doe))
q3: (macho-ladykiller (Buck-Stag))
q4: (poor-innocent-little-fetus (Bambi))
q5: (takes-out-to-local-bar (Sluggo Jane-Doe Buck-Stag))
...
q11: (neatly-solves-the-problem-of (Jane-Doe Bambi))
q12: (cause (ql0 q11))

假设程序被问到 Jane Doe 的行为是否道德。复杂的复合情感概念,例如“疏忽”、“孤独”和“无辜”,在这里只是谓词,人工智能无法进行更深入的内省检查。它们可以很容易地被诸如“bling-blang-blong15657”之类的标签替换。

所以在某种意义上,任何深度的情商测试都没有成功,这表明了人工智能目前面临的普遍问题:无法定义(或以其他方式学习)人类世界微妙复杂性的有意义的表示,这远不止于此。比识别猫的视频更复杂。