对人类智力进行排名的一种方法是基于智商测试。但是我们如何比较人工智能系统的智能呢?
例如,是否有测试告诉我垃圾邮件过滤系统比自动驾驶汽车更智能,或者我可以说国际象棋程序比 AlphaGo 更智能?
对人类智力进行排名的一种方法是基于智商测试。但是我们如何比较人工智能系统的智能呢?
例如,是否有测试告诉我垃圾邮件过滤系统比自动驾驶汽车更智能,或者我可以说国际象棋程序比 AlphaGo 更智能?
有不同的方法来比较不同种类的人工智能技术。
作为一个起点,请注意“人工智能系统”可能意味着非常广泛的事物。在流行文化中,我们通常会想到使用 AI 技术的已部署系统。这些系统只能根据它们的性能进行比较,它们的性能可能与人工智能本身的关系相对较小(例如,它们的行为可能更强烈地受到用户界面决策的影响,而不是引擎盖下的人工智能技术)。
相比之下,人工智能研究人员通常更感兴趣的是比较不同人工智能算法在解决完全开发的系统旨在解决问题的“人工智能”部分时的性能。一种常见的方法是使用基准问题。例如,在机器学习中,通常通过在常用数据集上运行两种算法并比较它们创建的模型的性能来比较两种算法。在人工智能规划中,向社区发出规划挑战是很常见的,并在几个不同的轴上比较规划的质量(例如平均等待时间、最长等待时间、目标是否完成、创建计划需要多长时间、等等。)。
没有普遍认可的方法来比较不同 AI 领域的技术,但普遍采用的方法是图灵测试。在图灵测试中,我们只关心系统模仿人类智能的能力。询问计划问题、学习问题或其他主题是公平的游戏,因此您可以在某种意义上判断一种技术比另一种更好。但是,图灵测试中做出的大多数判断都是主观的,所以不清楚它是否真的解决了你提出的问题。