一个好的评估函数是否与 alpha-beta 剪枝的任何扩展一样好?

人工智能 游戏-ai 搜索 α-β-修剪 静止搜索 评价函数
2021-10-23 15:48:52

我想知道拥有一个非常好的评估函数是否与使用 alpha-beta 修剪的任何扩展一样好,例如杀手移动或静止搜索?

2个回答

为了建立尼尔的答案,你是对的,你的评估函数越好,你的优化函数需要执行的工作就越少。如果您的评估功能足够好,您根本不需要搜索。

不过,这不仅仅是一个学术想法!它实际上被广泛使用,并且一直是解决多个游戏的关键。

我知道的第一个例子是 Tesauro 的TD-Gammon 玩家,从 1995 年开始。Tesauro 使用强化学习和自我游戏的思想来训练神经网络作为评估函数。TD-Gammon 使用已找到的最佳评估函数仅使用 2 步前瞻进行游戏,并且被认为比当时大多数(所有?)人类专家玩家更好。

最近,AlphaGo Zero使用类似的技术来解决围棋问题,但同时学习评估函数和(单独)一个函数来随机化可能的移动。

一个完美的评估函数意味着你只需要进行局部搜索——即最大化下一组决策——以便代理在环境中表现最佳。

因此,如果您能以某种方式创建该函数,它将使使用 alpha-beta 修剪的搜索变得多余。

在实践中,复杂环境的评估函数通常是近似的,通过增加更深的搜索可以得到显着的改进。

搜索算法的优化和评估功能的改进共同作用,使整体解决方案更高效、更接近最优。评估功能提供有关环境和目标的全局/一般知识。树搜索功能提供了局部关注于解决当前相关的优化问题的相对较小的子集。