如何处理多种类型的决策?

人工智能 人工智能设计
2021-11-12 22:35:54

在许多游戏中,从玩家的整体策略来看,存在多个不相似但似乎相互依赖的阶段或决策点。我想到的几个例子:

  1. 在简单的平局扑克中,您可以制定弃牌策略和下注策略。如果你知道你的对手下注会随着你抽牌的数量而变化,它们可能不会相互排斥。

  2. 在 Cribbage 中有两个阶段,Discard to crib 和 Play。播放阶段绝对取决于在丢弃阶段丢弃哪些牌。因此,做出放弃决定似乎需要了解播放策略。

目的是学习如何设置无监督学习算法来玩具有多种决策类型的游戏。游戏无所谓。我对学习在这种情况下使用哪些 ML 模型感到困惑。由于决策类型不同,我认为单个 NN 不会起作用。

我的问题是如何在 ML 中处理这些依赖关系?有哪些已知的算法/模型可以处理这个问题?

我什至不知道要搜索什么,所以随意向我倾倒一些术语和关键字。=)

1个回答

你的直觉是正确的,神经网络是不行的(见底部除外)。

您似乎想研究称为强化学习的 ML 子领域。简而言之,RL 提供了一组方法来学习在给定情况下采取的最佳行动。

更正式地说,在 RL 设置中,算法通过观察奖励(R) 关联到一个动作 (一个)。

RL 问题可以概念化为马尔可夫决策过程 (MDP)。萨顿和巴托

MDP 是顺序决策的经典形式化,其中行动不仅影响即时奖励,还影响随后的情况或状态,并通过这些未来的奖励。

MDP可以面对几种方法,主要是蒙特卡洛方法和时间差分学习。

简而言之,两者都以不同的方式使用贝尔曼方程eq的一个关键组成部分。是贴现项(γ)。与未来状态相关的奖励值折现(乘以)γ<1为了调节未来奖励的重要性。

由于您关心策略,因此另一种影响代理学习的方法。环境奖励是采用 epsilon 值ε<1. 当定义一个ε-贪婪策略,代理会选择价值最高的动作只有概率等于1-ε. 这使代理能够平衡对先前经验的利用与对环境的探索在立即的低奖励损害在剧集后期获得更高奖励的情况下非常有用。

还有许多其他方法可以影响您选择的学习者的行为,以对其环境做出不同的反应。为了获得完整的视图,我推荐 Sutton 和 Burton,他们在给定的链接上免费提供了 pdf 格式的书。

编辑:差点忘了。神经网络在与更经典的 RL 方法结合使用时会很有用,比如 Q-learning(一种时间差分学习),采用深度 Q-learning 的名称。Alpha go 还使用 Monte Carlo 方法与 2 个 NN 的组合用于价值评估和政策评估Wikipedia如果没有对经典 RL 方法的清晰概述,我不一定会涉足这个领域。

希望这可以帮助。