人工智能 - 如何处理多种类型的决策？ - 吾爱随笔录

如何处理多种类型的决策？

人工智能人工智能设计

2021-11-12 22:35:54

在许多游戏中，从玩家的整体策略来看，存在多个不相似但似乎相互依赖的阶段或决策点。我想到的几个例子：

在简单的平局扑克中，您可以制定弃牌策略和下注策略。如果你知道你的对手下注会随着你抽牌的数量而变化，它们可能不会相互排斥。
在 Cribbage 中有两个阶段，Discard to crib 和 Play。播放阶段绝对取决于在丢弃阶段丢弃哪些牌。因此，做出放弃决定似乎需要了解播放策略。

目的是学习如何设置无监督学习算法来玩具有多种决策类型的游戏。游戏无所谓。我对学习在这种情况下使用哪些 ML 模型感到困惑。由于决策类型不同，我认为单个 NN 不会起作用。

我的问题是如何在 ML 中处理这些依赖关系？有哪些已知的算法/模型可以处理这个问题？

我什至不知道要搜索什么，所以随意向我倾倒一些术语和关键字。=)

1个回答

你的直觉是正确的，神经网络是不行的（见底部除外）。

您似乎想研究称为强化学习的 ML 子领域。简而言之，RL 提供了一组方法来学习在给定情况下采取的最佳行动。

更正式地说，在 RL 设置中，算法通过观察奖励（ $R$ ) 关联到一个动作 ( $a$ ）。

RL 问题可以概念化为马尔可夫决策过程 (MDP)。从萨顿和巴托：

MDP 是顺序决策的经典形式化，其中行动不仅影响即时奖励，还影响随后的情况或状态，并通过这些未来的奖励。

MDP可以面对几种方法，主要是蒙特卡洛方法和时间差分学习。

简而言之，两者都以不同的方式使用贝尔曼方程。eq的一个关键组成部分。是贴现项（ $\gamma$ ）。与未来状态相关的奖励值折现（乘以） $\gamma<1$ 为了调节未来奖励的重要性。

由于您关心策略，因此另一种影响代理学习的方法。环境奖励是采用 epsilon 值 $\epsilon<1$ . 当定义一个 $\epsilon$ -贪婪策略，代理会选择价值最高的动作 $Q$ 只有概率等于 $1-\epsilon$ . 这使代理能够平衡对先前经验的利用与对环境的探索。在立即的低奖励损害在剧集后期获得更高奖励的情况下非常有用。

还有许多其他方法可以影响您选择的学习者的行为，以对其环境做出不同的反应。为了获得完整的视图，我推荐 Sutton 和 Burton，他们在给定的链接上免费提供了 pdf 格式的书。

编辑：差点忘了。神经网络在与更经典的 RL 方法结合使用时会很有用，比如 Q-learning（一种时间差分学习），采用深度 Q-learning 的名称。Alpha go 还使用 Monte Carlo 方法与 2 个 NN 的组合用于价值评估和政策评估Wikipedia。如果没有对经典 RL 方法的清晰概述，我不一定会涉足这个领域。

希望这可以帮助。

其它你可能感兴趣的问题

上一篇LSTM的结构差异？下一篇训练简单 RNN 以生成单词的问题