人工智能 - 为什么 MDP 中的状态转换是概率性的而不是确定性的？ - 吾爱随笔录

人工智能机器学习强化学习马尔可夫决策过程

2021-10-30 12:25:33

我已经读过 MDP 的状态转换函数 $P_a(s, s')$ 是一个概率。对于建模来说，这对我来说似乎很奇怪，因为大多数环境（如视频游戏）都是确定性的。

现在，我想断言，我们使用的大多数系统都是确定性的，给定足够的状态信息（即在视频游戏中，如果你有随机数种子，你可以预测“滚动”，然后其他一切都跟随游戏逻辑）。

因此，我对 MDP 状态转换为什么是概率的猜测是因为给予 MDP 的状态通常是可用总信息的子集（即来自特征工程）。那当然是对非确定性系统进行建模。

我的理解正确吗？

1个回答

你的理解是对的！

使用概率转换函数允许模型在做出决定之前探索更大的搜索空间。MDP 最重要的用例之一是在 NLP 中使用隐马尔可夫模型进行 POS 标记。

在确定性模型的情况下，搜索空间受到转换次数的限制，因此在每个步骤中，都会做出明确的决定。这不考虑先前状态之间关系的可能性，而仅处理当前状态和下一个状态。这些模型适用于解决一定范围的任务，如决策树等。

当涉及到天气预报等任务时，历史天气数据具有重要意义。在这种情况下，我们不能使用确定性方法。你总是预测chance降雨等。

这个例子也可以扩展到预测未来几天的天气

其它你可能感兴趣的问题