为什么 MDP 中的状态转换是概率性的而不是确定性的?

人工智能 机器学习 强化学习 马尔可夫决策过程
2021-10-30 12:25:33

我已经读过 MDP 的状态转换函数Pa(s,s)是一个概率。对于建模来说,这对我来说似乎很奇怪,因为大多数环境(如视频游戏)都是确定性的。

现在,我想断言,我们使用的大多数系统都是确定性的,给定足够的状态信息(即在视频游戏中,如果你有随机数种子,你可以预测“滚动”,然后其他一切都跟随游戏逻辑)。

因此,我对 MDP 状态转换为什么是概率的猜测是因为给予 MDP 的状态通常是可用总信息的子集(即来自特征工程)。那当然是对非确定性系统进行建模。

我的理解正确吗?

1个回答

你的理解是对的!

使用概率转换函数允许模型在做出决定之前探索更大的搜索空间。MDP 最重要的用例之一是在 NLP 中使用隐马尔可夫模型进行 POS 标记。

在确定性模型的情况下,搜索空间受到转换次数的限制,因此在每个步骤中,都会做出明确的决定。这不考虑先前状态之间关系的可能性,而仅处理当前状态和下一个状态。这些模型适用于解决一定范围的任务,如决策树等。

当涉及到天气预报等任务时,历史天气数据具有重要意义。在这种情况下,我们不能使用确定性方法。你总是预测chance降雨等。

天气预报

这个例子也可以扩展到预测未来几天的天气