我已经读过 MDP 的状态转换函数是一个概率。对于建模来说,这对我来说似乎很奇怪,因为大多数环境(如视频游戏)都是确定性的。
现在,我想断言,我们使用的大多数系统都是确定性的,给定足够的状态信息(即在视频游戏中,如果你有随机数种子,你可以预测“滚动”,然后其他一切都跟随游戏逻辑)。
因此,我对 MDP 状态转换为什么是概率的猜测是因为给予 MDP 的状态通常是可用总信息的子集(即来自特征工程)。那当然是对非确定性系统进行建模。
我的理解正确吗?
我已经读过 MDP 的状态转换函数是一个概率。对于建模来说,这对我来说似乎很奇怪,因为大多数环境(如视频游戏)都是确定性的。
现在,我想断言,我们使用的大多数系统都是确定性的,给定足够的状态信息(即在视频游戏中,如果你有随机数种子,你可以预测“滚动”,然后其他一切都跟随游戏逻辑)。
因此,我对 MDP 状态转换为什么是概率的猜测是因为给予 MDP 的状态通常是可用总信息的子集(即来自特征工程)。那当然是对非确定性系统进行建模。
我的理解正确吗?