马尔可夫决策过程表示

数据挖掘 机器学习 强化学习 q学习 马尔科夫过程
2022-03-03 17:32:37

我正在尝试使用马尔可夫决策过程来模拟一个简单的过程。

A成为一组3行动:A{b,s}. T(s,a,s)表示如果处于状态的概率s, 采取行动a并最终进入状态s

MDP 图的符号如下:

在此处输入图像描述

这是我的模型 7 状态的 MDP 图:

每个状态的输出动作总和为 1。

在此处输入图像描述

T(1,b,2)=.7

T(1,b,3)=.3

T(1,s,4)=.9

T(1,s,5)=.05

T(1,s,6)=.05

我试图让这个尽可能简单,以检查我的理解。我的陈述和概率是否正确?

1个回答

对我来说看起来“正确”,因为它满足成为 MDP 的要求。无法使用此处提供的信息来验证它是否正确地模拟了潜在的现实世界问题。