数据挖掘 - 马尔可夫决策过程表示 - 吾爱随笔录

我正在尝试使用马尔可夫决策过程来模拟一个简单的过程。

让 $A$ 成为一组 $3$ 行动： $A \in \{b,s\}$ . $T(s,a,s')$ 表示如果处于状态的概率 $s$ ，采取行动 $a$ 并最终进入状态 $s'$

MDP 图的符号如下：

这是我的模型 7 状态的 MDP 图：

每个状态的输出动作总和为 1。

$T(1,b,2) = .7$

$T(1,b,3) = .3$

$T(1,s,4) = .9$

$T(1,s,5) = .05$

$T(1,s,6) = .05$

我试图让这个尽可能简单，以检查我的理解。我的陈述和概率是否正确？