有人可以帮我为以下问题制定 MDP 吗?
问题定义
兔子在一个有两扇门的奇怪房间里醒来;一个在左边,一个在右边。他面前是一张建筑物的地图,清楚地标明了每扇门后面的东西。一扇门后面是一个有外面的房间,另一扇门后面是一个饿虎的房间。兔子不喜欢老虎。尤其是饿的。
- 考虑一个控制问题,其中当前状态由兔子当前所在的房间指定,兔子可以采取的行动是穿过一扇门到另一个房间。假设起始房间有 2 扇门,每扇都通向自己的房间,而其他房间中的一个(特别是左边的那个)只有一扇通向出口的门,而另一个(特别是右边的一个)里面有一只老虎。此外,假设兔子完全了解这些细节,但有 10% 的机会在试图穿过其中一扇门时,他会感到困惑并转而穿过另一扇门。最后,假设当兔子和老虎一起进入房间时,这一集并没有结束。
问题
- 为控制兔子的行为以避开老虎并离开建筑物的问题制定马尔可夫决策过程(MDP)。(以表格形式给出转移和奖励函数,或给出带有奖励的转移图)。
我想知道,在为某个问题制定 MDP 之前,是否需要考虑任何程序或规则
到目前为止我做了什么
状态 A - 起始房间
状态 B - 带出口的房间
状态 C - 房间里有一只老虎
我不知道如何进一步进行。
