从 1 到 3 中随机选择了一个数字。在每一步中,我们都可以进行猜测,如果我们的猜测等于、大于或小于所选数字,我们将被告知。我们试图找到猜测次数最少的数字。
我需要为这个问题绘制 7 个状态的 MDP 模型,但我不知道应该如何定义这些状态。任何人都可以帮忙吗?
从 1 到 3 中随机选择了一个数字。在每一步中,我们都可以进行猜测,如果我们的猜测等于、大于或小于所选数字,我们将被告知。我们试图找到猜测次数最少的数字。
我需要为这个问题绘制 7 个状态的 MDP 模型,但我不知道应该如何定义这些状态。任何人都可以帮忙吗?
在将问题表述为 MDP 时,您需要定义系统的状态、您可以采取的可能行动、取决于行动的状态之间的转换概率以及状态转换所获得的奖励(或支付的成本)。这里的重要部分是创建一个具有马尔可夫属性的状态空间,简单地说,这意味着在任何给定状态下,您都有足够的信息来做出最佳决策。
奖励:在这种情况下,我认为很明显,如果我们找出数字,则应该给予积极的奖励,如果不知道,则应该给予零奖励。
动作:我们可以采取的动作是猜测,即可能的动作将来自动作空间A=(1,2,3)。
州:这有点难以提出。在这里,直觉应该来自思考你可以采取的行动以及它们如何改变你所拥有的关于系统的信息。在我们的状态空间中,每个状态将代表答案可能是的一组数字。例如,在一个状态下,(1,3)我们知道猜测的数字是1或3。此外,我们将用大写字母表示这些状态以简化状态转换。
状态转换:这很简单,只要根据我们所做的猜测(动作)想象在一个状态下哪些状态是可达的。这里的符号 P(A|B,1) 表示我们从状态 B 到达状态 A 的概率,假设我们猜到了1。(注意:我们将假设猜测数字的均匀分布)。我想我会在这里偷懒,不会写下所有的转换,因为一旦你了解了它们是如何制作的,它们就会变得非常重复,我只会为所有情况提供示例。
请注意,我之前定义了 8 个状态,但是,状态 C=(1,3) 从未达到,因此我们实际上并不需要它。
我希望这会有所帮助,您将能够完成其余的工作。