马尔可夫决策过程的真实示例

机器算法验证 马尔科夫过程
2022-01-17 16:24:33

我一直在看很多教程视频,它们看起来都一样。例如:https ://www.youtube.com/watch?v=ip4iSMRW5X4

他们解释了很好的状态、动作和概率。该人解释得很好,但我似乎无法掌握它在现实生活中的用途。到目前为止,我还没有遇到任何列表。我看到的最常见的是国际象棋。

它可以用来预测事物吗?如果有,是什么类型的东西?它可以在无限量的数据中找到模式吗?这个算法能为我做什么。

奖励:感觉 MDP 就是从一个州到另一个州,这是真的吗?

1个回答

马尔可夫决策过程确实与从一个状态到另一个状态有关,主要用于计划决策

理论

快速重复这个理论,MDP 是:

MDP=S,A,T,R,γ

其中是状态,是动作,是转移概率(即,在给定动作的情况下,从一个状态到另一个状态是奖励(给定某个状态,并且可能行动),是一个折扣因子,用于降低未来奖励的重要性。SATPr(s|s,a)Rγ

因此,为了使用它,您需要预定义:

  1. 状态:这些可以参考例如机器人技术中的网格图,或者例如门打开门关闭
  2. 动作:一组固定的动作,例如机器人向北、向南、向东等,或者打开和关闭一扇门。
  3. 转移概率:给定动作从一种状态到另一种状态的概率。例如,如果动作是打开的,那么门打开的概率是多少。在完美世界中,后者可能是 1.0,但如果它是机器人,它可能无法正确处理门把手。移动机器人的另一个例子是动作north,在大多数情况下会将它带到它以北的网格单元格中,但在某些情况下可能移动太多并到达下一个单元格。
  4. 奖励:这些用于指导计划。在网格示例的情况下,我们可能想去某个单元格,如果我们靠近,奖励会更高。在门的例子中,一扇敞开的门可能会带来很高的回报。

一旦定义了 MDP,就可以通过计算每个状态的预期奖励的值迭代策略迭代来学习策略。然后,该策略为每个状态提供最佳(给定 MDP 模型)要执行的操作。

总而言之,当您想要计划一个有效的行动序列时,MDP 很有用,在这些行动中您的行动并不总是 100% 有效。

你的问题

它可以用来预测事物吗?

我称之为计划,而不是像回归那样进行预测。

如果有,是什么类型的东西?

请参阅示例

它可以在无限量的数据中找到模式吗?

MDP 用于进行强化学习,以找到您需要无监督学习的模式。不,您无法处理无限量的数据。实际上,寻找策略的复杂性随着状态数.|S|

这个算法能为我做什么。

请参阅示例

MDP的应用示例

  • White, DJ (1993)提到了大量的应用:
    • 收获:必须留下多少人口进行繁殖。
    • 农业:根据天气和土壤状况种植多少。
    • 水资源:保持水库水位正确。
    • 检查、维护和修理:根据年龄、状况等何时更换/检查。
    • 采购和生产:根据需求生产多少。
    • 队列:减少等待时间。
    • ...
  • 财务:决定投资多少股票。
  • 机器人:

还有更多的模型。一个更有趣的模型是部分可观察马尔可夫决策过程,其中状态不是完全可见的,而是使用观察来了解当前状态,但这超出了本问题的范围。

附加信息

如果未来状态的条件概率分布仅取决于当前状态,而不取决于先前的状态(即不取决于先前状态的列表),则随机过程是马尔可夫(或具有马尔可夫性质)。