我一直在看很多教程视频,它们看起来都一样。例如:https ://www.youtube.com/watch?v=ip4iSMRW5X4
他们解释了很好的状态、动作和概率。该人解释得很好,但我似乎无法掌握它在现实生活中的用途。到目前为止,我还没有遇到任何列表。我看到的最常见的是国际象棋。
它可以用来预测事物吗?如果有,是什么类型的东西?它可以在无限量的数据中找到模式吗?这个算法能为我做什么。
奖励:感觉 MDP 就是从一个州到另一个州,这是真的吗?
我一直在看很多教程视频,它们看起来都一样。例如:https ://www.youtube.com/watch?v=ip4iSMRW5X4
他们解释了很好的状态、动作和概率。该人解释得很好,但我似乎无法掌握它在现实生活中的用途。到目前为止,我还没有遇到任何列表。我看到的最常见的是国际象棋。
它可以用来预测事物吗?如果有,是什么类型的东西?它可以在无限量的数据中找到模式吗?这个算法能为我做什么。
奖励:感觉 MDP 就是从一个州到另一个州,这是真的吗?
马尔可夫决策过程确实与从一个状态到另一个状态有关,主要用于计划和决策。
快速重复这个理论,MDP 是:
其中是状态,是动作,是转移概率(即,在给定动作的情况下,从一个状态到另一个状态是奖励(给定某个状态,并且可能行动),是一个折扣因子,用于降低未来奖励的重要性。
因此,为了使用它,您需要预定义:
一旦定义了 MDP,就可以通过计算每个状态的预期奖励的值迭代或策略迭代来学习策略。然后,该策略为每个状态提供最佳(给定 MDP 模型)要执行的操作。
总而言之,当您想要计划一个有效的行动序列时,MDP 很有用,在这些行动中您的行动并不总是 100% 有效。
它可以用来预测事物吗?
我称之为计划,而不是像回归那样进行预测。
如果有,是什么类型的东西?
请参阅示例。
它可以在无限量的数据中找到模式吗?
MDP 用于进行强化学习,以找到您需要无监督学习的模式。不,您无法处理无限量的数据。实际上,寻找策略的复杂性随着状态数.
这个算法能为我做什么。
请参阅示例。
还有更多的模型。一个更有趣的模型是部分可观察马尔可夫决策过程,其中状态不是完全可见的,而是使用观察来了解当前状态,但这超出了本问题的范围。
如果未来状态的条件概率分布仅取决于当前状态,而不取决于先前的状态(即不取决于先前状态的列表),则随机过程是马尔可夫(或具有马尔可夫性质)。