机器算法验证 - 强化*模型*学习 - 吾爱随笔录

经典强化学习（Q-或 Sarsa-Learning）可以通过环境模型进行扩展。这些模型通常是转换表，其中包含在给定另一种状态和一个动作的情况下到达特定状态的概率。

在无模型学习中，这些转移概率被“合并”到评估函数中。因此，只有一个转换表作为模型，与无模型变体相比没有优势。它的状态预测与无模型变体的评估预测一样受马尔可夫属性的限制。

是否有机器学习方法可以为探索代理自动生成模型，该代理对其环境（例如其位置）的知识不完整，超出了单个转换表的更新？

例如，是否有生成不同转换表的方法，这些转换表根据其预测成功“分段”环境？

查阅文献我找不到任何答案。机器学习百科全书提供了分层强化学习的最新概述。但这与我想知道的不同，至少有以下原因之一。

模型已经给出，问题是使用分层模型学习评估函数。
学习模型与外部奖励有着错综复杂的联系，而不是独立于它。
所有这些方法都涉及通过汇集可以视为一个状态的不同状态来优化强化学习。我正在寻找一种可以区分明显相同的状态以改进预测的方法。（这也将我的问题与这个问题区分开来。）

一个简单的例子是一个网格世界，代理必须到达一个特定的目标位置。然而，与传统的强化学习以及上面提到的分层方法相比，代理的状态不是它在环境中的绝对位置，而是它周围的四个细胞。这引入了转换歧义。

我正在寻找一种自动解决这种歧义的方法。

编辑：

xxxxxx
x....x
xxxxxx

例如，在上述网格世界中移动并感知四个周围单元的代理可能会使用两个单独的转换表对环境进行建模。一个用于左半部分，一个用于环境的右半部分。单独地，每个表都是明确的，尽管整个环境的单个转换表不会。

编辑：

一个单一的模糊转换表（状态分别是代理的北、东、南和西单元格，动作是这些方向之一的运动）：

        x.xx x.x. xxx.
x.xx, n    1    0    0
x.xx, e    0    1    0
x.xx, s    1    0    0
x.xx, w    1    0    0
x.x., n    1    0    0
x.x., e    0    1    1
x.x., s    0    1    0
x.x., w    1    1    0
xxx., n    0    0    1
xxx., e    0    0    1
xxx., s    0    0    1
xxx., w    0    1    0

x.x., e注意和中的歧义x.x., w。这种歧义可以通过“分段”环境或拆分转换表来解决，如下所示。

两个明确的转换表

        x.xx x.x.
x.xx, n    1    0
x.xx, e    0    1
x.xx, s    1    0
x.xx, w    1    0
x.x., n    0    1
x.x., e    0    1
x.x., s    0    1
x.x., w    1    0


        x.x. xxx.
xxx., n    0    1
xxx., e    0    1
xxx., s    0    1
xxx., w    1    0
x.x., n    1    0
x.x., e    0    1
x.x., s    1    0
x.x., w    1    0

编辑：相关问题