学习分层强化任务的结构

机器算法验证 机器学习
2022-03-24 19:12:47

我一直在研究分层强化学习问题,虽然很多论文都提出了学习策略的算法,但他们似乎都假设他们事先知道描述域中动作层次结构的图结构。例如, Dietterich的 MAXQ Method for Hierarchial Reinforcement Learning描述了一个简单出租车领域的动作和子任务图,但没有描述这个图是如何被发现的。您将如何学习此图的层次结构,而不仅仅是策略?

换句话说,使用论文的例子,如果一辆出租车漫无目的地行驶,对世界知之甚少,只有原始的左移/右移/等动作,它如何学习更高级别的动作,比如去接乘客?如果我正确理解了这篇论文(我可能不是),它会建议如何更新这些高级操作的策略,而不是它们最初是如何形成的。

1个回答

根据这篇论文

在当前最先进的技术中,RL 系统的设计者通常使用关于任务的先验知识来将一组特定的选项添加到代理可用的原始操作集中。

另请参阅同一篇论文中的第 6.2 节学习任务层次结构。

我想到的第一个想法是,如果你不知道任务层次结构,你应该从非层次强化学习开始,然后尝试在学习后或学习时发现结构,即你试图概括你的模型。对我来说,这个任务看起来类似于 HMM 的贝叶斯模型合并技术(例如,请参阅这篇论文