我一直在研究分层强化学习问题,虽然很多论文都提出了学习策略的算法,但他们似乎都假设他们事先知道描述域中动作层次结构的图结构。例如, Dietterich的 MAXQ Method for Hierarchial Reinforcement Learning描述了一个简单出租车领域的动作和子任务图,但没有描述这个图是如何被发现的。您将如何学习此图的层次结构,而不仅仅是策略?
换句话说,使用论文的例子,如果一辆出租车漫无目的地行驶,对世界知之甚少,只有原始的左移/右移/等动作,它如何学习更高级别的动作,比如去接乘客?如果我正确理解了这篇论文(我可能不是),它会建议如何更新这些高级操作的策略,而不是它们最初是如何形成的。