我的团队模拟代理(执行动作并评估奖励)的成本太高,这意味着我们唯一的选择是在我们的数据集上学习最优策略。好消息是我们有很多数据,它们代表了状态、动作、奖励的序列。我们可以根据这些数据训练我们的代理。
我们还需要持续的行动,因为行动的集合很大。因此,策略梯度是可行的方法,但它通常使用需要模拟器的 actor-critic。我们无法效仿,其他选择是什么?
我的团队模拟代理(执行动作并评估奖励)的成本太高,这意味着我们唯一的选择是在我们的数据集上学习最优策略。好消息是我们有很多数据,它们代表了状态、动作、奖励的序列。我们可以根据这些数据训练我们的代理。
我们还需要持续的行动,因为行动的集合很大。因此,策略梯度是可行的方法,但它通常使用需要模拟器的 actor-critic。我们无法效仿,其他选择是什么?
我认为你最好的方法是使用模仿学习。模仿学习中的许多技术都使用监督学习,因此您不需要使用模拟器。检查用于连续动作场景的 DAGGER 或最近的AggreVated算法(忽略论文的理论部分)。
首先,您可以将监督学习仅用于实验,然后使用上述算法。我建议尽管使用一个糟糕的模拟器来了解你的实现在之后的行为方式。请记住,RL 试图解决优化问题(最大化效用/成本函数),而监督学习方法试图优化模型的预测和基本事实之间的差异。在上线之前请注意算法的行为。