两个政策之间是否存在一些距离概念?

人工智能 强化学习 参考请求 政策 kl-散度 瓦瑟斯坦度量
2021-10-23 15:56:23

我想确定两个政策之间的距离π1(as)π2(as),即类似的东西||π1(as)π2(as)||, 在哪里πi(as)是向量(πi(a1s),,πi(ans)). 我正在为这样的距离寻找一个合理的概念。

文献中是否有一些标准规范/指标用于确定政策之间的距离?

1个回答

鉴于策略是概率分布,原则上,您可以使用任何可用于比较两个概率分布的度量或距离度量。(请注意,距离的概念不一定是数学意义上的度量)。

一种常见的度量是Kullback-Leibler 散度(在数学意义上,它不是一个度量,因为它不满足作为度量的某些必需条件)。例如,在PPO 论文的第 4 节中,KL 散度被用作正则化器(这实际上很常见,例如,在变分贝叶斯神经网络的背景下)。TRPO也使用KL 散度。

Wasserstein 指标也被用于 RL,例如,在分布式RL中(但在这种情况下,不是比较策略,而是比较价值函数的分布)。

您可以在此处找到有关统计距离的更多信息您使用的特定距离可能取决于您要解决的问题以及您希望距离具有的属性。例如,上面的 KL 散度是无限的,因此,如果不希望这样做,您可以选择另一个。关于选择和限制概率度量的论文(2002 年,Gibbs 和 Su)也可能有用。这里我还谈到了 KL 散度和总变差。