人工智能 - 什么时候应该更喜欢在 RL 中使用 Total Variational Divergence 而不是 KL 散度 - 吾爱随笔录

什么时候应该更喜欢在 RL 中使用 Total Variational Divergence 而不是 KL 散度

人工智能强化学习比较概率分布 kl-散度总变差距离

2021-10-29 04:26:46

在 RL 中，KL 散度 (DKL) 和总变分散度 (DTV) 都用于衡量两个策略之间的距离。我最熟悉在策略更新期间使用 DKL 作为早期停止指标，以确保新策略不会与旧策略有太大偏差。

我看到 DTV 主要用于在对动作分布设置安全约束时提供安全 RL 方法的论文中。例如约束策略优化和安全强化学习的李雅普诺夫方法。

我还看到它们与以下公式相关：

D_{T V} = \sqrt{0.5 D_{K L}}

$D_{TV} = \sqrt{0.5 D_{KL}}$

当你计算 $D_{KL}$ 在两个政策之间，这告诉你什么，以及它与什么有什么不同？ $D_{TV}$ 相同的两个政策之间告诉你？

在此基础上，是否有任何特定的实例更喜欢其中一个？

2个回答

为了补充 nbro 的答案，我还要说，大部分时间距离测量不仅仅是一个设计决策，而是从问题模型中自然产生的。例如，最小化你的策略和给定状态下 Q 值的 softmax 之间的 KL 散度等价于策略优化，其中给定状态下的最优性是相对于奖励指数的伯努利（参见最大熵 RL 算法） . 再举一个例子，VAE 损失中的 KL 散度是模型的结果，而不仅仅是盲目的决定。

我对总变化距离不太熟悉，但我知道状态概率向量的总变化距离与相对于时间步长和链混合时间的马尔可夫链平稳分布之间存在很好的关系。

最后，要考虑的另一件事是这些散度度量的梯度属性。请注意，总变化距离的梯度可能会随着距离趋于 $0$ . 此外，必须考虑样本梯度的无偏估计是否可行。虽然这通常是 KL 散度的情况，但我不确定总变异距离（如，我真的不知道），而 Wasserstein 度量通常不是这种情况（参见 Marc G. Bellemare 等。 al 的论文“The Cramer distance as a solution to biased wasserstein gradients”）。然而，当然还有其他情况会发生逆转——例如，分布贝尔曼算子是最高 Wasserstein 度量的收缩，但不是KL 或总变异距离。

TL; DR：很多时候数学/统计约束表明了特定的指标。

我没有阅读那两篇指定的链接/引用论文，我目前不熟悉总变异距离，但我想我可以回答你的一些问题，因为我对 KL 散度相当熟悉。

当你计算 $D_{KL}$ 在两个政策之间，这告诉你什么

KL 散度是两个概率分布（即概率测度）或概率密度之间“距离”（或散度，顾名思义）的量度。在强化学习中，（随机）策略是概率分布。例如，如果您的马尔可夫决策过程 (MDP) 具有一组离散的操作，那么您的策略可以表示为

π (a ∣ s),

$\pi(a \mid s),$ 这是给定特定状态下所有可能动作的条件概率分布

s

$s$ . 因此，KL 散度是衡量两个政策如何相似或不同的自然衡量标准。

KL 散度有 4 个属性，您始终需要牢记

它是不对称的，即一般来说， $D_{KL}(q, p) \neq D_{KL}(p, q)$ （在哪里 $p$ 和 $q$ 是 pds); 因此，KL 散度不能是度量（因为度量是对称的！）
它总是非负的
为零时 $p = q$ .
它是无界的，即可以任意大；所以，换句话说，两个概率分布可以无限不同，这可能不是很直观：事实上，在过去，我使用了 KL 散度，并且由于这个属性，我并不总是清楚我应该如何解释KL 散度（但这也可能是由于我对这个度量的理解不是很扎实）。

以及它与什么有什么不同 $D_{TV}$ 相同的两个政策之间告诉你？

$D_{TV}$ 也是两个概率分布之间距离的度量，但它是有界的，特别是在范围内 $[0, 1]$ [ 1 ]。此属性在某些情况下可能有用（哪些情况？）。无论如何，它位于范围内的事实 $[0, 1]$ 潜在地使其解释更直观。更准确地说，如果您知道度量可以给您的最大值和最小值，您就可以更好地了解概率分布之间的相对差异。例如，假设您有 pds $q$ , $p$ 和 $p'$ . 如果你计算 $D_{TV}(q, p)$ 和 $D_{TV}(q, p')$ ，您可以了解（以百分比表示）多少 $p'$ 和 $p$ 不同方面 $q$ .

之间的选择 $D_{TV}$ 和 $D_{KL}$ 可能是由它们的特定属性推动的（并且可能取决于具体情况，我希望研究论文的作者能够激发使用特定度量/度量的动机）。但是，请记住，即使不计算 KL 散度，也不总是存在封闭形式的解决方案，因此您可能需要对其进行近似计算（例如通过采样：请注意，KL 散度被定义为期望/积分，因此您可以用采样技术对其进行近似）。因此，这（可计算性和/或近似性）也可能是在选择一个而不是另一个时要考虑的参数。

顺便说一句，我认为你对总变分散度的定义是错误的，虽然DTV与DKL有关，具体如下[ 1 ]

\begin{aligned} D_{T V} \leq \sqrt{\frac{1}{2} D_{K L}} \end{aligned}

$\begin{align} D_{TV} \leq \sqrt{\frac{1}{2} D_{KL}} \end{align}$

所以 DTV 以 KL 散度为界。鉴于 KL 散度是无界的（例如，它可以采用非常大的值，例如 600k，这个界限应该非常宽松）。

请查看关于选择和限制概率度量的论文（2002 年，Alison L. Gibbs 和 Francis Edward Su 撰写）或这本书，了解关于 $D_{TV}$ （和其他措施/指标）。

其它你可能感兴趣的问题

上一篇神经网络中哪些超参数可以被用户调整下一篇为什么查找表（表驱动的人工代理）需要以像素精度存储数据？