人工智能 - 如何编码εϵ-on-policy Monte Carlo 控制的软策略？ - 吾爱随笔录

如何编码εϵ-on-policy Monte Carlo 控制的软策略？

人工智能强化学习执行蒙特卡罗方法策略方法 epsilon-贪婪策略

2021-11-15 09:21:29

我试图编写 on-policy Monte Carlo 控制方法。选择的初始策略必须是 $\epsilon$ - 软政策。

谁能告诉我如何编码 $\epsilon$ ——软政策？

我知道如何编码 $\epsilon$ -贪婪的。在 $\epsilon$ -soft，有不等式代替等式，这是编码的问题 $\epsilon$ -柔软的。

1个回答

你不能编码 $\epsilon$ -soft policy 直接，因为它不够具体。

一项政策是 $\epsilon$ -soft 前提是至少有可能 $\frac{\epsilon}{|\mathcal{A}|}$ 选择任何动作，其中 $\mathcal{A}$ 是所有可能动作的集合。

我知道如何编码 $\epsilon$ -贪婪的。

那么你已经知道如何编写最常用的代码了 $\epsilon$ -软政策，因为 $\epsilon$ -贪婪政策是一种 $\epsilon$ - 软政策。

有不平等代替平等，这是编码的问题 $\epsilon$ -柔软的

那是对的。实际上 $\epsilon$ -soft 可以被认为是一个约束或测试。因此，您可以编写一些代码来测试任何策略是否是 $\epsilon$ - 任何给定值的软策略 $\epsilon$ . 或者你可以编写代码来确定 $\epsilon$ 对于任何政策。

稍微困难的是强制提供的策略满足存在约束的代码 $\epsilon$ -soft，因为将任何低概率调整到足够高将意味着减少其他概率，并且有多种方法可以做到这一点。

但是，制定任何起始政策的一种非常简单的方法 $\pi$ 成一个 $\epsilon$ - 软变体是分两步做出策略选择 - 第一步在原始策略之间选择概率 $(1-\epsilon)$ ，并且有概率 $\epsilon$ 为每个动作选择一个概率相等的固定策略。第二步，评估第一步选择的任何策略来确定行动。

其它你可能感兴趣的问题

上一篇为什么 LSTM 单元中有 tanh(x)*sigmoid(x)？下一篇为了评估重建图像的质量，哪个指标更可靠：PSNR 还是 LPIPS？