如何编码εϵ-on-policy Monte Carlo 控制的软策略?

人工智能 强化学习 执行 蒙特卡罗方法 策略方法 epsilon-贪婪策略
2021-11-15 09:21:29

我试图编写 on-policy Monte Carlo 控制方法。选择的初始策略必须是ϵ- 软政策。

谁能告诉我如何编码ϵ——软政策?

我知道如何编码ϵ-贪婪的。ϵ-soft,有不等式代替等式,这是编码的问题ϵ-柔软的。

1个回答

你不能编码ϵ-soft policy 直接,因为它不够具体。

一项政策是ϵ-soft 前提是至少有可能ϵ|A|选择任何动作,其中A是所有可能动作的集合。

我知道如何编码ϵ-贪婪的。

那么你已经知道如何编写最常用的代码了ϵ-软政策,因为ϵ-贪婪政策一种ϵ- 软政策。

有不平等代替平等,这是编码的问题ϵ-柔软的

那是对的。实际上ϵ-soft 可以被认为是一个约束或测试。因此,您可以编写一些代码来测试任何策略是否是ϵ- 任何给定值的软策略ϵ. 或者你可以编写代码来确定ϵ对于任何政策。

稍微困难的是强制提供的策略满足存在约束的代码ϵ-soft,因为将任何低概率调整到足够高将意味着减少其他概率,并且有多种方法可以做到这一点。

但是,制定任何起始政策的一种非常简单的方法π成一个ϵ- 软变体是分两步做出策略选择 - 第一步在原始策略之间选择概率(1ϵ),并且有概率ϵ为每个动作选择一个概率相等的固定策略。第二步,评估第一步选择的任何策略来确定行动。