我试图编写 on-policy Monte Carlo 控制方法。选择的初始策略必须是- 软政策。
谁能告诉我如何编码——软政策?
我知道如何编码-贪婪的。在-soft,有不等式代替等式,这是编码的问题-柔软的。
我试图编写 on-policy Monte Carlo 控制方法。选择的初始策略必须是- 软政策。
谁能告诉我如何编码——软政策?
我知道如何编码-贪婪的。在-soft,有不等式代替等式,这是编码的问题-柔软的。
你不能编码-soft policy 直接,因为它不够具体。
一项政策是-soft 前提是至少有可能选择任何动作,其中是所有可能动作的集合。
我知道如何编码-贪婪的。
那么你已经知道如何编写最常用的代码了-软政策,因为-贪婪政策是一种- 软政策。
有不平等代替平等,这是编码的问题-柔软的
那是对的。实际上-soft 可以被认为是一个约束或测试。因此,您可以编写一些代码来测试任何策略是否是- 任何给定值的软策略. 或者你可以编写代码来确定对于任何政策。
稍微困难的是强制提供的策略满足存在约束的代码-soft,因为将任何低概率调整到足够高将意味着减少其他概率,并且有多种方法可以做到这一点。
但是,制定任何起始政策的一种非常简单的方法成一个- 软变体是分两步做出策略选择 - 第一步在原始策略之间选择概率,并且有概率为每个动作选择一个概率相等的固定策略。第二步,评估第一步选择的任何策略来确定行动。