我试图理解Brian Ziebart 的最大熵逆 RL 方法的公式。特别是,我被困在如何理解状态访问频率的计算上。
为了做到这一点,他们利用动态规划方法来计算访问频率,其中下一个状态频率是根据前一个时间步的状态访问频率计算的。
这是下面的算法,其中,是状态的概率在时间步被访问.
这种计算状态访问频率的方法与求和状态总次数的简单方法有什么区别出现在轨迹除以轨迹长度?
我试图理解Brian Ziebart 的最大熵逆 RL 方法的公式。特别是,我被困在如何理解状态访问频率的计算上。
为了做到这一点,他们利用动态规划方法来计算访问频率,其中下一个状态频率是根据前一个时间步的状态访问频率计算的。
这是下面的算法,其中,是状态的概率在时间步被访问.
这种计算状态访问频率的方法与求和状态总次数的简单方法有什么区别出现在轨迹除以轨迹长度?