“最大熵逆强化学习”中的状态访问频率是如何计算的?

人工智能 强化学习 马尔可夫决策过程 文件
2021-10-26 00:35:36

我试图理解Brian Ziebart 的最大熵逆 RL 方法的公式特别是,我被困在如何理解状态访问频率的计算上。

为了做到这一点,他们利用动态规划方法来计算访问频率,其中下一个状态频率是根据前一个时间步的状态访问频率计算的。

这是下面的算法,其中,Dsi,t是状态的概率si在时间步被访问t.

在此处输入图像描述

这种计算状态访问频率的方法与求和状态总次数的简单方法有什么区别si出现在轨迹除以轨迹长度?

0个回答
没有发现任何回复~