记号是什么p吨=最大限度我< tp一世pt=maxi<tpi优先经验重播论文的算法1中的意思是什么?

人工智能 强化学习 dqn 深度学习 经验回放 双dqn
2021-11-03 11:13:19

我很难将优先体验重播算法的第 6 行从原始论文转换为简单的英语(见下文): 算法

我知道新的转换(以前没有访问过)被给予最高优先级。在第 6 行,这将在初始通道中的每个转换完成,因为历史在第 2 行被初始化为空。

我的符号有问题pt=maxi<tpi. 有人可以用简单的英语说明这一点吗?如果t= 4 例如,那么pt= 4?这如何等于最大值i<tpi.

似乎在我这里的人为示例中,最大i<tpi应该是 3。我一定是误读了这个符号。

1个回答

根据我的解释,这意味着pt是与每个转换关联的优先级值,并且pt=maxi<tpi表示过渡号的优先级t将是先前元素的优先级值之间的最大值。

示例:因为p1被初始化为1,所有的新体验也将是:

p2=max{p1}=1,

p3=max{p1,p2}=1,

p4=max{p1,p2,p3}=1.