轨迹的平均回报,(s) 通常通过重要性抽样估计来计算在哪里是观察到的奖励轨迹。Sutton 和 Barton 举了一个例子,方差可以是无限的。
然而,总的来说,为什么这个估计量会出现高方差?是不是因为主要是确定性的,因此,重要性权重为对于大多数轨迹,使那些样本轨迹无用?
轨迹的平均回报,(s) 通常通过重要性抽样估计来计算在哪里是观察到的奖励轨迹。Sutton 和 Barton 举了一个例子,方差可以是无限的。
然而,总的来说,为什么这个估计量会出现高方差?是不是因为主要是确定性的,因此,重要性权重为对于大多数轨迹,使那些样本轨迹无用?