为什么使用重要性抽样的离策略评估会出现高方差?

人工智能 强化学习 策略外方法 重要性抽样
2021-11-07 00:20:33

轨迹的平均回报,Vπe(s) 通常通过重要性抽样估计来计算

Vπe(s)=1ni=1nt=0Hπe(at|st)πb(at|st)Gi
在哪里Gi是观察到的奖励i轨迹。Sutton 和 Barton 举了一个例子,方差可以是无限的

然而,总的来说,为什么这个估计量会出现高方差?是不是因为πe(at|st)主要是确定性的,因此,重要性权重为0对于大多数轨迹,使那些样本轨迹无用?

0个回答
没有发现任何回复~