人工智能 - 为什么使用重要性抽样的离策略评估会出现高方差？ - 吾爱随笔录

轨迹的平均回报， $V^{\pi_e}$ (s) 通常通过重要性抽样估计来计算

V^{π_{e}} (s) = \frac{1}{n} \sum_{i = 1}^{n} \prod_{t = 0}^{H} \frac{π_{e} (a_{t} | s_{t})}{π_{b} (a_{t} | s_{t})} G_{i}

$V^{\pi_e}(s) = \frac{1}{n}\sum_{i=1}^n\prod_{t=0}^{H}\frac{\pi_e(a_t | s_t)}{\pi_b(a_t|s_t)}G_i$ 在哪里

G_{i}

$G_i$ 是观察到的奖励

i

然而，总的来说，为什么这个估计量会出现高方差？是不是因为 $\pi_e(a_t|s_t)$ 主要是确定性的，因此，重要性权重为 $0$ 对于大多数轨迹，使那些样本轨迹无用？