为什么低方差在强化学习的离线策略评估中很重要?

人工智能 强化学习 政策 偏差-方差-权衡
2021-10-27 12:15:17

直觉上,我理解对政策进行无偏估计很重要,因为有偏仅意味着我们的估计与真值相去甚远。

但是,我不清楚为什么具有较低的方差很重要。那是因为在离线策略评估中,我们只能对数据流进行“一个”估计,而当我们的估计远离真实值时,我们不知道是因为方差还是偏差?基本上,方差就像偏差一样。

另外,如果是这样,为什么有方差比有偏差更可取?

2个回答

一般来说,低方差很重要,因为它减少了获得准确估计所需的样本数量。这适用于所有统计机器学习,而不仅仅是强化学习。

通常,如果您通过抽取多个样本来估计平均值或预期数量,则误差的变化与σN对于所有样本的直接算术平均值,并且对于其他平均方法(例如使用学习率的新近加权平均值)表现类似。准确度的界限可以通过增加N即采取更多样本,或通过减少方差σ2.

因此,您可以采取任何措施来减少测量中的差异,从而直接导致减少达到相同准确度所需的样本数量。

在离策略强化学习的情况下,与策略学习相比,由于在行为和目标策略中采取行动的概率不同,会增加方差。这是由于需要使用重要性采样来调整奖励信号——乘以重要性采样率将使奖励信号变化更大(实际上它可以变得无界)。这实际上并不比任何其他方差来源更具挑战性,但由于它干扰了快速学习的目标,因此已经在减少方差的方法上投入了大量的研究工作。

偏见不一定是坏事,尽管术语偏见通常具有负面含义。事实上,在机器学习中,归纳偏差是相当重要和必要的。例如,如果你想学习一个函数f(x)=y, 在哪里xXyY, 你通常只有一个有限的数据集D={(xi,yi)}i=1N,其中可能不包含所有可能的(x,y)相关联的对f. 在这种情况下,D可能没有足够的信息来学习f,所以你需要假设f以某种方式表现或输入和输出空间具有某些特征。处理有限数据集的典型方法是在学习过程中引入噪声(这是一种正则化技术)。

但是,偏差可能导致次优解决方案。例如,您可以假设f比函数复杂得多f^那映射xiyi(的D), 为了i=1,,N. 所以,要解决这个问题,你可以引入很多噪音,而实际上,f^可能与f,即使不完全相同,所以,实际上,你可能不需要所有这些噪音。

为什么低方差是可取的?本质上,当你在学习一些东西时,学习规则模式比学习更不规​​则的模式更容易。例如,1,2,1,2,1,2是一个相对规律的序列8,2,5,6,1,7,99,因此比前者更难学习(或记忆)。