直觉上,我理解对政策进行无偏估计很重要,因为有偏仅意味着我们的估计与真值相去甚远。
但是,我不清楚为什么具有较低的方差很重要。那是因为在离线策略评估中,我们只能对数据流进行“一个”估计,而当我们的估计远离真实值时,我们不知道是因为方差还是偏差?基本上,方差就像偏差一样。
另外,如果是这样,为什么有方差比有偏差更可取?
直觉上,我理解对政策进行无偏估计很重要,因为有偏仅意味着我们的估计与真值相去甚远。
但是,我不清楚为什么具有较低的方差很重要。那是因为在离线策略评估中,我们只能对数据流进行“一个”估计,而当我们的估计远离真实值时,我们不知道是因为方差还是偏差?基本上,方差就像偏差一样。
另外,如果是这样,为什么有方差比有偏差更可取?
一般来说,低方差很重要,因为它减少了获得准确估计所需的样本数量。这适用于所有统计机器学习,而不仅仅是强化学习。
通常,如果您通过抽取多个样本来估计平均值或预期数量,则误差的变化与对于所有样本的直接算术平均值,并且对于其他平均方法(例如使用学习率的新近加权平均值)表现类似。准确度的界限可以通过增加即采取更多样本,或通过减少方差.
因此,您可以采取任何措施来减少测量中的差异,从而直接导致减少达到相同准确度所需的样本数量。
在离策略强化学习的情况下,与策略学习相比,由于在行为和目标策略中采取行动的概率不同,会增加方差。这是由于需要使用重要性采样来调整奖励信号——乘以重要性采样率将使奖励信号变化更大(实际上它可以变得无界)。这实际上并不比任何其他方差来源更具挑战性,但由于它干扰了快速学习的目标,因此已经在减少方差的方法上投入了大量的研究工作。
偏见不一定是坏事,尽管术语偏见通常具有负面含义。事实上,在机器学习中,归纳偏差是相当重要和必要的。例如,如果你想学习一个函数, 在哪里和, 你通常只有一个有限的数据集,其中可能不包含所有可能的相关联的对. 在这种情况下,可能没有足够的信息来学习,所以你需要假设以某种方式表现或输入和输出空间具有某些特征。处理有限数据集的典型方法是在学习过程中引入噪声(这是一种正则化技术)。
但是,偏差可能导致次优解决方案。例如,您可以假设比函数复杂得多那映射到(的), 为了. 所以,要解决这个问题,你可以引入很多噪音,而实际上,可能与,即使不完全相同,所以,实际上,你可能不需要所有这些噪音。
为什么低方差是可取的?本质上,当你在学习一些东西时,学习规则模式比学习更不规则的模式更容易。例如,是一个相对规律的序列,因此比前者更难学习(或记忆)。