我想知道是否有任何指标可用于衡量强化学习算法的样本效率?从阅读研究论文中,我看到提出的模型更有效的样本,但是在比较强化学习算法时如何得出这个结论?
如何衡量强化学习算法的样本效率?
人工智能
强化学习
样本效率
2021-11-03 01:36:53
1个回答
首先,让我们回顾一些定义。
(深度)RL上下文中的样本是一个元组表示与与环境的单个交互相关的信息。
至于样本效率,定义如下[1]:
样本效率是指学习系统达到任何选定的目标性能水平所需的数据量。
因此,如何衡量它与定义它的方式密切相关。
例如,一种方法如下图所示:
在 y 轴上,您可以看到 RL 算法的性能(例如,在[2]中完成的情节的平均回报,或在[3]中完成的不同环境运行的平均总情节奖励)
在 x 轴上,您有您采集的样本数。
虚线对应于您的性能基准(例如,某个游戏或任何其他 RL 环境被认为已解决的性能)。
因此,您可以在交叉点测量样本效率,从中获得达到性能基线所需的样本数量。因此,需要较少样本的算法将更有效率。
另一种方法是相反,即为 RL 代理提供有限的预算,用于它可以采取的样本数量。因此,您可以通过测量曲线下面积来测量样品效率,如下图所示。因此,这就是您在预算中使用这些样本获得的性能。在样本数量相同的情况下,一种算法比另一种具有更高性能的算法将更有效率。
我不知道是否存在 RL 库可以为您提供开箱即用的测量。但是,例如,如果您使用 Python,我相信将 scipy 或 scikit-learn 之类的库与 matplotlib 一起使用可以完成这项工作。
注意:图片来源转到以下演示文稿:DLRLSS 2019 - Sample Efficient RL - Harm Van Seijen
其它你可能感兴趣的问题