我搜索了这个词,它出现在几篇文章中,但没有解释就被使用了。我能找到的唯一解释是在博士论文中:“遗憾界限是在线学习算法分析中的共同线索。遗憾界限衡量在线算法相对于竞争预测机制的性能的性能,称为竞争假设。”
读完这篇文章后我仍然感到困惑(我没有阅读论文的其余部分,因为它超出了我对该领域的理解)。有人可以解释一下吗?提前谢谢了!
我搜索了这个词,它出现在几篇文章中,但没有解释就被使用了。我能找到的唯一解释是在博士论文中:“遗憾界限是在线学习算法分析中的共同线索。遗憾界限衡量在线算法相对于竞争预测机制的性能的性能,称为竞争假设。”
读完这篇文章后我仍然感到困惑(我没有阅读论文的其余部分,因为它超出了我对该领域的理解)。有人可以解释一下吗?提前谢谢了!
强化学习模型通常相对于彼此进行测量,有时也相对于最佳行为进行测量。
遗憾是强化学习系统的常用性能衡量标准。
强化学习模型的性能是随机的。因此,最好多次运行相同的模型来估计性能分布。根据该分布,可以估计界限。这些界限类似于标量参数估计的置信区间。