论文中提到了这些术语:An Emphatic Approach to the Problem of off-Policy Temporal-Difference Learning (Sutton, Mahmood, White; 2016) 当然还有更多。
在这篇论文中,他们提出了“稳定性”而非收敛性的证明。
如果“关键矩阵”被证明是正定的,则似乎可以保证稳定性。然而,融合需要的远不止这些。
我不明白两者之间的确切区别。
论文中提到了这些术语:An Emphatic Approach to the Problem of off-Policy Temporal-Difference Learning (Sutton, Mahmood, White; 2016) 当然还有更多。
在这篇论文中,他们提出了“稳定性”而非收敛性的证明。
如果“关键矩阵”被证明是正定的,则似乎可以保证稳定性。然而,融合需要的远不止这些。
我不明白两者之间的确切区别。
有时在训练时,特别是在强化学习中,由于代理通过与环境交互而生成的训练数据中存在大量方差,模型可能会变得不稳定。这在训练开始时肯定是一个问题,因为您可能会在数据中获得巨大的异常值,因为代理的行为是随机的。您会发现,仅对策略进行一次更新就可能使其崩溃,因为它将策略移动到某个模糊区域,例如,代理总是采取特定的行动。您可以通过使用更大的批次和更小的学习率来使训练更加稳定,这样每次只需要更小的步数,但缺点是训练速度较慢。因此,您需要测试不同的超参数以找到两者之间的良好折衷。
收敛是一个术语,用于描述模型何时找到最佳策略并且没有进一步学习,通常在一定数量的情节的奖励稳定时表现出来。当然,它可能已经确定了一个局部最优值,并且可能存在其他全局最优值;您提供的数据和您训练模型的方式可能会产生更好的结果 - 再次,所有测试和实验的一部分。