我目前正在编程 aq 学习神经网络,但它不起作用。我之前问过一个关于输入的问题,并已经解决了。我目前对程序为什么不起作用的想法是与阈值有关。这是一个神经网络 - q 学习特定变量。
基本上阈值是一个介于 0 和 1 之间的值,然后你在 0 和 1 之间创建一个随机数,如果这个随机数大于阈值,那么你选择一个完全随机的选择,否则神经网络通过找到最大的来选择q值。
我的问题是,有了这个阈值,我目前将其实现为几乎从 0 开始,然后线性增加,直到程序达到最终迭代时达到 1。它是否正确?
我怀疑这是不正确的原因是,当通过训练神经网络绘制错误图时,程序根本没有学习,但是当阈值几乎达到 1 时,它开始学习非常快,如果你在之后运行更多迭代达到1,回放内存中的所有游戏集都变得相同,从它们开始误差基本为0。
非常感谢任何反馈,如果这个问题无论如何都不清楚,请告诉我,我会尝试解决它。感谢任何提供帮助的人。