我看过一篇关于将完全循环网络适应强化学习设置的主题的论文,但根据谷歌学者的说法,它没有引用,也没有发布实现它描述的算法的代码。在我出去推出我自己的算法实现之前,我只是想检查一下是否存在不那么晦涩的算法(希望有开源实现)。
如果没有这种更值得注意的算法,那么第二个问题是为什么不呢?一些研究是否表明循环架构在用于强化学习时不会给你带来任何好处?也许将时间差分扩展到这样的架构会导致难以处理的计算复杂性?
我看过一篇关于将完全循环网络适应强化学习设置的主题的论文,但根据谷歌学者的说法,它没有引用,也没有发布实现它描述的算法的代码。在我出去推出我自己的算法实现之前,我只是想检查一下是否存在不那么晦涩的算法(希望有开源实现)。
如果没有这种更值得注意的算法,那么第二个问题是为什么不呢?一些研究是否表明循环架构在用于强化学习时不会给你带来任何好处?也许将时间差分扩展到这样的架构会导致难以处理的计算复杂性?