神经进化可用于进化网络的架构(当然还有权重)。另一方面,深度强化学习已被证明在优化网络权重以训练真正表现良好的代理方面非常强大。我们可以使用以下管道吗?
- 通过神经进化搜索最佳网络拓扑/权重
- 通过 DQN 或类似的方法训练上面选择的最佳候选人
这对我来说似乎是合理的,但我还没有找到任何关于此事的信息。
是否有任何研究工作试图将神经进化与深度强化学习相结合?可行吗?主要挑战是什么?
神经进化可用于进化网络的架构(当然还有权重)。另一方面,深度强化学习已被证明在优化网络权重以训练真正表现良好的代理方面非常强大。我们可以使用以下管道吗?
这对我来说似乎是合理的,但我还没有找到任何关于此事的信息。
是否有任何研究工作试图将神经进化与深度强化学习相结合?可行吗?主要挑战是什么?
在学术文章搜索中可以轻松找到 3,810 篇文章。这是三个例子。
使用进化策略进行强化学习的神经进化— C Igel — 2003 年进化计算大会,2003 年,ieeexplore.ieee.org — “我们将 CMA-ES(一种有效地适应突变分布的协方差矩阵的进化策略)应用于优化神经网络的权重以解决强化学习问题。事实证明,网络的拓扑结构相当......“
情景强化学习的神经进化策略— V Heidrich-Meisner, C Igel — Journal of Algorithms, 2009, Elsevier — “由于其令人信服的性能,人们对使用进化算法进行强化学习越来越感兴趣。我们建议学习神经网络策略通过协方差矩阵适应进化策略(CMA-ES),一种随机变量度量..."
深度神经进化:遗传算法是训练深度神经网络以进行强化学习的一种竞争性替代方案——FP Such、V Madhavan、E Conti、J Lehman——2017 年,arxiv.org——“深度人工神经网络 (DNN) 通常通过梯度训练—— “
为了阐明所提出的策略,我们可以将该方法重写为一组设计特征。我们不要假设拓扑结构是基于权重的,这会削弱形态学和拓扑学的概念。如果我们将模型简化为正交拓扑的传统人工网络,那么它就不是神经进化;然后它将是基本的机器学习。
第二项似乎没有解决神经进化设计的输入、输出和目标与 Q 学习和其他强化学习策略之间的关系。Q-learning 算法通常不是为在前馈网络上运行而设计的,当然也不容易映射到神经进化过程中可能形成的拓扑。可能有数十亿(如果不是无限)的方法来组合这两种策略,但是如果不进一步研究和考虑它们将如何相互协作以实现计划目标,就不可能将这两个过程简单地串联起来。
搜索文章、研究然后制定您的研究轨迹可能很有用。建议先独立学习神经进化和强化,然后再开始阅读以上三篇之类的文章。倒入基础,让它干燥,然后框架房子。