最近我一直在阅读很多关于 Uber 人工智能实验室的一些非常有前途的工作,这些工作使用通过新奇搜索增强的变异算法来进化深度神经网络。有关更多详细信息,请参阅论文Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients (2018)。
在新颖性搜索中,神经网络的新颖结构或行为是否得到奖励?
最近我一直在阅读很多关于 Uber 人工智能实验室的一些非常有前途的工作,这些工作使用通过新奇搜索增强的变异算法来进化深度神经网络。有关更多详细信息,请参阅论文Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients (2018)。
在新颖性搜索中,神经网络的新颖结构或行为是否得到奖励?
在 Joel Lehman 和 Kenneth O. Stanley 的论文Exploiting Open-Endedness to Solve Problems Through the Search for Novelty (2008) 中,介绍了新颖性搜索方法,它是这样写的
因此,本文介绍了新颖性搜索算法,该算法除了在搜索空间中不断发现新行为外,没有其他目标。
和
学习方法不是寻找最终目标,而是奖励找到任何功能与之前发现的功能显着不同的实例
和
新产生的个体的新颖性是根据过去个体的行为(即不是基因型)来计算的,这些个体的行为在起源时是高度新颖的。
因此,新奇搜索的目标是搜索新的行为,不一定是新的染色体(或基因型)。
在新颖性搜索论文中报告的实验中,作者使用神经网络来表示控制需要在迷宫中导航的机器人的策略,同时使用NEAT(一种神经进化方法)和新颖性指标(而不是适应度指标,在原始NEAT中使用)。在同一实验部分,雷曼和斯坦利写道
因此,对于迷宫域,导航器的行为被定义为其结束位置。新颖性度量是两个人的结束位置之间的欧几里得距离。例如,困在同一个角落的两个机器人看起来很相似,而一个只是坐在起始位置的机器人看起来与到达目标的机器人非常不同,尽管它们对于新颖性指标同样可行。
因此,代表控制器的神经网络的进化不一定由神经网络(架构)的新颖性指导,而是由神经网络产生的行为的新颖性指导,即使新的神经网络可能对应或导致新的行为。