我想了解自动神经架构搜索(NAS)。我已经阅读了多篇论文,但我无法弄清楚 NAS 的实际搜索空间是什么/在 NAS 中如何考虑经典超参数?
我的理解:
NAS 旨在使用某种搜索和性能估计策略在所有可能的模型架构的搜索空间中找到性能良好的模型。有特定于架构的超参数(在最简单的前馈网络案例中),例如隐藏层的数量、每层隐藏神经元的数量以及每个神经元的激活函数类型。有经典的超参数,例如学习率,辍学率等。我不明白的是:
上面定义的模型架构的一部分到底是什么?它只是特定于架构的超参数还是经典的超参数?换句话说,在 NAS 中跨越搜索空间的是什么:只有特定于架构的超参数还是经典的超参数?
如果只有特定于架构的超参数是 NAS 搜索空间的一部分,那么经典的超参数呢?特定架构(具有特定于架构的超参数的固定配置)可能会根据经典超参数执行更好或更差 - 因此不考虑 NAS 搜索空间中的经典超参数可能会导致非- 最优的终极模型架构,或者不是?