我正在尝试针对特定问题优化神经网络架构,但似乎有太多超参数,我担心有更好的选择我没有探索(例如,我可能会陷入困境超参数的局部最小值)。
本质上,我想要一些超参数搜索的标准界限。理想情况下,如果一个人看到探索参数的广度,他们可能有理由确定尝试另一类机器学习模型。特别是,我正在寻找至少关于
搜索中要包含什么大小的神经元
- 隐藏层的数量和层的宽度
- 优化器和学习率
- 激活函数和损失函数
非常感谢!
我正在尝试针对特定问题优化神经网络架构,但似乎有太多超参数,我担心有更好的选择我没有探索(例如,我可能会陷入困境超参数的局部最小值)。
本质上,我想要一些超参数搜索的标准界限。理想情况下,如果一个人看到探索参数的广度,他们可能有理由确定尝试另一类机器学习模型。特别是,我正在寻找至少关于
搜索中要包含什么大小的神经元
非常感谢!
在设计 MLP 架构时,我们可以将自己限制为 4-8 层,每层有 8-128 个(2 的幂)神经元。此外,我们可以假设推荐使用 He 正常权重初始化的 ReLU 激活和使用 Nesterov 动量优化器的 Adam 或 SGD(参见ipython notebook进行比较)。您的损失函数将取决于问题:分类的交叉熵和回归的 MSE。