机器算法验证 - 机器学习中的超参数与参数之间是否存在硬性区别？ - 吾爱随笔录

机器学习中的超参数与参数之间是否存在硬性区别？

机器算法验证机器学习神经网络超参数调音

2022-04-11 21:26:53

我正在观看 Andrew Ng 关于参数与超参数之间区别的讲座，https://www.youtube.com/watch?v= VTE2KlfoO3Q&ab_channel=Deeplearning.ai ，我想到了一个问题。

超参数与参数之间真的有那么大的区别吗？

例如，权重通常被视为参数而不是超参数。但是最近的论文发现，随机搜索权重可以获得很好的结果，并且击败了state-of-the-art的优化方法https://arxiv.org/abs/1803.07055这不就是超参数调优的方法吗？

同时，也有论文调整学习率、优化器和其他与模型相关的所谓“超参数”。https://arxiv.org/abs/1606.04474

然后是通过基于梯度的方法直接学习超参数的方法。https://arxiv.org/abs/1903.03088

另一个灵感是自适应控制（巨大的领域，跨越 5 年），与控制器相关的所谓“超参数”总是被学习。

1个回答

这是一个很好的问题——我不确定回答这个问题的最佳方法是什么，但在统计框架中，我相信差异会更明显一些。我很想看看其他人如何从更纯粹的 ML/DL 角度回答这个问题。

我认为它们不同的一个方式是参数（最后从统计的角度来看）是可以进行推断的东西，而超参数是算法的一个元素，可以对其进行调整以优化它。

举一个具体的例子，假设您正在为线性回归模型运行 LASSO 类型的惩罚。这 $\beta$ 权重/系数是参数，因为人们可以对估计值做出决定并确定相关性或方向性（即，检查 LASSO 程序中哪些系数不为 0，或者哪些“防止”与“增加”风险）。使用相同的 LASSO 示例， $\alpha$ 惩罚函数的权重可以被认为是一个超参数，因为 $\alpha$ 不会提供对模型/事后分析的任何见解。

这有点“统计”的角度来看待 b/w 什么是参数与超参数之间的差异，尽管这是如何区分的一个选项。使用非参数算法、决策树和神经网络，这就是我认为有更多灰色区域的地方。

其它你可能感兴趣的问题

上一篇分类先验是否存在共轭似然分布？下一篇对于变分自动编码器，重建损失应该计算为输入的总和还是平均值？