机器学习中的超参数与参数之间是否存在硬性区别?

机器算法验证 机器学习 神经网络 超参数 调音
2022-04-11 21:26:53

我正在观看 Andrew Ng 关于参数与超参数之间区别的讲座,https://www.youtube.com/watch?v= VTE2KlfoO3Q&ab_channel=Deeplearning.ai ,我想到了一个问题。

超参数与参数之间真的有那么大的区别吗?

例如,权重通常被视为参数而不是超参数。但是最近的论文发现,随机搜索权重可以获得很好的结果,并且击败了state-of-the-art的优化方法https://arxiv.org/abs/1803.07055这不就是超参数调优的方法吗?

同时,也有论文调整学习率、优化器和其他与模型相关的所谓“超参数”。https://arxiv.org/abs/1606.04474

然后是通过基于梯度的方法直接学习超参数的方法。https://arxiv.org/abs/1903.03088

另一个灵感是自适应控制(巨大的领域,跨越 5 年),与控制器相关的所谓“超参数”总是被学习。

1个回答

这是一个很好的问题——我不确定回答这个问题的最佳方法是什么,但在统计框架中,我相信差异会更明显一些。我很想看看其他人如何从更纯粹的 ML/DL 角度回答这个问题。

我认为它们不同的一个方式是参数(最后从统计的角度来看)是可以进行推断的东西,而超参数是算法的一个元素,可以对其进行调整以优化它。

举一个具体的例子,假设您正在为线性回归模型运行 LASSO 类型的惩罚。β权重/系数是参数,因为人们可以对估计值做出决定并确定相关性或方向性(即,检查 LASSO 程序中哪些系数不为 0,或者哪些“防止”与“增加”风险)。使用相同的 LASSO 示例,α惩罚函数的权重可以被认为是一个超参数,因为α不会提供对模型/事后分析的任何见解。

这有点“统计”的角度来看待 b/w 什么是参数与超参数之间的差异,尽管这是如何区分的一个选项。使用非参数算法、决策树和神经网络,这就是我认为有更多灰色区域的地方。