我看待它的方式(其他人可能不同意!)是这都是同一个问题,但某些超参数比其他超参数更容易判断和优化,而且你并不总是能够对每个方面给出可接受的量化考虑。
例如,您可以拟合脊惩罚逻辑回归并联合优化链接函数,包括哪些特征,以及通过搜索
以最小化负对数似然。但是,如果您处于典型的统计情况,这将是一个非常高的方差优化(它几乎是离散的,所以祝您好运为大量特征做好这件事)并且可能真的会损害您的泛化能力,再加上您无论如何,他可能会希望根据科学问题做出这些决定。所以不是你不能
{probit,logit}×{0,1}p×[0,∞)
将这些都视为一个大的超参数并对其进行优化,但更重要的是,这并不是一种有用的看待它的方式。因此,您应该选择一个合理的链接并包含您认为具有科学意义的所有特征,然后仅调整岭惩罚(如果您仍然想要进行岭回归)。
或者,也许您有 5 个不同的模型,并在 AIC/BIC 上对其进行评估。这就像有一个一维网格搜索,每个单元格都是一个模型,所以它实际上没有任何不同。但可能您不只是考虑 *IC 值,并且还有其他问题未由该数字表示,因此您实际上不会将其作为优化来执行,因为您的目标函数无法捕获问题的各个方面。其他参数,例如,没有太多的解释或科学问题,因此只需优化它是没有问题的,这也是可行的。λ
说到*IC,你绝对可以将AIC和BIC用于更多机器学习风格的模型。它们都具有交叉验证的渐近关系,因此它们都具有相同的想法。举个例子,我从 Demyanov 等人于 2012 年发现这篇论文基于 AIC 和 BIC 的基于 RBF 内核的 SVM 参数值估计方法。所以机器学习领域肯定有人在思考这些事情。
所以这是我的观点,至少:没有任何根本性的差异,但在实践中,有很多建模决策我们不只是要交叉验证,所以很高兴为它们提供其他工具。有时它是简单的标准,例如 *IC(这些不需要在多个子集上拟合模型,因此如果您不依赖它们,它们会非常方便),有时是对模型或科学问题的图形评估,有时我们可以将其简化为数值优化。