哪篇论文介绍了最大范数正则化(用于神经网络训练)?

机器算法验证 神经网络 正常化 正则化 历史
2022-04-04 02:42:44

最大范数正则化包括在每个训练步骤之后裁剪每个神经元的权重向量,以确保其范数永远不会超过某个阈值。

我正在寻找描述这种技术的原始论文。使用scholar.google.com,我发现人们似乎在关于最大范数的论文中指出了几篇论文,但它们似乎与上述技术不对应。他们是关于矩阵分解(和我的联盟):

任何想法?

1个回答

本文专门讨论了使用 SGD 的 max-norm。它引用了 Srebro 和 Shraibman (2005),这让我认为它/您的实现确实与您描述的技术相对应。

最大范数正则化以前曾用于协同过滤的上下文中(Srebro 和 Shraibman,2005)。它通常可以提高深度神经网络的随机梯度下降训练的性能,即使没有使用 dropout。