最大范数正则化包括在每个训练步骤之后裁剪每个神经元的权重向量,以确保其范数永远不会超过某个阈值。
我正在寻找描述这种技术的原始论文。使用scholar.google.com,我发现人们似乎在关于最大范数的论文中指出了几篇论文,但它们似乎与上述技术不对应。他们是关于矩阵分解(和我的联盟):
- 最大边际矩阵分解,2004,N. Srebro 等人。
- Max-Norm 正则化的实用大规模优化,2010,J. Lee 等。
任何想法?
最大范数正则化包括在每个训练步骤之后裁剪每个神经元的权重向量,以确保其范数永远不会超过某个阈值。
我正在寻找描述这种技术的原始论文。使用scholar.google.com,我发现人们似乎在关于最大范数的论文中指出了几篇论文,但它们似乎与上述技术不对应。他们是关于矩阵分解(和我的联盟):
任何想法?
本文专门讨论了使用 SGD 的 max-norm。它引用了 Srebro 和 Shraibman (2005),这让我认为它/您的实现确实与您描述的技术相对应。
最大范数正则化以前曾用于协同过滤的上下文中(Srebro 和 Shraibman,2005)。它通常可以提高深度神经网络的随机梯度下降训练的性能,即使没有使用 dropout。