为什么 AdaGrad 更新方程中的 L2 范数不是 L1?
数据挖掘
梯度下降
2022-03-04 15:35:55
1个回答
原因是介绍该方法的文章(可在此处找到)使用关于 L2 范数的不等式证明了遗憾函数的边界。正方形也可以通过一些正二次形式的对角线来解释。
但是我不知道是否有人考虑过使用 L1 规范而不是 L2 的 AdaGrag。