三元网络 L2 归一化的目的

机器算法验证 神经网络 深度学习 正常化 图像处理
2022-03-03 03:58:38

基于三元组的人脸识别远程学习似乎非常有效。我对这篇论文的一个特定方面感到好奇。作为寻找人脸嵌入的一部分,作者使用 L2 归一化对隐藏单元进行归一化,这将表示限制在超球面上。为什么这有帮助或需要?

2个回答

归一化向量之间的平方欧几里得距离与其余弦相似度成正比(参考:维基百科), 所以使用归一化的优势或多或少是余弦相似度的优势欧几里得距离。正如 Andy Jones 的回答中提到的,如果不进行标准化,将边距缩放一个因子只会相应地缩放嵌入。

AABB2=AA2+BB22ABAB=22ABAB

另一个不错的属性是,通过这种归一化,平方欧几里得距离的值保证在[0,4]范围内,这为我们节省了选择合适的边距参数α的工作量。

例如,在本文引用的另一篇论文中,它使用了所谓的弹簧模型,该模型基于(未归一化的)平方欧几里德距离,其中一个实际困难是确定适当的边距和分割点,因为嵌入不断变化为训练进行。

如果你正在寻找自己实现规范化层,这里有一篇关于 Caffe 的推导和实现的博客(部分博客是中文但不影响阅读)。

我认为这是因为它为嵌入提供了首选位置和规模。首选位置意味着损失不再是平移不变的,这在您使用浮点数时很有用,而首选比例给出了边距参数的含义。如果没有超球面限制,我认为将边距倍只会将所有嵌入缩放倍。cc