数据挖掘 - 为什么 Siamese 神经网络使用绑定权重，它们是如何工作的？ - 吾爱随笔录

阅读这篇关于 one-shot learning 的论文“ Siamese Neural Networks for One-shot Image Recognition ”，我了解到了 Siamese Neural Networks 的概念。

我没有完全理解的是他们所说的这条线是什么意思：

该目标与标准反向传播算法相结合，其中由于权重绑定
，梯度在孪生网络中是相加的。

首先，它们究竟是如何绑定的？贝娄，我相信我已经提供了他们计算梯度的公式。T 是时代， $\mu_j$ 是动量， $\lambda_j$ 正则化， $\eta_j$ 学习率， $w_{kj}$ 我相信是神经元 k 和一层和 j 之间的权重，但如果我错了，请纠正我。

\begin{matrix} w_{k j}^{(T)} (x_{1}^{(i)}, x_{2}^{(i)}) = w_{k j}^{(T)} + Δ w_{k j}^{(T)} (x_{1}^{(i)}, x_{2}^{(i)}) + 2 λ_{j} | w_{k j} | \\ Δ w_{k j}^{(T)} (x_{1}^{(i)}, x_{2}^{(i)}) = - η_{j} \nabla w_{k j}^{(T)} + μ_{j} Δ w_{k j}^{(T - 1)} \end{matrix}

$\begin{equation}\begin{array}{c} \mathbf{w}_{k j}^{(T)}\left(x_{1}^{(i)}, x_{2}^{(i)}\right)=\mathbf{w}_{k j}^{(T)}+\Delta \mathbf{w}_{k j}^{(T)}\left(x_{1}^{(i)}, x_{2}^{(i)}\right)+2 \lambda_{j}\left|\mathbf{w}_{k j}\right| \\ \Delta \mathbf{w}_{k j}^{(T)}\left(x_{1}^{(i)}, x_{2}^{(i)}\right)=-\eta_{j} \nabla w_{k j}^{(T)}+\mu_{j} \Delta \mathbf{w}_{k j}^{(T-1)} \end{array}\end{equation}$

我的另一个问题是为什么这甚至是可取的？为什么不重复使用同一个网络两次呢？或者也许这两个网络在训练后会是相同的？如果训练后的网络是相同的，为什么要这样设置呢？它有什么好处？