数据挖掘 - 使用不同大小的训练集进行反向传播？ - 吾爱随笔录

我正在尝试创建一个 NN，其输入是（长度 m）3d 向量数组

{\vec{x}}_{i} = [x_{i, 1}, x_{i, 2}, x_{i, 3}], i = 1 : m

$\vec{x}_i = [x_{i,1},x_{i,2},x_{i,3}], \hspace{5mm}i=1:m$

并且其输出是一个类似大小的数组：

{\vec{h}}_{θ, i} = [h_{θ, i 1}, h_{θ, i 2}, h_{θ, i 3}], i = 1 : m

$\vec{h}_{\theta,i} = [h_{\theta,i1},h_{\theta,i2},h_{\theta,i3}], \hspace{5mm}i=1:m$

但是，我唯一的训练数据不是 3d 向量，而是这些向量的幅度/范数（不知道向量分量（）本身）： $\lambda's$

y_{i} = | | [λ_{i, 1}, λ_{i, 2}, λ_{i, 3}] | |, i = 1 : m

$y_i= ||[\lambda_{i,1},\lambda_{i,2},\lambda_{i,3}]||, \hspace{5mm}i=1:m$

所以，我的概念是使用成本函数：

J = \frac{1}{2 m} \sum (| | {\vec{h}}_{θ, i} | | - | | y_{i} | |)^{2}

$J = \frac{1}{2m}\sum (||\vec{h}_{\theta,i}|| - ||y_i||)^2$

请注意，这与更常见的二次成本函数之间的差异（）与输出的形状相同，我会使用它。 $J = \frac{1}{2m}\sum (\vec{h}_{\theta,i} - \vec{y}_i)^2$ $y_i$

在我上面提到的典型成本函数案例中，反向传播算法总是从计算输出层误差开始（基于该成本函数的简单导数就是）。从那里你跟随到取决于的下一层错误。 $\delta^L = a^L - y_i$ $\delta^L$

我的问题是我的输出层错误应该是什么？我已经尝试使用我的新成本函数仅使用对的导数（我不会在这里写出该导数，因为它有点毛茸茸），但我似乎不能简单地将其插入为我的输出错误并继续正常的反向传播并获得任何合理的结果？ $J$ $a^L$

如果你不能建议我应该如何处理我的 BP 算法，那么也许是因为你认为我的成本函数是一个非首发？作为说明：我已经使用线性模型而不是 NN 向自己证明了这个概念，并使用这个数据集和线性导数而不是 BP 来训练它。尽管考虑到数据的非线性，但准确性很低，所以我想使用 NN 方法。