您是否有任何情况下拟合多元回归(因此具有多个输出节点)在准确性方面优于一次拟合单个输出?
我问这个是因为在我看来,输出节点之间没有信息共享,这可能是线性多元回归中的情况,其中 不同响应的残差可以相关:
,
对于,
对于。
在这个简单的(双变量)情况下,如果那么我可能预计给出的预期值)将导致 Y_2 的相应高值相对于其预期值)。这是我在神经网络环境中找不到的东西,因为节点不是随机变量,而是确定性的。
您是否有任何情况下拟合多元回归(因此具有多个输出节点)在准确性方面优于一次拟合单个输出?
我问这个是因为在我看来,输出节点之间没有信息共享,这可能是线性多元回归中的情况,其中 不同响应的残差可以相关:
,
对于,
对于。
在这个简单的(双变量)情况下,如果那么我可能预计给出的预期值)将导致 Y_2 的相应高值相对于其预期值)。这是我在神经网络环境中找不到的东西,因为节点不是随机变量,而是确定性的。
这是模型的卡通表示。模型 A 使用单个网络来预测两个输出。模型 B 使用单独的网络来预测两个输出。因为两个网络的输入是相同的,我们可以将其重新构建为等效模型 C。在这种情况下,输入被传递到隐藏/输出层,它们只是模型 B 中的连接副本。隐藏层权重将具有块对角结构,这样左右两半中的单元之间的权重为零。
大概输出单元是线性的(因为这是一个回归问题)而隐藏单元是非线性的(否则为什么要使用神经网络)。我们可以将网络视为将输入非线性地映射到特征空间。特征空间中输入的图像由最后一个隐藏层的激活给出。然后输出层在特征空间中执行线性回归。训练网络相当于联合学习回归权重和特征空间映射。
训练模型 A 意味着学习单个特征空间映射。另一种说法是,我们希望找到一个对预测两个输出都有好处的输入表示。使用模型 B,我们会为每个输出找到一个单独的表示。通过与模型 C 等价,这也可以看作是找到一个单一的、更高维的表示。
模型 B/C 是比模型 A 大得多的网络,并且具有更多的参数。因此,它们应该更加灵活。根据情况,这可能是好是坏。给定足够的数据,更大的网络可以学习更复杂的功能。鉴于数据不足,它可能更容易过度拟合。考虑一下如果我们将其扩展到 100 个输出而不是 2 个会发生什么。