考虑一个典型的时间序列(序列)预测问题,它使用前步历史特征来预测下一步目标。我们以模型为例。kRNN

如图所示,{ ,..., } 是用于在 stepx0xkyk+1k+1. 典型方法仅使用最终输出y^k+1对于训练,相应的损失将是,例如mse,||yk+1−y^k+1||2. 因此,我有以下几个问题。
Q1:虽然{y1,...,yk} 在时间步长已知k,使用输出的最后多个(甚至所有)步骤进行预测会比只使用最后一个更好吗y^k? 例如,使用mse多步输出作为
loss=1N+1⋅∑n=0N||y^k+1−n−yk+1−n||2
Q2:如何为多个输出选择合适的损失函数?似乎多步mse不是一个好的选择,当排名之间y和y^优于绝对偏差。