我有一个在康奈尔电影对话上训练的 seq2seq 对话模型(基于这个实现)。现在我想在一个小得多的数据集上对其进行微调。新数据伴随着新词,我希望 UNKs 尽可能少的新词。因此,我将针对新的输入/输出大小创建一个新网络,并且我将使用我手头的学习权重初始化它的子矩阵。
您能否说这种方法是否会导致结果模型的性能出现问题?例如,这些新的最初未经训练的权重是否可能会显着影响 softmax?如果没问题,你有没有一些例子说明如何在 tensorflow 的 seq2seq 设置中以最小的痛苦做到这一点?
我有一个在康奈尔电影对话上训练的 seq2seq 对话模型(基于这个实现)。现在我想在一个小得多的数据集上对其进行微调。新数据伴随着新词,我希望 UNKs 尽可能少的新词。因此,我将针对新的输入/输出大小创建一个新网络,并且我将使用我手头的学习权重初始化它的子矩阵。
您能否说这种方法是否会导致结果模型的性能出现问题?例如,这些新的最初未经训练的权重是否可能会显着影响 softmax?如果没问题,你有没有一些例子说明如何在 tensorflow 的 seq2seq 设置中以最小的痛苦做到这一点?