我对在 NLP 任务中使用词嵌入的领域相对较新。从大量文档中,我训练 word2vec 词嵌入向量,然后将它们用于文档分类,并结合基于 RNN 的分类器(LSTM、GRU),这是当今非常标准的管道。
有一个问题;那我们也应该在文档分类训练期间更新词嵌入。
我过去习惯于图像分类/对象检测等任务。你得到一个图像输入,并在 CNN 的数值优化期间更新从该图像中提取的卷积特征。但自然而然,图像本身永远不会更新,因为它是原始数据。
我们如何处理文本文档世界中的嵌入向量?它们不像图像那样“自然”,我们首先从无监督方法(word2vec、GloVe 或任何其他工具)中学习它们,所以我认为它们可以在监督训练期间进一步微调。在序列分类器的训练过程中更新嵌入向量和 RNN 参数是常见的做法,还是应该让它们保持不变(以避免过度拟合)?