在预训练的 Word2Vec 嵌入之上使用 Transformer 编码器进行分类任务是否有意义?

数据挖掘 神经网络 分类 变压器
2022-02-17 21:47:39

正如标题所说。我正在处理文本分类任务,但我没有资源从头开始训练 BERT 词嵌入。我正在考虑使用现有的 Word2Vec 嵌入并在其上放置一堆 Transformer 编码器层,最后一个 Dense 层用于分类。从我对注意力论文的有限理解来看,这似乎应该可行,但我的模型最终表现很差(预测全为 0)。在我开始在我的代码中寻找错误之前,这个架构失败是否存在概念上的原因?

编辑添加:我正在执行多标签分类,其中每个标签有两个类。我拥有的数据来自法律合同。每个样本就是一个段落,不同的标签对应法律概念的有无。我有一个在法律文本上训练的 Word2Vec 模型,并且嵌入不是模型的一部分 - 我将标记化、规范化和矢量化作为生成器的一部分。

0个回答
没有发现任何回复~