我正在尝试使用 BERT 和 CNN 的组合来解决多标签分类(数据集是推文文本)。作为基准,我会将它与其他词嵌入进行比较,其中之一是 Word2vec。经过多次尝试,Word2vec-CNN 的性能似乎一直优于 BERT-CNN,这是我上次尝试的结果:
Word2vec-CNN
precision (macro): 0.89
recall (macro): 0.87
f1-score (macro): 0.88
accuracy (test set): 0.81
hamming loss: 0.062
BERT-CNN
precision (macro): 0.86
recall (macro): 0.88
f1-score (macro): 0.87
accuracy (test set): 0.74
hamming loss: 0.073
问题是:
- Word2vec(或任何静态词嵌入)是否有可能优于 BERT(或任何上下文词嵌入)?如果是这样,理由是什么?如果有任何关于这方面的研究论文,那将非常有帮助。
- 如果不是,可能是什么原因?
FWIW:模型是使用 TensorFlow-Keras 训练的(我有点怀疑这是由 TF-Keras 计算其指标的方式引起的,但我仍然没有弄清楚原因以及解决方案(如果有的话)),并且两个嵌入都是预训练的( BERT 模型是在更大的语料库上训练的,大约 200:1)。