word2vec 或 BERT 如何用于以前看不见的单词

数据挖掘 nlp 词嵌入 word2vec
2021-10-07 01:23:09

有没有办法修改 word2vec 或 BERT 以扩展查找不在训练数据中的单词的嵌入?我的数据是非常特定于领域的,我真的不希望预训练的模型能很好地工作。我也无法访问大量此类数据,因此无法自己训练 word2vec。我在想类似 word2vec 和 PMI 矩阵的组合(即 2 个向量表示的串联)。请问这行得通吗,有人有其他建议吗?

提前致谢!

2个回答

BERT 不提供词级表示,而是提供子词表示。这意味着当一个看不见的词呈现给 BERT 时,它会将其分割成多个子词,甚至在需要时达到字符子词。这就是它处理看不见的单词的方式。因此,BERT 可以处理词汇外的单词。本站的一些其他问题和答案可以帮助您了解 BERT 子词标记化的实现细节,例如thisthisthis

另一方面,word2vec 是单词和向量的静态表,因此它只是用来表示已经在其词汇表中的单词。

fastText 是你的朋友!它实际上是word2vec的一个扩展,将单词的一些字符n-gram平均并相加,使skip-gram的预测更好。我强烈建议阅读原始论文