数据挖掘 - word2vec 或 BERT 如何用于以前看不见的单词 - 吾爱随笔录

word2vec 或 BERT 如何用于以前看不见的单词

数据挖掘 nlp 词嵌入 word2vec

2021-10-07 01:23:09

有没有办法修改 word2vec 或 BERT 以扩展查找不在训练数据中的单词的嵌入？我的数据是非常特定于领域的，我真的不希望预训练的模型能很好地工作。我也无法访问大量此类数据，因此无法自己训练 word2vec。我在想类似 word2vec 和 PMI 矩阵的组合（即 2 个向量表示的串联）。请问这行得通吗，有人有其他建议吗？

提前致谢！

2个回答

BERT 不提供词级表示，而是提供子词表示。这意味着当一个看不见的词呈现给 BERT 时，它会将其分割成多个子词，甚至在需要时达到字符子词。这就是它处理看不见的单词的方式。因此，BERT 可以处理词汇外的单词。本站的一些其他问题和答案可以帮助您了解 BERT 子词标记化的实现细节，例如this、this或this。

另一方面，word2vec 是单词和向量的静态表，因此它只是用来表示已经在其词汇表中的单词。

fastText 是你的朋友！它实际上是word2vec的一个扩展，将单词的一些字符n-gram平均并相加，使skip-gram的预测更好。我强烈建议阅读原始论文。

其它你可能感兴趣的问题

上一篇朴素贝叶斯是什么形状？下一篇在 scikit-learn 中约束线性回归器参数？