我已经看到诸如BERT之类的 NLP 模型利用 WordPiece 进行标记化。在 WordPiece 中,我们将标记拆分为 play to play 和 ##ing。提到它涵盖了更广泛的词汇表外(OOV)单词。有人可以帮我解释一下 WordPiece 标记化是如何完成的,以及它如何有效地处理稀有/OOV 单词吗?
WordPiece 标记化如何有助于有效处理 NLP 中的稀有词问题?
数据挖掘
nlp
词嵌入
伯特
2021-09-16 08:03:00
0个回答
没有发现任何回复~