基于 BERT 的模型中使用的合并和词汇文件是什么?

数据挖掘 神经网络 nlp 伯特
2022-03-04 09:21:18

标题说明了一切。我在网上看到很多关于如何使用合并和词汇文件初始化 RoBERTa,但这些文件的意义何在?它们究竟是用来做什么的?

1个回答

词汇文件包含词汇字符串和索引的映射,用于在模型中嵌入查找。

合并说明如何将输入字符串拆分为子字单元。算法如下:在合并开始时,将一个单词拆分成字符,然后你贪婪地搜索可以合并的相邻符号(即在允许合并的列表中),当没有可以合并的时候你停止并且这是子词分割。