标题说明了一切。我在网上看到很多关于如何使用合并和词汇文件初始化 RoBERTa,但这些文件的意义何在?它们究竟是用来做什么的?
基于 BERT 的模型中使用的合并和词汇文件是什么?
数据挖掘
神经网络
nlp
伯特
2022-03-04 09:21:18
1个回答
词汇文件包含词汇字符串和索引的映射,用于在模型中嵌入查找。
合并说明如何将输入字符串拆分为子字单元。算法如下:在合并开始时,将一个单词拆分成字符,然后你贪婪地搜索可以合并的相邻符号(即在允许合并的列表中),当没有可以合并的时候你停止并且这是子词分割。
其它你可能感兴趣的问题