最近的 BERT 模型中的全词掩蔽是什么?

数据挖掘 nlp 语言模型 伯特
2021-10-08 19:28:21

我正在查看BERT GitHub 页面,并注意到有一些新模型是由一种称为“全词掩码”的新训练技术构建的。这是一个描述它的片段:

在原始的预处理代码中,我们随机选择 WordPiece 标记进行掩码。例如:

Input Text: the man jumped up , put his basket on phil ##am ##mon ' s head

Original Masked Input: [MASK] man [MASK] up , put his [MASK] on phil [MASK] ##mon ' s head

这项新技术被称为全字掩码。在这种情况下,我们总是同时屏蔽与一个单词对应的所有标记。总体掩蔽率保持不变。

Whole Word Masked Input: the man [MASK] up , put his basket on [MASK] [MASK] [MASK] ' s head

我无法理解“我们总是同时掩盖与一个单词对应的所有标记”。“jumped”、“phil”、“##am”和“##mon”被屏蔽了,我不确定这些标记是如何相关的。

1个回答

phil ##am #mon 是将单个单词“philammon”编码为 3 个标记的子字。注释只是意味着它们通过考虑子字编码来掩盖单词而不是标记。

有关子字编码的更多信息,请查看 2 月 14 日子字讲座http://web.stanford.edu/class/cs224n/index.html#schedule中的幻灯片,尤其是字节对编码。