我正在查看BERT GitHub 页面,并注意到有一些新模型是由一种称为“全词掩码”的新训练技术构建的。这是一个描述它的片段:
在原始的预处理代码中,我们随机选择 WordPiece 标记进行掩码。例如:
Input Text: the man jumped up , put his basket on phil ##am ##mon ' s head
Original Masked Input: [MASK] man [MASK] up , put his [MASK] on phil [MASK] ##mon ' s head
这项新技术被称为全字掩码。在这种情况下,我们总是同时屏蔽与一个单词对应的所有标记。总体掩蔽率保持不变。
Whole Word Masked Input: the man [MASK] up , put his basket on [MASK] [MASK] [MASK] ' s head
我无法理解“我们总是同时掩盖与一个单词对应的所有标记”。“jumped”、“phil”、“##am”和“##mon”被屏蔽了,我不确定这些标记是如何相关的。