BERT 摘要的第一行是
我们引入了一种新的语言表示模型,称为 BERT。
这里的关键词是“语言表示模型”。BERT 和 Word2Vec 等其他自然语言处理模型的目的是提供单词的向量表示,以便向量可以用作其他任务的神经网络的输入。
关于这个领域有两个概念需要掌握;词的向量表示和迁移学习。你可以在网上找到关于这两个主题的大量信息,但我会给出一个简短的总结。
如何期望 BERT 能够做到这一点,以及如何期望人类或其他算法来评估“汤”是否比“咖啡”更好?
这种歧义是单词预测的强项,而不是弱点。为了将语言输入神经网络,必须以某种方式将单词转换为数字。一种方法是简单的分类嵌入,其中第一个单词“a”映射到 1,第二个单词“aardvark”映射到 2,依此类推。但在这种表示中,意义相似的单词不会映射到相似的数字。正如您所说,与所有英语单词相比,“汤”和“咖啡”具有相似的含义(它们都是名词、液体、通常热食的食物/饮料类型,因此我都可以对缺失的单词做出有效的预测) ,那么如果它们的数值表示也彼此相似,那不是很好吗?
这就是向量表示的思想。不是将每个单词映射到单个数字,而是将每个单词映射到数百个数字的向量,并将具有相似含义的单词映射到相似向量。
第二个概念是迁移学习。在许多情况下,您要执行的任务只有少量数据,但相关但不太重要的任务却有大量数据。迁移学习的想法是在不太重要的任务上训练神经网络,并将学到的信息应用于您真正关心的其他任务。
正如 BERT 摘要的后半部分所述,
...预训练的 BERT 模型可以通过一个额外的输出层进行微调,从而为各种任务(例如问答和语言推理)创建最先进的模型,而无需对特定于任务的架构进行大量修改。
总而言之,您的问题的答案是人们不关心掩蔽词预测任务本身。这项任务的优势在于,有大量数据可供随时免费训练(BERT 使用了整个维基百科,带有随机选择的掩码),并且该任务与其他需要解释的自然语言处理任务相关词的意思。BERT 和其他语言表示模型学习单词的向量嵌入,并通过迁移学习将此信息传递给您真正关心的任何其他下游任务。