数据挖掘 - BERT 在一个句子中掩盖 2 个单词的动机是什么？ - 吾爱随笔录

bert和最近的t5消融研究一致认为

与语言模型相比，使用去噪目标总是会产生更好的下游任务性能

其中去噪 == masked-lm == 完形填空。

我明白为什么学习根据双向环境来表示一个词是有意义的。但是，我不明白为什么学习在同一个句子中屏蔽 2 个单词是有益的，例如The animal crossed the road=> The [mask] crossed the [mask]。animal为什么在没有上下文的情况下学习表示有意义road？

注意：我知道掩蔽概率是 15%，对应于 1/7 个单词，这使得同一个句子中的 2 个单词被掩蔽是非常罕见的，但为什么它会是有益的，即使概率很低？

注意2：请忽略掩蔽过程有时用随机/相同的词而不是替换掩码[mask]，T5 对这个选择进行了相当长的调查，我怀疑这只是一个经验性发现:)