与语言模型相比,使用去噪目标总是会产生更好的下游任务性能
其中去噪 == masked-lm == 完形填空。
我明白为什么学习根据双向环境来表示一个词是有意义的。但是,我不明白为什么学习在同一个句子中屏蔽 2 个单词是有益的,例如The animal crossed the road=> The [mask] crossed the [mask]。animal为什么在没有上下文的情况下学习表示有意义road?
注意:我知道掩蔽概率是 15%,对应于 1/7 个单词,这使得同一个句子中的 2 个单词被掩蔽是非常罕见的,但为什么它会是有益的,即使概率很低?
注意2:请忽略掩蔽过程有时用随机/相同的词而不是替换掩码[mask],T5 对这个选择进行了相当长的调查,我怀疑这只是一个经验性发现:)