我正在阅读论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,可以在这里找到。
在我看来,论文的关键是使用屏蔽输入来实现双向。
这是 Google AI 博客的摘录,其中指出:
“然而,不可能通过简单地将每个词的前一个词和下一个词作为条件来训练双向模型,因为这将允许被预测的词在多层模型中间接“看到自己”。为了解决这个问题,我们使用直接的技术来屏蔽输入中的一些单词,然后双向调节每个单词以预测被屏蔽的单词。”
有人可以帮我理解双向如何让单词看到自己以及掩蔽如何解决这个问题吗?
谢谢。