在 BERT 发布之前,我们曾经说过,不可能通过简单地根据每个词的前一个词和下一个词来训练双向模型,因为这将允许被预测的词间接地“看到自己”层模型。这是怎么发生的?
双向编码如何让预测词间接“看到自己”?
人工智能
深度学习
自然语言处理
循环神经网络
伯特
2021-11-03 01:38:50
0个回答
没有发现任何回复~