我一直在阅读有关 NLP 预训练的早期论文 ( https://arxiv.org/abs/1511.01432 ),但我无法理解随机词丢失的含义。作者完全忽略了解释这种方法,就好像它是一个标准的东西一样。有人可以解释他们真正在做什么以及这样做的目的是什么?
NLP中随机词dropout的意义
数据挖掘
神经网络
nlp
正则化
2022-03-13 19:34:45
1个回答
我们可以在不完整阅读句子的情况下理解句子的情况并不少见。或者,当您快速浏览文档时,您往往会忽略一些单词,但仍能理解要点。这就是dropout这个词背后的直觉。
通常这是通过随机删除序列中的每个单词来完成的,例如伯努利分布:
其中 X 是单词标记的索引,n 是序列的长度, 是每个单词丢失状态的向量。
这通常是在计算完词嵌入之后进行的,并且选择要被忽略的词通常会更改为<UNK>等效的嵌入。
通过这样做,我们允许模型学习更灵活的书写/传达意义的方式。
其它你可能感兴趣的问题