NLP中随机词dropout的意义

数据挖掘 神经网络 nlp 正则化
2022-03-13 19:34:45

我一直在阅读有关 NLP 预训练的早期论文 ( https://arxiv.org/abs/1511.01432 ),但我无法理解随机词丢失的含义。作者完全忽略了解释这种方法,就好像它是一个标准的东西一样。有人可以解释他们真正在做什么以及这样做的目的是什么?

1个回答

我们可以在不完整阅读句子的情况下理解句子的情况并不少见。或者,当您快速浏览文档时,您往往会忽略一些单词,但仍能理解要点。这就是dropout这个词背后的直觉。

通常这是通过随机删除序列中的每个单词来完成的,例如伯努利分布:

XXe,eB(n,p)

其中 X 是单词标记的索引,n 是序列的长度, 是每个单词丢失状态的向量。e

这通常是在计算完词嵌入之后进行的,并且选择要被忽略的词通常会更改为<UNK>等效的嵌入。

通过这样做,我们允许模型学习更灵活的书写/传达意义的方式。