数据挖掘 - NLP中随机词dropout的意义 - 吾爱随笔录

数据挖掘神经网络 nlp 正则化

2022-03-13 19:34:45

我一直在阅读有关 NLP 预训练的早期论文 ( https://arxiv.org/abs/1511.01432 )，但我无法理解随机词丢失的含义。作者完全忽略了解释这种方法，就好像它是一个标准的东西一样。有人可以解释他们真正在做什么以及这样做的目的是什么？

1个回答

我们可以在不完整阅读句子的情况下理解句子的情况并不少见。或者，当您快速浏览文档时，您往往会忽略一些单词，但仍能理解要点。这就是dropout这个词背后的直觉。

通常这是通过随机删除序列中的每个单词来完成的，例如伯努利分布：

$X \leftarrow X \odot \vec{e}, \vec{e} ∼ B(n, p)$

其中 X 是单词标记的索引，n 是序列的长度，是每个单词丢失状态的向量。 $\vec{e}$

这通常是在计算完词嵌入之后进行的，并且选择要被忽略的词通常会更改为<UNK>等效的嵌入。

通过这样做，我们允许模型学习更灵活的书写/传达意义的方式。

其它你可能感兴趣的问题