连续的词袋声称是无人监督的,它是如何工作的?

数据挖掘 机器学习 神经网络 深度学习 word2vec nlp
2022-03-01 02:14:10

我正在关注这两个关于 CBOW 和 skip-gram word2vec 模型的讲座。第一个是第 12 课,下一个是深度学习系列的第 13 课

https://www.youtube.com/watch?v=syWB-YMYZvI

https://www.youtube.com/watch?v=GMCwS7tS5ZM&t=548s

在第二个视频的大约 17 分钟内,讲师说这种方法对于 CBOW 是无监督的,因为没有标签?如何学习没有标签的神经网络?这完全让我感到困惑,因为我们为什么不将我们的 softmax 概率向量与一组实际的输出进行比较,以便我们可以相应地调整 v_c 和 v_w 权重。他的似然函数似乎只关心参数 v_c 和 v_w (并且完全没有某种目标标签),这对我来说很疯狂,因为我不能只是让它们成为我想要的任何东西吗?此外,如果实际目标变量没有引导您找到正确的标签,您如何学习实际单词对之间的关​​系?有人可以解释一下幕后发生的事情,因为我真的很想了解这种方法。

带有大小窗口的大多数对数似然估计m看起来像下面这样logj=0,jm2meucm+jTvck=1|v|eukTvc

据我所知,似然函数应该涉及来自实际观察的数据,而不是要估计的纯粹参数,有人可以解释一下吗?

请注意,当他分别谈到 D 或 D' 中的对 (w,c) 时,我从 17 分钟开始更多地关注它。我很感激任何帮助!

2个回答

CBOW 方法是无监督的,因为网络学习每个单词周围单词共现的分布,这不需要标记或额外的输入,只需要单词序列。

正如Mikolov 等人在一篇原始文章中所说,“训练目标是学习擅长预测附近单词的词向量表示;在另一篇文章中,Mikolov 等人说他们的目标是“构建一个具有四个输入的未来和四个历史词,其中训练标准是正确分类当前(中间)词”。因此,如果您可以看到每个序列,您正在使用“x”个词并训练网络来预测一个给定其他人,则不涉及监督。

这有点不合常规,因为重要的不是网络的输出,而是在训练期间学习到的权重——这些是在其他任务中被用作嵌入的东西。

Adrian Colyer 在这里对 word2vec 做了一个很棒的一般性文章,这里Chris McCormick 的解释很好而且很容易理解。

它被认为是“无监督的”,因为不必手动创建标签。

标签是根据单词在现实世界中的使用方式自动生成的。