我正在关注这两个关于 CBOW 和 skip-gram word2vec 模型的讲座。第一个是第 12 课,下一个是深度学习系列的第 13 课
https://www.youtube.com/watch?v=syWB-YMYZvI
https://www.youtube.com/watch?v=GMCwS7tS5ZM&t=548s
在第二个视频的大约 17 分钟内,讲师说这种方法对于 CBOW 是无监督的,因为没有标签?如何学习没有标签的神经网络?这完全让我感到困惑,因为我们为什么不将我们的 softmax 概率向量与一组实际的输出进行比较,以便我们可以相应地调整 v_c 和 v_w 权重。他的似然函数似乎只关心参数 v_c 和 v_w (并且完全没有某种目标标签),这对我来说很疯狂,因为我不能只是让它们成为我想要的任何东西吗?此外,如果实际目标变量没有引导您找到正确的标签,您如何学习实际单词对之间的关系?有人可以解释一下幕后发生的事情,因为我真的很想了解这种方法。
带有大小窗口的大多数对数似然估计看起来像下面这样
据我所知,似然函数应该涉及来自实际观察的数据,而不是要估计的纯粹参数,有人可以解释一下吗?
请注意,当他分别谈到 D 或 D' 中的对 (w,c) 时,我从 17 分钟开始更多地关注它。我很感激任何帮助!