数据挖掘 - 连续的词袋声称是无人监督的，它是如何工作的？ - 吾爱随笔录

我正在关注这两个关于 CBOW 和 skip-gram word2vec 模型的讲座。第一个是第 12 课，下一个是深度学习系列的第 13 课

https://www.youtube.com/watch?v=syWB-YMYZvI

https://www.youtube.com/watch?v=GMCwS7tS5ZM&t=548s

在第二个视频的大约 17 分钟内，讲师说这种方法对于 CBOW 是无监督的，因为没有标签？如何学习没有标签的神经网络？这完全让我感到困惑，因为我们为什么不将我们的 softmax 概率向量与一组实际的输出进行比较，以便我们可以相应地调整 v_c 和 v_w 权重。他的似然函数似乎只关心参数 v_c 和 v_w （并且完全没有某种目标标签），这对我来说很疯狂，因为我不能只是让它们成为我想要的任何东西吗？此外，如果实际目标变量没有引导您找到正确的标签，您如何学习实际单词对之间的关系？有人可以解释一下幕后发生的事情，因为我真的很想了解这种方法。

带有大小窗口的大多数对数似然估计 $m$ 看起来像下面这样 $-\mathrm{log} \prod_{j=0,j \neq m}^{2m} \frac{e^{u^T_{c-m+j}v_c}}{\sum_{k=1}^{|v|} e^{u_k^Tv_c}}$

据我所知，似然函数应该涉及来自实际观察的数据，而不是要估计的纯粹参数，有人可以解释一下吗？

请注意，当他分别谈到 D 或 D' 中的对 (w,c) 时，我从 17 分钟开始更多地关注它。我很感激任何帮助！