有了 word2vec 模型后,如何使用新近度/时间作为特征

数据挖掘 机器学习 word2vec 词嵌入
2022-03-10 10:01:03

我有一个很好用的 word 2 矢量模型,但假设我输入了 Eminem。

它给了我:

说唱,音乐,复兴和恢复。

我如何制作另一个首先显示复兴的图层?

1个回答

Word2vec 的目的是它自己会学习文本数据中的隐藏结构。如果“恢复”出现在说唱和音乐之后,是因为 Eminem 使用这些上下文词比使用恢复更频繁。你不能简单地改变它。您应该避免对模型进行手动干预。

但是,如果您真的希望“恢复”更接近 Eminem 单词,可以尝试以下 2 个想法:

  • 尝试其他 Word2Vec 算法架构。有 CBOW 和 skip-gram 你可以试试。在我看来,CBOW 可以表现得更好,因为 CBOW 模型根据其上下文训练每个单词。它询问“给定这组上下文词,哪个缺失词可能同时出现?”。Skip-gram 针对单词训练每个上下文。它询问“给定这个词,可能同时出现在它附近的其他词是什么?”
  • 在数据中添加与恢复专辑相关的句子。因为这些句子中recovery和Eminem应该占主导地位,所以可以调和这两个词。同样,您可以复制同时包含 Eminem 和恢复词的句子,并随机更改句子中单词的顺序。