用于生成上下文相关单词和同义词的机器学习/深度学习模型是什么?

数据挖掘 机器学习 深度学习 nlp word2vec
2022-01-25 19:29:56

我的任务是研究用于查找同义词和上下文相关单词的模型。例如,如果我输入:

  • ' car ' 它应该生成 -> ' vehicle '

  • ' sun ' 和 ' sea ' 可以生成 ' beach ' 或其他与前两个相关的词。

所以到目前为止我使用 word2vec 和 nltk 来生成示例。但由于我不是 NLP 方面的专家,我真的发现很难使用其他算法或构建我的神经网络架构。如果有人能给我其他建议和一些解释,我将不胜感激,这可能会有用。

1个回答

对于同义词,我会直接使用WordNet

[添加] 对于上下文相似的词,传统方法是为每个目标词提取上下文向量:

  1. 对于目标词的每次出现,在 -/+ N 窗口(例如 N=5)内提取词。
  2. 对于每个目标词,将其所有上下文词聚合在整个词汇表上的单个上下文向量中。

最后,一旦为每个目标词计算了上下文向量,就可以使用相似度度量,例如余弦。这意味着对于每个目标词,将其向量与任何其他候选词进行比较。

相同的方法可以用于词嵌入而不是上下文向量。