Word2Vec 和 Tf-idf 如何组合它们

数据挖掘 nlp 文本挖掘 特征工程 word2vec tfidf
2021-09-30 14:05:20

我目前正在从事文本挖掘 ptoject 工作,一旦我进行矢量化,我想知道。有方法更好。

  • Word2Vec还是Tf-Idf

  • 在这里我看到我们可以将它们结合起来,为什么?它会提高数据质量吗?

  • 怎么样GloVe

谢谢

1个回答
  • Word2Vec 算法(Skip Gram 和 CBOW)平等对待每个词,因为它们的目标是计算词嵌入。当需要处理句子或文档嵌入时,这种区别就变得很重要。并非所有单词都同样代表特定句子的含义。并且在这里应用了不同的加权策略,TF-IDF 是那些成功的策略之一。
  • 有时,它确实提高了推理质量,因此组合值得一试。
  • 手套是斯坦福的宝贝,经常被证明表现更好。可以在此处阅读有关Glove 对抗 Word2Vec的更多信息,以及在线提供的许多其他资源。