数据挖掘 - Word2vec 使用 gensim - 吾爱随笔录

Word2vec 使用 gensim

数据挖掘文本挖掘 word2vec 相似

2022-03-06 16:54:40

我正在使用 gensim 库来查找与我拥有的某些单词最相似的单词。使用 10000 个数据样本（短文本主要是 1-2 个句子）来训练，我得到了非常糟糕的结果！为什么会这样？也通过重复训练和测试得到不同的结果。它不应该是确定性的吗？

model = gensim.models.Word2Vec(senforword2vec)
print(model.most_similar(positive=['bad'], topn=1))

[('金额', 0.9987443089485168)]

在另一列火车和

[（'尚未'，0.9984885454177856）]

1个回答

您似乎正在一个非常小的数据集上进行训练。一个大小为 10000 个样本的数据集在预处理后会产生不到 5k 个单词，我认为这不足以让您的模型学习这些关系。尝试增加你的数据集然后训练。此外，您可以在训练时调整参数。尝试更改窗口大小（默认为 5）、嵌入大小和最小计数。一般来说，100 是一个很好的嵌入大小，但你可以调整它，看看什么能给你带来更好的结果。

您可以尝试使用 Google 发布的已经训练好的 word2vec 模型。它有 1.5GB，包含 300 万个单词和短语的词向量，他们在 Google 新闻数据集中的大约 1000 亿个单词上进行了训练。

其它你可能感兴趣的问题

上一篇从文本文档中查找主题下一篇如何对文档进行分类，无论它们是否与以前的文档相似？