Word2vec 使用 gensim

数据挖掘 文本挖掘 word2vec 相似
2022-03-06 16:54:40

我正在使用 gensim 库来查找与我拥有的某些单词最相似的单词。使用 10000 个数据样本(短文本主要是 1-2 个句子)来训练,我得到了非常糟糕的结果!为什么会这样?也通过重复训练和测试得到不同的结果。它不应该是确定性的吗?

model = gensim.models.Word2Vec(senforword2vec)
print(model.most_similar(positive=['bad'], topn=1))

[('金额', 0.9987443089485168)]

在另一列火车和

[('尚未',0.9984885454177856)]

1个回答

您似乎正在一个非常小的数据集上进行训练。一个大小为 10000 个样本的数据集在预处理后会产生不到 5k 个单词,我认为这不足以让您的模型学习这些关系。尝试增加你的数据集然后训练。此外,您可以在训练时调整参数。尝试更改窗口大小(默认为 5)、嵌入大小和最小计数。一般来说,100 是一个很好的嵌入大小,但你可以调整它,看看什么能给你带来更好的结果。

您可以尝试使用 Google 发布的已经训练好的 word2vec 模型。它有 1.5GB,包含 300 万个单词和短语的词向量,他们在 Google 新闻数据集中的大约 1000 亿个单词上进行了训练。