在 Gensim word2vec 训练之前对流水线中的语料库进行文本预处理

数据挖掘 Python nlp word2vec nltk gensim
2022-03-09 13:09:20

我有一个很大的压缩语料库,大约 30gb 的 .txt.gz 格式。在原始格式中,它可以用作 word2vec 的输入,如下所示:

data = gensim.models.word2vec.LineSentence(corpus)

这会在语料库的行上创建一个迭代器。下一步是训练:

model = gensim.models.Word2Vec(data)

我想在训练之前对语料库进行词形还原和 POS 标记。我打算使用 NLTK WordNetLemmatizer 和 NLTK POS-tagger。

我应该如何在管道中执行此操作?

0个回答
没有发现任何回复~