数据挖掘 - 在 Gensim word2vec 训练之前对流水线中的语料库进行文本预处理 - 吾爱随笔录

数据挖掘 Python nlp word2vec nltk gensim

2022-03-09 13:09:20

我有一个很大的压缩语料库，大约 30gb 的 .txt.gz 格式。在原始格式中，它可以用作 word2vec 的输入，如下所示：

data = gensim.models.word2vec.LineSentence(corpus)

这会在语料库的行上创建一个迭代器。下一步是训练：

model = gensim.models.Word2Vec(data)

我想在训练之前对语料库进行词形还原和 POS 标记。我打算使用 NLTK WordNetLemmatizer 和 NLTK POS-tagger。

我应该如何在管道中执行此操作？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题