我有一个很大的压缩语料库,大约 30gb 的 .txt.gz 格式。在原始格式中,它可以用作 word2vec 的输入,如下所示:
data = gensim.models.word2vec.LineSentence(corpus)
这会在语料库的行上创建一个迭代器。下一步是训练:
model = gensim.models.Word2Vec(data)
我想在训练之前对语料库进行词形还原和 POS 标记。我打算使用 NLTK WordNetLemmatizer 和 NLTK POS-tagger。
我应该如何在管道中执行此操作?