如何为 Word2Vec 预处理数据?

数据挖掘 nlp 数据 预处理 词嵌入 word2vec
2022-02-26 06:44:33

我有从网站上抓取的文本数据。我正在预处理数据以训练 Word2Vec 模型。我应该删除停用词并进行词形还原吗?如何为 Word2Vec 预处理数据?

1个回答

欢迎来到社区,

我不知道其他库,但 gensim 有一个非常好的 API 来创建 word2vec 模型。为了预处理数据,您必须首先决定要在词汇表中保留哪些内容以及诸如此类的内容。例如:- 标点符号、数字、字母数字单词(例如 - 42nd)等。

据我所知,最通用的预处理管道如下:-

1)转换为较低的 2)删除标点符号/符号/数字(但这是您的选择) 3)规范化单词(词形还原和词干)

完成后,现在您可以将句子标记为 uni/bi/tri-grams。

看看这个

将数据放入 gensim.models.word2vec() 的语句参数的通用格式是:[[tokenized sentence 1]、[tokenized sentence 2].....等等]

希望有帮助,谢谢!!