我有从网站上抓取的文本数据。我正在预处理数据以训练 Word2Vec 模型。我应该删除停用词并进行词形还原吗?如何为 Word2Vec 预处理数据?
如何为 Word2Vec 预处理数据?
数据挖掘
nlp
数据
预处理
词嵌入
word2vec
2022-02-26 06:44:33
1个回答
欢迎来到社区,
我不知道其他库,但 gensim 有一个非常好的 API 来创建 word2vec 模型。为了预处理数据,您必须首先决定要在词汇表中保留哪些内容以及诸如此类的内容。例如:- 标点符号、数字、字母数字单词(例如 - 42nd)等。
据我所知,最通用的预处理管道如下:-
1)转换为较低的 2)删除标点符号/符号/数字(但这是您的选择) 3)规范化单词(词形还原和词干)
完成后,现在您可以将句子标记为 uni/bi/tri-grams。
看看这个
将数据放入 gensim.models.word2vec() 的语句参数的通用格式是:[[tokenized sentence 1]、[tokenized sentence 2].....等等]
希望有帮助,谢谢!!
其它你可能感兴趣的问题