数据挖掘 - 如何为 Word2Vec 预处理数据？ - 吾爱随笔录

数据挖掘 nlp 数据预处理词嵌入 word2vec

2022-02-26 06:44:33

我有从网站上抓取的文本数据。我正在预处理数据以训练 Word2Vec 模型。我应该删除停用词并进行词形还原吗？如何为 Word2Vec 预处理数据？

1个回答

欢迎来到社区，

我不知道其他库，但 gensim 有一个非常好的 API 来创建 word2vec 模型。为了预处理数据，您必须首先决定要在词汇表中保留哪些内容以及诸如此类的内容。例如：- 标点符号、数字、字母数字单词（例如 - 42nd）等。

据我所知，最通用的预处理管道如下：-

1）转换为较低的 2）删除标点符号/符号/数字（但这是您的选择） 3）规范化单词（词形还原和词干）

完成后，现在您可以将句子标记为 uni/bi/tri-grams。

将数据放入 gensim.models.word2vec() 的语句参数的通用格式是：[[tokenized sentence 1]、[tokenized sentence 2].....等等]

希望有帮助，谢谢！！

其它你可能感兴趣的问题