使用 word2vec 或跳过思维向量生成词/句子嵌入的词汇量下限是多少?

数据挖掘 nlp word2vec 词嵌入 斯坦福-nlp
2022-03-14 09:21:32

我正在从事与 NLP 相关的任务。我有大约 150 个文件,每页长(平均 5/6 页)。删除停用词和其他不必要的符号和数字后,我有大约 104,000 个唯一词。手头的任务可能需要某种词嵌入(例如 word2vec),因为简单的词袋类型方法无法正常工作。但是,我担心我拥有的数据的大小。我看过预训练的词嵌入(GloVec),但是,由于我们文本的领域(制造)的狭窄焦点,我犹豫要使用这些预训练的向量。这让我只能自己训练。然而,我们数据集的大小让我很担心。因此,我只是把这个问题扔在那里:

任何回应将不胜感激。

谢谢

1个回答

这不是一个容易回答的问题,因为很难将两个 word2vec 模型的质量与有意义的指标进行比较。当然,您可以使用损失函数,但这不会提供太多。

另一种方法更具启发性:以每个单词的频率为例,并删除那些重复少于 N 次的单词,您可以将 N 设置为例如 10 或 20。这是常见的做法,因为您需要一定数量的重复同一个词以获得一些有意义的结果。