一个单词需要出现在 word2vec 训练语料库中以获得质量结果的最少次数是多少?

数据挖掘 深度学习 word2vec 文本
2021-10-15 22:02:07

当使用例如 gensim 训练 word2vec 模型时,您可以指定需要看到单词的最少次数(使用参数 min_count)。这个的默认值似乎是 5。

为 min_value 选择阈值是否有任何理论上的考虑?根据看到单词的上下文(以及它们的潜在种类),模型似乎可能需要 5 个以上的单词来学习单词的良好向量表示。是否有任何论文指定学习向量何时变得更加静态?或者,您能否在所有单词上训练模型,但只使用在语料库中出现超过指定次数的单词向量?频率是否比 min_count 更好?

0个回答
没有发现任何回复~