我正在尝试使用 Gensim 库创建 Pub Med Central 语料库的 Word2Vec 模型,并希望将词嵌入的总数限制在 10 亿左右。
我搜索了高和低,无法找到a)如何计算保存模型中的词嵌入总数,以及b)在训练模型时如何限制嵌入的总数(一旦我达到10亿,然后停止)。
请原谅我的简单问题。
我正在尝试使用 Gensim 库创建 Pub Med Central 语料库的 Word2Vec 模型,并希望将词嵌入的总数限制在 10 亿左右。
我搜索了高和低,无法找到a)如何计算保存模型中的词嵌入总数,以及b)在训练模型时如何限制嵌入的总数(一旦我达到10亿,然后停止)。
请原谅我的简单问题。
好吧,在挖掘了我加载的 Word2Vec 模型可用的方法之后,我相信答案是len(model.wv.vectors)......