我需要使用 Gensim 在 Wikipedia 文章上训练 word2vec 嵌入模型。
最终,我将为此使用整个维基百科,
但目前,我正在做一些实验/优化以提高模型质量,我想知道有多少文章足以训练一个有意义/好的模型?词汇表中每个独特的单词需要多少个例子?
我需要使用 Gensim 在 Wikipedia 文章上训练 word2vec 嵌入模型。
最终,我将为此使用整个维基百科,
但目前,我正在做一些实验/优化以提高模型质量,我想知道有多少文章足以训练一个有意义/好的模型?词汇表中每个独特的单词需要多少个例子?
重要的不是文章的数量,而是总字数。
足够的“有意义/好”是一个取决于数据集的经验问题。测试新训练模型结果的一种方法是Google 类比测试集,它将新模型的预测词与已建立的嵌入基准进行比较。
至于词汇表中每个唯一标记所需的最少示例数,普遍共识是每个标记至少应有 40 个示例。如果一个标记的示例少于 40 个,则向量估计可能不稳定,并且应该从训练中删除该标记。