我正在对文档集合运行 word2vec。我知道模型的大小是嵌入单词的向量空间的维数。并且不同的维度在某种程度上与一个单词可以分组的不同的、独立的“概念”有关。但除此之外,我找不到任何合适的启发式方法来准确地选择数字。这里有一些关于词汇量大小的讨论:https ://stackoverflow.com/questions/45444964/python-what-is-the-size-parameter-in-gensim-word2vec-model-class 但是,我怀疑词汇量是不是最重要的,但更重要的是您拥有多少样本文档以及它们有多长。当然每个“维度”都应该有足够的例子来学习吗?
我收集了 200 000 个文档,每个文档平均长度约为 20 页,涵盖了大部分英语语言的词汇。我使用 word2vec 嵌入作为查找句子和文档之间距离的基础。如果重要的话,我正在使用 Gensim。我使用的是 240 的尺寸。这合理吗?是否有关于使用什么启发式方法来选择大小参数的研究?谢谢。