word2vec需要多少数据?是否有任何有用的公共数据集?
例如,1000 篇报纸文章是否足以使用 word2vec?
这是来自 Kaggle 的 word2vec 教程,它使用了50,000 条电影评论。我试图了解 word2vec 输入的规模。
word2vec需要多少数据?是否有任何有用的公共数据集?
例如,1000 篇报纸文章是否足以使用 word2vec?
这是来自 Kaggle 的 word2vec 教程,它使用了50,000 条电影评论。我试图了解 word2vec 输入的规模。
由于 word2vec 是一个神经网络,它受益于非常大的数据集。Kaggle 数据集是 50,000 条评论 * 每条评论约 5 句,因此大约有 25 万句。正如他们所指出的,他们使用词袋和 word2vec 得到了大致相同的结果。值得注意的一点是,由于评论数据来自互联网,因此句子的结构比您在报纸语料库中遇到的要松散得多,报纸语料库通常会经过语法审查。在结构化语言上训练 word2vec 的一个很好的数据集是维基百科数据集: https ://en.wikipedia.org/wiki/Wikipedia:Database_download
您可以从
FastText https://fasttext.cc/docs/en/english-vectors.html用于 Wiki + 其他一些网页
和
SpaCy https://spacy.io/models/ - 用于普通抓取