有意义地使用 word2vec 需要多少文本数据

数据挖掘 机器学习 神经网络 word2vec 语言模型
2021-09-28 04:36:36

word2vec需要多少数据是否有任何有用的公共数据集?

例如,1000 篇报纸文章是否足以使用 word2vec?

这是来自 Kaggle 的 word2vec 教程,它使用了50,000 条电影评论我试图了解 word2vec 输入的规模。

2个回答

由于 word2vec 是一个神经网络,它受益于非常大的数据集。Kaggle 数据集是 50,000 条评论 * 每条评论约 5 句,因此大约有 25 万句。正如他们所指出的,他们使用词袋和 word2vec 得到了大致相同的结果。值得注意的一点是,由于评论数据来自互联网,因此句子的结构比您在报纸语料库中遇到的要松散得多,报纸语料库通常会经过语法审查。在结构化语言上训练 word2vec 的一个很好的数据集是维基百科数据集: https ://en.wikipedia.org/wiki/Wikipedia:Database_download

您可以从

FastText https://fasttext.cc/docs/en/english-vectors.html用于 Wiki + 其他一些网页

SpaCy https://spacy.io/models/ - 用于普通抓取