数据挖掘 - 有意义地使用 word2vec 需要多少文本数据 - 吾爱随笔录

有意义地使用 word2vec 需要多少文本数据

数据挖掘机器学习神经网络 word2vec 语言模型

2021-09-28 04:36:36

word2vec需要多少数据？是否有任何有用的公共数据集？

例如，1000 篇报纸文章是否足以使用 word2vec？

这是来自 Kaggle 的 word2vec 教程，它使用了50,000 条电影评论。我试图了解 word2vec 输入的规模。

2个回答

由于 word2vec 是一个神经网络，它受益于非常大的数据集。Kaggle 数据集是 50,000 条评论 * 每条评论约 5 句，因此大约有 25 万句。正如他们所指出的，他们使用词袋和 word2vec 得到了大致相同的结果。值得注意的一点是，由于评论数据来自互联网，因此句子的结构比您在报纸语料库中遇到的要松散得多，报纸语料库通常会经过语法审查。在结构化语言上训练 word2vec 的一个很好的数据集是维基百科数据集： https ://en.wikipedia.org/wiki/Wikipedia:Database_download

您可以从

FastText https://fasttext.cc/docs/en/english-vectors.html用于 Wiki + 其他一些网页

和

SpaCy https://spacy.io/models/ - 用于普通抓取

其它你可能感兴趣的问题

上一篇哪些变量对预测另一个变量最重要？下一篇什么是最简单的非线性函数的最简单的神经网络 F( x , y) = x yF(X,是的)=X是的