我在哪里可以找到单词类比任务的数据集?

数据挖掘 nlp 数据集 word2vec
2022-03-01 18:50:20

在 Thomas Mikolov 等人的 Word2Vec 论文中,有一份关于完整语义-句法数据集的准确度报告。我在哪里可以找到这个数据集或单词类比任务的相关数据集?

这是论文链接,我指的是表 5。 https://arxiv.org/abs/1301.3781

2个回答

如果我理解正确,您想要一个可以轻松分析的长文本文件。我建议您使用古腾堡项目,它以纯 UTF-8 文本格式出版了数千本免费使用的书籍。例如这里是Jane Austin 的《傲慢与偏见》

我猜你想要一个英语单词类比数据集来测试你的单词嵌入。检查以下链接,您可以在其中找到 Mikolov 的数据集Word Analogy Dataset