在 Thomas Mikolov 等人的 Word2Vec 论文中,有一份关于完整语义-句法数据集的准确度报告。我在哪里可以找到这个数据集或单词类比任务的相关数据集?
这是论文链接,我指的是表 5。 https://arxiv.org/abs/1301.3781
在 Thomas Mikolov 等人的 Word2Vec 论文中,有一份关于完整语义-句法数据集的准确度报告。我在哪里可以找到这个数据集或单词类比任务的相关数据集?
这是论文链接,我指的是表 5。 https://arxiv.org/abs/1301.3781
如果我理解正确,您想要一个可以轻松分析的长文本文件。我建议您使用古腾堡项目,它以纯 UTF-8 文本格式出版了数千本免费使用的书籍。例如这里是Jane Austin 的《傲慢与偏见》。
我猜你想要一个英语单词类比数据集来测试你的单词嵌入。检查以下链接,您可以在其中找到 Mikolov 的数据集Word Analogy Dataset。