在哪里可以找到大型文本语料库?

机器算法验证 数据集
2022-02-12 02:14:50

我正在寻找要下载的大型 (>1000) 文本语料库。最好有世界新闻或某种报道我只找到一个有专利的。有什么建议么?

4个回答

维基解密的文本不适合你吗?

维基新闻这是我能找到的最新数据库转储:http: //dumps.wikimedia.org/enwikinews/20111120/

您可能想要“所有页面,仅当前版本。”-版本。

路透社文本语料库是该领域的经典,可以在这里找到

http://endb-consolidated.aihit.com/datasets.htm 包含 10K 公司的文字描述