有没有流行的英语语料库?

数据挖掘 机器学习 数据
2022-03-01 14:01:30

有没有流行的英语语料库?

1个回答

为 NLP 研究寻找语料库可能会碰运气,我的建议是在决定研究方向时而不是事后研究足够数据的可用性。当然,这完全取决于数据需求的类型。如果您必须创建自己的语料库,请非常仔细地设计语料库集合和注释,因为数据集合中存在缺陷的论文可能会被拒绝(至少在选择性场所)。从网络收集文本数据没有什么特别的问题,只要这可以证明是合理的(例如社交媒体不是语法正确句子的良好来源;))。

老实说,我不知道有任何简单的方法可以找到语料库。以下是一些来源:

  • 语言数据联盟有一个语料库目录,有些是免费的,有些不是。
  • ELDA也有一个目录,它也是一个半商业的供应商。
  • LRE 地图是供人们注册其研究数据和软件的存储库(也由 ELDA 提供)

质量数据的主要来源是通常与主要会议联合组织的各种共享任务。这是非常特定于任务的。其余的通常是关于关注领域的特定部分,例如,如果您找到与您感兴趣的任务相关的论文,请检查作者在哪里找到了他们的数据,他们是否在他们的网页上提供了一些数据等。

对于短语动词,PARSEME 共享任务语料库可能适合您的需要。