非正式文本上命名实体识别的数据集

数据挖掘 数据集 nlp
2021-09-16 00:18:29

我目前正在搜索标记数据集来训练模型以从非正式文本(类似于推文)中提取命名实体。因为我的数据集中的文档中经常缺少大小写和语法,所以我正在寻找比当今许多最先进的命名实体识别系统的新闻文章和期刊条目更“非正式”的域外数据受过训练。

有什么建议吗?到目前为止,我只能从此处发布的 twitter 中找到 50k 个令牌。

3个回答

据我了解,这些是您在示例数据集中寻找的属性:

  1. 文本数据
  2. 它应该是非正式的,即有拼写错误、俚语和基本上没有经过专业编辑的东西
  3. Twitter 以外的东西(我不怪你,Twitter 是一个有用但在文本挖掘中被过度使用的示例数据源)

以下是一些建议:

  1. 来自SpamAssassin 语料库的电子邮件——请注意,“ham”(非垃圾邮件)和垃圾邮件数据集均可用
  2. 来自UCI的microblogPCU数据集,是从新浪微博用户的微博中抓取的数据——注意,原始文本数据是中英文混合的(你可以对中文进行机器翻译,只过滤到英文,或者使用它)原样)
  3. 来自 UCI 的Amazon Commerce 评论数据集
  4. bag-o-words 数据集中,尝试使用安然电子邮件
  5. 二十个新闻组数据集
  6. 这个不错的垃圾短信集合
  7. 您可以随时从 Internet 上抓取(提取)您自己的文本数据;我不确定您使用的是哪种语言或统计包,但基于 XPath 的包可用于 R ( rvest,scrapeR等) 和 Python 来完成此任务

检查这些:

用于信息提取的测试域存储库:http ://www.isi.edu/info-agents/RISE/repository.html

DBpedia:http ://wiki.dbpedia.org/Downloads32 (镜像

链接更新:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

我使用的一些来源:

我认为这些数据集将对您的任务有很大帮助