我目前正在搜索标记数据集来训练模型以从非正式文本(类似于推文)中提取命名实体。因为我的数据集中的文档中经常缺少大小写和语法,所以我正在寻找比当今许多最先进的命名实体识别系统的新闻文章和期刊条目更“非正式”的域外数据受过训练。
有什么建议吗?到目前为止,我只能从此处发布的 twitter 中找到 50k 个令牌。
我目前正在搜索标记数据集来训练模型以从非正式文本(类似于推文)中提取命名实体。因为我的数据集中的文档中经常缺少大小写和语法,所以我正在寻找比当今许多最先进的命名实体识别系统的新闻文章和期刊条目更“非正式”的域外数据受过训练。
有什么建议吗?到目前为止,我只能从此处发布的 twitter 中找到 50k 个令牌。
据我了解,这些是您在示例数据集中寻找的属性:
以下是一些建议:
rvest
,scrapeR
等) 和 Python 来完成此任务检查这些:
用于信息提取的测试域存储库:http ://www.isi.edu/info-agents/RISE/repository.html
DBpedia:http ://wiki.dbpedia.org/Downloads32 (镜像)
链接更新:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
我使用的一些来源:
我认为这些数据集将对您的任务有很大帮助