我正在寻找一个带有语义重复新闻文章标记的新闻数据集。基本上所有谈论同一个故事的新闻文章都应该分组。这些故事的措辞可以不同,但在高层次上谈论的是同一事件。类似于谷歌新闻所做的事情。是否有为此标记的新闻数据集?
新闻重复数据集
数据挖掘
数据集
聚类
2022-02-25 19:31:02
1个回答
您可以从多个新闻来源和语言中找到大量文章,讨论此数据集中的同一趋势事件。
但是,它没有为语义上重复的文章提供标签。那是你必须自己实现的东西。检查数据集中提到的源页面,它们提供了一些事件关联功能。