相似新闻文章变体的聚类

数据挖掘 机器学习 聚类 数据库扫描
2022-02-19 07:27:56

我们有几个新闻网站的数据,几乎有数百万个条目。由于每个新闻站点都发布自己的新闻版本(每个新闻站点也可能发布同一新闻的多个不同版本),我们有多个条目是单个新闻的变体。我目前正在从我们的存储库中分离出“独特”的新闻。这意味着如果一条新闻有多个变体,则只会考虑一个变体(很可能是最早报道的那个)。

我相信,新闻文章的聚类可以用来将相似的新闻组合在一起。我目前正在探索 DBSCAN 和分层聚类(Ward 方法)。我想知道我是否朝着正确的方向前进,集群是解决我们问题的最佳解决方案吗?如果是,我应该探索哪些其他算法和技术?

2个回答

你不想要集群。

您正在寻找的是接近重复检测

使用明哈希。显然,这正是谷歌新闻为此目的所使用的。

我现在正在研究同一主题。我正在使用以下算法:

1) 从新闻中提取纯内容,例如使用dragnet

2) 标记每个文本并使用词袋技术用向量表示它们。执行此操作的一种简单方法是使用sklearn中的 TfidfVectorizer。

3)使用诸如k-NN(k个最近邻)之类的分类技术对它们进行聚类。您会发现 k-NN sklearn 实现非常有帮助。

执行该任务的关键是使用TfidfVectorizer,它对仅出现在少数通知中的标记进行加权,因此我可以识别出谈论相同主题的类似新闻。