我们有几个新闻网站的数据,几乎有数百万个条目。由于每个新闻站点都发布自己的新闻版本(每个新闻站点也可能发布同一新闻的多个不同版本),我们有多个条目是单个新闻的变体。我目前正在从我们的存储库中分离出“独特”的新闻。这意味着如果一条新闻有多个变体,则只会考虑一个变体(很可能是最早报道的那个)。
我相信,新闻文章的聚类可以用来将相似的新闻组合在一起。我目前正在探索 DBSCAN 和分层聚类(Ward 方法)。我想知道我是否朝着正确的方向前进,集群是解决我们问题的最佳解决方案吗?如果是,我应该探索哪些其他算法和技术?