数据挖掘 - 新闻文章的实时话题识别 - 吾爱随笔录

假设我不断地收集所有在线发布的新闻文章（只有关于每篇文章的基本信息，例如标题、内容、语言、来源（哪个新闻网站））。

假设我想将所有谈论同一事物的文章归为一组。然而：

为简单起见，我们假设所有文章都使用相同的语言。

到目前为止，我一直在使用 TF-IDF，因为当我对主题建模一无所知时，这是我脑海中浮现的想法，但它并不擅长它的工作。我正在研究主题建模并发现诸如潜在狄利克雷分配、相关主题模型、单词图等。我目前正在阅读有关该主题的所有内容，但我可能不知道可能适合的有趣算法我的需要。

我很感兴趣：你会采取什么方法来解决我的问题？

谢谢