假设我不断地收集所有在线发布的新闻文章(只有关于每篇文章的基本信息,例如标题、内容、语言、来源(哪个新闻网站))。
假设我想将所有谈论同一事物的文章归为一组。然而 :
- 我希望我的算法自己定义主题(与“用户告诉现有主题并且算法将每篇文章分配给主题”相反),
- 我无法知道确切的主题数量(因为显然,每次发生新事物时都必须创建一个新主题),
- 并且,当我们谈论新闻文章时,如果发生新事情并且新文章谈论它,则主题列表应该实时扩展。
为简单起见,我们假设所有文章都使用相同的语言。
到目前为止,我一直在使用 TF-IDF,因为当我对主题建模一无所知时,这是我脑海中浮现的想法,但它并不擅长它的工作。我正在研究主题建模并发现诸如潜在狄利克雷分配、相关主题模型、单词图等。我目前正在阅读有关该主题的所有内容,但我可能不知道可能适合的有趣算法我的需要。
我很感兴趣:你会采取什么方法来解决我的问题?
谢谢