新闻文章的实时话题识别

数据挖掘 nlp 文本挖掘 信息检索 主题模型
2022-02-17 14:34:13

假设我不断地收集所有在线发布的新闻文章(只有关于每篇文章的基本信息,例如标题、内容、语言、来源(哪个新闻网站))。

假设我想将所有谈论同一事物的文章归为一组。然而 :

  1. 我希望我的算法自己定义主题(与“用户告诉现有主题并且算法将每篇文章分配给主题”相反),
  2. 我无法知道确切的主题数量(因为显然,每次发生新事物时都必须创建一个新主题),
  3. 并且,当我们谈论新闻文章时,如果发生新事情并且新文章谈论它,则主题列表应该实时扩展。

为简单起见,我们假设所有文章都使用相同的语言。

到目前为止,我一直在使用 TF-IDF,因为当我对主题建模一无所知时,这是我脑海中浮现的想法,但它并不擅长它的工作。我正在研究主题建模并发现诸如潜在狄利克雷分配、相关主题模型、单词图等。我目前正在阅读有关该主题的所有内容,但我可能不知道可能适合的有趣算法我的需要。

我很感兴趣:你会采取什么方法来解决我的问题?

谢谢

1个回答

您正在寻找“在线”或“流媒体”主题建模。一个分层的 Dirichlet 过程可以自动选择主题的数量。是一篇关于流/在线潜在狄利克雷分配模型(LDA)的论文。可以在此处找到流式传输/在线的 Python 实现。如果你的规模允许的话,Apache Spark 也有一个在线 LDA 的实现