新闻主题检测和分类

数据挖掘 机器学习 Python 无监督学习 主题模型 低密度脂蛋白
2022-02-19 17:24:47

如果我想从词袋模型(NYT 一周内涵盖的所有新闻)中获取《纽约时报》每周报道的主题数量和类型,我应该如何处理?使用传统的无监督 LDA 并没有多大帮助。

1个回答

我不是这个领域的专家,但你应该看看 Bhargav Srinivasa Desikan 的工作,他是一位gensim贡献者,他在主题建模方面做了很多工作。

他的github 帐户上有几个笔记本,您可能会感兴趣,尤其是这个(如果我正确理解您的问题,应该是您的用例)。

前面提到的笔记本评估了潜在语义索引、分层狄利克雷过程以及用于识别主题的潜在狄利克雷分配。