从文本文档中查找主题

数据挖掘 Python nlp 文本挖掘 马尔科夫过程 自动总结
2022-03-13 16:53:51

我有一个文本文档,其中包含 1000 份医学白皮书的摘要。我想从该文本中找到主题。自从聚类以来,除了文本聚类之外的任何建议都帮助我找到了排列在聚类中的关键字。我尝试在 python 中使用 markovify 库自动总结,但它创建的总结或句子没有多大意义。欢迎任何合适的建议。谢谢

1个回答

在文档集合中查找主题的最佳方法是主题建模主题建模发现隐藏的(又名潜在的)主题不仅仅是关键字计数。

主题建模有很多方法。潜在狄利克雷分配 (LDA)是一种标准的主题建模方法。LDA 是一种概率图形模型,它假设每个文档是少数主题的混合体,并且每个单词的创建都归因于文档的一个主题。主题的数量是一个选定的超参数。