我有一份关于糖尿病的文件,一份关于达芬奇的文件,还有一份关于动画和计算机图形的文件。我将所有这些文档组合成一个 LDA,并得到了一个类似下面的主题。我按降序列出了前 30 个术语。
TOPIC 83:['生产','公司','约翰','重量','运动','信息','绘画','原创','培训','人','健康','生活', 'jesus', 'feature', 'body', 'lucretia', 'computer', 'graphics', 'time', 'madonna', 'story', 'florence', 'type', 'animated', “保罗”、“糖尿病”、“动画”、“运动”、“彼得”、“电影”]
许多这些词在任何文档中都不会同时出现。例如,“lucretia”不会与“exercise”同时出现。然而,这些术语是如何在同一个主题中放在前 30 个单词中的呢?(大约 20K 字中的 30 个)
也许这与我的特定实现有关?我正在使用 Python 的gensim库。还是一般来说是LDA的缺陷?