数据挖掘 - 为什么我的潜在狄利克雷分配主题混合了从未同时出现的词？ - 吾爱随笔录

我有一份关于糖尿病的文件，一份关于达芬奇的文件，还有一份关于动画和计算机图形的文件。我将所有这些文档组合成一个 LDA，并得到了一个类似下面的主题。我按降序列出了前 30 个术语。

TOPIC 83：['生产'，'公司'，'约翰'，'重量'，'运动'，'信息'，'绘画'，'原创'，'培训'，'人'，'健康'，'生活', 'jesus', 'feature', 'body', 'lucretia', 'computer', 'graphics', 'time', 'madonna', 'story', 'florence', 'type', 'animated', “保罗”、“糖尿病”、“动画”、“运动”、“彼得”、“电影”]

许多这些词在任何文档中都不会同时出现。例如，“lucretia”不会与“exercise”同时出现。然而，这些术语是如何在同一个主题中放在前 30 个单词中的呢？（大约 20K 字中的 30 个）

也许这与我的特定实现有关？我正在使用 Python 的gensim库。还是一般来说是LDA的缺陷？