在为 LDA 的 Gensim 实现试验不同数量的主题时,我发现对于大量主题,输出通常包含所有权重都为零的主题。这是一个实施错误的迹象,还是这是正常的,只是表明我应该使用更少的主题?
LDA 主题模型有 0 权重的主题,这正常吗?
数据挖掘
Python
主题模型
gensim
2022-02-17 03:23:45
1个回答
这很正常:LDA 试图通过找到参数的正确概率来根据参数最大化数据的可能性。通常在一开始增加主题的数量可以使模型更精确地分离主题,从而获得更高的可能性。但是在某些时候(取决于数据),增加主题的数量不再对模型有帮助,因为主题已经被最大限度地分离,并且使用所有主题实际上会降低可能性。
因此,这表明您不需要那么多主题。请注意,这并不意味着“使用”主题的数量对于应用程序来说是最佳的,它通常是一个平衡点。
其它你可能感兴趣的问题