数据挖掘 - 评估合成数据的主题建模 - 吾爱随笔录

我尝试在合成语料库上找到最佳主题数量（因此是我使用各种参数生成的标记列表列表）。因此，我知道主题的真实数量和真实的主题分布。我相信这是测试无监督方法的好方法。问题是我完全找不到正确数量的主题。

我正在使用来自 gensim 的 NMF 和 LDA 以及 c_v 和 u_mass 相干分数。找到最佳主题数量应该很容易，因此我不使用超参数进行调整。我相信问题比这更深。

代码可在此处获得。

这是有据可查的。要运行的脚本是“myscript.py”。它使用“mymodule.py”中的函数。您只需要安装 gensim 和 pandas（如果需要，请参阅 requirements.txt）。

有什么想法吗？