我尝试在合成语料库上找到最佳主题数量(因此是我使用各种参数生成的标记列表列表)。因此,我知道主题的真实数量和真实的主题分布。我相信这是测试无监督方法的好方法。问题是我完全找不到正确数量的主题。
我正在使用来自 gensim 的 NMF 和 LDA 以及 c_v 和 u_mass 相干分数。找到最佳主题数量应该很容易,因此我不使用超参数进行调整。我相信问题比这更深。
代码可在此处获得。
这是有据可查的。要运行的脚本是“myscript.py”。它使用“mymodule.py”中的函数。您只需要安装 gensim 和 pandas(如果需要,请参阅 requirements.txt)。
有什么想法吗?