评估合成数据的主题建模

数据挖掘 Python nlp 主题模型 低密度脂蛋白 gensim
2022-02-28 12:36:58

我尝试在合成语料库上找到最佳主题数量(因此是我使用各种参数生成的标记列表列表)。因此,我知道主题的真实数量和真实的主题分布。我相信这是测试无监督方法的好方法问题是我完全找不到正确数量的主题。

我正在使用来自 gensim 的 NMF 和 LDA 以及 c_v 和 u_mass 相干分数。找到最佳主题数量应该很容易,因此我不使用超参数进行调整。我相信问题比这更深。

代码可在此处获得。

这是有据可查的。要运行的脚本是“myscript.py”。它使用“mymodule.py”中的函数。您只需要安装 gensim 和 pandas(如果需要,请参阅 requirements.txt)。

有什么想法吗?

0个回答
没有发现任何回复~