在使用 text2vec 应用潜在狄利克雷分配时,我可以使用调和平均法来确定 k 个主题吗?

数据挖掘 文本挖掘 低密度脂蛋白
2022-03-11 21:03:33

我正在使用 text2vec 将 LDA 应用于 230k 文档,减少到大约 800 个术语。当该库使用 Gibbs 的 WarpLDA 采样算法时,是否可以使用调和平均值来近似边际似然以提及最佳主题编号?

直接引用 Griffiths 和 Steyvers 的“寻找科学主题”论文:“......我们可以通过取 p(w|z, K) 的一组值的调和平均值来近似 p(w|K) “

对不起,这是基本的,但是 WarpLDA 采样算法是否提供相同类型的样本,所以我可以使用调和平均值作为主题编号的指标?

0个回答
没有发现任何回复~