我正在使用 text2vec 将 LDA 应用于 230k 文档,减少到大约 800 个术语。当该库使用 Gibbs 的 WarpLDA 采样算法时,是否可以使用调和平均值来近似边际似然以提及最佳主题编号?
直接引用 Griffiths 和 Steyvers 的“寻找科学主题”论文:“......我们可以通过取 p(w|z, K) 的一组值的调和平均值来近似 p(w|K) “
对不起,这是基本的,但是 WarpLDA 采样算法是否提供相同类型的样本,所以我可以使用调和平均值作为主题编号的指标?