在进行潜在狄利克雷分配(LDA)时,我对如何计算保持样本的困惑度感到困惑。关于该主题的论文轻而易举,让我觉得我错过了一些明显的东西......
困惑度被视为 LDA 性能的一个很好的衡量标准。这个想法是你保留一个holdout样本,在其余数据上训练你的LDA,然后计算holdout的困惑度。
困惑度可以通过以下公式给出:
这里 是文档的数量(大概是在测试样本中),表示文档 d 中的单词,N_d 是文档中数。
我不清楚如何合理地计算,因为我们没有保留文档的主题混合。理想情况下,我们将对所有可能的主题混合的 Dirichlet 先验进行积分,并使用我们学到的主题多项式。然而,计算这个积分似乎不是一件容易的事。
或者,我们可以尝试为每个保存的文档(给定我们学习的主题)学习最佳主题混合,并使用它来计算困惑度。这是可行的,但它并不像 Horter 等人和 Blei 等人的论文所暗示的那样微不足道,而且我还不清楚结果是否与上述理想情况等价。