参考:http: //qpleple.com/topic-coherence-to-evaluate-topic-models/
为了确定要使用 LDA 提取的最佳主题数量,主题连贯性分数始终用于衡量主题提取的好坏:
CoherenceScore=∑i<jscore(wi,wj)
在哪里wi,wj是话题的热门词
有两种类型的主题连贯性分数:
- 外部 UCI 措施:
SCOREUCI(wi,wj)=logp(wi,wj)p(wi)P(wj)
在哪里
p(wi)=Dwikipedia(wi)Dwikipedia和p(wi,wj)=Dwikipedia(wi,wj)Dwikipedia
- 内在 UMass 测量:
SCOREUMass(wi,wj)=logD(wi,wj)+1D(wi)
网上可用的教程似乎只是给出了这些措施的公式,但没有进一步解释为什么要这样公式化,以及为什么这样的公式是有意义的。
有人可以直观地解释为什么这些主题连贯性分数可以衡量所选主题数量的好坏吗?