潜在狄利克雷分配中相同大小的主题

数据挖掘 主题模型 低密度脂蛋白
2022-03-11 23:33:19

我正在使用 R 的 topicmodels 包将一大组短文本(10-75 个单词之间)聚集到主题中。在手动审查了几个模型之后,似乎有 20 个真正稳定的主题。然而,我发现真正奇怪的是它们的大小都大致相同!每个主题捕获大约 5% 的标记和 5% 的文本。在代币方面,最小的主题是 4.5%,最大的 5.5%。

有人可以建议这是否是“正常”行为吗?这是我正在使用的代码:

ldafitted <- LDA(sentences.tm, k = K, method = "Gibbs",
             control = list(alpha = 0.1, # default is 50/k which would be 2.5.  a lower alpha value places more weight on having each document composed of only a few dominant topics
                            delta = 0.1, # default 0.1 is suggested in Griffiths and Steyvers (2004).
                            estimate.beta = TRUE,
                            verbose = 50, # print every 50th draw to screen
                            seed = 5926696,
                            save = 0,    # can save model every xth iteration
                            iter = 5000, 
                            burnin = 500,
                            thin = 5000, #  every thin iteration is returned for iter iterations. Standard is same as iter
                            best = TRUE)) #only the best draw is returned

简而言之:我的问题是,在某些情况下,潜在狄利克雷分配是否合理地将文本聚集在相同大小的主题中?或者如果发生这种情况我应该担心吗?

1个回答

这很正常,我找到的最好的解释是来自物理学。由于吉布斯采样早在 LDA 之前就在物理学中为人所知,因此 LDA 可以简单地被视为一种矩阵分解。有一个系统有粒子(词),粒子可以处于不同的状态(主题)。能量较低的状态比能量较高的状态更容易被占领。或者简单地说:由于 LDA 是一种降维方法,它只是将单词 x 文档矩阵压缩为主题 x 文档和单词 x 主题矩阵,因此最有效的方法是最大化熵,如果集群相等尺寸。在此处输入图像描述

刚刚注意到,您可以简单地从狄利克雷分布本身推导出上述假设:查看密度 (PDF) 函数并忽略前面的归一化因子,仅假设对称 alpha 参数。这导致 X1...XK 的乘积项,如果所有 X1...XK 具有相同的大小,则该乘积项获得最大值,因为总和 X1+X2+...+XK = 1,它与熵相同多于。