我不会使用高斯混合模型,因为它们要求成分分布都是正态的。你有计数,所以 GMM 从定义上讲是不合适的。
潜在狄利克雷分配(完全披露:我不太了解主题建模)要求您的数据是多项式的,但在这种情况下您可以进行计数——它们将是变量不同类别出现次数的计数。另一种可能性是您的计数是不同变量的计数,例如具有多个泊松变量。这是一个关于您如何考虑数据的本体论问题。
考虑一个简单的例子,我去杂货店是因为我想要一些水果。我将购买一定数量的苹果、橙子、桃子和香蕉。这些中的每一个都可以被视为一个单独的泊松变量。当我回到家时,我把它们都放在一个水果碗里。之后,当我想吃零食时,我可能不看就把手伸进碗里,抓起两片水果(例如,一个苹果和一个桃子)。这可以被认为是从多项分布中得出的。在这两种情况下,我都有类别的数量,但我们对它们的看法不同。在第一种情况下,在我去杂货店之前,我将购买的水果是已知的,但每个类别中购买的数量可能会有所不同。在第二种情况下,我不知道我会选择哪种水果,但我知道我会从可能的类型中挑选两种。
如果您的数据类似于水果碗示例,则 LDA 可能适合您。另一方面,如果它们像杂货店的例子,你可以尝试泊松有限混合建模。也就是说,您可以将混合建模与高斯/正态以外的分布一起使用。GMM 是迄今为止最常见的;其他分布(例如泊松)更具异国情调。我不知道它们在软件中的实施范围有多广。如果你使用 R,谷歌搜索会导致在HTSCluster包和rebmix包中发现?PoisMixClus(注意我从来没有使用过,也没有做过泊松混合建模)。也有可能找到其他软件的实现。
添加一些细节:我会说 LDA 至少与 GMM 一样是贝叶斯技术。
- 我怀疑 LDA 和 GMM 之间最重要的区别是他们假设你拥有的数据类型。
- 您无法比较它们,因为它们用于不同类型的数据。(我也不想比较 LDA 和 Poisson MM,因为它们对计数的概念化不同。)
我不会将您的数据分为零/非零。