何时使用 LDA over GMM 进行聚类?

机器算法验证 聚类 高斯混合分布 无监督学习 主题模型
2022-03-27 21:51:34

我有一个包含 168 维用户活动的数据集,我想在其中使用无监督学习提取集群。在潜在狄利克雷分配 (LDA) 或高斯混合模型 (GMM) 中使用主题建模方法对我来说并不明显,后者更像是贝叶斯方法。在这方面,我有两个相关的问题:

  1. 这两种方法的主要区别是什么?我知道这两个模型的基础知识,但我很好奇是什么让一个真正与众不同。问题/数据中的某些内容能否告诉我一个模型是否更合适?

  2. 如果我将这两种方法应用于我的数据,我如何比较结果以查看哪种方法更好?

更新

168 个用户活动变量是活动的计数,因此具有正离散值。没有最大值,但大约 90% 的变量在区间中达到值。[0,3]

将所有这些活动变量简单地建模为描述它是零还是非零的二进制变量可能是有意义的,但我们对问题的了解还不够,无法确定这一点。我们正在寻找的主要内容是对不同用户活动集群的洞察力。

1个回答

我不会使用高斯混合模型,因为它们要求成分分布都是正态的。你有计数,所以 GMM 从定义上讲是不合适的。

潜在狄利克雷分配(完全披露:我不太了解主题建模)要求您的数据是多项式的,但在这种情况下您可以进行计数——它们将是变量不同类别出现次数的计数。另一种可能性是您的计数是不同变量的计数,例如具有多个泊松变量。这是一个关于您如何考虑数据的本体论问题。

考虑一个简单的例子,我去杂货店是因为我想要一些水果。我将购买一定数量的苹果、橙子、桃子和香蕉。这些中的每一个都可以被视为一个单独的泊松变量。当我回到家时,我把它们都放在一个水果碗里。之后,当我想吃零食时,我可能不看就把手伸进碗里,抓起两片水果(例如,一个苹果和一个桃子)。这可以被认为是从多项分布中得出的。在这两种情况下,我都有类别的数量,但我们对它们的看法不同。在第一种情况下,在我去杂货店之前,我将购买的水果是已知的,但每个类别中购买的数量可能会有所不同。在第二种情况下,我不知道我会选择哪种水果,但我知道我会从可能的类型中挑选两种。

如果您的数据类似于水果碗示例,则 LDA 可能适合您。另一方面,如果它们像杂货店的例子,你可以尝试泊松有限混合建模。也就是说,您可以将混合建模与高斯/正态以外的分布一起使用。GMM 是迄今为止最常见的;其他分布(例如泊松)更具异国情调。我不知道它们在软件中的实施范围有多广。如果你使用 R,谷歌搜索会导致HTSCluster包和rebmix包中发现?PoisMixClus(注意我从来没有使用过,也没有做过泊松混合建模)。也有可能找到其他软件的实现。


添加一些细节:我会说 LDA 至少与 GMM 一样是贝叶斯技术。

  1. 我怀疑 LDA 和 GMM 之间最重要的区别是他们假设你拥有的数据类型。
  2. 您无法比较它们,因为它们用于不同类型的数据。(我也不想比较 LDA 和 Poisson MM,因为它们对计数的概念化不同。)

我不会将您的数据分为零/非零。