我需要知道数据集中的“簇数”。
为了找到集群的数量,我使用了高斯混合模型拟合,请
耐心等待,
因为底层分布(每个集群)不是高斯分布,GM 往往会给出非常糟糕的拟合,因为它试图补偿偏度通过增加它适合的高斯方差和类似的东西来增加数据的方差。我想,我可以通过拟合比数据中预期的集群更多的高斯来解决这个问题,然后根据集群的距离找出哪些是真正的集群,哪些适合同一个集群。
现在我的问题是我有一个距离矩阵(马氏距离),来自高斯混合模型的拟合高斯之间的距离,但我没有可靠的方法来计算集群,
为了更清楚一点,如果我在数据集中有两个真正的集群,并且我适合 6 个高斯人,我希望其中 1-5 个落在其中一个真正的集群上,剩下的 5-1 个在另一个集群之上。这意味着查看距离矩阵,我希望看到很多(可能是 5 个)大距离 [这些是群集间距离] 和许多小距离 [群集内距离]。
这是我拥有的距离矩阵的示例,树状图只是为了帮助“查看”结构并且没有其他信息。
如果有人对原始(更原始)数据感兴趣,我可以提供数据,但如果您没有特定领域的知识(这是一个尖峰排序问题,在神经生理学背景下),我将不容易在几页中描述数据事件。
任何意见?