我的数据是一组 10000 个点(每个点都有一个节点位置 (x,y)),它们分布在一个平面上。它们也根据它们的重量着色。
我需要最终确定一种贝叶斯非参数聚类方法,该方法主要根据权重和距离对点进行分组:也就是说,根据定义,聚类与距离有一定的相关性,但在第一季度和最后一个季度之间存在明显的拓扑区分因素数据(我说季度是任意数量;实际上,集群的确切数量和拓扑会通过迭代而变化)。
正如您在上图中看到的那样,我尝试使用 notability 创建具有不同集群拓扑类型的数据的粗略彩色图像;在我的算法的每次迭代中,如前所述,集群改变位置(基于它们的权重)和它们的形状,并且一些重叠(并且新集群的可能性(或总数可能减少)每次迭代都非常高,其中该图像表示 x 点的一次迭代)
此外,由于我是通过 python 对数据进行分析,因此我正在考虑使用 T-SNE 机器学习包作为通用聚类方法的替代品,但我对其功能的了解有限。此外,由于我的数据基于相同的加权比例,因此可能有点矫枉过正。
编辑:我改变了图片以显示重叠的集群,所以我的意思更清楚了。然而,请记住,即使这些可见的集群在重量上也不是均匀的(它们仍然会有所不同,但在一个很小的阈值内)。当然有噪音,但我真的想独立对待每个集群,以查看每个集群随时间的行为(以及新形成的集群,因此是非参数方法)
