我使用 DCC 算法对一些数据进行聚类。整个算法在这里可用,但很快它是:
- 构建数据点的 mkNN 图(它的连接组件是集群)。
- 预训练自动编码器以减少数据维度。
- 训练自动编码器,它的目标是聚类的另一个目标,它试图减少降维数据点之间的距离。
- 成为接近点的最终连接组件(如果足够接近(通过阈值)它们保持连接,如果它们彼此远离 - 边缘消失并且其他一些出现等等)是集群。
你能猜到为什么我会在第一个 0-index 集群中获得大部分数据(始终如一地调整所有超参数)吗?从输出的 tSNE 可视化中可以看出,数据具有很好的聚类潜力。但是聚类不好。我想也许可以扩大 mKNN 图构造的 k 参数,但它不起作用,只是减少了集群的总量,但数据样本继续冲突成一个集群。
欢迎任何建议和理论讨论。

