深度连续聚类算法——只有一个输出聚类

数据挖掘 神经网络 深度学习 聚类 算法 自动编码器
2022-02-12 15:01:19

我使用 DCC 算法对一些数据进行聚类。整个算法在这里可用,但很快它是:

  1. 构建数据点的 mkNN 图(它的连接组件是集群)。
  2. 预训练自动编码器以减少数据维度。
  3. 训练自动编码器,它的目标是聚类的另一个目标,它试图减少降维数据点之间的距离。
  4. 成为接近点的最终连接组件(如果足够接近(通过阈值)它们保持连接,如果它们彼此远离 - 边缘消失并且其他一些出现等等)是集群。

带有文章链接的完整算法

客观的

算法

你能猜到为什么我会在第一个 0-index 集群中获得大部分数据(始终如一地调整所有超参数)吗?从输出的 tSNE 可视化中可以看出,数据具有很好的聚类潜力。但是聚类不好。我想也许可以扩大 mKNN 图构造的 k 参数,但它不起作用,只是减少了集群的总量,但数据样本继续冲突成一个集群。

欢迎任何建议和理论讨论。

0个回答
没有发现任何回复~