我有一个不同节点之间数据传输的数据库表。这是一个巨大的数据库(有近 4000 万次转账)。属性之一是传输的字节数 (nbytes),范围从 0 字节到 2 太字节。我想对 nbytes 进行聚类,使得给定 k 个集群,一些 x1 传输属于 k1 集群,x2 传输到 k2 等。
从我使用的术语中,您可能已经猜到了我的意思:K-means。这是一维数据,因为 nbytes 是我唯一关心的特性。当我在寻找不同的方法时,我看到 EM 与非聚类方法一起被提到了几次。我想知道你对如何解决这个问题的看法(特别是集群还是不集群)。
谢谢!