解释变量变换后的聚类结果

数据挖掘 聚类
2021-10-01 15:02:57

一段时间以来,我有一个问题,我还没有找到正确的答案。

我的疑问涉及对应用 a 的clustering algorithm特征运行的结果的解释log-transformation

具体来说,假设我们要运行k-means algorithm3 个区间变量。不幸的是,这三个区间变量的分布非常糟糕,k-means 给出了我们所见过的最糟糕的结果。但是,让我们想象一下,通过将 alog transformation应用于每个变量,我们得到三个非常完美normal distribution的 。
然后,我们再次运行k-means,我们得到了完美的clusters

现在,我的疑问涉及通过k-means对三个log-transformed变量运行 a 获得的这个集群的解释:不清楚我们对获得的集群的解释是应该对原始变量进行还是应该对log-transformed变量进行?

显然,我的示例与对数转换有关,但我们可以讨论z-score或应用min-max normalization任何其他类型的方法transformation,以便distribution在运行聚类算法之前提高质量。

澄清一下,我所说的解释是profiling集群的,这意味着尝试描述哪些是属于该集群的个体的共同特征。

1个回答

很有意思!您对数据所做的只是一个特征映射/转换。那么这如何影响聚类结果呢?

聚类不是一个明确定义的问题,但至少我们对此有所了解:它是关于内部相似性(模式),因此这些相似性应该通过特征转换来保持。在您的示例中,如果您在转换空间中找到集群,则表明您在原始空间中也有集群。根据您在该空间中使用的算法,您只是看不到它们!

例如,如果您使用算法的内核化版本,您很容易发现它们所做的只是您在转换时所做的。他们首先使用内核将数据映射到新空间,然后在该空间中使用算法(当然有一些理论差异/约束)。

总而言之,没有任何转换会在数据中产生虚假模式。在最坏的情况下,它会消失原始模式,在最好的情况下,它会显示最初不可见的模式(这是你的情况)。


我在上面提到了假图案,所以让我再多说一点。我认为您的问题存在一个基本问题:

您假设在转换后获得了右聚类。实际上没有正确的聚类!

我们没有假图案!如果特征空间中存在模式,那就是真的!即,您发现了一个有趣的数据表示。如果它与标签不匹配,那么要么数据非常嘈杂,要么选择了错误的特征来表示类(也许有更多原因。现在我想到了这两个)。如果没有标签(您的情况),请确保这些集群成员的特征之间存在相关性。