数据挖掘 - 解释变量变换后的聚类结果 - 吾爱随笔录

解释变量变换后的聚类结果

数据挖掘聚类

2021-10-01 15:02:57

一段时间以来，我有一个问题，我还没有找到正确的答案。

我的疑问涉及对应用 a 的clustering algorithm特征运行的结果的解释log-transformation。

具体来说，假设我们要运行k-means algorithm3 个区间变量。不幸的是，这三个区间变量的分布非常糟糕，k-means 给出了我们所见过的最糟糕的结果。但是，让我们想象一下，通过将 alog transformation应用于每个变量，我们得到三个非常完美normal distribution的。
然后，我们再次运行k-means，我们得到了完美的clusters。

现在，我的疑问涉及通过k-means对三个log-transformed变量运行 a 获得的这个集群的解释：不清楚我们对获得的集群的解释是应该对原始变量进行还是应该对log-transformed变量进行？

显然，我的示例与对数转换有关，但我们可以讨论z-score或应用min-max normalization任何其他类型的方法transformation，以便distribution在运行聚类算法之前提高质量。

澄清一下，我所说的解释是profiling集群的，这意味着尝试描述哪些是属于该集群的个体的共同特征。

1个回答

很有意思！您对数据所做的只是一个特征映射/转换。那么这如何影响聚类结果呢？

聚类不是一个明确定义的问题，但至少我们对此有所了解：它是关于内部相似性（模式），因此这些相似性应该通过特征转换来保持。在您的示例中，如果您在转换空间中找到集群，则表明您在原始空间中也有集群。根据您在该空间中使用的算法，您只是看不到它们！

例如，如果您使用算法的内核化版本，您很容易发现它们所做的只是您在转换时所做的。他们首先使用内核将数据映射到新空间，然后在该空间中使用算法（当然有一些理论差异/约束）。

总而言之，没有任何转换会在数据中产生虚假模式。在最坏的情况下，它会消失原始模式，在最好的情况下，它会显示最初不可见的模式（这是你的情况）。

我在上面提到了假图案，所以让我再多说一点。我认为您的问题存在一个基本问题：

您假设在转换后获得了右聚类。实际上没有正确的聚类！

我们没有假图案！如果特征空间中存在模式，那就是真的！即，您发现了一个有趣的数据表示。如果它与标签不匹配，那么要么数据非常嘈杂，要么选择了错误的特征来表示类（也许有更多原因。现在我想到了这两个）。如果没有标签（您的情况），请确保这些集群成员的特征之间存在相关性。

其它你可能感兴趣的问题

上一篇你如何为高斯相似核设置 sigma？下一篇线性 SVM 和带线性核的 SVM 有什么区别？