一段时间以来,我有一个问题,我还没有找到正确的答案。
我的疑问涉及对应用 a 的clustering algorithm
特征运行的结果的解释log-transformation
。
具体来说,假设我们要运行k-means algorithm
3 个区间变量。不幸的是,这三个区间变量的分布非常糟糕,k-means 给出了我们所见过的最糟糕的结果。但是,让我们想象一下,通过将 alog transformation
应用于每个变量,我们得到三个非常完美normal distribution
的 。
然后,我们再次运行k-means
,我们得到了完美的clusters
。
现在,我的疑问涉及通过k-means
对三个log-transformed
变量运行 a 获得的这个集群的解释:不清楚我们对获得的集群的解释是应该对原始变量进行还是应该对log-transformed
变量进行?
显然,我的示例与对数转换有关,但我们可以讨论z-score
或应用min-max normalization
任何其他类型的方法transformation
,以便distribution
在运行聚类算法之前提高质量。
澄清一下,我所说的解释是profiling
集群的,这意味着尝试描述哪些是属于该集群的个体的共同特征。