机器算法验证 - 标准化样本数据以进行聚类 - 吾爱随笔录

我有 200 个样本的三种汇总分数，和。 $a, b$ $c$

$S1, S2, S3,..., S200$

$a_{s1}, a_{s2}, ..., a_{s200}$

$b_{s1}, b_{s2}, ..., b_{s200}$

$c_{s1}, c_{s2}, ..., c_{s200}$

这些分数中的每一个本质上是某个事件在每个样本的数据中发生的次数。我希望通过基于相关的聚类来找到这些样本的组。但是，这些分数中的每一个的量表都非常不同：

总结： $a$

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
2.0   36.0   55.0   52.5   69.0  139.0

总结： $b$

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
8.0   99.5   285.0   292.7   737.5  2624.0

总结： $c$

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
40.0    111.0   176.0   300.4   554.5   779.0

我应该标准化分数吗？如果是这样，怎么做？

注意。我不想对这些类型的事件之间以及这些汇总分数之间的依赖性或独立性做出任何假设。

更新：所以，我决定尝试使用欧几里得进行聚类。为了获得标准化和转换后的数据，我正在执行以下操作： 1. 使用 Shapiro 测试测试分数是否符合正态分布

这看起来合理吗？