我正在开展一个聚类项目,我们从 100 多个患者样本中收集了蛋白质数据。该数据经过标准化和对数转换。目标是根据样本的相似性对样本进行聚类,我正在使用层次聚类并尝试距离度量和聚类算法的组合。(我们还没有对距离方法或聚类算法做出决定)我的问题与居中和缩放有关,是否绝对有必要对数据进行缩放和居中?即使在所有数据都来自相同的情况下平台和相同的测量单位。
感谢您对此的意见。
谢谢
我正在开展一个聚类项目,我们从 100 多个患者样本中收集了蛋白质数据。该数据经过标准化和对数转换。目标是根据样本的相似性对样本进行聚类,我正在使用层次聚类并尝试距离度量和聚类算法的组合。(我们还没有对距离方法或聚类算法做出决定)我的问题与居中和缩放有关,是否绝对有必要对数据进行缩放和居中?即使在所有数据都来自相同的情况下平台和相同的测量单位。
感谢您对此的意见。
谢谢
我的问题与居中和缩放有关,是否绝对有必要对数据进行缩放和居中?即使在所有数据都来自同一平台并具有相同测量单位的情况下也是如此。
这取决于您拥有的数据类型。对于某些类型明确的数据,可能不需要缩放和居中。一个很好的例子是地理位置数据(经度和纬度)。如果您正在寻求对城镇进行集群化,则无需扩展和集中它们的位置。
对于具有不同物理测量或单位的数据,缩放和居中可能是一个好主意。例如,在对车辆进行聚类时,数据可能包含诸如车轮数、门数、每加仑英里数、马力等属性。在这种情况下,缩放和居中可能是一个更好的主意,因为您不确定两者之间的关系每个属性。
这背后的直觉是,由于许多聚类算法需要对距离进行一些定义,如果您不对数据进行缩放和中心化,您可能会赋予具有较大量级的属性更重要的属性。
在您的问题的上下文中,如果数据包含患者身高、体重、年龄等属性,我将对其进行缩放和居中。
这个关于类似问题的答案有更多。
如果您的变量具有不可比较的单位,那么您应该通过缩放来标准化变量。K-聚类在所有方向上都是“各向同性的”,这意味着聚类倾向于或多或少是圆形的。通过不缩放,您实际上是在对某些变量施加权重。