聚类工作日周末数据和多重共线性

数据挖掘 机器学习 聚类 无监督学习 相关性
2022-02-14 18:38:24

嗨,我有工作日和周末步数的数据,我从中提取了指标,例如 wd 步数、we 步数、wd 步数的标准差、we 步数的标准差等等......

  wd_count  we_count  wd_sd_count  we_sd_count  ... .... ....
1  5000      3000      300          500
2  7000      2000      400          100

如果我对这些数据进行聚类,工作日和周末变量将高度相关,我必须在聚类之前删除它们。这种分析有没有办法解决这个问题?

1个回答

是的,它称为相关聚类。

尽管相关性可能会通过对这些属性给予额外的权重而导致许多聚类算法出现问题,但最好删除高度相关的变量,例如使用 PCA

但是,存在用于处理包含多个相关性的数据的相关性聚类算法,并根据它们表现出的相关性对对象进行聚类,从而充分利用您的问题。