我有一个包含 15 个变量的数据集。一些变量是数字的、连续的。其他变量是布尔变量,二分法(真/假)。还有一个变量是分类的,名义上的。
str(df) 'data.frame': 30 obs. of 15 variables:
nom : Factor w/ 3 levels "a","b","c": 1 1 1 1 1 1 1 1 1 1 ...
X1 : logi FALSE TRUE FALSE TRUE TRUE FALSE ...
X3 : logi TRUE TRUE TRUE TRUE FALSE FALSE ...
X3 : logi TRUE FALSE FALSE FALSE TRUE FALSE ...
X4 : logi FALSE TRUE FALSE TRUE FALSE FALSE ...
X5 : logi TRUE FALSE FALSE FALSE FALSE TRUE ...
X1.1: num 1.026 -0.285 -1.221 0.181 -0.139 ...
X2.1: num -0.045 -0.785 -1.668 -0.38 0.919 ...
X3.1: num 1.13 -1.46 0.74 1.91 -1.44 ...
X4.1: num 0.298 0.637 -0.484 0.517 0.369 ...
X5.1: num 1.997 0.601 -1.251 -0.611 -1.185 ...
X6 : num 0.0597 -0.7046 -0.7172 0.8847 -1.0156 ...
X7 : num -0.0886 1.0808 0.6308 -0.1136 -1.5329 ...
X8 : num 0.134 0.221 1.641 -0.219 0.168 ...
X9 : num 0.704 -0.106 -1.259 1.684 0.911 ..
X10 : android android OS windows7 windows8...
[...]
例如,我想将变量(不是数据案例)x1, x2, ..., x9(可能省略标称X10)聚类到相关变量的集群或子集中(x1,x2,x6),(x3,x5), ...
cor()由于变量有混合类型,我认为不可能使用。也不可能使用高尔相似系数,因为它是数据案例之间的相似性。
你能帮我找到一个处理这个的想法吗?我更喜欢 R 中的解决方案。