我有一个像这样的数据集:
id color body eyes
1 A blue slim green
2 B black fat blue
3 A black slim black
4 C green slim blue
5 D black medim black
而每个 id 代表具有其个人身体特征的个人。
可重现:
structure(list(id = structure(c(1L, 2L, 1L, 3L, 4L), .Label = c("A",
"B", "C", "D"), class = "factor"), color = structure(c(2L, 1L,
1L, 3L, 1L), .Label = c("black", "blue", "green"), class = "factor"),
body = structure(c(3L, 1L, 3L, 3L, 2L), .Label = c("fat",
"medim", "slim"), class = "factor"), eyes = structure(c(3L,
2L, 1L, 2L, 1L), .Label = c("black", "blue", "green"), class = "factor")),
.Names = c("id",
"color", "body", "eyes"), class = "data.frame", row.names = c(NA,
-5L))
然后特征的数量是固定的(颜色:蓝色/黑色/绿色,身体:苗条/脂肪/中等,眼睛:绿色/蓝色/黑色)。
我的目标是将这些人聚集在一起。
我的概念问题与方法有关:
一个简单的关联可能是第一步。一个问题可能是:这些特征的组合如何可能出现在个体群体中?
- 更复杂的方法。也许k-means聚类。鉴于这些是分类变量,如何解决这个问题?我应该把它们变成假人吗?
我是这种分析的新手,对 R 中的实现的任何提示/参考都非常感谢!谢谢