我试图在数据库中的犯罪记录中找到模式。我认为集群是一种方法。
这是我的(煮熟的)数据集:
age,nationality,country_of_birth,place_of_birth,no_of_checkedinbaggage,noofcabinbaggage,no_of_co_passengers,watchlist
34,GBR,GBR,London,2,1,0,Drug Trafficker
32,IND,IND,Delhi,2,1,0,Human Trafficker
31,USA,USA,Tampa,2,1,0,Arms Dealer
.....
基本上,我想识别监视列表的集群,看看它们是否有模式。基于集群,我也想预测未来的数据。
聚类(K-Means)是正确的选择吗?而且,所有变量都必须是数字吗?如果是这样,我不确定如何将它们编码为数字。想法?