描述:
我对下一个输入有聚类问题:
- 我有包含每行特征标签的真值数据集。
- 我发现某些特征可以修改为某些相空间,只有在我选择仅包含几个集群的子集( n_clusters << n_labels) 并且在这个真实数据集中没有其他集群在一起。而对于接近的项目(在修改特征的空间内),很难区分它们,线条变得越来越近。
问题:
- 这种可分离性是否提供了实际知识,允许构建模型,或者它是数据理解的错误方式(考虑使用此参数进行模型教学是否有意义)?
- 如果这种可分离性是有意义的并且可以被解释,那么哪种模型更适合这种情况,那么在具有远距离项目的小子集上教授模型并以某种方式加入它们是否有意义?
UPD: 根据我的实验,DBSCAN 表明这个参数只会造成额外的混乱,因为数据线中的行越多越密集,一条线内的偏差变得大于线之间的距离。