所以假设我有一个数据集,其特征要么存在要么不存在,即 ie0或1. 现在我想确定真正有助于聚类的特征。
比如说我有 4 个训练示例。现在说我有一个存在的特征,即=1在所有训练示例中,因此我可以删除该特征,因为它死了对我没有帮助。现在让我们谈谈另外 2 个特征,如果它们共同存在的训练示例数量很多,它们对聚类也没有多大帮助(想想维恩图中的 2 个高度重叠的圆圈)。所以通过这种方式,我想找到对聚类有重大影响的特征,即主要是不重叠的特征。
有什么好的方法可以做到这一点吗?(我的特征都以二进制表示,要么存在,要么不存在)。