我根据用户行为标记相似和不相似的实例。每个实例都有很多功能。我几乎没有办法给这对夫妇贴上标签。我知道想要评估哪些标签方法在组中产生最均匀的分布,或者判断这两个组是否来自相同的分布。
我主要是在寻找统计措施。有什么建议么?
我根据用户行为标记相似和不相似的实例。每个实例都有很多功能。我几乎没有办法给这对夫妇贴上标签。我知道想要评估哪些标签方法在组中产生最均匀的分布,或者判断这两个组是否来自相同的分布。
我主要是在寻找统计措施。有什么建议么?
您可以计算每对实例之间的相似度得分(特征差异),然后您可以使用 Kolmogorov-Smirnov 检验检查每个组(相似和不相似)的差异分布是否显着不同。