将用于二进制分类的特征集的排名

数据挖掘 机器学习 统计数据 特征选择 排行
2022-02-19 05:13:44

我有一些功能集,比如 X1 和 X2 ...每个功能集都有一些可变数量的功能,并且不同的功能集之间没有交集 假设 X1 有 100 个功能,X2 有 500 个功能,并且它们所拥有的功能都不相同。尽管从 x1 和 x2 中提取这些特征的文件是相同的。

每个特征集都可以单独用于二元分类。像 X1 也可以用于分类,X2 也可以用于分类。它们也可以组合使用,即 X1 U X2 将具有 600 个功能

但我想比较特征集,因此想知道是否有任何统计方法可用于对这些特征集进行排序,而不是分类精度

就像 X1 比 X2 好等等......

1个回答

可以使用一些统计方法对这些特征集进行排名,例如在每个特征集中提取每个特征的判别分数(kolmogorov smirnof互信息,...),然后取平均值,中位数,p95,...

但是,取决于将要使用的分类器,这个分数可能是无用的,因为一些分类器充当特征选择器(决策树、神经网络等)而其他分类器则不(高斯 NB、kNN、...) .

示例
如果您的 500 个特征中有 10 个特征非常适合区分您的分类,而其他 490 个特征不包含信息。使用基于决策树的分类器将带来良好的性能,因为可能只使用 10 个特征。另一方面,kNN 会导致性能不佳......
但是,您的功能集分数将保持不变。