线性判别学习器中类可分离性的一个良好度量的一个例子是 Fisher 的线性判别比。是否有其他有用的指标来确定特征集是否在目标变量之间提供了良好的类分离?特别是,我有兴趣找到良好的多变量输入属性以最大化目标类分离,并且最好有一个非线性/非参数测量来快速确定它们是否提供良好的可分离性。
分类问题中类可分离性的度量
机器算法验证
机器学习
分类
特征选择
判别分析
2022-03-29 11:07:52
2个回答
来自随机森林的变量重要性度量 (VIM) 可能是您正在寻找的。Boulesteix 等人在一篇论文中对其中两个进行了简要概述,其中强调了计算生物学和生物信息学的随机森林方法论和实用指导。
Gini VIM的想法是,您可以获得一些关于随机森林使用某个属性作为分割标准的频率的统计数据。这里更经常选择信息特征。
置换 VIM是基于将 RF 分类器的误差估计值在
- 原始数据集和
- 一个人工数据集,其中 ONE 属性的值已被置换。
对于重要特征,由此产生的误差估计差异将很大。
据我记得,VIM 也可以用来发现特性之间的依赖关系。
找到一个最优的特征集在计算上可能相当昂贵。可用解决方案的主要类别可以分为两组:绑定到特定分类器(包装器)或基于某些标准的简单特征排名(过滤器方法)。
根据您的要求(快速/非参数/非线性),您可能需要 Filter 方法的候选人。有不少文献中描述的例子。例如信息增益——通过测量与类相关的信息增益来评估属性的价值;或基于属性与类之间的相关性评估属性价值的相关性。
包装器方法绑定到分类器,并可能最终为感兴趣的分类器提供一组更好的特征。由于它们的性质(每次迭代中的完整训练/测试),它们不能被认为是快速或非参数的,但是它们可以处理特征的非线性关系(您的第三个要求)。一个例子是基于 SVM 的递归特征消除,因此目标是最大化类之间的边距,并且可以处理特征的非线性关系(使用非线性核)。