在特征选择中使用 F-score 的缺点

机器算法验证 分类 支持向量机 特征选择 互信息
2022-04-04 19:16:07

F-score可用于衡量两组实数的区分度,可用于特征选择。但是,我曾经读过

F-score 的一个缺点是它不能揭示特征之间的相互信息。

如何理解这个说法,或者说为什么F-score有这种劣势。

3个回答

晚了三年,但它可能会帮助其他人。

我猜您参考的是 Chen 和 Lin (2006) 的论文中使用的 F-score:“将 SVM 与各种特征选择策略相结合”他们用一个例子来解释你的要求:

在此处输入图像描述

我引用他们的话:“这个数据的两个特征都具有低 F 分数,因为分母(正集和负集的方差之和)远大于分子。”

换句话说,F-score 揭示了每个特征独立于其他特征的判别力。为第一个特征计算一个分数,为第二个特征计算另一个分数。但它并没有表明任何关于这两个特征(相互信息)的组合。这是F-score的主要弱点。

在这个回复中,我假设被质疑的 F 分数是 @Guillaume Sutra 指出的文章中描述的分数。这是描述 F 分数的页面,包括其定义:

计算单变量特征选择的 f 分数

让我们首先看一下 F-score 背后的直觉特征选择。为简单起见,让我们考虑一个二元分类问题(数据集中的每个样本都有两个类别之一)。假设我们有一个关于格式的大型数据集:

x1  x2  x3  ... class
0.3 0.5 0.1 ... A
0.1 0.7 0.4 ... B
0.1 0.1 0.2 ... A
0.2 0.4 0.2 ... A
0.5 0.7 0.8 ... B
... ... ... ... ...

F-score 是一种单变量特征选择方法,这意味着它对每个特征 (x1, x2, x3, ...) 单独进行评分(分数越高越好),而不考虑一个特征可能会在组合中得到改善具有另一个功能。例如,假设我们要对特征 x2 进行评分。关于 x2 特征,假设我们的数据集如下所示:

在此处输入图像描述

如果我们花 10 秒时间在 Microsoft Paint 中为这两个类绘制正态分布,它看起来如下:

在此处输入图像描述

现在,如果我们只想基于 x2 特征来预测数据点的类别,两个正态分布重叠的事实使我们更难建立一个好的预测模型。例如,考虑以下两种极端情况:

在此处输入图像描述

很容易看出左边的情况更容易预测。请注意,重叠减少时

  • A 和 B 的均值更加分离(F-score 定义中的分子)
  • A 和 B 的方差很小(F-score 定义中的分母)

F 分数捕获了这两个属性,因此高 F 分数反映了小的重叠。

关于您关于 F 分数不显示互信息的问题,我做了这个例子,灵感来自文章:

在此处输入图像描述

对于每个特征 x1 和 x2,F-score 由于高方差而低。但是,通过结合这两个特征,您可以完美地分离出 A 和 B 两个类别。不幸的是,F-score 没有考虑这一点。

F 分数是两个变量的比率:F = F1/F2,其中 F1 是组间的变异性,F2 是每组内的变异性。换句话说,高 F 值(导致显着的 p 值取决于您的 alpha)意味着您的组中至少有一个组与其他组显着不同,但它并不能告诉您是哪一组。

通常,您会选择返回高 F 值的特征并将其用于进一步分析。