机器算法验证 - 在特征选择中使用 F-score 的缺点 - 吾爱随笔录

机器算法验证分类支持向量机特征选择互信息

2022-04-04 19:16:07

F-score可用于衡量两组实数的区分度，可用于特征选择。但是，我曾经读过

F-score 的一个缺点是它不能揭示特征之间的相互信息。

如何理解这个说法，或者说为什么F-score有这种劣势。

3个回答

晚了三年，但它可能会帮助其他人。

我猜您参考的是 Chen 和 Lin (2006) 的论文中使用的 F-score：“将 SVM 与各种特征选择策略相结合”。他们用一个例子来解释你的要求：

在此处输入图像描述

我引用他们的话：“这个数据的两个特征都具有低 F 分数，因为分母（正集和负集的方差之和）远大于分子。”

换句话说，F-score 揭示了每个特征独立于其他特征的判别力。为第一个特征计算一个分数，为第二个特征计算另一个分数。但它并没有表明任何关于这两个特征（相互信息）的组合。这是F-score的主要弱点。

在这个回复中，我假设被质疑的 F 分数是 @Guillaume Sutra 指出的文章中描述的分数。这是描述 F 分数的页面，包括其定义：

让我们首先看一下 F-score 背后的直觉特征选择。为简单起见，让我们考虑一个二元分类问题（数据集中的每个样本都有两个类别之一）。假设我们有一个关于格式的大型数据集：

x1  x2  x3  ... class
0.3 0.5 0.1 ... A
0.1 0.7 0.4 ... B
0.1 0.1 0.2 ... A
0.2 0.4 0.2 ... A
0.5 0.7 0.8 ... B
... ... ... ... ...

F-score 是一种单变量特征选择方法，这意味着它对每个特征 (x1, x2, x3, ...) 单独进行评分（分数越高越好），而不考虑一个特征可能会在组合中得到改善具有另一个功能。例如，假设我们要对特征 x2 进行评分。关于 x2 特征，假设我们的数据集如下所示：

如果我们花 10 秒时间在 Microsoft Paint 中为这两个类绘制正态分布，它看起来如下：

现在，如果我们只想基于 x2 特征来预测数据点的类别，两个正态分布重叠的事实使我们更难建立一个好的预测模型。例如，考虑以下两种极端情况：

很容易看出左边的情况更容易预测。请注意，重叠减少时

F 分数捕获了这两个属性，因此高 F 分数反映了小的重叠。

关于您关于 F 分数不显示互信息的问题，我做了这个例子，灵感来自文章：

对于每个特征 x1 和 x2，F-score 由于高方差而低。但是，通过结合这两个特征，您可以完美地分离出 A 和 B 两个类别。不幸的是，F-score 没有考虑这一点。

F 分数是两个变量的比率：F = F1/F2，其中 F1 是组间的变异性，F2 是每组内的变异性。换句话说，高 F 值（导致显着的 p 值取决于您的 alpha）意味着您的组中至少有一个组与其他组显着不同，但它并不能告诉您是哪一组。

通常，您会选择返回高 F 值的特征并将其用于进一步分析。

其它你可能感兴趣的问题