我有 2 个类的分类问题。我有近 5000 个样本,每个样本都表示为具有 570 个特征的向量。正类样本接近 600 个。意思是,我在数据集中有 1:8 的正负样本比例。使用SMOTE可以减轻数据集中的这种不平衡。随后,进行 10 倍 CV 的分类。我得到 0.91 的 f 值。
为了研究数据集中不平衡的影响,我尝试使用本身不平衡的数据(即没有 SMOTE)。这一次,我观察到 f 测量值为 0.92。我知道区别在于使用准确性和 f-measure来解释分类器预测,并且由于我有一个不平衡的数据集,所以我选择使用 f-measure。
在我的情况下,无论我的数据集是否存在不平衡,最终结果似乎都没有太大差异。在这种情况下,我有以下问题:
- 为什么在这两种情况下 f 度量似乎没有太大差异?
- 可以注意到,在我使用 SMOTE 缓解不平衡后,数据集变得平衡,我仍然使用 f-measure 来评估分类结果。在这种情况下使用 f-measure 是否正确还是应该使用accuracy?
- SMOTE 对少数类进行过采样。同样,对多数类进行下采样(或欠采样)也可以纠正这种不平衡。为什么这种方法不是首选(如果我可以这么说)?与过采样相比,欠采样对经过训练的分类器和准确性有什么影响。