在使用 3 个类时,我的数据集包含所有类的不同比例。例如,
Class "0" has 11098 cases.....Normal
class "1" has 2369 cases....."Abnormal"
class "2" has 3396 cases....."May be Normal or Abnormal"
我用相似的比例训练了模型。我有两个问题:
是否有必要平衡所有三个类别?
类不平衡对分类性能有什么影响?
在使用 3 个类时,我的数据集包含所有类的不同比例。例如,
Class "0" has 11098 cases.....Normal
class "1" has 2369 cases....."Abnormal"
class "2" has 3396 cases....."May be Normal or Abnormal"
我用相似的比例训练了模型。我有两个问题:
是否有必要平衡所有三个类别?
类不平衡对分类性能有什么影响?
正如评论中提到的,您的数据没有那么大的不平衡。检查不平衡如何影响模型的一个好方法是计算精度和召回率。这些值将非常低,而您的准确性会很高,因为它将预测每个样本的多数类别。然而,“也许正常”的情况是危险的。最好设置一个不同的阈值,可能是一个较低的阈值,这样即使是边缘异常的病例也会被归类为异常。精确召回曲线或 ROC 曲线是确定截止值的好方法。
你有数据不平衡吗?答案是肯定的。
这是个问题吗?这取决于。
你的数据不平衡率很高(1:10),是不是有问题,这取决于三件事: - 使用的分类器是什么?- 这些是可分离的类吗?- 您对整体准确度还是平均准确度感兴趣?
影响是有偏差分类器!如果您有一个分类器将所有样本都预测为第一类,那么您的总体准确率将达到约 70%。但它是一个有偏差的分类器,平均准确率约为 33%