具有一个高优先级标签的平衡数据集中的多类分类

数据挖掘 分类 特征工程 多类分类
2022-02-25 11:26:02

我有一个用于具有一个高优先级标签的多类分类问题的平衡数据集(应该不惜一切代价正确分类)。我该如何着手为这个问题创建工作流程?对于这个问题,我应该考虑哪些特定的特征工程/选择方法和分类器?

更具体地说,我正在处理的数据(包括标签)是完全匿名的,所以我不知道它实际代表什么。

我正在考虑的一些方法 -

  1. 通过过采样为优先标签创建合成数据点。
  2. 创建一个高度非线性的模型来预测准确性是非常重要的。

任何帮助深表感谢!

1个回答

这可以在两个地方解决:

  1. 数据:正如你所提到的,这是通过人为地增加临界类的样本数量来完成的cc. 这会产生与自然不平衡的数据集相同的效果,

  2. 模型:这通常是通过过度惩罚错误分类来完成的cc与其他班级相比。这种修改的一个地方是损失函数。分类中常用的损失函数是交叉熵。可以为此目的进行如下修改。yik=1如果k是数据点的真实类别i, 除此以外yik=0, 和yik(0,1]是相应的模型估计。原始的交叉熵可以写成:

    Hy(y)=ik=1Kyiklog(yik)

    可以更改为
    Hy(y)=ik=1Kwkyiklog(yik)
    例如,通过设置wcc=10wkcc=1,您实际上是在告诉模型错误分类1成员来自cc与错误分类一样受到惩罚10其他班级的成员。这大致相当于增加类的比例cc 10使用方法(1)在训练集中的次数。