我有一个用于具有一个高优先级标签的多类分类问题的平衡数据集(应该不惜一切代价正确分类)。我该如何着手为这个问题创建工作流程?对于这个问题,我应该考虑哪些特定的特征工程/选择方法和分类器?
更具体地说,我正在处理的数据(包括标签)是完全匿名的,所以我不知道它实际代表什么。
我正在考虑的一些方法 -
- 通过过采样为优先标签创建合成数据点。
- 创建一个高度非线性的模型来预测准确性是非常重要的。
任何帮助深表感谢!
我有一个用于具有一个高优先级标签的多类分类问题的平衡数据集(应该不惜一切代价正确分类)。我该如何着手为这个问题创建工作流程?对于这个问题,我应该考虑哪些特定的特征工程/选择方法和分类器?
更具体地说,我正在处理的数据(包括标签)是完全匿名的,所以我不知道它实际代表什么。
我正在考虑的一些方法 -
任何帮助深表感谢!
这可以在两个地方解决:
数据:正如你所提到的,这是通过人为地增加临界类的样本数量来完成的. 这会产生与自然不平衡的数据集相同的效果,
模型:这通常是通过过度惩罚错误分类来完成的与其他班级相比。这种修改的一个地方是损失函数。分类中常用的损失函数是交叉熵。可以为此目的进行如下修改。让如果是数据点的真实类别, 除此以外, 和是相应的模型估计。原始的交叉熵可以写成:
可以更改为
例如,通过设置和,您实际上是在告诉模型错误分类成员来自与错误分类一样受到惩罚其他班级的成员。这大致相当于增加类的比例 使用方法(1)在训练集中的次数。