数据挖掘 - 具有一个高优先级标签的平衡数据集中的多类分类 - 吾爱随笔录

数据挖掘分类特征工程多类分类

2022-02-25 11:26:02

我有一个用于具有一个高优先级标签的多类分类问题的平衡数据集（应该不惜一切代价正确分类）。我该如何着手为这个问题创建工作流程？对于这个问题，我应该考虑哪些特定的特征工程/选择方法和分类器？

更具体地说，我正在处理的数据（包括标签）是完全匿名的，所以我不知道它实际代表什么。

我正在考虑的一些方法 -

任何帮助深表感谢！

1个回答

这可以在两个地方解决：

数据：正如你所提到的，这是通过人为地增加临界类的样本数量来完成的 $cc$ . 这会产生与自然不平衡的数据集相同的效果，
模型：这通常是通过过度惩罚错误分类来完成的 $cc$ 与其他班级相比。这种修改的一个地方是损失函数。分类中常用的损失函数是交叉熵。可以为此目的进行如下修改。让 $y_{ik} = 1$ 如果 $k$ 是数据点的真实类别 $i$ ，除此以外 $y_{ik} = 0$ ，和 $y'_{ik} \in (0, 1]$ 是相应的模型估计。原始的交叉熵可以写成：
$H_{y} (y^{'}) = - \sum_{i} \sum_{k = 1}^{K} y_{i k} l o g (y_{i k}^{'})$ $H_y(y')=-\sum_{i}\sum_{k=1}^{K}y_{ik}log(y'_{ik})$
可以更改为 $H_{y} (y^{'}) = - \sum_{i} \sum_{k = 1}^{K} w_{k} y_{i k} l o g (y_{i k}^{'})$ $H_y(y')=-\sum_{i}\sum_{k=1}^{K}\color{blue}{w_{k}}y_{ik}log(y'_{ik})$ 例如，通过设置 $w_{cc} = 10$ 和 $w_{k \neq cc}=1$ ，您实际上是在告诉模型错误分类 $1$ 成员来自 $cc$ 与错误分类一样受到惩罚 $10$ 其他班级的成员。这大致相当于增加类的比例 $cc$ $10$ 使用方法（1）在训练集中的次数。

其它你可能感兴趣的问题