回归 - 不平衡的分类特征

数据挖掘 回归 分类数据 阶级失衡
2022-03-05 00:58:46

我有一个具有一些不平衡分类特征的数据集。我想建立一个回归模型来使用机器学习 (ML) 预测标签。

如何处理分类变量中的数据不平衡以避免我的 ML 回归模型中出现任何偏差?

1个回答

首先,它取决于样本数量和不平衡程度:

  • 少量样本可能会导致在训练阶段训练很少次的稍微不平衡的特征类别
  • 高度不平衡可能导致某些类别仅出现在训练或验证/测试阶段

根据经验,我通常将类别连接起来,直到它们在火车和验证数据集中的分布相似。

虽然这可能会导致一些偏差,但它避免了在生产中部署或在测试数据集中进行测试时处理分类特征的问题。

其他策略是定义一个阈值(例如 5%),您可以在其中加入所有分布低于该阈值的特征类别。