我有一个具有一些不平衡分类特征的数据集。我想建立一个回归模型来使用机器学习 (ML) 预测标签。
如何处理分类变量中的数据不平衡以避免我的 ML 回归模型中出现任何偏差?
我有一个具有一些不平衡分类特征的数据集。我想建立一个回归模型来使用机器学习 (ML) 预测标签。
如何处理分类变量中的数据不平衡以避免我的 ML 回归模型中出现任何偏差?
首先,它取决于样本数量和不平衡程度:
根据经验,我通常将类别连接起来,直到它们在火车和验证数据集中的分布相似。
虽然这可能会导致一些偏差,但它避免了在生产中部署或在测试数据集中进行测试时处理分类特征的问题。
其他策略是定义一个阈值(例如 5%),您可以在其中加入所有分布低于该阈值的特征类别。