高度不平衡的类机器学习
数据挖掘
机器学习
2022-02-24 16:54:15
3个回答
我要做的是保留Unknown课程并将Never-worked和without-pay视为Unknown。
插补方法只会加强对最主要类别的偏见,即在您的情况下是私有的。假设您使用一个简单的分类器来估算这值,它会根据其他特征的相似性(例如年龄、教育...)将它们分配给另一个类。想想这个程序做了什么,它用无偿私人或其他东西代替了某人。然而,这在概念上是错误的,特别是对于试图预测某人收入的模型。
归算什么?这是不在目标中的特征中组的大小吗?
不平衡类插补方法是指 target(y)。在特征(X)中,重要的是数据的质量很好。
你的目标是预测人们的收入。在问题的预处理部分,您希望以最佳方式处理此功能(数据争吵,插补......)。但是当涉及到预测时,你不需要照顾不平衡的类,因为你的目标不是不平衡的。
不平衡在分类(二元,多)中有意义,但在回归中没有意义。我了解您的目标是连续的。
开尔文,
正如他们所说的那样,不平衡的X在分类问题中更重要。如果您必须使用处理此问题,我可以建议:
- 在“未知”类中查找与“从未工作”或“无薪”类别中的行最相似的行并将它们连接起来。
- 您可以为更少(更多)的类别重新定义类别。
- 您可以查看重采样技术,例如 SMOTE
您将在链接中找到一些实现:
https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets
其它你可能感兴趣的问题
