我正在尝试预测分类问题。为此,我使用了 Ranger、Xgboost 和 naive bayes。我的 Response 课程不平衡。92:8 的比例。我的正面回应仅占整个数据的 8%。
由于班级不平衡,我得到了更多的 FP / FN。
我在训练集上尝试了不同的采样,并用原始集预测给了我更多的 FP。
我可以做类似的事情吗?: - 将数据拆分为训练和测试 - 在训练和测试上单独应用抽样方法 - 并使用抽样测试进行预测。
谢谢。
我正在尝试预测分类问题。为此,我使用了 Ranger、Xgboost 和 naive bayes。我的 Response 课程不平衡。92:8 的比例。我的正面回应仅占整个数据的 8%。
由于班级不平衡,我得到了更多的 FP / FN。
我在训练集上尝试了不同的采样,并用原始集预测给了我更多的 FP。
我可以做类似的事情吗?: - 将数据拆分为训练和测试 - 在训练和测试上单独应用抽样方法 - 并使用抽样测试进行预测。
谢谢。
对您的测试集进行过采样只会人为地提高您的性能。相反,您可能想要做的是更改您的目标函数以更加重视您的不平衡类。这个网站上已经有很多关于类不平衡的问题,例如:Classification problem: custom minimization measure