合成少数过采样技术 SMOTE 是一种众所周知的处理不平衡数据集的方法。有许多论文被大量引用,声称它用于提高不平衡数据场景中的准确性。
但是,当我看到 Kaggle 比赛时,它很少使用,据我所知,没有获奖的 Kaggle/ML 比赛用于实现最佳解决方案。为什么在 Kaggle 中不使用 SMOTE?
我什至看到了未使用 SMOTE 的应用研究论文(其中涉及数百万美元):Practical Lessons from Predicting Clicks on Ads at Facebook
这是因为这不是最好的策略吗?它是一个没有最佳现实应用的研究领域吗?是否有任何获得高回报的机器学习竞赛用于实现最佳解决方案?
我想我只是犹豫创建合成数据是否真的有帮助。