我有一个具有以下规格的数据集:
- 包含 193,176 个样本和 2,821 个阳性样本的训练数据集
- 包含 82,887 个样本和 673 个阳性样本的测试数据集
- 有10个功能。
我想执行二进制分类(0 或 1)。我面临的问题是数据非常不平衡。在规范化和缩放数据以及一些特征工程并使用几种不同的算法之后,这些是我可以实现的最佳结果:
mean square error : 0.00804710026904
Confusion matrix : [[82214 667]
[ 0 6]]
即只有 6 个正确的正面命中。这是使用逻辑回归。以下是我尝试过的各种方法:
- 不同的算法,如 RandomForest、DecisionTree、SVM
- 更改参数值以调用函数
- 一些基于直觉的特征工程,包括复合特征
现在,我的问题是:
- 我可以做些什么来提高正面点击的数量?
- 在这种情况下如何确定是否存在过拟合?(我尝试过绘图等)
- 如果这可能是我可能拥有的最合适的人选,那么在什么时候可以得出结论?(考虑到 673 次中只有 6 次命中,这似乎很可悲)
- 有没有一种方法可以使正样本实例的权重更大,从而提高模式识别从而导致更多点击?
- 哪些图形可以帮助检测异常值或对哪种模式最适合的直觉?
我将 scikit-learn 库与 Python 一起使用,所有实现都是库函数。
编辑:
以下是其他一些算法的结果:
随机森林分类器(n_estimators=100)
[[82211 667]
[ 3 6]]
决策树:
[[78611 635]
[ 3603 38]]