请帮助选择基于准确性和混淆矩阵的算法

数据挖掘 随机森林 逻辑回归 算法 交叉验证
2022-02-28 01:46:00

我对数据科学非常陌生,非常感谢您的建议。

有一个任务:根据一组数据预测一笔交易是否会盈利我已经准备、清理和测试了数据。由于答案需要布尔结果(真或假(1/0)),因此选择了一些二分类算法。测试后选择了我认为最好的两个:Random Forest 和 Logistic Regression CV(交叉验证)。以下是结果。无法决定在生产中使用哪一个。另外,请注意:最好不要交易而不是交易和散钱,因此假阴性比假阳性好。

随机森林结果:

在此处输入图像描述

Logistic Regression CV(交叉验证)结果:

在此处输入图像描述

添加了一个数据集示例以进行澄清:

在此处输入图像描述

1个回答

数据中肯定存在一些泄漏,这就是为什么逻辑回归几乎将所有预测为正类的原因。在继续之前,您可能需要先检查一下。在这种情况下,随机森林可能看起来更好的唯一原因是,默认情况下,它只采用变量的子集。