我是机器学习的新手,所以我会用两个例子来总结我的问题,而不需要技术(因为我不能)。
狗与猫的分类示例是可以解决的,因为人类可以确定地告诉你它是狗还是猫。许多机器学习算法能够复制人类的表现并几乎可以确定地识别狗或猫。
对于我的问题,没有确定性,只是比随机预测略好。我试图预测一个最近被释放的人是否会在明年内犯罪。让我们假设重新犯罪的实际机会约为 50/50。如果我可以使用机器学习做出比随机预测稍微好一点的预测,那对我来说将是一个巨大的胜利。更具体地说,如果 50/50 是随机猜测,那么如果我能够达到55%成功60%率,那将被认为是非常成功的。
我知道这项任务是可能的,因为我使用了一个数据集(具有大约 50 个特征和 100,000 个观察值)来进行“人造”线性回归,该回归在样本中实现了大约 52%。
我尝试过 SKLearn 的逻辑回归和 XGBoost,但它们的性能低于我的man-made尝试。我假设这是因为这些算法并不是要处理对大部分随机事件的预测。
鉴于我正在处理一个主要是随机事件的预测,并且我只是希望实现比随机预测稍微好一点,那么您是否可以推荐一种机器学习算法/策略来最好地解决这个问题?