我试图预测罕见事件,这意味着少于 1% 的阳性病例。我基本上试图预测一个主题是否会有 0、1、2 ...、6、> 6 次失败(所有这些类别都有案例)。
我尝试了几种算法:
- 决策树
- 随机森林
- adaboost
- 使用 k-means 聚类进行分组并找到与故障的关联(哪个组的故障最多)
在任何情况下,学习要么没有失败,要么差异太大(导致 CV 集的结果不佳)。
你知道任何更适合罕见事件的机器学习算法吗?
或者我使用这些算法得到那些糟糕的结果是否令人惊讶,这意味着我的特征列表不好?
非常感谢。