罕见事件的预测分析

数据挖掘 机器学习 算法 预测建模 随机森林 k-均值
2021-10-14 03:29:55

我试图预测罕见事件,这意味着少于 1% 的阳性病例。我基本上试图预测一个主题是否会有 0、1、2 ...、6、> 6 次失败(所有这些类别都有案例)。

我尝试了几种算法:

  • 决策树
  • 随机森林
  • adaboost
  • 使用 k-means 聚类进行分组并找到与故障的关联(哪个组的故障最多)

在任何情况下,学习要么没有失败,要么差异太大(导致 CV 集的结果不佳)。

你知道任何更适合罕见事件的机器学习算法吗?

或者我使用这些算法得到那些糟糕的结果是否令人惊讶,这意味着我的特征列表不好?

非常感谢。

1个回答

当您有一个不平衡的数据集时,该算法将在每个数据点上平等地衡量其成功,这意味着多数类比少数类更重要。典型的解决方案是对多数类进行抽样,直到它与少数类的大小相同,而另一种(类似)解决方案是调整成本函数,以便对少数类进行适当的加权。

有关更多信息,请参阅这些类似的问题: