数据挖掘 - 罕见事件的预测分析 - 吾爱随笔录 - 问答

罕见事件的预测分析

数据挖掘机器学习算法预测建模随机森林 k-均值

2021-10-14 03:29:55

我试图预测罕见事件，这意味着少于 1% 的阳性病例。我基本上试图预测一个主题是否会有 0、1、2 ...、6、> 6 次失败（所有这些类别都有案例）。

我尝试了几种算法：

决策树
随机森林
adaboost
使用 k-means 聚类进行分组并找到与故障的关联（哪个组的故障最多）

在任何情况下，学习要么没有失败，要么差异太大（导致 CV 集的结果不佳）。

你知道任何更适合罕见事件的机器学习算法吗？

或者我使用这些算法得到那些糟糕的结果是否令人惊讶，这意味着我的特征列表不好？

非常感谢。

1个回答

当您有一个不平衡的数据集时，该算法将在每个数据点上平等地衡量其成功，这意味着多数类比少数类更重要。典型的解决方案是对多数类进行抽样，直到它与少数类的大小相同，而另一种（类似）解决方案是调整成本函数，以便对少数类进行适当的加权。

有关更多信息，请参阅这些类似的问题：

其它你可能感兴趣的问题

上一篇神经网络本质上是一种在线算法吗？下一篇没有评级的基于项目的协同过滤