我试图预测罕见事件,这意味着少于 1% 的阳性病例。我基本上试图预测一个主题是否会有 0、1、2 ...、6、> 6 次失败(所有这些类别都有案例)。
我尝试了几种算法:
- 决策树
- 随机森林
- adaboost
- 使用 k-means 聚类进行分组并找到与故障的关联(哪个组的故障最多)
在任何情况下,学习要么没有失败,要么差异太大(导致 CV 集的结果不佳)。
你知道任何更适合罕见事件的机器学习算法吗?
或者我使用这些算法得到那些糟糕的结果是否令人惊讶,这意味着我的特征列表不好?
非常感谢。
我试图预测罕见事件,这意味着少于 1% 的阳性病例。我基本上试图预测一个主题是否会有 0、1、2 ...、6、> 6 次失败(所有这些类别都有案例)。
我尝试了几种算法:
在任何情况下,学习要么没有失败,要么差异太大(导致 CV 集的结果不佳)。
你知道任何更适合罕见事件的机器学习算法吗?
或者我使用这些算法得到那些糟糕的结果是否令人惊讶,这意味着我的特征列表不好?
非常感谢。
当您有一个不平衡的数据集时,该算法将在每个数据点上平等地衡量其成功,这意味着多数类比少数类更重要。典型的解决方案是对多数类进行抽样,直到它与少数类的大小相同,而另一种(类似)解决方案是调整成本函数,以便对少数类进行适当的加权。
有关更多信息,请参阅这些类似的问题: