我们如何预测罕见事件?

机器算法验证 分类 预测模型 scikit-学习 泊松过程
2022-03-20 23:42:06

我正在开发一个保险风险预测模型。这些模型属于“罕见事件”,如航空公司未出现预测、硬件故障检测等。在我准备数据集时,我尝试应用分类,但由于负例比例很高,我无法获得有用的分类器.

除了高中统计课程之外,我在统计和建模数据方面没有很多经验,所以我有点困惑。

首先想到的是,我一直在考虑使用非齐次泊松过程模型。我根据事件数据(日期、纬度、经度)对其进行分类,以便对特定时间特定地点特定时间特定时间的风险机会进行良好估计。

我想知道,预测罕见事件的方法/算法是什么?
你推荐什么方法来解决这个问题?

1个回答

标准方法是“极值理论”,Stuart Coles 有一本关于该主题的优秀书籍(尽管目前的价格似乎相当,错误......极端)。

使用分类或回归方法不太可能获得好的结果的原因是,这些方法通常依赖于预测数据的条件均值,而极端事件通常是由所有对齐方向的“随机”因素的结合引起的,因此它们处于合理结果分布的尾部,这通常与条件均值相差甚远。您可以做的是预测整个条件分布,而不仅仅是它的平均值,并通过将分布的尾部积分到某个阈值以上来获取有关极端事件概率的一些信息。我发现这在强降水的统计缩减应用中效果很好