应用低事件率的逻辑回归

机器算法验证 物流
2022-02-08 13:24:40

我有一个事件发生率非常低的数据集( 40,000 out of)。我正在对此应用逻辑回归。我与某人进行了讨论,结果表明逻辑回归不会在如此低的事件率数据上给出良好的混淆矩阵。但是由于业务问题及其定义方式,我无法将事件数量从 40,000 增加到更大的数量,尽管我同意我可以删除一些非事件总体。12105

请告诉我您对此的看法,特别是:

  1. 逻辑回归的准确性是否取决于事件率,或者是否有推荐的最小事件率?
  2. 低事件率数据有什么特殊技术吗?
  3. 删除我的非事件总体对我的模型的准确性有好处吗?

我是统计建模的新手,所以请原谅我的无知,请解决我能想到的任何相关问题。

谢谢,

2个回答

我将不按顺序回答您的问题:

3 删除我的非事件总体对我的模型的准确性有好处吗?

每个观察都将提供有关参数的一些附加信息(通过似然函数)。因此,删除数据没有任何意义,因为您只会丢失信息。

1 逻辑回归的准确性是否取决于事件率,或者是否有推荐的最低事件率?

从技术上讲,是的:一个罕见的观察结果信息量更大(也就是说,似然函数会更陡峭)。如果您的事件比率为 50:50,那么对于相同数量的数据,您将获得更紧密的置信区间(或可信区间,如果您是贝叶斯)但是,您无法选择您的事件发生率(除非您正在进行病例对照研究),因此您必须使用现有的资源。

2 低事件率数据有什么特殊技术吗?

可能出现的最大问题是完美分离:当某些变量组合给出所有非事件(或所有事件)时,就会发生这种情况:在这种情况下,最大似然参数估计(及其标准误差)将接近无穷大(尽管通常算法将提前停止)。有两种可能的解决方案:

a)从模型中删除预测变量:虽然这会使您的算法收敛,但您将删除具有最大解释能力的变量,因此这仅在您的模型开始时过度拟合时才有意义(例如拟合太多复杂的交互) .

b) 使用某种惩罚,例如先验分布,这会将估计值缩小到更合理的值。

对于删除时间或空间数据的非事件,有一个更好的选择:您可以跨时间/空间聚合数据,并将计数建模为泊松。例如,如果您的事件是“X 天发生火山喷发”,那么不会有多少天会发生火山喷发。但是,如果您将这些天组合成几周或几个月,例如“X 月的火山喷发次数”,那么您将减少事件的数量,并且更多的事件将具有非零值。