我有一个事件发生率非常低的数据集( 40,000 out of)。我正在对此应用逻辑回归。我与某人进行了讨论,结果表明逻辑回归不会在如此低的事件率数据上给出良好的混淆矩阵。但是由于业务问题及其定义方式,我无法将事件数量从 40,000 增加到更大的数量,尽管我同意我可以删除一些非事件总体。
请告诉我您对此的看法,特别是:
- 逻辑回归的准确性是否取决于事件率,或者是否有推荐的最小事件率?
- 低事件率数据有什么特殊技术吗?
- 删除我的非事件总体对我的模型的准确性有好处吗?
我是统计建模的新手,所以请原谅我的无知,请解决我能想到的任何相关问题。
谢谢,