我试图找出过采样是否真的可以使模型更好。在这个博客页面上,它说它可以改进决策树,但它不应该改进逻辑回归。以下报价:
标准统计技术对数据的原始密度不敏感。因此,对过采样数据运行逻辑回归应该产生与原始数据基本相同的模型。
问题:
在逻辑回归中使用过采样真的不会改善结果吗?
我试图找出过采样是否真的可以使模型更好。在这个博客页面上,它说它可以改进决策树,但它不应该改进逻辑回归。以下报价:
标准统计技术对数据的原始密度不敏感。因此,对过采样数据运行逻辑回归应该产生与原始数据基本相同的模型。
问题:
在逻辑回归中使用过采样真的不会改善结果吗?
如果您正在考虑根据结果进行过采样,那么您必须非常小心。
一般来说这是不行的。内生抽样方案会给你带来有偏差的结果。见伍尔德里奇第 17 章。
在 Logit 模型的情况下,情况有些不同。从Manski 借来的事情是,通常基于响应的抽样揭示:和,但没有关于的概率。
然而,如果且且接近于零(换句话说,它具有罕见病假设的性质),然后对于 LOGIT 模型(由于其良好的指数函数形式),基于结果的采样点识别相对和可归因风险。当罕见病假设成立时,相对风险也称为优势比。对于我在上面推荐的 Manski 的书的第 112 和 113 页的完整证明检查。
好的,所以我们已经确定,如果你只看优势比,那么基于结果的抽样和 logit 应该没问题。当然,你只能得到赔率比,你将无法识别截距,因此你必须非常小心地得出什么结论......
现在回答你的问题:
原则上,如果你有整个人口,你应该不需要过度抽样,因为你有所有案例......这应该很清楚。
实际上,这很少是真的,因为您很可能只有一个总体样本。当这种情况发生时,Gary King 表明,进行基于结果的抽样和应用有限样本校正有一些好处:Gary King Rare Events Logit。
最后(没有详细阅读)我相信你上面提到的博客的重点正是我在这里做的。如果您别无选择,只能根据结果对一类人口进行过采样以获得最少的观察量,那么使用逻辑回归并且如果您正在查看优势比,您应该没问题。不是他们推荐它,但它可能是您唯一的选择。