什么时候过采样不好?

机器算法验证 回归 分类 采样
2022-03-13 17:45:05

对于我的特定领域和问题,我有整个人口的数据。但是,我的“事件”只发生在 0.5% 的情况下。我希望我的模型能够掌握少数类(“事件”类)中的重要特征,以便更好地预测未来,但我今天阅读了几篇论文和几篇 SAS 博客文章后,我的理解是当你已经拥有人口时过度采样并不是一个好的做法,因为你已经拥有了整个人口——你还想要什么?

在逻辑回归的情况下,过采样不会影响系数(斜率截距之外),因此我认为在该模型的情况下没有理由过采样。但是对于随机森林或支持向量机呢?当我已经拥有整个人口时,过采样是一个好主意还是坏主意?

我想我的核心问题是:什么时候不应该过度采样

1个回答

如果您拥有全部人口,则无事可做。你确切地知道发生了什么。如果一个受试者具有某种预测因素(特征)的组合并经历了一个结果,那么这就是结果。如果多个受试者具有相同的预测变量组合并经历了不同的结果,您就会知道他们经历各种结果的比例。

你拥有整个人口。无需进行任何建模。不要运行逻辑回归。不要运行随机森林。不要运行 SVM。你有绝对的、无可争辩的真理。这就像预测昨天的收盘价一样。你不会预测它;你看看它是什么,那就是它。

(在我看来,即使我们认为我们拥有整个人口,但通常我们对数据生成过程真的很感兴趣。如果您发现我的回答不令人满意,请认真考虑您是否对您观察到的主题之外的东西感兴趣。)