对于我的特定领域和问题,我有整个人口的数据。但是,我的“事件”只发生在 0.5% 的情况下。我希望我的模型能够掌握少数类(“事件”类)中的重要特征,以便更好地预测未来,但我今天阅读了几篇论文和几篇 SAS 博客文章后,我的理解是当你已经拥有人口时过度采样并不是一个好的做法,因为你已经拥有了整个人口——你还想要什么?
在逻辑回归的情况下,过采样不会影响系数(斜率截距之外),因此我认为在该模型的情况下没有理由过采样。但是对于随机森林或支持向量机呢?当我已经拥有整个人口时,过采样是一个好主意还是坏主意?
我想我的核心问题是:什么时候不应该过度采样?