基于 y 响应的分层选择会产生信息偏差(伯克森偏差)?

数据挖掘 分类 采样
2022-01-24 19:51:46

我有一个数据库,其中包含不同月份的个人和一个指示事件是否发生的目标变量,比如说:

Id: 1, Month: 1, Event: 0
Id: 1, Month: 2, Event: 0
Id: 1, Month: 3, Event: 1
Id: 2, Month: 1, Event: 0
Id: 2, Month: 2, Event: 0

由于我的样本太大(想想组合的数量),我想选择一个比 N 小得多的样本 n(每个人一个月)。

对于发生事件的个人,所选月份始终是发生事件的月份。总是。没有随机性。

相反,对于没有事件的个人,可以随机选择任何月份。

这些事实...

  • 每个人选择一个月。
  • 正负选择方法之间的差异(我认为这称为伯克森偏差)。

...影响分类模型的性能?

1个回答

最好将您的问题描述为生存分析,而不是分类。生存分析的目标是预测事件发生之前的持续时间。