我有一个数据库,其中包含不同月份的个人和一个指示事件是否发生的目标变量,比如说:
Id: 1, Month: 1, Event: 0
Id: 1, Month: 2, Event: 0
Id: 1, Month: 3, Event: 1
Id: 2, Month: 1, Event: 0
Id: 2, Month: 2, Event: 0
由于我的样本太大(想想组合的数量),我想选择一个比 N 小得多的样本 n(每个人一个月)。
对于发生事件的个人,所选月份始终是发生事件的月份。总是。没有随机性。
相反,对于没有事件的个人,可以随机选择任何月份。
这些事实...
- 每个人选择一个月。
- 正负选择方法之间的差异(我认为这称为伯克森偏差)。
...影响分类模型的性能?