我目前有一个数据集,其中每个观察结果都是一个人在各个地区的交通罚单历史记录。
对于代表一个地区的每一列:
- 1代表一个人在2018年在一个地区收到过1+次交通违章
- 如果他们去过那个地区但没有交通违规行为,则为 0。
- 否则不适用
目标:( 对地区进行排名)查看由于交通违规增加而应该有更多警察存在的地区,并使用这些特征来预测该人在 2019 年是否有 1 次以上的交通事故。
问题:并非所有人都去过每个地区。如果此人从未去过该地区,我目前只是将值编码为 0。但这应该是一个有效的 NA 值。例如,如果只有一个人(在数据集中)去过那个地区,那么对一个地区进行排名似乎是不合逻辑的。
问题(S):我应该如何处理这个?我不认为归结为 0 是正确的选择。
原始数据:
PersonId DistA DistB DistC DistD DistE Accident19
1 0 1 1 0 NA 1
2 NA 0 0 0 1 0
3 0 1 1 0 NA 1
4 1 0 0 0 NA 0
估算数据:
PersonId DistA DistB DistC DistD DistE Accident19
1 0 1 1 0 0 1
2 0 0 0 0 1 0
3 0 1 1 0 0 1
4 1 0 0 0 0 0
提前谢谢了!