数据挖掘 - 在分类任务中用 NA 值输入特征 - 吾爱随笔录

我目前有一个数据集，其中每个观察结果都是一个人在各个地区的交通罚单历史记录。

对于代表一个地区的每一列：

1代表一个人在2018年在一个地区收到过1+次交通违章
如果他们去过那个地区但没有交通违规行为，则为 0。
否则不适用

目标：（ 对地区进行排名）查看由于交通违规增加而应该有更多警察存在的地区，并使用这些特征来预测该人在 2019 年是否有 1 次以上的交通事故。

问题：并非所有人都去过每个地区。如果此人从未去过该地区，我目前只是将值编码为 0。但这应该是一个有效的 NA 值。例如，如果只有一个人（在数据集中）去过那个地区，那么对一个地区进行排名似乎是不合逻辑的。

问题（S）：我应该如何处理这个？我不认为归结为 0 是正确的选择。

原始数据：

PersonId DistA DistB DistC DistD DistE Accident19
1        0     1     1     0      NA     1
2        NA    0     0     0      1      0
3        0     1     1     0      NA     1
4        1     0     0     0      NA     0

估算数据：

PersonId DistA DistB DistC DistD DistE Accident19
1        0     1     1     0      0     1
2        0     0     0     0      1     0
3        0     1     1     0      0     1
4        1     0     0     0      0     0

提前谢谢了！