数据挖掘 - 处理芝加哥犯罪率数据集中的 NA 值 - 吾爱随笔录

我正在对芝加哥犯罪率数据集做一个小项目，我注意到有超过 600,000NA个值，主要是在位置字段中。
我觉得即使有大约 600 万行（2001 年至今的数据），也有很多数据需要丢弃（尤其是因为这些行包含所有其他数据，如犯罪类型、病房、日期、位置描述等）

以下是在每列中找到的列和 NA 的数量：

COMMUNITY_AREA ID CASE_NUMBER DATE BLOCK IUCR PRIMARY_TYPE DESCRIPTION
        616029  0           0    0     0    0            0           0
LOCATION_DESCRIPTION ARREST DOMESTIC BEAT DISTRICT   WARD FBI_CODE X_COORDINATE
                   0      0        0    0       47 614854        0        60921
Y_COORDINATE YEAR UPDATED_ON LATITUDE LONGITUDE LOCATION CRIME_TYPE COMMUNITY_NAME
       60921    0          0    60921     60921        0          0         616120

当我为这个项目查找 RPubs 时，很多人要么删除所有带有 NA 的行，要么甚至懒得谈论丢失的数据，我认为这两种解决方案都不是好的解决方案。

我不想删除所有这些行的部分原因是因为每一行都是有效的犯罪，当我删除它们时，我现在错过了犯罪，这有助于我的计数和类别。而且由于数据确实说明了犯下的犯罪类型，我可以将其包括在这些计数中。

以前有人处理过这些数据吗？您对处理丢失的数据有什么建议吗？或者我可以把它放在那里，有问题吗？

我计划对犯罪率进行时间序列分析，但是，犯罪领域没有缺失数据，所以我认为它不会影响它。