我正在对芝加哥犯罪率数据集做一个小项目,我注意到有超过 600,000NA个值,主要是在位置字段中。
我觉得即使有大约 600 万行(2001 年至今的数据),也有很多数据需要丢弃(尤其是因为这些行包含所有其他数据,如犯罪类型、病房、日期、位置描述等)
以下是在每列中找到的列和 NA 的数量:
COMMUNITY_AREA ID CASE_NUMBER DATE BLOCK IUCR PRIMARY_TYPE DESCRIPTION
616029 0 0 0 0 0 0 0
LOCATION_DESCRIPTION ARREST DOMESTIC BEAT DISTRICT WARD FBI_CODE X_COORDINATE
0 0 0 0 47 614854 0 60921
Y_COORDINATE YEAR UPDATED_ON LATITUDE LONGITUDE LOCATION CRIME_TYPE COMMUNITY_NAME
60921 0 0 60921 60921 0 0 616120
当我为这个项目查找 RPubs 时,很多人要么删除所有带有 NA 的行,要么甚至懒得谈论丢失的数据,我认为这两种解决方案都不是好的解决方案。
我不想删除所有这些行的部分原因是因为每一行都是有效的犯罪,当我删除它们时,我现在错过了犯罪,这有助于我的计数和类别。而且由于数据确实说明了犯下的犯罪类型,我可以将其包括在这些计数中。
以前有人处理过这些数据吗?您对处理丢失的数据有什么建议吗?或者我可以把它放在那里,有问题吗?
我计划对犯罪率进行时间序列分析,但是,犯罪领域没有缺失数据,所以我认为它不会影响它。