如何处理仅某些类别的缺失数据
数据挖掘
分类数据
数据插补
2021-10-08 14:34:20
1个回答
缺失数据分为三种类型:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。
你的情况是第二个,根据维基百科它:
当缺失不是随机的,但缺失可以通过有完整信息的变量完全解释时发生
这意味着zone
可以从列中导出条目是否存在Produit
。
因为这些值不是完全随机丢失的,所以不应应用正常的插补技术(例如,用最常见的值填充) 。相反,我建议将缺失值视为它们自己的类别。只需创建一个类别(比如说not available
)并用这个值填充缺失的部分。从数据科学的角度来看,这更有意义。