如何处理仅某些类别的缺失数据

数据挖掘 分类数据 数据插补
2021-10-08 14:34:20

或者换句话说,A 类的数据与 B 类无关。所以它不存在,估算缺失数据如何广泛地扭曲/影响学习模型。我找不到如何处理这些相关数据的任何逻辑。所以我很抱歉我没有表现出任何努力。

在以下示例中,地理区域仅存在于 Gaz 条目中。

数据样本:

在此处输入图像描述

1个回答

缺失数据分为三种类型:完全随机缺失(MCAR)随机缺失(MAR)非随机缺失(MNAR)

你的情况是第二个,根据维基百科它:

当缺失不是随机的,但缺失可以通过有完整信息的变量完全解释时发生

这意味着zone可以从列中导出条目是否存在Produit

因为这些值不是完全随机丢失的,所以不应应用正常的插补技术(例如,用最常见的值填充) 。相反,我建议将缺失值视为它们自己的类别只需创建一个类别(比如说not available)并用这个值填充缺失的部分。从数据科学的角度来看,这更有意义。