我一直在使用一个数据集,其中缺失的数据似乎遵循一些特定的模式。我浏览了很多与丢失数据相关的网站和文章,但我无法理解 MAR 和 MNAR 之间的区别。
首先,我想给出数据集的描述和缺失数据的模式。因此,您可以更轻松地解释两者之间的区别,并且可以识别我的数据集中的这些模式是什么。
数据集描述:这是一个自行车公司(虚构公司)的交易历史数据集,其中包含客户的姓名、出生日期、性别、地理位置、收入、社会地位等描述以及购买的自行车品牌名称等交易细节,周期大小(小、M、L)、周期类型(山地、公路和标准)、产品制造成本、产品标价以及最后的交易日期。
缺失数据中的模式:我在数据集中发现了四种不同的缺失数据模式:
模式 1:这与交易历史中的产品详细信息有关:每当缺少有关品牌名称的数据时,有关产品线、产品类别、产品尺寸、标准成本和 Product_first_sold_date 的详细信息也会丢失,但仅列出标价是可用的,但是这些标价似乎是独一无二的,因为它们无法在同一列中重复出现。这可能归咎于公司没有正确记录细节,但实际上并没有这样的公司存在,这取决于我来处理。
模式 2:每当缺少有关客户的数据时说名字,那么有关该客户的所有其他列也会丢失,例如 Gender、Past_3_years_bike_related_purchases、Job_Industry_Category、Wealth_Segment、Deceased_Indicator 和 Owns_Car。在这种情况下,只有客户 ID 可用。可能这可以被视为客户不想透露细节,但再次由我来处理。
模式 3:每当缺少有关客户地理位置的一些数据(例如地址)时,邮政编码、州、国家和财产评估列数据也会丢失,但姓名、性别、出生日期等一般客户详细信息均可用. 可能在这种情况下,客户不想透露他们的地理细节,我必须处理它。
模式4:最有趣的一种:性别栏有M、F、U三个类别。U可以视为未公开。每当性别为 U 时,他们的年龄和任期也会丢失。这可以被认为是那些不准备透露他们的性别的人还没有准备好透露他们的年龄和任期。
有时某些模式会同时出现。
这些属于哪一类缺失日期(MAR、MCAR 和 MNAR)?以及我该如何处理。任何建议都会非常有帮助。谢谢。