Missing at Random 和 Missing not at Random data 有什么区别?

数据挖掘 机器学习 r 数据挖掘 缺失数据 数据插补
2021-09-18 16:52:15

我一直在使用一个数据集,其中缺失的数据似乎遵循一些特定的模式。我浏览了很多与丢失数据相关的网站和文章,但我无法理解 MAR 和 MNAR 之间的区别。

首先,我想给出数据集的描述和缺失数据的模式。因此,您可以更轻松地解释两者之间的区别,并且可以识别我的数据集中的这些模式是什么。

数据集描述:这是一个自行车公司(虚构公司)的交易历史数据集,其中包含客户的姓名、出生日期、性别、地理位置、收入、社会地位等描述以及购买的自行车品牌名称等交易细节,周期大小(小、M、L)、周期类型(山地、公路和标准)、产品制造成本、产品标价以及最后的交易日期。

缺失数据中的模式:我在数据集中发现了四种不同的缺失数据模式:

模式 1:这与交易历史中的产品详细信息有关:每当缺少有关品牌名称的数据时,有关产品线、产品类别、产品尺寸、标准成本和 Product_first_sold_date 的详细信息也会丢失,但仅列出标价是可用的,但是这些标价似乎是独一无二的,因为它们无法在同一列中重复出现。这可能归咎于公司没有正确记录细节,但实际上并没有这样的公司存在,这取决于我来处理。

模式 2:每当缺少有关客户的数据时说名字,那么有关该客户的所有其他列也会丢失,例如 Gender、Past_3_years_bike_related_purchases、Job_Industry_Category、Wealth_Segment、Deceased_Indicator 和 Owns_Car。在这种情况下,只有客户 ID 可用。可能这可以被视为客户不想透露细节,但再次由我来处理。

模式 3:每当缺少有关客户地理位置的一些数据(例如地址)时,邮政编码、州、国家和财产评估列数据也会丢失,但姓名、性别、出生日期等一般客户详细信息均可用. 可能在这种情况下,客户不想透露他们的地理细节,我必须处理它。

模式4:最有趣的一种:性别栏有M、F、U三个类别。U可以视为未公开。每当性别为 U 时,他们的年龄和任期也会丢失。这可以被认为是那些不准备透露他们的性别的人还没有准备好透露他们的年龄和任期。

有时某些模式会同时出现。

这些属于哪一类缺失日期(MAR、MCAR 和 MNAR)?以及我该如何处理。任何建议都会非常有帮助。谢谢。

2个回答

缺失过程的定义很棘手。完全随机缺失发生在缺失确实是随机的(MCAR;例如,在进行调查时,数据输入过程中存在错误)。

  • 随机缺失 (MAR) 发生在缺失并非真正随机的情况下,而是可以根据在其余数据中观察到的内容随机考虑时(例如,男性不太可能在调查中表达他们的意见,但这完全与他们作为客户的态度无关)。
  • 完全随机缺失发生在缺失确实是随机的(MCAR;例如,在进行调查时,数据输入过程中存在错误)。
  • 当缺失取决于变量的值(购买更多的人往往不回答调查问题)时,就会发生非随机缺失(MNAR)。

我认为很难弄清楚您丢失的数据模式属于哪个类别。在您的情况下,在我看来,MAR 是一个合理的假设(不可能进行统计测试),并且可以选择使用链式方程进行多重插补(R 中的小鼠或小鼠添加)。

如果您采用小鼠方法,则应用程序中的一个关键部分是进行敏感性分析。如果您: - 仅估算您丢失的一些数据模式,会发生什么情况?- 改变估算集的数量 - 执行完整的案例分析。

我不确定是否将每种模式分类为 MAR / MCAR / MNAR。

一旦您评估了您的数据并且您想使用函数和模型来估算缺失值,那么就有一个有用的 R 包,称为mice(“链式方程的多变量估算”)。