单个变量中 80% 的缺失数据

机器算法验证 缺失数据
2022-01-19 09:23:21

我的数据中有一个变量有 80% 的缺失数据。由于不存在(即公司欠多少银行贷款),数据丢失。我看到一篇文章说虚拟变量调整方法是解决这个问题的方法。这意味着我需要将这个连续变量转换为分类变量?

这是唯一的解决方案吗?我不想像理论上那样放弃这个变量,这对我的研究问题很重要。

2个回答

数据是未知意义上的“缺失”还是仅仅意味着没有贷款(所以贷款金额为零)?听起来像后者,在这种情况下,您需要一个额外的二进制虚拟对象来指示是否有贷款。不需要转换贷款金额(也许除了连续的重新表达,例如根或开始的日志,这可能通过其他考虑来指示)。

这在回归中效果很好。一个简单的例子是形式的概念模型

dependent variable (Y) = loan amount (X) + constant.

加上贷款指标(),回归模型为I

Y=βII+βXX+β0+ϵ

表示零期望的随机误差。系数被解释为:ϵ

β0对无贷款情况的期望,因为这些情况的特征是YX=0I=0

βX相对于贷款金额 ( ) 的边际变化。YX

βI+β0是贷款案例的截距。

我认为您误解了文章的建议:主要是因为该建议没有意义。然后你会遇到两个问题:如何重新编码一个变量并且它的值仍然丢失。可能建议的是创建一个缺失指标

处理与此描述松散匹配的缺失数据的某种相关方法是调整缺失指标这当然是一种简单易行的方法,但总的来说它是有偏见的。偏见的坏处是无限的。这有效地做的是拟合两个模型并将它们的效果平均在一起:第一个模型是完全条件模型,第二个是完整因子模型. 完全条件模型是完整的案例模型,其中删除了具有缺失值的每个观察值。所以它适合 20% 的数据子集。第二个是对剩余 80% 的拟合,根本没有调整缺失值。当没有未测量的交互、链接函数可折叠以及数据随机缺失 (MAR) 时,此边际模型估计与完整模型相同的效果。然后通过加权平均将这些影响结合起来。即使在理想条件下,没有不可测量的交互作用和完全随机缺失 (MCAR) 数据,缺失指标方法也会导致偏差效应,因为边际模型和条件模型估计的效应不同。在这种情况下,即使是预测也是有偏差的。

一个更好的选择是只使用多重插补。即使在以非常低的流行率测量最缺失的因素时,MI 在生成可能值可能是什么的复杂实现方面做得相对较好。这里唯一必要的假设是 MAR。