我正在研究保险数据,其中客户有一个名为customer_no_dependent(客户的受抚养人数量)的字段。它是一个重要的变量(只是它有)。
这个变量有将近 20% 的缺失值。对于插补,我想确定受抚养人数量的代理指标。我尝试了年龄(认为年龄更大的人可能有更多的家属)。我也将其与保费金额相关联,以认为拥有更多受抚养人的人可能拥有更少的可支配收入。因此,低保费支付可能意味着更多的受抚养人。我确实理解人口统计变量不能完全从这种逻辑中取出。
现在,如果有人详细说明,他可以证明我的估算远非完美。在这种情况下我该怎么办?删除那 20% 会是一个正确的解决方案吗?我的数据的 20% 将接近 20 万行,这是大量信息。
我知道,这个问题可以有很多可能的答案。对于如何进行的任何指示,我将不胜感激。