我的一个项目面临着两难境地。其中一个变量(数值)没有足够的数据,即几乎 99% 的数据丢失。然而,在与领域专家交谈后,似乎特定变量对我们试图解决的问题(模型)很重要。最初,我想将其转换为二进制变量,这样 1 将表示该变量在该位置有一个值,而 0 将表示缺失值。但是,我们似乎在这样做时丢失了信息。
任何人都可以建议任何前进的方式吗?
我想到的一个想法是使用分位数离散化变量,但是如何处理缺失值呢?
另一种方法是在模型中同时包含二进制变量和原始变量,用一些估算值替换缺失值。但我无法得出任何合乎逻辑的推理来说明为什么或为什么不这样做。
对此事的任何了解都会非常有帮助(当然除了完全放弃它)。
谢谢。