我得到了一个数据集,其中包含从 2009 年到 2018 年的 50 个特征。但其中一个特征自 2015 年以来才可用并且无法恢复。我担心如果我在整个数据集上训练一个模型,该稀疏特征的估计系数将会有偏差(因为该特征不是备用的,只是 2009-2014 年的所有数据都不可用)
因此,我想问一下你们如何处理一半数据集中不可用的功能。
谢谢!
我得到了一个数据集,其中包含从 2009 年到 2018 年的 50 个特征。但其中一个特征自 2015 年以来才可用并且无法恢复。我担心如果我在整个数据集上训练一个模型,该稀疏特征的估计系数将会有偏差(因为该特征不是备用的,只是 2009-2014 年的所有数据都不可用)
因此,我想问一下你们如何处理一半数据集中不可用的功能。
谢谢!