我有一个大型遗传数据集,我正在使用 xgboost 对最有可能引起疾病的基因进行评分 - 给基因的可能性评分在 0-1 之间。
我尝试避免具有大量缺失数据的特征,但这对于遗传数据可能很难,我对特征的最大缺失量大约是特征列中缺失值的一半。
目前我在 2 个版本中运行我的 xgboost 模型,一个带有缺失值的随机森林插补,另一个没有 xgboost 直接处理缺失数据的地方。插补模型的 r2 为 0.7,缺失值的模型在嵌套交叉验证中的表现为 0.8。
我的问题是如何选择要采用哪个版本来进一步工作?我可以相信缺少数据的更高 0.8 r2 是因为 xgboost 正在寻找缺失模式并发现这很有用吗?是否有关于我应该尝试遵守的丢失数据的规则?我有生物学背景,所以我不确定从数据科学的角度来看处理缺失数据的最佳实践是什么,我在网上找到的大多数关于此的资源都得出结论,这是一个个案问题,我发现很难解释我应该具体研究什么。任何帮助,将不胜感激。