因此,我正在寻找如何处理丢失的数据,并从 Machine Learning Mastery 中发现了这篇文章。
本文指出,一些算法可以对缺失数据具有鲁棒性,例如朴素贝叶斯和 KNN。
当缺少数据时,并非所有算法都会失败。
有一些算法可以对丢失的数据变得鲁棒,例如 k-最近邻,当一个值丢失时,它可以从距离度量中忽略一列。朴素贝叶斯还可以在进行预测时支持缺失值。
但随后它说 sklearn 的实现对丢失的数据并不健壮。
遗憾的是,朴素贝叶斯、决策树和 k-最近邻算法的 scikit-learn 实现对缺失值并不稳健。
是否有 ML 库(最好在 Python 中,但也可以在其他语言中)这些算法对缺失数据具有鲁棒性?