缺少分类特征 - 没有插补

数据挖掘 预测建模 scikit-学习 分类数据 缺失数据 数据插补
2022-02-14 16:51:51

我一直在阅读有关如何处理测试数据中缺失的分类特征的信息,最常见的方法是使用插补——例如使用最后一个已知值或获取给定行/列中的多数特征。

有没有更好的方法来处理丢失的数据?为什么分类器不能忽略缺失的特征,而依赖已知的特征?为什么需要插补?

我正在使用 scikit learn,并尝试将 NaN 输入到分类模型(朴素贝叶斯、逻辑回归、决策树、随机森林)中,看看会发生什么。

1个回答

某些模型能够“自然地”处理缺失值,例如某些基于树的模型。然而,大多数模型只是在训练数据之后形成的数学函数。一个非常简单的例子是:

f(x)=αx1+log(2x2)

如果其中之一是 NaN,你会怎么做?该函数未定义,无法进行预测。通过估算值,您可以合理猜测该样本在数据流形上的位置。