我有一个正在预处理的数据集。但是在我的分类列(其中 3 个)中,我有“??” 在它的位置。它们构成了数据的 50%。事实上 3 列有这个。我的问题是我应该如何估算这个?我要换吗?未知还是我用 NaN 替换它。
由于我的最终目标是分类问题,我将对其应用各种算法,例如 NB 分类器、随机森林、决策树、K 邻居。有时你是否估算并不重要,因为有些算法会为你做
我有一个正在预处理的数据集。但是在我的分类列(其中 3 个)中,我有“??” 在它的位置。它们构成了数据的 50%。事实上 3 列有这个。我的问题是我应该如何估算这个?我要换吗?未知还是我用 NaN 替换它。
由于我的最终目标是分类问题,我将对其应用各种算法,例如 NB 分类器、随机森林、决策树、K 邻居。有时你是否估算并不重要,因为有些算法会为你做
这取决于你对问题的了解。首先,你应该分类为什么它会丢失?
结构性缺失数据 结构性缺失数据是由于逻辑原因而缺失的数据。换句话说,是因为不应该存在而丢失的数据。检查这个
结构性缺失数据是由于逻辑原因而缺失的数据。换句话说,是因为不应该存在而丢失的数据。
完全随机缺失 (MCAR) 缺失数据中没有模式
随机缺失(MAR)另一种假设,在某种程度上被称为随机缺失(MAR),它假设我们可以根据其他数据预测缺失的值。
然后根据您对问题的了解选择您的插补技术,如果您有其他情况可以尝试(来自此来源):
这取决于 :
目前的数据是否应该(或证明)为您的问题提供信息?如果是,您可能希望保留该功能。如果没有,您可能会考虑扔掉它们。
缺失信息的过程是否提供信息?根据该答案,您可能会估算一个值或不估算值。您可以添加一部分缺失值作为特征。
您要使用的模型,有些接受 NA,有些则不接受。
真的没有普遍的答案。