预测缺失数据的方法

数据挖掘 预测建模 缺失数据 数据插补
2022-02-23 12:56:53

我有以下问题:我正在寻找方法来预测给定数据集中随机缺失的数据。

例如:我有一个数据集,其中包含一个人的信息。这可以是性别、体重、年龄、身高等。我们假设缺少特定人的年龄和身高信息。如何根据我在数据集中拥有的信息来预测这些信息?

我已阅读有关 PCA 方法的内容,但我想了解方法的优缺点以及最近研究的概述(给定数据集的良好工作算法/从哪里开始阅读以开发算法和解决给定的问题问题)。

2个回答

正如@smci 所说,这种技术称为数据插补。有几种技术可用于处理丢失的数据。其中一些是:

  • 均值/众数/中值插补:插补是一种用估计值填充缺失值的方法。目标是使用可以在数据集的有效值中识别的已知关系来帮助估计缺失值。均值/众数/中值插补是最常用的方法之一。它包括用该变量的所有已知值的平均值或中位数(定量属性)或众数(定性属性)替换给定属性的缺失数据。这可以进一步分类为广义和相似案例插补。

  • 预测模型: 预测模型是处理缺失数据的复杂方法之一。在这里,我们创建了一个预测模型来估计将替代缺失数据的值。在这种情况下,我们将数据集分为两组:一组变量没有缺失值,另一组变量缺失值。第一个数据集成为模型的训练数据集,而第二个缺失值的数据集是测试数据集,缺失值的变量被视为目标变量。接下来,我们创建一个模型来根据训练数据集的其他属性预测目标变量,并填充测试数据集的缺失值。

  • KNN(k-最近邻)插补:在这种插补方法中,使用与缺失值的属性最相似的给定数量的属性来插补属性的缺失值。使用距离函数确定两个属性的相似性。

理想情况下,没有这样的方法或工具可以向您保证……但是正如您所问的那样,每种方法/工具肯定都有利弊。它们是您可以遵循的几种方法。然而,最好的方法总是取决于你的目标和这些因素——

  • 的类型Missing Values
  • Data你有的类型。
  • Bias在分析中应尽量减少。
  • Available Information必须最大化(对于研究人员)。
  • Variability它必须对和给出合理的估计Error

因此,在接近任何因素之前,请牢记这些因素和您的目标。有关更多详细信息,我建议您阅读这些博客文章-

希望能帮助到你!