处理缺失数据

数据挖掘 数据 线性回归 数据清理 缺失数据 数据插补
2022-02-20 09:24:35

我有一个关于数据清理的问题。我是新手,刚开始在这个领域学习,所以请原谅我的无知。假设有两列,根据从这两列中提取的一些样本,您发现相关系数很高。现在对于不存在的值,您可以使用线性回归来预测或找出它们,通过使用您知道的值作为训练数据吗?

1个回答

嗨 Soumyadeep,欢迎来到数据科学/堆栈交换

您所描述的称为回归插补,它是用于缺失数据的有效方法。但是,如果数据稀疏(大量缺失值),则此问题将更难处理。

通常,可以通过多种方式处理缺失数据(行删除、插补、替换等)。如果您对数据知之甚少或一无所知,则可以使用回归插补,但通常最好使用另一种方法。如果您对缺失值有一些领域知识,例如您知道值应该是什么,通常您可以使用这些知识来填充缺失值。尝试一些不同的方法,看看哪一种效果最好。

有人指出,如果特征都是独立的,我应该检查多重共线性。这是否基本上意味着一个功能正在落在另一个功能的范围内?

多重共线性的定义:一些变量之间存在一个或多个精确的线性关系

在此处输入图像描述

在此处输入图像描述

参考资料: https ://en.wikipedia.org/wiki/Multicollinearity https://stats.stackexchange.com/questions/234870/is-multicollinearity-the-issue-here