我有一个关于数据清理的问题。我是新手,刚开始在这个领域学习,所以请原谅我的无知。假设有两列,根据从这两列中提取的一些样本,您发现相关系数很高。现在对于不存在的值,您可以使用线性回归来预测或找出它们,通过使用您知道的值作为训练数据吗?
处理缺失数据
数据挖掘
数据
线性回归
数据清理
缺失数据
数据插补
2022-02-20 09:24:35
1个回答
嗨 Soumyadeep,欢迎来到数据科学/堆栈交换
您所描述的称为回归插补,它是用于缺失数据的有效方法。但是,如果数据稀疏(大量缺失值),则此问题将更难处理。
通常,可以通过多种方式处理缺失数据(行删除、插补、替换等)。如果您对数据知之甚少或一无所知,则可以使用回归插补,但通常最好使用另一种方法。如果您对缺失值有一些领域知识,例如您知道值应该是什么,通常您可以使用这些知识来填充缺失值。尝试一些不同的方法,看看哪一种效果最好。
有人指出,如果特征都是独立的,我应该检查多重共线性。这是否基本上意味着一个功能正在落在另一个功能的范围内?
多重共线性的定义:一些变量之间存在一个或多个精确的线性关系
参考资料: https ://en.wikipedia.org/wiki/Multicollinearity https://stats.stackexchange.com/questions/234870/is-multicollinearity-the-issue-here
其它你可能感兴趣的问题

