我正在处理具有大量缺失值的多元数值数据(因此不能选择删除所有缺失数据的条目或列)。
是否有用于数据插补的 Python 包?
我主要对基于线性回归的方法(加上预测变量的方差估计)感兴趣。
我正在处理具有大量缺失值的多元数值数据(因此不能选择删除所有缺失数据的条目或列)。
是否有用于数据插补的 Python 包?
我主要对基于线性回归的方法(加上预测变量的方差估计)感兴趣。
scikit-learn 有一个你应该研究的“Imputer”类。
编辑:看起来这个类不支持从线性模型推算。您可以随时尝试修改 sklearn 代码以支持它,甚至可以提交拉取请求:https ://github.com/scikit-learn/scikit-learn/blob/master/sklearn/preprocessing/imputation.py
EDIT2:看起来你可能会更好地使用Orange库中提供的更多功能的插补系。