我正在使用一些数据来练习我的 Python 和机器学习技能,并希望从我认为相关且对预测输出有很大影响的两个特征创建多项式特征。
不幸的是,我的数据缺少值(np.NaN),sklearn 的 PolynomialFeatures() 无法处理这些值。估算这些值的最佳方法是什么?
我一直在尝试用 0、1、均值和中位数替换它们,对于我的数据集,使用中位数似乎是最好的解决方案。但这可以一概而论,其背后的直觉是什么?
我还想知道像 ffill、bfill 甚至 KNN 建模这样的填充方法在这种情况下是否有用。
非常感谢!
