为什么中值用于 NaN?为什么不是其他类似的意思?使用中值背后的逻辑是什么?
在特征选择中,我遇到了 NaN 被列值的中值填充的情况
数据挖掘
Python
熊猫
特征选择
2022-02-28 17:13:19
2个回答
没有规定只能使用平均值或中位数。根据情况,有时平均值更好,有时中值。事实上,有时模式会更好。
这些并不是填充 NaN 的唯一技术。还有其他几种插补方法。如果您刚开始,那么一个优秀的动手培训材料将是泰坦尼克号数据集,其中包含“年龄”特征中的许多 NaN。您可以尝试找出在那里估算缺失数据的最佳方法。您可以参考:https ://www.kaggle.com/c/titanic/discussion/157929 -泰坦尼克号上的失踪时代 - 一些高级策略从基础到高级的几个视角(特定于泰坦尼克号场景)
您描述的过程称为插补。用均值或中值估算缺失值是否有意义完全取决于数据集和问题的背景。
通常,用平均值估算缺失值并没有什么坏处。但是,如果数据集中存在对均值产生不利影响的异常值,那么使用中值估算可能是一个好主意,因为中值是不受数据集中存在异常值影响的指标。