在 Python 2.7 中处理 NaN 的工具箱

数据挖掘 Python 缺失数据
2022-02-17 02:29:48

Python 2.7 中是否有一个很好的工具箱来处理和分析缺失值?

在 Python 3.6 中有一个很好的工具箱(missingno):https ://github.com/ResidentMario/missingno

我需要在 Python 2.7 中工作。所以,这就是我问的原因。

1个回答

首先,可视化缺失值:

我正在使用 Python 2.7

import pandas
import numpy
from pandas import DataFrame
import seaborn as sns

df = DataFrame({'A' : [0,1,numpy.nan, 5 ,6],'B':[30,numpy.nan,numpy.nan,8,10]})
df

     A  B
0   0.0 30.0
1   1.0 NaN
2   NaN NaN
3   5.0 8.0
4   6.0 10.0
sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='BuPu')

如果你想删除包含缺失值的行,

df.dropna(axis=0)

        A   B
    0   0.0 30.0
    3   5.0 8.0
    4   6.0 10.0

如果你想删除包含缺失值的列,

df.dropna(axis=1)

如果你想用一个值填充 NaN:

df.fillna(0)


  A B
0   0.0 30.0
1   1.0 0.0
2   0.0 0.0
3   5.0 8.0
4   6.0 10.0

你可以做一个填充/填充,bfill/backfill。如果您使用的是 jupyter,请点击shit 选项卡并展开文档。

欲了解更多信息,请参阅:https ://pandas.pydata.org/pandas-docs/stable/missing_data.html

我希望这回答了你的问题。