为什么不两者都做?就像您提到的那样,首先计算所有值的百分比可能是值得的。通常,您可能还会考虑一个可接受的百分比,例如最多 10% 的缺失值,如果它们随机分散在您的数据集中。
有专门为可视化缺失数据而构建的库,例如missingno,它提供了很多想法。这是跨特征缺失变量的示例热图:

“缺失”通常意味着您有一个顺序数据集,例如时间序列数据。如果您有离散的观察,例如人们的身高与鞋码,则不存在顺序因果关系(自相关:依赖于先前的值)。在这种情况下,插补毫无意义。
因此,假设您确实有顺序数据,是否使用缺失值估算或删除时间步长将取决于您的用例。也可能是数据的频率。如果所有缺失的值都出现在时间序列的任一端的一个块中,那么简单地忽略该块是很常见的。
例如,如果您有分钟频率数据并且您希望每天预测一个值,那么在这里错过几分钟可能是可以容忍的,并且某种类型的插补(例如填充前移)不会产生巨大的影响总体而言,但可以帮助模型优化更有效地工作。某些模型无法处理缺失值,因此需要进行插补。
无论如何,它总是会在插补之前和之后可视化数据。无论如何,您通常可以运行相同的可视化。当然,这会花费几分钟,但您可能会发现重要问题。与稍后在调试经过训练的模型时才发现问题相比,这可以节省大量时间。