在绘图中处理空值的标准是什么?

数据挖掘 可视化
2022-03-02 08:37:07

我认为确实没有“标准”,但是在绘制数据时如何处理空值?下面列出了我正在谈论的示例: 在此处输入图像描述

假设我正在按颜色绘制玩具数量的数据。在我的数据库中,这些玩具中有近一半具有null颜色值。你们是否null在可视化中包含了具有价值的玩具?你如何解决这个问题?说“近一半的玩具没有列出颜色”并没有真正增加谈话的内容。

1个回答

Imo,这取决于两个主要因素:

  • 剧情的目的是什么
  • null值是否表示不完整(其中一个值,但不知道是哪一个),还是表示最后一个选项,(例如:多种颜色

想象一下,如果该图的目的是比较哪种玩具颜色最受特定人/群体的欢迎。

如果null表示多色玩具,则包含数据可能很重要,但将其重命名为更有意义的名称。多色

如果null表明我们只是不知道这些玩具的颜色数据,最好从图中排除该数据。但是,对于如此大的百分比,最好注意“x%”被排除在您的绘图之外,因为它们没有与之关联的颜色信息。也许紫色占如此大的比例是因为这个人/群体真的很喜欢紫色,或者也许是因为紫色玩具几乎从未null因任何原因进入该类别。


无论情节的目的是什么,都应该采用相同的思路。如果这些null值与目的相关,则包括它们。如果没有,请不要 - 如果可能会严重影响结果(例如这种情况),请注意排除了多少数据