直方图极度偏左

数据挖掘 Python 可视化 matplotlib
2022-03-05 17:31:17

每个人。希望你们一切都好。

我不擅长 Python 的可视化。我正在处理电影数据集,现在我想了解数据集中每部电影的变量“vote_count”的值是如何分布的。所以我使用非常简单的代码:

plt.hist(df_movies.vote_count,bins=7)
plt.show()

输出如下所示:

在此处输入图像描述

因为很容易注意到分布非常偏左。
我意识到我应该专注于plt.xticks(),但我试图玩弄,直方图仍然看起来很糟糕。

您能否给我一些建议,以使其更易于理解和获得洞察力。

提前非常感谢!

1个回答

我认为这里有一些“轻松的胜利”。

  1. 您可能会添加更多垃圾箱 - 您已经在使用垃圾箱设置。只需添加 100 甚至 1000 之类的高值,即可对数据有第一感觉
  2. 您可以定义垃圾箱的范围。例如,您可以使用包含两个条目的列表range = [0, 5000]作为附加参数来设置范围
  3. 您可以考虑不显示所有数据——也许收视率低的电影或收视率高的电影不是您关注的重点。您可以使用第二点的范围参数将绘图限制在您感兴趣的区域。
  4. 您可以尝试累积和标准化图,cumulative = True, normed = True这对于更好地估计诸如“80% 的电影评分低于 100”之类的陈述非常有用 - 对于累积图,我建议使用大量的垃圾箱。

我希望这会有所帮助,如果有不清楚的地方请告诉我