如何可视化分布的变化,其中有几个异常值占总数的很大百分比?

数据挖掘 可视化 离群值 分配
2022-03-02 04:24:15

我正在开发一种教育技术产品,我们的一些流量落在关于教科书的网页上。

教科书属于代数、微积分和西班牙语等科目。在我们的每个主题中,我们都有“鲸鱼”——在总主题流量中占很大比例(~20%)的单本书籍。

年复一年,这些鲸鱼会增长或缩小(有时学校会更换书籍,或者学校完全放弃教科书)。鲸鱼流量的这种变化导致整体主题流量的巨大变化。

我试图弄清楚如何可视化这种变化,给定一个类似于下表的数据集(它显示每本书仅 2 个月的流量,但我可以访问所有月份)。

我尝试过重叠直方图(和箱线图),其中每个直方图是一个月。但是这个可视化并没有表明我的鲸鱼(异常值)有多大,以及它们有多大的影响力。

非常感谢有关图表类型或如何以其他方式讲述这个故事的任何帮助。

在此处输入图像描述

2个回答

为了可视化多个实体的大小随时间的变化,例如总 (t) = book_1 (t) + book_2 (t) + ...,我们可以使用Stacked Area Plot该图可用于标准化和非标准化(绝对)值。

预处理

  1. 对于大量实体,为了避免认知负担,我们可以只保留那些在图中某个点变得重要(鲸鱼)的实体,并将所有其他实体归为“普通”实体。通过这种方式,认知负荷被最小化,并且仅区分那些在某个时候重要的实体。例如,区分在绘制时间跨度的某个时间点流量超过 10% 的书籍。

  2. 如果总波动非常高,可以将值的对数插入图中。

您可以尝试将每本书的数据绘制为轨迹(X坐标是月份和是唯一计数器)。这样的东西

如果您有数千本书,则此方法有效。在这个情节中,鲸鱼将成为尖峰。