缩放不同数量级的数据以进行绘图

机器算法验证 数据可视化
2022-03-02 05:35:24

查看以下数据集:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

我被要求在图表上绘制这个,使用日期有 X 轴和 Y 轴上的其余数据。问题是数据的规模有很大的不同。如果访问量为数千,创建的订单数为低十,则数据在图表上的绘制效果不佳。

我想知道统计学家在这种情况下会做什么,我可以将访问次数除以 1000,然后放入描述(访问次数(K)),但随后我开始遇到与 Carts Created 相同的问题,因为它们是在数百和其他一切都在低位。

在这种情况下做了什么样的事情?

4个回答

在开始时将折线图绘制为一系列小的倍数并不是不合理的,Y 轴具有不同的比例,但 X 轴(日期)对齐。 在此处输入图像描述

我认为这是一个好的开始,因为它允许人们检查原始数据,并允许比较不同折线图之间的趋势。IMO 您应该首先查看原始数据,然后在检查原始数据后考虑转换或标准化图表以进行比较的方法。

正如 King 已经提到的,您的变量似乎具有基于名称和数字的自然排序,并且假设它是适当的,我根据每个状态的转换百分比创建了三个新变量。新变量是;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

制作百分比是使系列更接近共同比例的一种方法,但即使将所有线条放在一个图表上(如下所示)仍然难以有效地可视化系列。创建的订单和转换的购物车系列的水平和变化使其他系列相形见绌。您看不到在这种规模上创建的购物车系列有任何变化(我怀疑这是您最感兴趣的那个)。 在此处输入图像描述

因此,IMO 再次检查这一点的更好方法是使用不同的尺度。下面是使用不同比例的百分比图表。

在此处输入图像描述

有了这些图形,在我看来,系列之间没有任何真正有意义的相关性,但是每个系列中确实有很多有趣的变化(尤其是转换的比例)。怎么了2011-11-13您创建的订单比例要低得多,但创建的每个订单都是转换后的购物车。您是否有任何其他干预措施可以解释站点访问或创建的购物车的比例或百分比趋势?

这只是探索性数据分析,要采取更多步骤,我需要更深入地了解数据(但我希望这是一个好的开始)。您可以以其他方式对折线图进行规范化,以便能够以可比较的比例绘制它们,但这是一项艰巨的任务,我认为可以根据给定数据的信息有效地选择任意比例而不是选择一些默认规范化方案。同时查看多个折线图的另一个有趣的应用是水平图,但这更适用于一次查看许多不同的折线图。

您可以有 2 个单独的 y 轴,访问 (k) 和购物车在一个中创建,另外 2 个在另一个中(或任何适合您目的的方式)。

这绝对不是一种优雅的方法,但我记得几年前我只是想比较一段时间内的趋势。

或者

如果适合您的目的,您可以绘制随时间变化的百分比变化。

最后,我决定通过将每个值除以最大值然后乘以 100 来标准化数据。

  1. 找到最大值:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. 将每个数字除以最大值,然后乘以 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. 然后我将其绘制在图表上,显然这仅显示趋势,用户在页面底部有数据表。

这也是我的方法 - 通过除以 X 将不同的尺寸调整到相同的比例,但我会使用平均值,而不是最大值或最小值。原因是——随着时间的推移添加数据,你的最大值或最小值可能会发生变化,然后上一张图表中的 100% 这次是别的东西——这张图表不像以前的图表那么容易调和——如果您使用 avg 那么变化不会那么剧烈。