什么时候适合使用对数刻度?

机器算法验证 数据可视化 数据转换
2022-01-19 01:54:02

我已经读过,在某些情况下使用图表/绘图时使用对数刻度是合适的,例如时间序列图中的 y 轴。但是,我无法找到一个明确的解释来解释为什么会这样,或者什么时候合适。请记住,我不是统计学家,所以我可能完全忽略了这一点,如果是这样的话,我会很感激补救资源的方向。

3个回答

这是一个非常有趣的问题,而且很少有人考虑。有几种不同的方法可以适合对数刻度。第一个也是最著名的是 Macro 在他的评论中提到的:对数刻度允许显示大范围,而不会将小值压缩到图表底部。

首选对数缩放的另一个原因是在数据更自然地以几何方式表示的情况下。一个例子是当数据表示生物介质的浓度时。浓度不能为负,并且变异性几乎总是与平均值成比例(即存在异方差)。使用对数刻度,或者等效地,使用对数浓度作为主要衡量标准,既可以“固定”不均匀的变异性,又可以给出两端无界的刻度。浓度可能是对数正态分布的,因此对数缩放为我们提供了一个可以说是“自然”的非常方便的结果。在药理学中,我们经常使用对数刻度来表示药物浓度,

对数刻度的另一个很好的理由,可能是您对时间序列数据感兴趣的原因,来自对数刻度使小数变化等效的能力。想象一下您的退休投资的长期表现。它(应该)大致呈指数增长,因为明天的兴趣取决于今天的投资(粗略地说)。因此,即使按百分比计算的表现相当稳定,资金图表也会在右端出现最快的增长。对于对数刻度,恒定百分比变化被视为恒定的垂直距离,因此恒定的增长率被视为一条直线。这通常是一个很大的优势。

选择对数刻度的另一个稍微深奥的原因是值可以合理地表示为 x 或 1/x 的情况。我自己研究的一个例子是血管阻力,它也可以合理地表示为倒数的血管电导。(在某些情况下,将血管的直径视为电阻或电导的力量也是明智的。)这些措施都没有比另一个更现实,两者都可以在研究论文中找到。如果它们以对数方式缩放,那么它们只是彼此的负数,并且选择一个或另一个没有实质性差异。(当它们都是对数标度时,血管直径将与电阻和电导相差一个常数乘数。)

我不得不提供一些现实生活中的例子,作为@Michael Lew 非常好的答案的补充。

首先,下面的两个时间序列图显示了每月到访新西兰的游客人数,可从新西兰统计局获得。这两个图都有其目的,但我发现垂直轴在对数刻度上的图比第一个图对更多目的有用。例如,您可以看到到达的季节性与到达的规模大致成正比;您可以看到增长率的显着变化(例如在第二次世界大战期间),这些变化在原始规模上是不可见的。

在此处输入图像描述

其次,下图显示了游客到新西兰的旅行相关总支出,与他们实际在新西兰时的支出相比。资料来源是经济发展部的国际游客调查差额是旅行前的支出,例如提前支付的酒店或套餐。第一张图,在原始比例上,除了对被分组在左下角的数据进行非常粗略(但重要)的印象之外,可以用于其他几个目的。第二个图牺牲了一些直接的可解释性,特别是对于非统计学家(因此,我现在通常实际上在轴上使用对数刻度,而不是转换数据并让刻度显示对数值),但给出了很多更多的视觉差异化。

例如,您可以清楚地发现总支出低于新西兰支出的少数异常值(结果是数据编辑错误)。或许更重要的是,您可以使用这个带有不同颜色或分面的图表来显示不同的市场国家或访问目的(例如假期与拜访朋友和家人)如何占据支出“空间”的不同部分——这只是不可见的在原始轴上。

将此图变成有用的东西将涉及以某种方式处理高密度数据(例如,通过为点添加一些透明度,或用根据密度着色的六边形箱替换点),但任何有用的视觉解决方案几乎肯定会涉及对数轴。

在此处输入图像描述

编辑/添加

另一个图来说明我所说的六边形箱的含义,当有一个大数据集时使用颜色来表示密度(在这种情况下,大约 12000 名受访者参与了一项关于新西兰橄榄球世界杯经历的调查)。再次注意,这是另一个我使用对数标度进行支出的示例。

在此处输入图像描述

关于对数刻度的另一件漂亮的事情是它们使比率看起来是对称的。例如,像这样: 在此处输入图像描述