可视化是转换数据的充分理由吗?

机器算法验证 数据可视化 数据转换 直方图
2022-03-08 05:47:09

问题

我想绘制由 30 个参数中的每一个参数解释的方差,例如作为一个条形图,每个参数都有不同的条形图,以及 y 轴上的方差:

替代文字

但是,方差强烈偏向小值,包括 0,如下面的直方图所示:

替代文字

如果我将它们转换为log(x+1),将更容易看到小值之间的差异(下面的直方图和条形图):

替代文字替代文字

问题

在对数尺度上绘图很常见,但正在绘图log(x+1)同样合理?

2个回答

这被一些人(例如,John Tukey)称为“开始对数”。(例如,Google john tukey "started log"。)

使用起来完全没问题。事实上,您可能期望必须使用非零起始值来解释因变量的舍入。例如,将因变量四舍五入到最接近的整数有效地从其真实方差中截取 1/12,这表明合理的起始值应至少为 1/12。(该值对这些数据并没有坏处。使用高于 1 的其他值并没有真正改变图片;它只是几乎均匀地提高了右下图中的所有值。)

使用对数(或起始对数)来评估方差有更深层次的原因:例如,方差图相对于对数对数尺度上的估计值的斜率估计了用于稳定方差的 Box-Cox 参数经常观察到某些相关变量的这种幂律方差拟合。(这是一种经验陈述,而不是理论陈述。)

如果您的目的是呈现差异,请谨慎操作。许多观众(除了科学观众)无法理解对数,更不用说初学者了。使用 1 的起始值至少具有比其他起始值更易于解释和解释的优点。需要考虑的是绘制它们的根,当然也就是标准差。它看起来像这样:

替代文字

无论如何,如果您的目的是探索数据、从中学习、拟合模型或评估模型,那么请不要让任何事情妨碍您为数据和数据派生值找到合理的图形表示比如这些变数。

这可能是合理的。要问的更好的问题是 1 是否是要添加的正确数字。你的最低限度是多少?如果一开始是 1,那么您将在值为 0 的项目和值为 1 的项目之间施加特定的间隔。根据研究领域,选择 0.5 或 1/e 作为偏移量可能更有意义。转换为对数刻度的含义是您现在有了一个比率刻度。

但我对情节感到困扰。我会问一个在偏态分布尾部具有大部分解释方差的模型是否被认为具有理想的统计特性。我想不是。