为什么建议对计数数据进行平方根变换?

机器算法验证 广义线性模型 数据转换 泊松分布 计数数据 方差稳定
2022-01-24 03:04:40

当您有计数数据时,通常建议取平方根。(有关 CV 的一些示例,请参见此处的@HarveyMotulsky 的答案此处的@whuber 的答案。)另一方面,当拟合一个响应变量分布为泊松的广义线性模型时,日志是规范链接这有点像对响应数据进行对数转换(尽管更准确地说是对控制响应分布的参数因此,这两者之间存在一些紧张关系。 λ

  • 您如何调和这种(明显的)差异?
  • 为什么平方根比对数更好?
1个回答

对于 Poisson ,平方根近似方差稳定平方根有许多改进属性的变体,例如在取平方根之前添加38 ,或者Freeman-Tukey ( - 尽管它也经常根据平均值进行调整)。X+X+1

在下面的图中,我们有一个泊松与一个预测变量的倍数),然后 vs,然后YxYxYxY+38x

在此处输入图像描述

平方根变换在一定程度上提高了对称性 - 虽然不如幂 [1]:23

在此处输入图像描述

如果您特别想要接近正态性(只要泊松的参数不是很小)并且不关心/可以调整异方差,请尝试幂。23

对于泊松数据,规范链接通常不是特别好的转换记录零是一个特定的问题(另一个是异方差;即使没有 0,您也可以获得左偏度)。如果最小值不太接近 0,则它可用于线性化均值。在许多情况下,对于泊松的条件总体均值来说,这是一个很好的“转换” ,但对于泊松数据并不总是如此。但是,如果您确实想进行转换,一种常见的策略是添加一个常量来避免问题。在这种情况下,我们应该考虑添加什么常量。在不离手头的问题太远的情况下,之间y=log(y+c)0c0.4在一系列值中工作得很好(例如,与斜率估计中的偏差有关)。我通常只使用因为它很简单,左右的值通常会稍微好一点。0.5μ120.43

至于为什么人们选择一种转变而不是另一种转变(或不选择)——这实际上是他们为实现目标所做的事情。

[1]:在 Henrik Bengtsson 在他的讲义“广义线性模型和变换残差”中绘制的图,请参见此处 (参见第 4 页的第一张幻灯片)。我添加了一点 y-jitter 并省略了线条。