为什么建议对计数数据进行平方根变换?
机器算法验证
广义线性模型
数据转换
泊松分布
计数数据
方差稳定
2022-01-24 03:04:40
1个回答
对于 Poisson ,平方根近似方差稳定。平方根有许多改进属性的变体,例如在取平方根之前添加 ,或者Freeman-Tukey ( - 尽管它也经常根据平均值进行调整)。
在下面的图中,我们有一个泊松与一个预测变量(的倍数),然后 vs,然后与。
平方根变换在一定程度上提高了对称性 - 虽然不如幂 [1]:
如果您特别想要接近正态性(只要泊松的参数不是很小)并且不关心/可以调整异方差,请尝试幂。
对于泊松数据,规范链接通常不是特别好的转换;记录零是一个特定的问题(另一个是异方差;即使没有 0,您也可以获得左偏度)。如果最小值不太接近 0,则它可用于线性化均值。在许多情况下,对于泊松的条件总体均值来说,这是一个很好的“转换” ,但对于泊松数据并不总是如此。但是,如果您确实想进行转换,一种常见的策略是添加一个常量来避免问题。在这种情况下,我们应该考虑添加什么常量。在不离手头的问题太远的情况下,之间和在一系列值中工作得很好(例如,与斜率估计中的偏差有关)。我通常只使用因为它很简单,左右的值通常会稍微好一点。
至于为什么人们选择一种转变而不是另一种转变(或不选择)——这实际上是他们为实现目标所做的事情。
[1]:在 Henrik Bengtsson 在他的讲义“广义线性模型和变换残差”中绘制的图,请参见此处 (参见第 4 页的第一张幻灯片)。我添加了一点 y-jitter 并省略了线条。
其它你可能感兴趣的问题