从技术上讲,听起来您的方法正在尝试“解压”数据。
您通常不会按照您的建议看到回归量的变量变化。这有几个原因:1)您不需要正态分布的回归器,您只需要居中/缩放的回归器,因此 L1-penalty 是在效果大小方面比较苹果与苹果 2)X/X¯没有样本外效度,因为X¯是主观的。3)方差稳定变换 X--√众所周知,它可以从泊松值中生成更多“正态分布”数据。4) 对数变换类似于平方根,但具有更容易获得的解释。
也就是说,你没有理由不能使用X¯作为方差的插件估计。但是,“中心尺度”变量意味着除以标准误差,而不是方差,所以我建议改为以下转换:
X*=X-X¯X¯--√
或者,您可以将泊松样本的分位数映射到标准正态分位数上。
就评估您的想法而言,记住一种方法总是好的。这是一个模拟,显示了 Shapiro-Wilk 测试的拒绝率X/X¯相对X--√在泊松值的样本中。
set.seed(123)
p <- replicate(1e5, {
x <- rpois(100, 10)
c(
'xbarx' = shapiro.test(x/mean(x))$p.value,
'sqrtx'= shapiro.test(sqrt(x))$p.value
)
})
rowMeans(p < 0.05)
> rowMeans(p < 0.05)
xbarx sqrtx
0.45866 0.34166
你可以看到X--√34% 的时间拒绝空值,而× /X¯46% 的时间拒绝空值:即在 100 个样本中,有更多的统计证据表明X/X¯ is non-normal than the X−−√, putting aside some known issues with the test.
In summary X/X¯ doesn't make the regressor more normal as you say, and normality isn't necessary to begin with.