我有非正态分布的数据。我可以将其对数转换为正态分布,然后执行例如 t 检验。
但是我如何解释 t 检验的结果呢?
在我可以说这两种方法之间的差异显着之前,我是否必须转换回 p 值?还有什么我需要做的吗?或者我可以只获取结果并解释它们,就好像测试是在原始数据上执行的一样?我对此感到困惑。
数据来自以牛顿为单位测量力并按比例缩放的设备。
我有非正态分布的数据。我可以将其对数转换为正态分布,然后执行例如 t 检验。
但是我如何解释 t 检验的结果呢?
在我可以说这两种方法之间的差异显着之前,我是否必须转换回 p 值?还有什么我需要做的吗?或者我可以只获取结果并解释它们,就好像测试是在原始数据上执行的一样?我对此感到困惑。
数据来自以牛顿为单位测量力并按比例缩放的设备。
如果数据的对数确实来自具有恒定方差(但可能具有不同平均值)的正态分布总体,则原始数据必须来自可能具有不同尺度的对数正态分布(由于的差异,其中添加了一些东西到对数尺度上的均值对原始尺度具有乘法效应),因此这些总体的均值也会不同。
因此,对数尺度上总体均值的差异将(如果应用通常的两样本等方差 t 检验的其他假设)意味着原始(未转换)尺度上的均值发生变化。
您可以将对数刻度上的估计差异大小转换为原始刻度的百分比增加,置信区间的末端也可以返回。
因此,假设您估计的均值差异约为 0.7()和(例如)差异的 90% 置信区间以表示。那么原始总体的均值比率估计为(即第一组的均值约为第二组大小的两倍),均值比率的 90% CI 将是。
请注意,p 值直接结转;我们仍在对参数(对数刻度的平均值)进行推理。
你在正确的轨道上。如果转换后表现良好,您绝对可以对对数转换后的数据运行 t 检验,这肯定会影响您解释结果的方式。简而言之,您不能就均值的差异做出陈述,因为均值(log(x))与对数(均值(x))不同-均值不能很好地转换。如果您可以在对数转换均值(即更丰富的尺度)方面说明差异,那么您绝对可以这样做,只需用对数(均值)项说明您的结果。否则,您的 t 检验结果将以中位数表示,因为中位数在对数转换中保留。
如果数据经过对数变换后呈非常正态分布,mean(x) 大致等于 median(x),median(log(x)) 与 log(median(x)) 相同。
由于 log 属性允许您将日志的差异合并为比率的日志
(log(X/Y) = log(X) - log(Y))
您可以就对数(中位数)的差异做出陈述。您还可以将 CI 值反向转换回原始单位,并在没有附加 log() 的情况下声明中位数的比率。中位数是表现良好的正态分布数据中心的一个很好的衡量标准,因此您的统计推断应该成立。
Here are the steps:
1. Transform the data (log(x) where x is an array of data in this case)
2. Perform your t-test if your transformed data meet the assumptions of the t-test. Check for:
a. departure from normality
b. significantly differing standard deviations
c. lack of independence.
3. Your CI values will now be in terms of ln(median(X)/median(Y)).
You can back-transform by taking the e-to-the-power-of(confidence interval values)...
This is sometimes written as EXP(<values>).
4. Now you've gotten rid of your ln(Mx/My) problem,
but your confidence interval is still in terms of the RATIO of medians.
5. Your p-value will still stand without transformation.
6. State your conclusions in terms of ratio of medians.
Example: "The median values of x and y are not the same.
We are 95% confident that X's median is between <lowerCI> and <higherCI> times that of Group B."
(because we're still talking median ratio).
这有点笨拙,所以你也可以用百分比来说话,比如“我们有 95% 的把握 X 的中位数介于 Y 组的中位数之间”
注意:当我写这篇文章时,我正在阅读 The Statistical Sleuth 3rd Ed 并查看 SMU 数据科学硕士课程的幻灯片,因此应归功于应得的荣誉。