如果我的目标是测试比率的绝对变化,我可以直接比较比率而不进行对数转换吗?

机器算法验证 数据转换 对数 比率
2022-04-10 00:39:33

比率(例如 = /)经常使用(例如 mRNA 或蛋白质表达的倍数变化、体重指数 [BMI] 等)。许多人建议编码为比率的变量(例如倍数变化)应该进行对数转换,因为它们严重向右倾斜。但是,比率 ( / ) 是相对变化,比率分布不正常 (en.wikipedia.org/wiki/Ratio_distribution)。如果都是对数正态的,那么 log( / ) 是正态的(考虑重转换偏差后 /ZYXYXXYYXYX

对数转换比率之间的比较是相对变化(即比率)的相对变化。此外,对右偏变量()进行对数转换的必要性也受到质疑。例如,最近的一篇论文 ( http://www.ncbi.nlm.nih.gov/pubmed/22806695 ) 对变量对数转换的误用提出了警告。一些建议是 log( ) 仅当是对数正态时才保证正态分布。也就是说,即使对于右偏变量,它也不能保证正态性。此外,E(log(的几何平均值 (GM) ,它总是小于 E( ) 和 E(YYYYYYY ) 和 GM 不同。最后,GM 既不太稳健,也不太可能受到异常值的影响。

另一篇论文 ( http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110 ) 表明,即使对于对数正态分布的变量,对原始变量的 t 检验也表现良好。第 3 篇论文 ( http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8 ) 表明 t 检验对比率的性能和对数转换比率的 t 检验是相似的。

因此,问题变成了哪个是感兴趣的结果。因为 log( ) 必须被反向转换为原始单位才有意义,并且由于重新转换偏差,我认为 E( ) 的测试更有意义。ZZ

幸运的是,一旦考虑了异方差性(例如 Welch 的 t 检验),参数检验(例如 t 检验)对于违反正态性假设的情况是稳健的。例如,这篇论文 ( http://www.ncbi.nlm.nih.gov/pubmed/24738055 ) 建议使用 ANOVA 来测试免疫印迹中原始倍数变化之间的差异。

所以我的问题是:如果我的目标是测试比率的绝对变化,我可以直接比较比率而不进行对数转换吗?

参考: 在线性回归中,什么时候适合使用自变量的对数而不是实际值?

3个回答

不仅未转换比率的分布具有不符合传统统计分析假设的奇怪形状,而且对两个比率的差异也没有很好的解释。顺便说一句,如果你能找到两个比率的差异有意义的例子,当比率不代表整体的比例时,请描述这种情况。

作为统计分析中使用的变量,比率具有作为非对称度量的重大问题,即分母中的值非常重要。这种不对称性使得加减比率几乎毫无意义。对数比率是对称的,可以加减。

人们可能会花大量时间担心检验统计量的分布或校正分布的“奇异性”,但首先选择具有正确数学和实际特性的效果度量很重要。比率几乎总是意味着通过取比率的比率或其对数(即原始测量对数的双差)来进行比较。

@FrankHarrell 的回答,以及他和@NickCox 的相关评论,很好地回答了这个问题。我要补充的是,对预测变量和结果变量的原始分布形状的隐含关注是错误的;在线性建模中,重要的是预测变量与结果的关系的线性以及残差的分布。

我还希望添加有关原始问题中引用的两篇文章的信息,这些文章可能解释了 OP 感觉到的困难的一些来源。批判性地评估文章很重要,而不仅仅是因为它们碰巧已经发表就接受它们。

Feng 等人引用的关于滥用对数转换的论文正确地指出了对数转换可能存在的一些滥用,但往往给人的印象是应该避免而不是明智地使用对数转换。例如,论文说:

在实践中使用一般转换和特别是对数转换可能会产生很大的问题,以实现预期目标

据称有困难,例如:

原始平均值和对数转换数据的平均值之间没有一对一的关系……将数据的可变性与其转换后的数据进行比较在概念上是不明智的……比较两个样本的平均值与比较其转换版本的均值不同

并得出结论:

与其试图找到适合数据的分布和/或转换,不如考虑完全放弃这种经典范式......

我不认为该论文中提到的所谓困难提供了避免知情使用对数或其他转换的理由。其他人注意到该论文中更严重的缺陷。Bland、Altman 和 Rohlf 写了一篇直接回应,为对数变换辩护完整的回应显然是在付费墙后面,但我相信以下引用将构成合理使用:

然而,他们没有用任何真实数据来说明他们的文章,并且似乎在很大程度上忽略了应用对数转换的上下文......他们还引用了他们批评的人的上下文......冯等人。还说“虽然在统计上定义明确,但数量 Exp(E(log X)) 没有直观的生物学解释。” 我们对它的直觉没有问题。虽然表达式看起来很复杂,但它只是几何平均数。

Bland、Altman 和 Rohlf 得出结论:

对数转换是分析生物学和临床数据的宝贵工具。我们不认为任何人应该被这篇争论不休和误导性的论文阻止使用它。

“建议使用 ANOVA 测试免疫印迹中原始倍数差异 (FD) 之间的差异”的论文很好地解决了在执行所谓的“蛋白质印迹”的光密度测定中的一些技术困难(我很痛苦地意识到这些困难) ,但在论文结尾处几乎是临时建议“通过将上述步骤(2)中的 FD 导入统计分析软件包(如 PRISM 或分析 IT)来确定生物复制品的平均 FD 和相关 P 值” 似乎没有收到非常严格的评论。(也不排除在统计分析中对 FD 值进行对数转换的可能性。)

使用原始 FD 的建议实际上与该论文前面提出的想法相矛盾,即该分析是“与 qPCR 非常相似的方法”或定量聚合酶链反应。qPCR 的统计分析最好对“循环到阈值”的值或值进行。这些值与被分析的核酸序列的原始量有直接在核酸定量中进一步值得注意的是,广泛用于微阵列分析的MA 图是表达数据对数变换的Bland-Altman 图。当误差与感兴趣的值成正比时,对数变换很有意义。CtCtlog2

如果两者XY均值为零的正态分布,则比率X/Y服从密度分布的柯西分布

p(x)=1πγγ2(xx0)2+γ2

在哪里x0是位置参数,它是质量中心性的一种度量,并且γ半宽,这是柯西的标准偏差。它没有平均值,没有方差,也没有更高的时刻。