在 Box-Cox 转换数据中以原始单位表示答案

机器算法验证 数据转换 置信区间 t检验 解释
2022-03-26 02:18:54

对于某些测量,分析结果会以转换后的比例适当地呈现。然而,在大多数情况下,最好以原始测量尺度呈现结果(否则您的工作或多或少毫无价值)。

例如,在对数转换数据的情况下,由于记录值的平均值不是平均值的对数,因此会出现对原始尺度的解释问题。在对数尺度上取平均值估计值的反对数并不能给出原始尺度上平均值的估计值。

但是,如果对数转换后的数据具有对称分布,则以下关系成立(因为对数保留了排序):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(对数平均值的反对数是原始测量范围的中位数)。

所以我只能推断原始测量尺度上中位数的差异(或比率)。

如果总体大致正常且具有近似标准偏差,则两样本 t 检验和置信区间是最可靠的,因此我们可能会尝试使用Box-Cox转换来保持正态假设(我也认为它也是方差稳定转换)。

但是,如果我们将 t-tools 应用于Box-Cox转换后的数据,我们将推断出转换后数据的均值差异。我们如何解释原始测量尺度上的那些?(转换值的平均值不是转换后的平均值)。换句话说,在变换后的尺度上对均值估计值进行逆变换,并不会给出原始尺度上的均值估计值。

在这种情况下,我也可以仅对中位数进行推断吗?是否有一种转变可以让我回到手段(在原始规模上)?

这个问题最初是作为评论发布在这里

3个回答

如果您想专门推断原始变量的平均值,请不要使用 Box-Cox 变换。当转换后的变量有自己的解释时,IMO Box-Cox 转换最有用,而 Box-Cox 转换只能帮助您找到正确的分析尺度 - 事实证明,这种情况经常发生。我以这种方式发现的两个意外指数是 1/3(当响应变量是膀胱容量时)和 -1(当响应变量是每分钟呼吸次数时)。

对数转换可能是唯一的例外。对数尺度上的平均值对应于原始尺度中的几何平均值,这至少是一个明确定义的量。

如果 Box-Cox 变换产生对称分布,则变换后数据的均值将反向变换为原始尺度的中值。这适用于任何单调变换,包括 Box-Cox 变换、IHS 变换等。因此,关于变换数据均值的推论对应于对原始尺度上的中位数的推论。

由于原始数据存在偏差(或者您一开始就不会使用 Box-Cox 变换),您为什么要推断均值?我原以为在这种情况下使用中位数会更有意义。我不明白为什么这被视为“原始规模的解释问题”。

如果您想在原始尺度上推断均值,您可以考虑使用不使用正态假设的推断。

不过要小心。如果您的分析假设方差相等(并且变换尺度上的相等方差将是差异方差如果手段不同,则按原始比例)。这样的技术并不能避免思考你在做什么的必要性。

如果您对估计或预测比测试更感兴趣,另一种考虑的方法是使用变换变量的泰勒展开来计算变换后的近似均值和方差 - 在通常的泰勒展开中,您可以写,您现在编写其中是具有均值和方差的随机变量,您将使用将其转换回来。f(x+h)t[μ+(Yμ)]Yμσ2t()

如果您接受期望,则第二项会退出,人们通常只接受第一项和第三项(其中第三项表示仅转换均值时的偏差的近似值);此外,如果您将展开的方差带到第二项,则第一项和第一个协方差项会退出 - 因为是一个常数 - 为您留下方差的单项近似值。t(μ)

--

最简单的情况是当您在对数尺度上具有正态性时,因此在原始尺度上具有对数正态性。如果您的方差是已知的(充其量很少发生),您可以在原始尺度上构建对数正态 CI 和 PI,并且可以根据相关数量的分布平均值给出预测平均值。

如果您在对数尺度上同时估计均值和方差,则可以构建 log-区间(例如,观察的预测区间),但您的原始尺度log没有任何矩所以预测的平均值不存在。tt

您需要非常仔细地考虑您要回答的确切问题。