Box-Cox 转换后的生活

机器算法验证 正态分布 数据转换
2022-04-10 09:10:20

假设,我们有一组以某些度量单位对某个数量的度量。我们还有一个很好的模型,它在很大程度上依赖于高斯分布的特性。该模型是为某些特定测量单位的数据量身定制的,背后有一些物理意义(如瓦特、欧姆等)。事实证明,数据的分布并不完全遵循正态分布,并且具有一些不受欢迎的特征(如偏度)。我们应用流行的 Box-Cox 变换并获得或多或少的正态分布数据集。现在的问题是我们有原始测量的对数、幂等,这与我们的好模型相矛盾。

问题是,在这种情况下,人们能做什么?我需要更改模型以便它可以处理新数据?总的来说,如果我得到了正确的一切,为什么人们要研究已经失去物理意义的转换数据?因为,归根结底,人们可能不得不回到原来的计量单位。

2个回答

首先,如果你的意思是线性回归模型,它不假设数据是正态分布的,它假设残差估计的误差是正态分布的(实际上,它们应该是 iid )。 N(0,σ)

其次,如果违反了该假设并且您想保留原始单位,则可以使用其他形式的回归 - 有各种稳健的回归模型、黄土模型、样条模型等。

听起来您的模型是这种形式;其中表示第个测量结果,是该结果(即实验环境)的协变量向量,它与(未知)参数确定预期的该观察的是误差项,它描述了影响没有捕捉到- 即实验误差。

Yi|xi=f(xi,β)+ϵi,
Yiixiβf(xi,β)ϵiYif(xi,β)

在进行分析之前,最好先问“你为什么要做这个分析?”。这个问题的答案决定了您应该对 Normality 有多少担心,或者是否需要进行转换。假设,通常,您想要推断的值。如果您认为 的平均值,并且您相信对于每次测量都是相同的,则可以使用经典线性回归来推断的值. 尽管有许多教科书建议,但您不需要 Normalityβf(xi,β)YiVar(ϵi)β这里; 在合理的样本量中,您的置信区间和测试将几乎完全准确地校准。

如果您仍然需要推理,但不相信恒定方差,请使用稳健的标准误差估计。如果您不相信均值遵循或方差是恒定的,稳健的标准误差估计仍然可以准确推断出形式的最佳拟合线,其中“最佳拟合”是指“最小二乘”。如果你不相信平均值遵循,或者这种形式的最佳拟合线是有用的,你总是可以拟合更灵活的平均值 - 协变量的样条表示是一个很好的方法来做到这一点。绝对没有列出的方法需要正态性或的转换。f(xi,β) f(xi,β)f(xi,β)xiYi

那么我们什么时候需要正态性呢?如果你想对新的进行预测,对于大多数方法,你需要一个模型(尽管它不需要假设正态性)。如果您想比较模型,那么您将需要一些模型,但这是重言式。如果您的样本量很小,对进行基于模型的推断可能是唯一可行的方法——但是您可能无法评估您对正态性的假设(或您假设的任何假设)是否合理。Yiβ

我们什么时候需要 Box-Cox?的形式知之甚少,但认为周围的误差“应该”是正常的,那么 Box-Cox 可能有助于为但它依赖于在“正确”模型中存在潜在的常态,这在许多情况下很难证明是合理的。f(xi,β)f(xi,β)f(xi,β)

简而言之,与其处理难以证明的转换,您可以仅使用平均模型做很多事情。如果原始测量单位帮助您(和您的同事)思考数据告诉他们的内容,我建议尽可能坚持使用这些单位。