具有对数转换响应的线性模型与具有对数链接的广义线性模型

机器算法验证 广义线性模型 模型选择 对数正态分布
2022-01-26 04:57:34

这篇题为“在应用于医学数据的广义线性模型中选择”的论文中,作者写道:

在广义线性模型中,均值由链接函数转换,而不是转换响应本身。这两种转换方法会导致完全不同的结果;例如, 对数转换响应的均值与均值响应的对数不同一般来说,前者不容易转换为平均响应。因此,转换均值通常可以更容易地解释结果,尤其是在均值参数与测量响应保持在同一尺度上的情况下。

他们似乎建议使用对数链接拟合广义线性模型 (GLM),而不是使用对数转换响应的线性模型 (LM)。我没有掌握这种方法的优点,这对我来说似乎很不寻常。

我的响应变量看起来是对数正态分布的。无论采用哪种方法,我在系数及其标准误差方面都得到了类似的结果。

我仍然想知道:如果变量具有对数正态分布,对数转换变量的平均值是否优于转换变量的对数,因为平均值是正态分布的自然总结,而对数-转换后的变量是正态分布的,而变量本身不是?

3个回答

虽然看起来对数转换变量的平均值更可取(因为这通常是对数正态参数化的方式),但从实际的角度来看,平均值的对数通常更有用。

当您的模型不完全正确时尤其如此,引用 George Box 的话:“所有模型都是错误的,有些是有用的”

假设某个数量是对数正态分布的,比如血压(我不是医生!),我们有两个人口,男性和女性。有人可能会假设女性的平均血压高于男性。 这恰好对应于询问女性的平均血压对数是否高于男性。这与询问女性对数血压的平均值是否高于男性不同

不要对分布的教科书参数化感到困惑——它没有任何“真正的”含义。由于数学方便,对数正态分布由对数 ( ) 的均值参数化,但同样我们可以选择通过其实际均值和方差对其进行参数化μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

显然,这样做会使代数变得非常复杂,但它仍然有效并且意味着同样的事情。

查看上面的公式,我们可以看到转换变量和转换均值之间的重要区别。平均值的对数随着的增加而增加,而对数的平均值不会。ln(μ)σln2μln

这意味着平均而言,女性的血压可能高于男性,即使对数正态分布的平均参数 ( ) 相同,仅仅是因为方差参数更大。使用 log(Blood Pressure) 的测试会忽略这一事实。μln

到目前为止,我们已经假设血压是对数正常的。如果真实分布不是对数正态分布,那么转换数据(通常)会使事情变得比上面更糟——因为我们不太清楚我们的“均值”参数的实际含义。即我们不会知道我上面给出的这两个均值和方差方程是正确的。使用这些来回转换会引入额外的错误。

这是我在学习生物统计学时参加的高级数据分析课程中的两分钱(尽管除了教授的笔记之外我没有任何参考资料):

它归结为您是否需要解决数据中的线性和异方差(不等方差),或者只是线性。

她指出,转换数据会影响模型的线性和方差假设。例如,如果您的残差两者都存在问题,您可以考虑转换数据,这可能会解决这两个问题。转换转换了误差,从而转换了它们的方差。

相反,使用链接函数只影响线性假设,而不影响方差。对数取平均值(期望值),因此残差的方差不受影响。

总之,如果您对非常量方差没有问题,她建议使用链接函数而不是转换,因为您不想在这种情况下更改方差(您已经满足假设)。

如果真正的响应不是对称的(未按正态分布),但对数转换响应是正态的,则使用转换响应的线性回归,指数系数为我们提供几何平均值的比率。

如果响应名副其实是对称的(按正态分布),但解释性 (X) 和响应之间的关系不是线性的,但对数期望值是 X 的线性函数,则使用带有对数链接的 GLM,指数系数为我们提供算术平均值的比率