谁能提供对数线性回归和逻辑回归之间差异的清晰列表?我知道前者是一个简单的线性回归模型,但我不清楚何时应该使用每个模型。
对数线性回归与逻辑回归
这个名字有点用词不当。对数线性模型传统上用于以列联表格式分析数据。虽然“计数数据”不一定遵循泊松分布,但对数线性模型实际上只是泊松回归模型。因此“log”名称(泊松回归模型包含“log”链接函数)。
线性回归模型中的“对数转换结果变量”不是对数线性模型(也不是指数结果变量,正如“对数线性”所暗示的那样)。对数线性模型和逻辑回归都是广义线性模型的示例,其中线性预测变量(例如对数赔率或对数率)之间的关系在模型变量中是线性的。它们不是“简单的线性回归模型”(或使用通常的模型格式)。
尽管如此,使用逻辑回归和泊松回归可以获得对分类变量之间关联的等效推断。只是在泊松模型中,结果变量被视为协变量。有趣的是,您可以建立一些模型,以与比例赔率模型非常相似的方式跨组借用信息,但这种方式并没有得到很好的理解,也很少使用。
使用 R 在逻辑和泊松回归模型中获得等效推理的示例如下所示:
y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)
## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)
## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)
有趣,之间缺乏关联和表示逻辑回归模型中的优势比为 1,同样,对数线性模型中的交互项为 0。让您了解我们如何衡量列联表数据中的条件独立性。
我认为我不会将它们中的任何一个称为“简单线性回归模型”。尽管可以将 log 或 logit 转换用作许多不同模型的链接函数,但这些通常被理解为指代特定模型。例如,“逻辑回归”被理解为一种广义线性模型(GLiM),适用于响应变量分布为二项式的情况。此外,“对数线性回归”通常被理解为应用于多路列联表的泊松 GLiM. 换句话说,除了它们都是回归模型/ GLiM 之外,我认为它们不一定非常相似(正如@AdamO 指出的那样,它们之间存在一些联系,但典型用法相当不同)。最大的区别是逻辑回归假设响应分布为二项式,而对数线性回归假设响应分布为Poisson。事实上,对数线性回归与大多数回归模型有很大不同,因为响应变量根本不是您的变量之一(在通常意义上),而是与变量组合相关的频率计数集在多路列联表中。
为了澄清,“二元”逻辑回归有一个具有两个结果的因变量。我的理解是,如果您的因变量结果变量超过 2 个类别,则还可以选择使用“多项式”逻辑回归。见这里。