将 R 的 glm 命令翻译成数学符号

机器算法验证 r 广义线性模型 罗吉特 符号
2022-03-16 15:13:42

我有以下广义线性模型。该对象glmDV被建模为成功与总试验的比例。对象x_i是连续变量。

这在数学符号中是什么样子的?

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))
1个回答

对于二元逻辑回归(带有 logit 链接的二项式 GLM 的常见用例),您正在对因变量为“成功”(或“是”)的概率进行建模,通常编码为您这样做的方式是对对数几率进行建模。因此,不是像在 OLS 中那样对响应的平均值进行建模,而是对对数几率的变化进行建模:1

Pr(y=1)=θ=logit1(β0+β1x1+β2x2+...+β7x7)

其中logit(x)=log(x1x)logit1(x)=exp(x)1+exp(x)

可以在 Agresti, An Introduction to Categorical Data Analysis 中找到对此更彻底、更平易近人的解释。

但是对于您的特定问题,您声明您正在模拟成功的比例。这实际上并不是二项式 GLM 的用途。但是,您真正追求的是二项式 GLM 所做的,并且在 R 中仍然是可能的。它只需要对您正在做的事情进行轻微调整。在你有有限数量的试验可能有成功的情况下,你仍然可以使用相同的模型,它具有密度 因为您的值是由实验设计固定的,并且是您观察到的成功,所以您正在对参数进行推断ny{0...n}

Pr(y)(ny)θy(1θ)ny
nyθ与更典型的二元响应情况(上图)相同,其中固定为 1,取值 1 ,并且是参数的函数。对于 logit 链接的情况,我们建模,主要是因为这个转换存在于整条实线上,而不是单位区间. (Logit 链接的其他理想属性在 Agresti 中进行了描述,包括系数的有效性,即使在使用案例控制设计等非随机样本的设置中也是如此;例如,概率链接函数并非如此。)nyθθ
logit(θ)=β0+β1x1+...+βixi
θ

就 R 而言,只需创建一个对象(您称其glmDV为 2 列矩阵),第一列是成功次数,第二列是失败总数声明的其余部分保持不变!yny