机器算法验证 - 将 R 的 glm 命令翻译成数学符号 - 吾爱随笔录

将 R 的 glm 命令翻译成数学符号

机器算法验证 r 广义线性模型罗吉特符号

2022-03-16 15:13:42

我有以下广义线性模型。该对象glmDV被建模为成功与总试验的比例。对象x_i是连续变量。

这在数学符号中是什么样子的？

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))

1个回答

对于二元逻辑回归（带有 logit 链接的二项式 GLM 的常见用例），您正在对因变量为“成功”（或“是”）的概率进行建模，通常编码为。您这样做的方式是对对数几率进行建模。因此，不是像在 OLS 中那样对响应的平均值进行建模，而是对对数几率的变化进行建模： $1$

Pr (y = 1) = θ = {logit}^{- 1} (β_{0} + β_{1} x_{1} + β_{2} x_{2} + . . . + β_{7} x_{7})

$\Pr(y=1)=\theta=\text{logit}^{-1}(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_7x_7)$

其中 $\text{logit}(x)=\log(\frac{x}{1-x})$ 和 $\text{logit}^{-1}(x)=\frac{\exp(x)}{1+\exp(x)}$ 。

可以在 Agresti, An Introduction to Categorical Data Analysis 中找到对此更彻底、更平易近人的解释。

但是对于您的特定问题，您声明您正在模拟成功的比例。这实际上并不是二项式 GLM 的用途。但是，您真正追求的是二项式 GLM 所做的，并且在 R 中仍然是可能的。它只需要对您正在做的事情进行轻微调整。在你有有限数量的试验可能有成功的情况下，你仍然可以使用相同的模型，它具有密度因为您的值是由实验设计固定的，并且是您观察到的成功，所以您正在对参数进行推断 $n$ $y \in \{0...n\}$

Pr (y) \sim (\binom{n}{y}) θ^{y} (1 - θ)^{n - y}

$\Pr(y) \sim \binom{n}{y}\theta^y(1-\theta)^{n-y}$

n

$n$

y

$y$

θ

$\theta$ 与更典型的二元响应情况（上图）相同，其中固定为 1，取值 1 ，并且是参数的函数。对于 logit 链接的情况，我们建模，主要是因为这个转换存在于整条实线上，而不是单位区间. （Logit 链接的其他理想属性在 Agresti 中进行了描述，包括系数的有效性，即使在使用案例控制设计等非随机样本的设置中也是如此；例如，概率链接函数并非如此。）

n

$n$

y

$y$

θ

$\theta$

θ

$\theta$

logit (θ) = β_{0} + β_{1} x_{1} + . . . + β_{i} x_{i}

$\text{logit}(\theta)=\beta_0+\beta_1x_1+...+\beta_ix_i$

θ

$\theta$

就 R 而言，只需创建一个对象（您称其glmDV为 2 列矩阵），第一列是成功次数，第二列是失败总数。声明的其余部分保持不变！ $y$ $n-y$

其它你可能感兴趣的问题

上一篇"是什么意思～∼" 意思和 ?一个| 乙～丙A|B∼C 下一篇ARIMA 是否需要正态分布的误差或正态分布的输入数据？