机器算法验证 - 在多元逻辑回归中，协变量在什么水平上保持不变？ - 吾爱随笔录

在多元逻辑回归中，协变量在什么水平上保持不变？

机器算法验证回归物流多重回归解释控制变量

2022-03-25 02:48:04

我正在运行具有多个连续和分类协变量的多元逻辑回归。我想知道如果其他协变量保持不变，如何解释每个协变量的结果。连续控制变量保持在什么水平？他们是按他们的意思举行的吗？

我相信对于分类控制变量，参考类别是它所持有的水平。如果我想将它保持到另一个级别，例如一个编码、1 或 2，该怎么办？

2个回答

这主要是在多元回归中“其他一切都相等”是什么意思？也就是说，它们可以在协变量的任何值或水平上保持不变。从某种意义上说，最容易将它们解释（或设想它们）为其他连续变量和其他分类变量的参考水平的平均值，但可以使用任何值或水平。此外，这假设您的协变量之间的模型中没有交互项，否则通常不可能保持所有其他条件相同（这也在链接线程中进行了解释）。

在逻辑回归上下文（或链接不是恒等函数的任何广义线性模型）中唯一增加的复杂性是这仅与线性预测器有关。例如，在逻辑回归中，结果 $\bf X \boldsymbol{\hat\beta}$ 是一组对数赔率。然而，人们往往更喜欢看 $\hat p_i$ ，反而。这当然很好，但它涉及非线性变换。结果，由于Jensen 不等式，您将获得的 sigmoid 曲线 $X_1$ 和 $Y$ 会根据是否 $X_2$ 保持不变 $\bar X_2$ 或者 $\bar X_2 + s_{\bar X_2}$ . 这意味着在转换后的空间中实际上并没有“其他一切都相等”这样的东西，只有在线性预测器的空间中。

如果有助于澄清这些想法，请考虑这个简单的模拟（用 R 编码）：

set.seed(6666)                              # makes the example exactly reproducible
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }  # we'll need this function

x1 = runif(500, min=0, max=10)     # generating X data
x2 = rbinom(500, size=1, prob=.5)
lo = -2.2 + 1.1*x2 + .44*x1        # the true data generating process
p  = lo2p(lo)
y  = rbinom(500, size=1, prob=p)   # generating Y data

m  = glm(y~x1+x2, family=binomial) # fitting the model & viewing the coefficients
summary(m)$coefficients
#               Estimate Std. Error   z value     Pr(>|z|)
# (Intercept) -2.0395304 0.25907518 -7.872350 3.480415e-15
# x1           0.4220811 0.04409752  9.571538 1.053267e-21
# x2           1.2582332 0.22653761  5.554191 2.789001e-08

x.seq   = seq(from=0, to=10, by=.1)  # this is a sequence of X values for the plot
x2.0.lo = predict(m, newdata=data.frame(x1=x.seq, x2=0), type="link") # predicted
x2.1.lo = predict(m, newdata=data.frame(x1=x.seq, x2=1), type="link") # log odds
x2.0.p  = lo2p(x2.0.lo)  # converted to probabilities
x2.1.p  = lo2p(x2.1.lo)

windows()
  layout(matrix(1:2, nrow=2))
  plot(x.seq,  x2.0.lo, type="l", ylim=c(-2,3.5), ylab="log odds", xlab="x1",
       cex.axis=.9, main="Linear predictor")
  lines(x.seq, x2.1.lo, col="red")
  legend("topleft", legend=c("when x2=1", "when x2=0"), lty=1, col=2:1)

  plot(x.seq,  x2.0.p, type="l", ylim=c(0,1), yaxp=c(0,1,4), cex.axis=.8, las=1,
       xlab="x1", ylab="probability", main="Transformed")
  lines(x.seq, x2.1.p, col="red")

在线性预测变量（即对数赔率）的尺度上，斜率 $X_1$ 是 $\approx 1.26$ 你是否持有 $X_2$ 在 $0$ 或者 $1$ . 那是因为线是平行的。另一方面，在转换后的空间中，线条并不平行。变化率 $\hat p(Y=1)$ 与一个相关联 $1$ -单位变化 $X_1$ 取决于是否 $X_2 = 0$ 或者 $X_2 = 1$ . （这也取决于什么值 $X-1$ 你从开始。）

编码真的无关紧要，因为归根结底，回归系数总是基于斜率，即 $\Delta y/\Delta x$ . 分类因素总是分解为 $k-1$ 每个虚拟指标 $k$ -level 因子（角点编码，level-1's $\Delta y/\Delta x$ 进入常数项）或 $k$ 虚拟指标变量（总和为零约束，无常数项）。

回归的基础也是一个概念，即 $x$ -预测变量不是随机变量，因此，每个 $x$ -variable 应该是实验控制的值，实际上可以通过例如变量计来设置。例如，如果年龄是一个预测变量，那么模型将假设在每个年龄 $18, 19, \ldots, 85+$ 您注册了实验对象 $y$ 被测量了。毕竟，这是针对分类因子的每个级别所做的。

关于假设的推理测试，一旦你克服了编码问题，就会有一系列的部分 $F$ -tests，可用于解决您的特定问题。

在学习回归时，有一个警告要告诉学生，例如血清血浆蛋白表达或矿物质（元素）浓度，这是，而不是考虑改变 $y$ 对于一个单位的变化 $x$ ，或浓度，对于显着的正斜率，临床解释是受试者具有更大的 $y$ -值有更大 $x$ -价值观。

其它你可能感兴趣的问题

上一篇无法编写似然函数时的贝叶斯 MCMC 下一篇一个人真的可以用更多的数据来对抗异常值吗？