机器算法验证 - 估计泊松回归中的标准差 - 吾爱随笔录

估计泊松回归中的标准差

机器算法验证回归标准差泊松分布广义线性模型

2022-04-14 06:21:30

我对泊松回归中标准差的估计量感兴趣。所以方差是

V a r (y) = ϕ \cdot V (μ)

$Var(y)=\phi\cdot V(\mu)$

其中和。所以方差应该是。（我只是对方差应该如何感兴趣，所以如果发生过度分散（），我不在乎）。因此，方差的估计量应该是 $\phi=1$ $V(\mu)=\mu$ $Var(y)=V(\mu)=\mu$ $\widehat{\phi}\neq 1$

\hat{V a r} (y) = V (\hat{μ}) = \hat{μ}

$\widehat{Var}(y)=V(\widehat{\mu})=\widehat{\mu}$

并且标准差的估计量应该是

\sqrt{\hat{V a r} (y)} = \sqrt{V (\hat{μ})} = \sqrt{\hat{μ}} .

$\sqrt{\widehat{Var}(y)}=\sqrt{V(\widehat{\mu})}=\sqrt{\widehat{\mu}}.$

这个对吗？我还没有在泊松回归的背景下找到关于标准偏差的讨论，这就是我问的原因。

例子：

因此，这是我正在谈论的一个简单示例（顺便说一句，这毫无意义）。

data1 <- function(x) {x^(2)}
numberofdrugs <- data1(1:84)
data2 <- function(x) {x}   
healthvalue <- data2(1:84)
plot(healthvalue, numberofdrugs)
test <- glm(numberofdrugs ~ healthvalue, family=poisson)
summary(test) #beta0=5.5 beta1=0.042
mu <- function(x) {exp(5.5+0.042*x)}
plot(healthvalue, numberofdrugs)
curve(mu,  add=TRUE, col="purple", lwd=2)
# the purple curve is the estimator for mu and it's also 
# the estimator of the variance,but if I'd like to plot 
# the (not constant) standard deviation I just take the 
# square root of the variance. So it is var(y)=mu=exp(Xb) 
# and thus the standard deviation is sqrt(exp(Xb))
sd <- function(x) {sqrt(exp(5.5+0.042*x))}
curve(sd, col="green", lwd=2)

绿色曲线是泊松回归中标准差的正确估计量吗？应该是吧？

2个回答

泊松回归找到一个值最大化数据的可能性。对于的任何值，您会假设具有泊松( ) 分布。该分布的标准差等于。这似乎是您所说的的意思。 $\hat{\beta}$ $x$ $Y$ $\exp(x \hat{\beta})$ $\exp(x \hat{\beta}/2)$ $\sqrt{\widehat{\mu}}$

当然，还有其他方法可以估计的标准差。然而，停留在泊松回归的上下文中，是 SD( ) 的 ML 估计量，原因很简单，参数函数的 ML 估计量是这些参数的 ML 估计器的相同功能。在这种情况下，函数是将发送到（对于 $Y|x$ $\exp(x \hat{\beta}/2)$ $Y|x$ $\hat{\beta}$ $\exp(x \hat{\beta}/2)$ $x$ ）。该定理将出现在最大似然估计的任何完整说明中。它的证明很简单。从概念上讲，函数是一种重新表达参数的方法，但重新表达它们并不会改变它们最大化（或未能最大化，取决于它们的值）可能性的事实。

您在这里的“正态分布”方面考虑得太多。对于正态分布，你有两个参数然后意味着 $\mu$ 和方差， $\sigma^2$ . 因此，您需要两条信息来表征正常情况的概率分布。

但是，在泊松分布的情况下，只有一个参数，那就是比率 $\lambda$ （我重新标记以避免与正常混淆）。这表征了泊松分布，因此无需参考其他量。

这就是为什么可能没有听到泊松回归中提到的标准差“估计”的原因。要求泊松随机变量的标准差估计量类似于要求正态分布随机变量的峰度估计量。你可以得到一个，但为什么要麻烦呢？通过估计速率参数 $\lambda$ , 你有你需要的所有信息。

其它你可能感兴趣的问题

上一篇重复测量设计中三个时间点的趋势分析下一篇在有限的项目集中测试项目的重要性