机器算法验证 - 为什么正态伪残差测量与中位数的偏差？ - 吾爱随笔录

为什么正态伪残差测量与中位数的偏差？

机器算法验证残差

2022-03-26 09:27:30

我读过这个，我一直停留在第 4 页。它说

根据定义，[正态伪残差]恰好是等于其分布的中位数，则其值为零。因此，这些残差衡量的是与中位数的偏差，而不是与预期的偏差。 $N(0,1)$ $Y$

我已经设法证明它遵循分布，但我无法弄清楚其余的。 $N(0,1)$

我知道这可能是一个愚蠢的问题，但如果您能提供任何帮助，我将不胜感激。

1个回答

背景

在本文中，是一个随机变量，具有连续分布函数。衡量的小值可能有多极端的一种方法是报告“在模型 [ ] 下观察到相等或更极端（小）值的概率”：换句话说，当接近 , 的极低值。 $Y$ $F(y)=\Pr(Y \le y)$ $Y$ $F$ $F(y)$ $0$ $y$ $Y$

有些人对正态分布（由标准正态分布函数 $\Phi$ 确定）的推理根深蒂固，他们更喜欢用标准偏差的数量（“Z 分数”）来重新表达 $F(y)$ 。如果我们假设严格增加，这可以解决以产生 $z$ $\Phi(z) = F(y)$ $F$

Z (y) = Φ^{- 1} (F (y)),

$Z(y) = \Phi^{-1}(F(y)),$

生成具有标准正态分布的新随机变量 $Z(Y)$

解释

$Z(y)=0$ 当且仅当

1 / 2 = Φ (0) = Φ (Z (y)) = F (y) .

$1/2 = \Phi(0) = \Phi(Z(y)) = F(y).$

这就是 F 的中位数的：F为的值。 $F$ $y$ $F(y)$ $50\%$

如果一个分布有一个平均值，它不一定等于它的中位数。例如，当的平均值超过其中位数时，必须大于。因此，当考虑相对于是根据任何定义的正态分布的中心，它真正反映了相对于中位数的偏差，而不是它的平均值（而不是的任何其他特定中心位置）。 $F$ $\mu_F$ $F$ $Z(\mu_F)$ $0$ $Z$ $0$ $F$ $F$

一个应用程序

在美国关于歧视的判例法中，法院已经接触到足够多的统计专家来了解标准偏差和 z 分数。一些判例法产生了以“标准偏差的数量”表示的标准（作为歧视的证据）；也就是说，就 Z 分数而言。当感兴趣的统计数据（例如歧视性影响的度量）不具有正态分布时，一些专家喜欢将 p 值转换为“标准偏差的数量”。（他们希望法院能因此更好地理解 p 值。）这些可以解释为本文讨论的伪残差。

其它你可能感兴趣的问题

上一篇广义增强模型 (GBM) 假设下一篇泊松回归中变量选择的最佳方法是什么？