为什么正态伪残差测量与中位数的偏差?

机器算法验证 残差
2022-03-26 09:27:30

我读过这个,我一直停留在第 4 页。它说

根据定义,[正态伪残差]恰好是等于其分布的中位数,则其值为零。因此,这些残差衡量的是与中位数的偏差,而不是与预期的偏差。N(0,1)Y

我已经设法证明它遵循分布,但我无法弄清楚其余的。N(0,1)

我知道这可能是一个愚蠢的问题,但如果您能提供任何帮助,我将不胜感激。

1个回答

背景

在本文中,是一个随机变量,具有连续分布函数衡量Y的小值可能有多极端的一种方法是报告“在模型 [ F ] 下观察到相等或更极端(小)值的概率”:换句话说,当F(y)接近0 , y是Y的极低值YF(y)=Pr(Yy)YFF(y)0yY

有些人对正态分布(由标准正态分布函数Φ确定)的推理根深蒂固,他们更喜欢用标准偏差的数量(“Z 分数”)z来重新表达F(y)\Phi(z) = F(y)如果我们假设F严格增加,这可以解决以产生zΦ(z)=F(y)F

Z(y)=Φ1(F(y)),

生成具有标准正态分布的新随机变量Z(Y)

解释

Z(y)=0当且仅当

1/2=Φ(0)=Φ(Z(y))=F(y).

这就是 F 的中位数的FFyF(y)50%

如果一个分布有一个平均值,它不一定等于它的中位数。例如,当的平均值超过其中位数时,必须大于因此,当考虑相对于是根据任何定义的正态分布的中心,它真正反映了相对于中位数的偏差,而不是它的平均值(而不是的任何其他特定中心位置)。FμFFZ(μF)0Z 0FF

一个应用程序

在美国关于歧视的判例法中,法院已经接触到足够多的统计专家来了解标准偏差和 z 分数。一些判例法产生了以“标准偏差的数量”表示的标准(作为歧视的证据);也就是说,就 Z 分数而言。当感兴趣的统计数据(例如歧视性影响的度量)不具有正态分布时,一些专家喜欢将 p 值转换为“标准偏差的数量”。(他们希望法院能因此更好地理解 p 值。)这些可以解释为本文讨论的伪残差。