Shrunken vs unbiased的估计量rrrrρρ

机器算法验证 相关性 皮尔逊-r 无偏估计器 估计者 点估计
2022-01-24 00:29:01

我对皮尔逊相关系数总体值的两种类型的估计量有些困惑。

A. Fisher (1915)表明,对于二元正态总体,经验的负偏估计量,尽管仅对于小样本量 ( ),偏倚实际上可能相当大。样本低估 ,因为它比更接近(除非后者是,因为那么是无偏的。)已经提出了几个几乎无偏估计量,最好的可能是Olkin 和 Pratt (1958)rρn<30rρ0ρ0±1rρ更正r

runbiased=r[1+1r22(n3)]

B.据说在回归中观察到高估了相应的总体 R 平方。或者,通过简单的回归,是高估基于这个事实,我看到很多文字说相对于正偏的,这意味着绝对值:更远(这种说法是真的吗?)。文本说这与通过样本值高估标准偏差参数是相同的问题。有许多公式可以“调整”观察到更接近其总体参数,Wherry's (1931)R2r2ρ2rρr0ρR2 Radj2是最知名的(但不是最好的)。这种调整后的的根称为shrunkenradj2 r

rshrunk=±1(1r2)n1n2

估计量非常不同:第一个膨胀,第二个放气如何调和它们?在哪里使用/报告一个以及在哪里 - 另一个?ρrr

特别是,缩小”估计量是否也(几乎)无偏,就像“无偏”估计量一样,但仅在不同的背景下 - 在回归的不对称背景下。因为,在 OLS 回归中,我们认为一侧(预测变量)的值是固定的,样本之间没有随机误差?(在这里补充一下,回归不需要双变量正态性。)

2个回答

关于相关性中的偏差:当样本量小到​​足以使偏差具有任何实际意义时(例如,您建议的n < 30),那么偏差可能是您最不担心的,因为不准确是可怕的。

关于多元回归中R 2的偏差,有许多不同的调整涉及无偏总体估计与同等大小的独立样本中的无偏估计。参见 Yin, P. & Fan, X. (2001)。估计多元回归中的R 2收缩:分析方法的比较。实验教育杂志, 69,203-224。

现代回归方法还解决了回归系数的收缩以及R 2的结果——例如,具有k折交叉验证的弹性网络,参见http://web.stanford.edu/~hastie/Papers/弹性网.pdf

我认为答案是在简单回归和多元回归的背景下。在具有一个 IV 和一个 DV 的简单回归中,R sq 没有正偏,并且实际上可能是负偏的,因为 r 是负偏的。但是在具有可能相互关联的几个 IV 的多元回归中,由于可能发生的任何“抑制”,R sq 可能是正偏的。因此,我认为观察到的 R2 高估了相应的总体 R 平方,但仅在多元回归中