为什么需要费舍尔变换?

机器算法验证 相关性 费雪变换
2022-04-04 00:55:03

我读到,当人们想要测试它们的重要性时,必须使用费希尔变换来转换相关系数(比如这里的费舍尔 z 变换何时合适?)。

我只是不明白:为什么我必须使用这种转换?这里给出:

由于相关性在 [-1, 1] 之间有界,因此高度相关变量的抽样分布高度偏斜。 https://blogs.sas.com/content/iml/2017/09/20/fishers-transformation-correlation.html

好的,那又怎样?有界是什么意思?当没有界限时,“界限”将是 +/- oo。正确的?最终不是归一化吗?从我的观点来看,转换没有做任何事情然后相反的事情。我想它最终确实做到了这一点。但是为什么可以事后计算显着性呢?

1个回答

有界性并不是真正的问题,它只是解释了采样分布的偏度。基本上,由于历史原因,转换方法是如此建立(就像流行的建议对数或任何转换您的偏斜变量以使它们对于线性回归更正常 - 只是对于足够大的样本来说,Fisher 的转换在形式上是正确的)。这样简化的原因主要是为了节省计算能力。让我们更详细地看一下:

首先,我们需要确定问题到底是什么。要为检验统计量(例如相关性)导出统计检验,我需要导出统计量的抽样分布。这已经针对相关性进行了,结果证明它高度依赖于相关性的总体值。假设您的变量遵循二元正态分布,则相关采样分布密度的完整公式为: 在此处输入图像描述

在这里您看到您需要 Gamma 函数和高斯超几何函数来继续计算概率(即,该曲线下的区域)。要得出(渐近)精确的统计检验,您需要使用这个东西来获得您的 p 值或临界值。嗯......想象一下 20 世纪初的好老费舍尔,早在计算器(更不用说计算机)成为事物之前。这件事对于默认使用来说是难以处理的。基本上,这件事只是意味着你越接近边界,你的分布就会越来越偏斜(见下文)。

嗯,原来这东西有两个幸运属性。首先:如果总体相关性 (rho) 为零,这将简化为众所周知的中心 t 分布。这是您可以处理的事情(几乎每个人在介绍性统计中都会这样做)。因此,针对总体值零的任何测试都没有问题。

但是,Fisher 应该做什么来测试任何其他值或比较两个样本的相关性?好吧,Fisher 发明了他著名的技巧之一:通过使用 Fisher 方法转换相关性,您得到的分数大致遵循平均 Fisher-z(r) 和方差 1/(n-3) 的正态分布,如下所示: 在此处输入图像描述

从计算的角度来看,具有近似正态性是一件好事,因为您可以使用基于正态分布的 Z 检验,这是一种行为良好且易于处理的分布(因此,几乎所有人都喜欢宠物分布统计学家;))。比上面没有计算机无法处理的精确分布要容易得多。

总而言之,你是绝对正确的 - 在理论上 - 如果你有一台计算机并且长长的呼吸将这个公式输入到一个脚本中,你可以很容易地进行测试,那么你可以很容易地进行你对它的测试。如果您是历史统计学家或考试中只有一张正态分布表的学生,Fisher 变换是您的最佳选择。除此之外,我想,就像许多受人喜爱的传统一样,如果你一直在测试中使用转换,你就继续使用它。

希望这个历史性的轶事有助于消除您的疑虑。我希望我的故事是正确的,如果我错过了什么,请发表评论。