我听说(抱歉无法提供文本链接,有人告诉我)残差的高正峰度可能对准确的假设检验和置信区间有问题(因此统计推断存在问题)。这是真的吗?如果是,为什么?残差的高正峰度是否表明大多数残差接近残差均值 0,因此存在较小的残差?(如果您有答案,请尝试给出一个数学不太深入的答案,因为我的数学倾向并不高)。
为什么假设检验的高正峰度有问题?
听说 [...] 残差的高正峰度对于准确的假设检验和置信区间可能是有问题的(因此是统计推断的问题)。这是真的吗?如果是,为什么?
对于某些类型的假设检验,这是正确的。
残差的高正峰度是否表明大多数残差接近残差均值 0,因此存在较小的残差?
不。
看起来您将方差的概念与峰度的概念混为一谈。如果方差更小,则更多小残差和更少大残差的趋势会结合在一起。想象一下,当我们改变峰度时,我们保持标准差不变(所以我们肯定是在谈论峰度而不是方差的变化)。
比较不同的方差(但峰度相同):
峰度不同但方差相同:
(来自这篇文章的图片)
在许多情况下,高峰度与均值的较小偏差有关- 比你在正态分布中发现的更多的小残差..但是为了保持标准偏差在相同的值,我们还必须有更多的大残差(因为有更多的小残差会使与平均值的典型距离更小) . 为了同时获得更多的大残差和小残差,您将拥有更少的“典型大小”残差——即与平均值相差一个标准差的残差。
这取决于您如何定义“小”;您不能简单地添加大量大残差并保持方差不变,您需要一些东西来补偿它 - 但是对于某些给定的“小”度量,您可以找到增加峰度而不增加该特定度量的方法。(例如,更高的峰度并不自动意味着更高的峰值)
即使保持方差不变,峰度越高,残差越大。
[此外,在某些情况下,小残差的集中实际上可能会导致比最大残差的额外部分更多的问题——这取决于您正在查看的内容。]
无论如何,让我们看一个例子。考虑单样本 t 检验和 10 个样本大小。
如果我们在 t 统计量的绝对值大于 2.262 时拒绝原假设,那么当观察值是独立的、与正态分布同分布且假设均值是真实总体均值时,我们将拒绝原假设假设 5% 的时间。
考虑一个峰度显着高于正态分布的特定分布:我们的人口中有 75% 的值来自正态分布,其余 25% 的值来自标准差为 50 倍的正态分布。
如果我计算正确,这对应于 12 的峰度(9 的过度峰度)。由此产生的分布比正常分布更尖,并且有沉重的尾巴。密度与下面的正常密度进行比较——你可以看到更高的峰值,但在左图中你并不能真正看到更重的尾部,所以我还绘制了密度的对数,它延伸了较低的部分图像并压缩顶部,使其更容易看到峰值和尾部。
如果您执行“5%”单样本 t 检验,则此分布的实际显着性水平低于 0.9%。这是相当戏剧性的,并且相当大地拉低了功率曲线。
(您还将看到对置信区间覆盖率的实质性影响。)
请注意,具有相同峰度的不同分布将对显着性水平产生不同的影响。
那么为什么拒绝率会下降呢?这是因为较重的尾部会导致一些较大的异常值,这对标准差的影响比对均值的影响略大;这会影响 t 统计量,因为它会导致更多的 t 值介于 -1 和 1 之间,在此过程中会降低关键区域中值的比例。
如果你取的样本看起来与来自正态分布的样本非常一致,其平均值刚好高于假设平均值,那么它是显着的,然后你将观察值置于平均值之上并将其拉得更远(也就是说,使平均值大于下),您实际上使 t 统计量更小。
让我演示给你看。这是一个大小为 10 的样本:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23
想象一下我们想要测试它(单样本 t 检验)。事实证明,这里的样本均值是 2.68,样本标准差是 0.9424。你得到一个 2.282 的 t 统计量——就在 5% 检验的拒绝区域中(p 值为 0.0484)。
现在将最大值设为 50:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50
显然我们把平均值拉高了,所以它应该比以前更能表明差异,对吧?嗯,不,它没有。t 统计量下降。现在是 1.106,p 值非常大(接近 30%)。发生了什么?好吧,我们确实将平均值拉高(至 7.257),但标准差飙升超过 15。
与平均值相比,标准差对异常值更敏感——当您放入异常值时,您倾向于将单样本 t 统计量推向 1 或 -1。
如果有可能出现多个异常值,则情况大致相同,只是它们有时可能位于相反的两侧(在这种情况下,与一个异常值相比,标准差甚至更大,而对均值的影响则降低了),因此 t 统计量趋向于接近 0。
类似的事情发生在许多其他假设正态性的常见测试中——较高的峰度往往与较重的尾部相关联,这意味着更多的异常值,这意味着标准偏差相对于平均值被夸大了,因此您想要获取的差异往往被异常值对测试的影响“淹没”。也就是低功耗。
峰度测量异常值。对于基于正态分布的标准推论(例如,t 检验、t 区间),异常值是有问题的。这就是故事的结局!这真的是一个非常简单的故事。
这个故事没有得到很好理解的原因是峰度测量“峰度”的古老神话仍然存在。
这是一个简单的解释,说明为什么峰度测量异常值而不是“峰值”。
考虑以下数据集。
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1
峰度是 (z-values)^4 的期望值。以下是(z 值)^4:
6.51, 0.30, 5.33, 0.45, 0.00, 0.30, 6.51, 0.00, 0.45, 0.30, 0.00, 6.51, 0.00, 0.00, 0.30, 0.00, 27.90, 0.00, 0.30, 0.45
平均值为 2.78,这是对峰度的估计。(如果您想要过度峰度,请减去 3。)
现在,将最后一个数据值替换为 999,使其成为异常值:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999
现在,这里是(z 值)^4:
0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 360.98
平均值为 18.05,这是峰度的估计值。(如果您想要过度峰度,请减去 3。)
显然,只有异常值很重要。“峰值”或中间附近的数据无关紧要。
如果您使用第二个数据集执行标准统计分析,您应该会遇到麻烦。大峰度提醒您注意问题。
这是一篇详细说明的论文:
Westfall,PH(2014)。峰度作为峰度,1905 – 2014 年。美国统计学家 RIP,68,191–195。
峰度也表示不对称的尾巴。在双尾假设检验中,一条尾巴是长尾,另一条是短尾。其中一条尾巴可能 > alpha,但 < beta。一条尾巴会通过 p 值,但另一条不会。
基本上,统计推断假定标准正态。当它不是标准法线时,您可能会根据一些更复杂的推理机制进行推理。您可能可以进行泊松推理,但是对于非正态分布,您不能使用基于正态的推理。
偏斜和峰度是衡量非正态性的指标。在我们知道我们必须测试正态性之前,我们学会了取平均值和使用正态分布。法线需要来自每个维度的 36 个或更多数据点。您可以估计 20 个数据点,但仍然会有偏斜和峰度。随着分布接近正态,偏斜和分布消失。
其中一种解释将峰度定义为峰度。另一个没有。目前这是一场悬而未决的斗争。峰度是第四个时刻,一个区域。我正在讨论这个问题。
另一个想法是,在倾斜的情况下,中值会倾斜到形成三角形的模式。享受。