“正态分布”是否需要 mean=median=mode?

机器算法验证 数理统计 描述性统计
2022-01-19 18:52:31

我一直在与我的研究生统计学教授就“正态分布”进行辩论。我认为要真正获得正态分布,必须具有均值=中值=众数,所有数据必须包含在钟形曲线下,并且围绕均值完全对称。因此,从技术上讲,实际研究中几乎没有正态分布,我们应该称它们为别的东西,也许是“接近正态”。

她说我太挑剔了,如果偏斜/峰度小于 1.0,这是一个正态分布,并且在考试中得分。该数据集是 52 个疗养院的随机抽样中的跌倒总数/年,这是一个更大人口的随机样本。有什么见解吗?

问题:

问题: 3. 计算该数据的偏度和峰度测量值。包括带有正态曲线的直方图。讨论你的发现。数据是否正态分布?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

一种。存在多种模式。显示最小值

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

我的答案:

数据是 platykurtic 并且只有轻微的正偏斜,并且它不是正态分布,因为均值、中位数和众数不相等,并且数据围绕均值分布不均匀。实际上,几乎没有数据是完美的正态分布,尽管我们可以讨论“近似正态分布”,例如大型人群中的身高、体重、温度或成人无名指的长度。

教授回答:

你是对的,没有完美的正态分布。但是,我们并不追求完美。除了直方图和集中趋势的度量之外,我们还需要查看数据。偏度和峰度统计数据告诉您有关分布的什么信息?因为它们都在-1和+1的临界值之间,所以这个数据被认为是正态分布的。

4个回答

你没有抓住重点,可能也很“困难”,这在业内并不受欢迎。她向您展示了一个玩具示例,以训练您评估数据集的正态性,即数据集是否来自正态分布查看分布矩是检查正态性的一种方法,例如Jarque Bera 检验就是基于这样的评估。

是的,正态分布是完全对称的。但是,如果您从真正的正态分布中抽取样本,则该样本很可能不是完全对称的。这是你完全错过的一点。您可以自己非常轻松地对此进行测试。只需从高斯分布中生成一个样本,然后检查它的时刻。尽管真正的分布是这样的,但它们永远不会完全“正常” 。

这是一个愚蠢的 Python 示例。我正在生成 100 个随机数的 100 个样本,然后获得它们的平均值和中位数。我打印第一个样本以显示均值和中位数不同,然后显示均值和中位数之间差异的直方图。你可以看到它是相当窄的,但差异基本上永远不会为零。请注意,这些数字确实来自正态分布

代码:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

输出: 在此处输入图像描述

附言

现在,您问题中的示例是否应该被视为正常取决于上下文。在您课堂上教的内容中,您错了,因为您的教授想看看您是否知道她给您的经验法则测试,即偏斜和过度峰度需要在-1到1之间范围。

我个人从来没有使用过这个特殊的经验法则(我不能称之为测试),甚至不知道它的存在。显然,某些领域的某些人确实使用它。如果您要将数据集描述插入 JB 测试,它将拒绝正态性。因此,当然,您认为数据集不正常并没有错,但从某种意义上说,您是错误的,因为您没有根据课堂上所教的内容应用您所期望的规则。

如果我是你,我会礼貌地接近你的教授并解释自己,并展示 JB 测试输出。我承认,根据她的测试,我的答案当然是错误的。如果您尝试以您在这里争论的方式与她争论,那么您在测试中恢复观点的机会非常低,因为您对中位数、均值和样本的推理很弱,这表明对样本与总体缺乏了解。如果你改变你的曲调,那么你就会有一个案例。

您与教授讨论的问题是术语之一,存在误解,阻碍了传达潜在有用的想法。在不同的地方,你们都会犯错误。

所以首先要解决的问题是:非常清楚分布是什么很重要

正态分布是一个特定的数学对象,您可以其视为无限数量的值的模型。(没有有限的人口实际上可以有一个连续的分布。)

粗略地说,这个分​​布的作用(一旦你指定参数)是定义(通过代数表达式)位于实线上任何给定区间内的总体值的比例。稍微宽松一点,它定义了来自该总体的单个值位于任何给定区间内的概率。

观察到的样本实际上并不具有正态分布;如果存在正态分布,则可能(可能)从正态分布中抽取样本。如果您查看样本的经验 cdf,它是离散的。如果您将其装箱(如在直方图中),则样本具有“频率分布”,但这些不是正态分布。分布可以告诉我们一些关于随机样本的事情(在概率意义上),样本也可以告诉我们一些关于总体的事情。

像“正态分布样本”*这样的短语的合理解释是“来自正态分布总体的随机样本”。

*(我通常会尽量避免自己说出来,原因希望在这里已经足够清楚;通常我会设法将自己限制在第二种表达方式上。)

定义了术语(如果仍然有点松散),现在让我们详细看看这个问题。我将解决问题的具体部分。

正态分布必须有均值=中值=众数

这当然是正态概率分布的一个条件,尽管不是从正态分布中抽取样本的要求;样本可能是不对称的,平均值可能与中位数不同,等等。[但是,如果样本真的来自正常人群,我们可以知道我们可以合理地预期它们之间的距离有多远。]

所有数据必须包含在钟形曲线下

我不确定“包含在”这个意义上是什么意思。

并且围绕均值完全对称。

不; 您在这里谈论的是数据,并且来自(绝对对称的)正常总体的样本本身不会完全对称。

因此,从技术上讲,实际研究中几乎没有正态分布,

同意你的结论,但推理不正确;这不是数据不是完全对称(等)这一事实的结果;事实上,人口本身并不完全正常

如果偏斜/峰度小于 1.0,则为正态分布

如果她这么说,那她肯定是错的。

样本偏度可能比那个更接近于 0(取“小于”来表示绝对量值而不是实际值),并且样本超峰度也可能比那个更接近于 0(它们甚至可能,无论是偶然还是构造,可能几乎完全为零),但从中抽取样本的分布很容易明显是非正态的。

我们可以走得更远——即使我们神奇地知道人口偏度和峰度完全是正常的,它本身仍然不会告诉我们人口是正常的,甚至也不会告诉我们接近正常的东西。

该数据集是 52 个疗养院的随机抽样中的跌倒总数/年,这是一个更大人口的随机样本。

计数的人口分布从来都不是正态的。计数是离散的和非负的,正态分布是连续的并且在整个实线上。

但我们在这里真正关注的是错误的问题。概率模型就是这样,模型让我们不要混淆我们的模型和真实的东西

问题不在于“数据本身是否正常?” (他们不可能),甚至“从中提取数据的人群是否正常?” (这几乎永远不会是这种情况)。

一个更有用的问题是“如果我将总体视为正态分布,我的推论会受到多大的影响?”

这也是一个更难回答的问题,并且可能比看一些简单的诊断需要更多的工作。

您显示的样本统计数据与正态性并没有特别不一致(如果您从正常人群中获得该大小的随机样本,您可能会看到这样的统计数据或“更糟”的统计数据并不少见),但这本身并不意味着实际人口对于某些特定目的,从中抽取样本的样本自动“足够接近”正常。重要的是要考虑目的(您要回答什么问题)以及所采用的方法的稳健性,即使如此,我们仍可能不确定它是否“足够好”;有时最好不要简单地假设我们没有充分理由先验地假设(例如基于类似数据集的经验)。

这不是正态分布

数据——即使是从正常人口中提取的数据——也永远不会完全具有人口的属性;仅从这些数字来看,您没有很好的基础来断定这里的人口不正常。

另一方面,我们也没有任何合理的坚实基础可以说它“足够接近”正态性——我们甚至没有考虑假设正态性的目的,所以我们不知道它可能对哪些分布特征敏感。

例如,如果我有两个样本用于有界的测量,我知道这不会是高度离散的(主要不是只取几个不同的值)并且合理地接近对称,我可能会相对乐意使用两个样本在一些不太小的样本量下进行 t 检验;它对假设的轻微偏差具有中等鲁棒性(有点鲁棒性,而不是功率鲁棒性)。但是,例如,在测试传播相等性时,我会更加谨慎地假设正态性,因为在该假设下的最佳测试对该假设非常敏感。

因为它们都在 -1 和 +1 的临界值之间,所以这些数据被认为是正态分布的。”

如果这确实是决定使用正态分布模型的标准,那么它有时会导致您进行非常糟糕的分析。

这些统计数据的值确实为我们提供了一些关于从中抽取样本的总体的线索,但这与暗示它们的值无论如何都是选择分析的“安全指南”完全不同。


现在用更好的措辞版本来解决根本问题,例如您所遇到的问题:

查看样本以选择模型的整个过程充满了问题——这样做会根据您所看到的改变任何后续分析选择的属性!例如,对于假设检验,您的显着性水平、p 值和功效都不是您会选择/计算它们的值,因为这些计算是基于不基于数据的分析。

例如,参见 Gelman 和 Loken (2014),“科学中的统计危机”,美国科学家,第 102 卷,第 6 期,第 460 页(DOI:10.1511/2014.111.460),其中讨论了此类数据相关分析的问题。

老师显然不适合他/她的元素,可能不应该教统计数据。对我来说,教错东西比根本不教更糟糕。

如果“数据”和“产生数据的过程”之间的区别更加清晰,这些问题都可以很容易地解决。数据以产生数据的过程为目标。正态分布是这个过程的一个模型。

谈论数据是否正态分布是没有意义的。出于一个原因,数据总是离散的。出于另一个原因,正态分布描述了无限的潜在可观察量,而不是一组有限的特定观察量。

此外,对于“产生数据的过程是一个正态分布的过程”这个问题的答案也总是“否”,而与数据无关。两个简单的原因:(i)我们进行的任何测量都必然是离散的,被四舍五入到一定程度。(ii) 完美的对称性,就像一个完美的圆一样,在可观察的自然界中并不存在。总是有不完美之处。

充其量,对于“这些数据对数据生成过程的正常性有何影响”这个问题的答案可以如下给出:“如果这些数据真的来自一个正态分布过程。” 该答案正确并不能断定分布是正常的。

使用仿真很容易理解这些问题。只需模拟正态分布的数据并将其与现有数据进行比较。如果数据是计数(0,1,2,3,...),那么很明显正常模型是错误的,因为它不会产生像 0,1,2,3,...这样的数字;相反,它生成的小数点永远存在(或至少在计算机允许的范围内)。这样的模拟应该是你在学习正态性问题时要做的第一件事。然后您可以更正确地解释图表和汇总统计信息。

我是一名工程师,所以在我的世界里,应用统计学家是我看到最多的,并获得最具体的价值。如果你要在应用领域工作,那么你需要在实践中扎实而不是理论:无论它是否优雅,飞机都必须飞行而不是坠毁。

当我思考这个问题时,我处理它的方式,正如我在这里的许多技术专家所做的那样,就是思考“在存在噪音的现实世界中它是什么样子”。

我做的第二件事通常是做一个模拟,让我能够解决这个问题。

这是一个非常简短的探索:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

它给出了这个作为输出: 在此处输入图像描述

注意:注意 x 轴,因为它是对数缩放的,而不是统一缩放的。

我知道平均值和中位数完全相同。代码说明了这一点。经验实现对样本量非常敏感,如果没有真正无限的样本,那么它们就永远无法与理论完美匹配。

您可以考虑中位数的不确定性是否包含估计的平均值,反之亦然。如果均值的最佳估计值在中位数估计值的 95% CI 范围内,则数据无法区分差异。数据表明它们在理论上是相同的。如果您获得更多数据,请查看它的内容。