您与教授讨论的问题是术语之一,存在误解,阻碍了传达潜在有用的想法。在不同的地方,你们都会犯错误。
所以首先要解决的问题是:非常清楚分布是什么很重要。
正态分布是一个特定的数学对象,您可以将其视为无限数量的值的模型。(没有有限的人口实际上可以有一个连续的分布。)
粗略地说,这个分布的作用(一旦你指定参数)是定义(通过代数表达式)位于实线上任何给定区间内的总体值的比例。稍微宽松一点,它定义了来自该总体的单个值位于任何给定区间内的概率。
观察到的样本实际上并不具有正态分布;如果存在正态分布,则可能(可能)从正态分布中抽取样本。如果您查看样本的经验 cdf,它是离散的。如果您将其装箱(如在直方图中),则样本具有“频率分布”,但这些不是正态分布。分布可以告诉我们一些关于随机样本的事情(在概率意义上),样本也可以告诉我们一些关于总体的事情。
像“正态分布样本”*这样的短语的合理解释是“来自正态分布总体的随机样本”。
*(我通常会尽量避免自己说出来,原因希望在这里已经足够清楚;通常我会设法将自己限制在第二种表达方式上。)
定义了术语(如果仍然有点松散),现在让我们详细看看这个问题。我将解决问题的具体部分。
正态分布必须有均值=中值=众数
这当然是正态概率分布的一个条件,尽管不是从正态分布中抽取样本的要求;样本可能是不对称的,平均值可能与中位数不同,等等。[但是,如果样本真的来自正常人群,我们可以知道我们可以合理地预期它们之间的距离有多远。]
所有数据必须包含在钟形曲线下
我不确定“包含在”这个意义上是什么意思。
并且围绕均值完全对称。
不; 您在这里谈论的是数据,并且来自(绝对对称的)正常总体的样本本身不会完全对称。
因此,从技术上讲,实际研究中几乎没有正态分布,
我同意你的结论,但推理不正确;这不是数据不是完全对称(等)这一事实的结果;事实上,人口本身并不完全正常。
如果偏斜/峰度小于 1.0,则为正态分布
如果她这么说,那她肯定是错的。
样本偏度可能比那个更接近于 0(取“小于”来表示绝对量值而不是实际值),并且样本超峰度也可能比那个更接近于 0(它们甚至可能,无论是偶然还是构造,可能几乎完全为零),但从中抽取样本的分布很容易明显是非正态的。
我们可以走得更远——即使我们神奇地知道人口偏度和峰度完全是正常的,它本身仍然不会告诉我们人口是正常的,甚至也不会告诉我们接近正常的东西。
该数据集是 52 个疗养院的随机抽样中的跌倒总数/年,这是一个更大人口的随机样本。
计数的人口分布从来都不是正态的。计数是离散的和非负的,正态分布是连续的并且在整个实线上。
但我们在这里真正关注的是错误的问题。概率模型就是这样,模型。让我们不要混淆我们的模型和真实的东西。
问题不在于“数据本身是否正常?” (他们不可能),甚至“从中提取数据的人群是否正常?” (这几乎永远不会是这种情况)。
一个更有用的问题是“如果我将总体视为正态分布,我的推论会受到多大的影响?”
这也是一个更难回答的问题,并且可能比看一些简单的诊断需要更多的工作。
您显示的样本统计数据与正态性并没有特别不一致(如果您从正常人群中获得该大小的随机样本,您可能会看到这样的统计数据或“更糟”的统计数据并不少见),但这本身并不意味着实际人口对于某些特定目的,从中抽取样本的样本自动“足够接近”正常。重要的是要考虑目的(您要回答什么问题)以及所采用的方法的稳健性,即使如此,我们仍可能不确定它是否“足够好”;有时最好不要简单地假设我们没有充分理由先验地假设(例如基于类似数据集的经验)。
这不是正态分布
数据——即使是从正常人口中提取的数据——也永远不会完全具有人口的属性;仅从这些数字来看,您没有很好的基础来断定这里的人口不正常。
另一方面,我们也没有任何合理的坚实基础可以说它“足够接近”正态性——我们甚至没有考虑假设正态性的目的,所以我们不知道它可能对哪些分布特征敏感。
例如,如果我有两个样本用于有界的测量,我知道这不会是高度离散的(主要不是只取几个不同的值)并且合理地接近对称,我可能会相对乐意使用两个样本在一些不太小的样本量下进行 t 检验;它对假设的轻微偏差具有中等鲁棒性(有点鲁棒性,而不是功率鲁棒性)。但是,例如,在测试传播相等性时,我会更加谨慎地假设正态性,因为在该假设下的最佳测试对该假设非常敏感。
因为它们都在 -1 和 +1 的临界值之间,所以这些数据被认为是正态分布的。”
如果这确实是决定使用正态分布模型的标准,那么它有时会导致您进行非常糟糕的分析。
这些统计数据的值确实为我们提供了一些关于从中抽取样本的总体的线索,但这与暗示它们的值无论如何都是选择分析的“安全指南”完全不同。
现在用更好的措辞版本来解决根本问题,例如您所遇到的问题:
查看样本以选择模型的整个过程充满了问题——这样做会根据您所看到的改变任何后续分析选择的属性!例如,对于假设检验,您的显着性水平、p 值和功效都不是您会选择/计算它们的值,因为这些计算是基于不基于数据的分析。
例如,参见 Gelman 和 Loken (2014),“科学中的统计危机”,美国科学家,第 102 卷,第 6 期,第 460 页(DOI:10.1511/2014.111.460),其中讨论了此类数据相关分析的问题。