谁首先使用/发明了 p 值?

机器算法验证 p 值 历史 罗纳德-费舍尔
2022-01-23 01:07:43

我正在尝试写一系列关于 p 值的博客文章,我认为回到一切开始的地方会很有趣——这似乎是 Pearson 1900 年的论文。如果您熟悉那篇论文,您会记得它涵盖了拟合优度测试。

当谈到 p 值时,Pearson 的语言有点松散。在描述如何解释他的 p 值时,他反复使用“赔率”。例如,在第 168 页,当谈到重复掷 12 次骰子的结果时,他说“ ......这导致我们 P=.0000016,或者说这种随机偏差系统的几率是 62,499 比 1选择。有了这样的赔率,可以合理地得出结论,骰子表现出偏向较高点的情况。

在这篇文章中,他提到了早期的工作,包括梅里曼 1891 年出版的一本关于最小二乘法的书。

但是 Pearson 确实列出了 p 值的计算方法(使用卡方拟合优度测试)。

Pearson 是第一个想到 p 值的人吗?当我搜索 p 值时,提到了费舍尔——他的工作是在 1920 年代。

已编辑:感谢您提到拉普拉斯-他似乎没有解决零假设(皮尔森似乎隐含地这样做,尽管他从未在 1900 年的论文中使用过该术语)。Pearson 从以下方面研究了拟合优度:假设计数来自无偏过程,观察到的计数(以及更偏差的计数)来自假设分布的概率是多少?

他对概率/赔率的处理(他将概率转换为赔率)表明他正在处理零假设的隐含思想。至关重要的是,他还提到,相对于他计算的 p 值,由 x^2 值产生的概率显示了“相对于一个不可能或比这个更不可能的偏差系统”的可能性——我们现在认识到的语言。

阿布斯诺特有那么远吗?

随意将您的评论作为答案。很高兴看到讨论。

2个回答

Jacob Bernoulli (~1700) - John Arbuthnot (1710) - Nicolaus Bernoulli (1710s) - Abraham de Moivre (1718)

Arbuthnot 1的案例见下文注释中的解释,也可以在 de Moivre 的《机会学说》(1718 年)第 251-254 页中阅读,他进一步扩展了这一思路。

De Moivre 做了两个步骤/进步:

  1. 伯努利分布的正态近似,有助于轻松计算结果在某个范围内或外的概率。在关于 Arbuthnot 案例的示例之前的部分中,de Moivre 写了关于伯努利分布的近似值(现在称为高斯/正态分布)。这种近似允许轻松计算 p 值(Arbuthnot 无法做到)。

  2. Arbuthnot 论证的概括。他提到“这种推理方法也可以有用地应用于其他一些非常有趣的调查”。(这可能部分归功于 de Moivre 看到了该论点的普遍适用性)


  • 根据 de Moivre 的说法,Jacob Bernoulli 在他的Ars Conjectandi中写到了这个问题。De Moivre 用英文将其命名为“分配限制,在该限制内,通过重复实验,事件的概率可能无限接近给定的概率”,但 Bernouilli 的原文是拉丁文。我不知道足够多的拉丁语能够弄清楚伯努利是否在写一个像 p 值这样的概念,或者更像是大数定律。有趣的是,伯努利声称这些想法已经有 20 年了(而且 1713 年的作品是在他 1705 年去世后出版的,所以它似乎早于 @Glen_b 对 Arbuthnot 的评论中提到的 1710 年)。

  • de Moivre 的灵感来源之一是 Nicolaus Bernouilli,他在 1712/1713 年计算了出生男孩数量不小于 7037 且不大于 7363 的概率,其中 14000 是出生的孩子总数,男孩的概率是 18/35。

    (这个问题的数字是根据伦敦 80 年的统计数据得出的。他在写给 Pierre Raymond de Montmort 的信中谈到了这一点,该信发表在 Montmort 的Essay d'analysis sur les jeux de hazard的第二版(1713 年)中。)

    我没有完全遵循的计算结果是 43.58 到 1 的概率。(使用计算机对从 7037 到 7363 的二项式的所有项概率求和,我得到 175:1,所以我可能误解了他的工作/计算。 )


1:约翰·阿布斯诺特(John Arbuthnot)在《神意的论证》中写到了这个案例,取自两性出生时观察到的恒定规律(1710 年)。

Arbuthnot 论点的解释:男孩:女孩的出生比例与中间明显不同。他没有准确计算 p 值(这不是他的目标),而是使用概率连续 82 次得到男孩>女孩认为这个数字会更加小到了 82 年,他最终得出的结论是,这不太可能,而且这必须是某种(神圣的)天意,以对抗男性更高的死亡率,最终实现男女平等。

128214836000000000000000000000

Arbuthnot:那么 A 的机会将接近一个无限小的数量,至少小于任何可分配的分数。由此可见,支配的是艺术,而不是偶然。

我有三个支持链接/参数,它们支持日期 ~1600-1650 用于正式开发的统计数据,而更早地用于概率的使用

如果您接受假设检验作为基础,早于概率,那么在线词源词典提供:

"假设 (n.)

1590 年代,“特定声明;” 1650 年代,“一个命题,假定并被视为理所当然,用作前提”,来自中古法语假设,直接来自晚期拉丁假设,来自希腊假设“基础,基础,基础”,因此扩展使用“论点的基础,假设”,字面意思是“放置在”,来自hypo-“在”(参见hypo-)+命题“放置,命题”(来自PIE根*dhe-“设置,放置”的重复形式)。逻辑术语;狭义的科学意义是从 1640 年代开始的。”。

维基词典提供:

“自 1596 年开始记录,来自中古法语假设,来自晚期拉丁假设,来自古希腊语 ὑπόθεσις(hupóthesis,“基础,论证的基础,假设”),字面意思是“置于之下”,本身来自 ὑποτίθημι(hupotíthēmi,“我设定之前,建议”),源自 ὑπό(hupó,“下面”)+ τίθημι(títhēmi,“我放置,放置”)。

名词假设(复数假设)

(科学)松散地使用,一种尝试性的猜想,解释可以通过进一步的观察、调查和/或实验来检验的观察、现象或科学问题。作为一个科学术语,见所附引文。与理论和那里给出的报价进行比较。语录▲

  • 2005,Ronald H. Pine,http ://www.csicop.org/specialarticles/show/intelligent_design_or_no_model_creationism,2005年 10 月 15 日:

    我们当中有太多人在学校被教导说,科学家在试图弄清楚某些事情的过程中,首先会提出一个“假设”(猜测或推测——甚至不一定是“受过教育的”猜测)。... [但是]“假设”一词应该在科学中专门用于对为什么某些现象存在或发生的合理、明智、知识渊博的解释。一个假设可能还未经检验;可能已经过测试;可能是伪造的;尽管经过测试,但可能尚未被伪造;或者可能已经被无数次无数次的测试而不被伪造;它可能会被科学界普遍接受。理解科学中使用的“假设”一词,需要掌握奥卡姆的基本原理。s Razor 和 Karl Popper 关于“可证伪性”的思想——包括任何受人尊敬的科学假设原则上必须“能够”被证明是错误的(如果它应该,事实上,只是碰巧是错误的),但是没有一个可以被证明是真的。正确理解科学中使用的“假设”一词的一个方面是,只有极少数的假设可能成为理论。”。

关于概率和统计维基百科提供:

"数据收集

采样

当无法收集完整的人口普查数据时,统计学家通过开发特定的实验设计和调查样本来收集样本数据。统计本身还提供了通过统计模型进行预测和预测的工具。根据抽样数据进行推论的想法始于 1600 年代中期,与估计人口和开发人寿保险的前身有关(参考:Wolfram, Stephen (2002). A New Kind of Science. Wolfram Media, Inc. p. 1082. ISBN 1-57955-008-8)。

要将样本用作整个人口的指南,重要的是它真正代表了整个人口。代表性抽样确保推论和结论可以安全地从样本扩展到整个人口。一个主要问题在于确定所选样本实际具有代表性的程度。统计提供了估计和纠正样本和数据收集程序中的任何偏差的方法。还有一些实验设计方法可以在研究开始时减轻这些问题,增强其辨别人口真相的能力。

抽样理论是概率论数学学科的一部分。概率在数理统计中用于研究样本统计的抽样分布,更一般地,用于研究统计过程的性质。当所考虑的系统或总体满足方法的假设时,任何统计方法的使用都是有效的。经典概率论和抽样理论在观点上的区别,粗略地说,概率论从给定的总体参数出发,推导出与样本有关的概率。然而,统计推断却朝着相反的方向发展——从样本归纳推断到更大或总人口的参数

摘自“Wolfram, Stephen (2002)。一种新的科学。Wolfram Media, Inc. p. 1082。”:

"统计分析

• 历史。古代已经进行了一些机会游戏赔率的计算。从大约 1200 年代开始,神秘主义者和数学家基于概率的组合枚举获得了越来越精细的结果,在 1600 年代中期和 1700 年代初期开发了系统正确的方法. 从抽样数据中进行推断的想法出现在 1600 年代中期,与估计人口和开发人寿保险的前身有关。在 1700 年代中期,主要在天文学中开始使用平均方法来校正假定的观察随机误差,而最小二乘拟合和概率分布的概念在 1800 年左右建立。基于概率模型的概率模型个体之间的随机变化在 1800 年代中期开始在生物学中使用,现在用于统计分析的许多经典方法是在 1800 年代末和 1900 年代初在农业研究的背景下开发的。在物理学中,概率模型是 1800 年代后期引入统计力学和 1900 年代初期引入量子力学的核心。

其他来源:

“本报告主要以非数学术语定义了 p 值,总结了 p 值方法进行假设检验的历史渊源,描述了 p≤0.05 在临床研究中的各种应用,并讨论了 p≤ 5×10-8 和其他值作为基因组统计分析的阈值。"

“历史起源”部分指出:

“使用概率概念将数据与科学假设进行比较的已发表工作可以追溯到几个世纪前。例如,在 1700 年代初期,医生约翰·阿布斯诺特分析了 1629 年至 1710 年间伦敦洗礼的数据,并观察到在所研究的每一年中,男性出生的人数都超过了女性的出生人数。他报告,如果假设男性和女性出生的平衡是基于偶然性,那么观察到男性超过 82 连续年是 0.582=2×10−25,或小于一 septillion(即万亿分之一)的机会。[1]

[1]。Arbuthnott J. 对天意的论证,取自两性出生中观察到的恒定规律。菲尔译 1710;27:186-90。doi:10.1098/rstl.1710.0011 发表于 1710 年 1 月 1 日

“P 值长期以来一直将医学和统计学联系在一起。John Arbuthnot 和 Daniel Bernoulli 除了是数学家外,都是医生,他们对出生性别比 (Arbuthnot) 和行星轨道倾角 (Bernoulli) 的分析提供了两者最着名的早期显着性检验示例。如果以它们在医学期刊中的普遍性作为判断它们的标准,那么 P 值在医学界也非常受欢迎。另一方面,它们受制于经常受到统计学家的批评辩护。例如,十几年前,著名的生物统计学家,已故的 Martin Gardner 和 Doug Altman145789与其他同事一起,成功地说服英国医学杂志减少对 P 值的重视,而更多地关注置信区间。流行病学杂志已完全禁止它们。最近,攻击甚至出现在大众媒体因此,P 值似乎是《流行病学和生物统计学杂志》的合适主题。这篇文章代表了个人的观点,如果有的话,可以说是为了捍卫他们。10,11

我将仅对 P 值进行有限的辩护。……”。

参考

1 Hald A. A history of probability and statistics and their appli- cations before 1750. New York: Wiley, 1990.
2 Shoesmith E, Arbuthnot, J. In: Johnson, NL, Kotz, S, editors. Leading personalities in statistical sciences. New York: Wiley, 1997:7–10. 
3 Bernoulli, D. Sur le probleme propose pour la seconde fois par l’Acadamie Royale des Sciences de Paris. In: Speiser D,
editor. Die Werke von Daniel Bernoulli, Band 3, Basle:
Birkhauser Verlag, 1987:303–26. 
4 Arbuthnot J. An argument for divine providence taken from
the constant regularity observ’d in the births of both sexes. Phil Trans R Soc 1710;27:186–90. 
5 Freeman P. The role of P-values in analysing trial results. Statist Med 1993;12:1443 –52. 
6 Anscombe FJ. The summarizing of clinical experiments by
significance levels. Statist Med 1990;9:703 –8.
7 Royall R. The effect of sample size on the meaning of signifi- cance tests. Am Stat 1986;40:313 –5.
8 Senn SJ. Discussion of Freeman’s paper. Statist Med
1993;12:1453 –8.
9 Gardner M, Altman D. Statistics with confidence. Br Med J
1989.
10 Matthews R. The great health hoax. Sunday Telegraph 13
September, 1998. 
11 Matthews R. Flukes and flaws. Prospect 20–24, November 1998.

@Martijn Weterings:“皮尔逊是在 1900 年复兴还是这个(频率论者)概念出现得更早?雅各布·伯努利(Jacob Bernoulli)是如何从频率论者的意义上或贝叶斯的意义上思考他的“黄金定理”的(Ars Conjectandi 告诉和是什么)还有更多来源)?

美国统计协会有一个关于统计历史的网页,连同这些信息,还有一张题为“统计时间轴”的海报(部分转载如下)。

  • 公元 2:汉代完成的人口普查的证据保存下来。

  • 1500 年代:Girolamo Cardano 计算不同掷骰子的概率。

  • 1600 年代:Edmund Halley 将死亡率与年龄联系起来,并制定了死亡率表。

  • 1700 年代:Thomas Jefferson 指导第一次美国人口普查。

  • 1839:美国统计协会成立。

  • 1894 年:Karl Pearson 引入了术语“标准差”。

  • 1935 年:RA Fisher 出版了《实验设计》。

统计的部分时间表

在维基百科网页“大数定律”的“历史”部分中,它解释了:

“意大利数学家Gerolamo Cardano (1501–1576)没有证据表明经验统计的准确性会随着试验次数的增加而提高。然后,这被形式化为大数定律。雅各布·伯努利首先证明了 LLN 的一种特殊形式(用于二元随机变量)。他花了 20 多年的时间开发出足够严格的数学证明,并于 1713 年在他的 Ars Conjectandi(猜想的艺术)中发表。他将此称为“黄金定理”,但后来被普遍称为“伯努利定理”。这不应与以雅各伯伯努利的侄子丹尼尔伯努利命名的伯努利原理相混淆。1837 年,SD Poisson 进一步将其描述为“la loi des grands nombres”(“大数定律”)。此后,它以这两个名字而闻名,但“

在伯努利和泊松发表他们的努力之后,其他数学家也为完善该定律做出了贡献,包括切比雪夫、马尔可夫、博雷尔、坎泰利和科尔莫哥洛夫以及钦钦。”


问题:“皮尔逊是第一个想到 p 值的人吗?”

不,可能不是。

在 Wasserstein 和 Lazar 撰写的“ The ASA's Statement on p-Values: Context, Process, and Purpose ”(2016 年 6 月 9 日)中,doi: 10.1080/00031305.2016.1154108有关于 p 值定义的官方声明(不是所有使用或拒绝 p 值的学科都没有同意怀疑),其内容如下:

" . 什么是 p 值?

通俗地说,p 值是在指定的统计模型下,数据的统计汇总(例如,两个比较组之间的样本平均差)等于或大于其观察值的概率。

三、原则

...

6. p 值本身并不能很好地衡量模型或假设的证据。

研究人员应该认识到,没有上下文或其他证据的 p 值提供的信息有限。例如,接近 0.05 的 p 值本身只能提供不利于原假设的弱证据。同样,相对较大的 p 值并不意味着支持原假设的证据;许多其他假设可能与观察到的数据相同或更一致。由于这些原因,当其他方法合适且可行时,数据分析不应以计算 p 值结束。”。

拒绝零假设可能早在皮尔逊之前就发生了。

维基百科关于零假设检验早期示例的页面指出:

零假设的早期选择

Paul Meehl 认为,选择零假设的认识论重要性在很大程度上没有得到承认。当零假设被理论预测时,更精确的实验将是对基础理论的更严格的检验。当原假设默认为“无差异”或“无影响”时,更精确的实验是对促使进行实验的理论的不太严格的检验。因此,审查后一种做法的起源可能是有用的:

1778:皮埃尔拉普拉斯比较了欧洲多个城市的男孩和女孩的出生率。他说:“很自然地得出结论,这些可能性的比例非常接近”。因此,拉普拉斯的零假设认为男孩和女孩的出生率应该是平等的,因为“传统智慧”。

1900:Karl Pearson 开发了卡方检验以确定“给定形式的频率曲线是否能有效地描述从给定人群中抽取的样本。” 因此,零假设是人口由理论预测的某种分布来描述。他以 Weldon 掷骰子数据中的 5 和 6 数为例。

1904:Karl Pearson 提出了“偶然性”的概念,以确定结果是否独立于给定的分类因素。这里的零假设默认情况下有两件事是不相关的(例如疤痕形成和天花的死亡率)。在这种情况下,零假设不再由理论或传统智慧预测,而是导致费舍尔和其他人拒绝使用“逆概率”的无差异原则。

尽管有人因拒绝零假设而受到赞誉,但我认为将他们标记为“基于弱数学地位的怀疑论的发现”是不合理的。