所有的观察都来自概率分布吗?

机器算法验证 可能性 分布 哲学的
2022-02-15 07:34:34

以下是卡尔·皮尔森在书中引用的引述:大卫·萨尔斯堡 (David Salsburg) 的《品茶的女士:统计学如何在 20 世纪彻底改变科学》:

一百多年前,Karl Pearson 提出所有观察都来自概率分布,科学的目的是估计这些分布的参数。在此之前,科学界相信宇宙遵循牛顿运动定律等规律,任何观察到的明显变化都是由于错误造成的。渐渐地,皮尔逊的观点成为主流。

我的问题是关于观察这个词的使用。上述引用是否暗示我们在自然/物理/实验中收集或观察到的任何数据都来自概率分布?确定性过程怎么样,肯定不是概率性的?对非专业人士的上述报价的任何扩展都会非常有帮助。

4个回答

统计学关注可以被认为是随机的现象。即使您正在研究确定性过程,测量噪声也会使观察结果随机化。我们可以通过使用将所有未观察到的因素视为“随机噪声”的简单模型来简化许多问题。例如,线性回归模型

heighti=α+βagei+εi

确实说我们将身高建模为年龄的函数,并将其他可能影响它的因素视为“随机噪声”。这并不是说我们认为它是完全“随机”的,意思是“混乱”、“不可预测”等。再举一个例子,如果你掷硬币,结果将是确定性的,只取决于物理规则,但是它受到许多导致其混乱性质的因素的影响,因此我们也可以将其视为一个随机过程。

如果您对所有相关数据有一个确定性的过程和无噪声测量,您就不需要统计数据。您将需要其他数学,例如微积分,但不需要统计。如果您需要考虑噪声并需要假设随机性,则可以这样做。概率分布不会“产生”任何东西,它们只是我们用来模拟现实世界现象的数学工具。

是的,这将是最短的答案。你提到了物理学。物理学总是以一种或另一种方式揭示测量误差或精度。这些错误始终是这门科学实践的一部分。像 Pearson 这样的人所做的是将错误视为随机变量。遵循这种方法是当今的普遍做法。因此,您甚至可以说确定性过程的测量实际上是从分布中抽样的。

看一下引力常数:G 这里,注意它的不确定性是如何给出的。注意,这不是一个固有的随机量,它是一个常数!另请阅读NIST 手册中的不确定性定义,它是根据概率分布进行描述的。

这是最近一篇物理论文的快照 注意±0.03- 报告测量不确定度的公约。物理学家有时会忽略它,当他们这样做时,这意味着所有报告的数字都是有效的。例如,如果你看到一个值“127.010”,这意味着不确定性在 0.0005 左右,即不能跳过最后一个 0,因为作者确信它实际上是零。这与在非科学环境中报告数量的方式完全不同,在非科学环境中,不确定性通常是不公开的

分布可以被认为是一个数据生成函数。

当我们进行推论统计时,我们会收集一个观察样本,然后我们尝试使用该样本来找出生成该数据的未知分布。

我们想知道分布的原因是因为我们可能想使用模型来预测未来的观察结果。如果我们能够找出真实分布的良好近似值,那么我们就可以确定未来的预测将大致遵循该分布,并且我们将对我们的预测有多准确有一个很好的了解。

分布不一定是概率性的。即使分布是完全确定的,它仍然会生成您可以观察到的数据。

概率从根本上不是关于世界的本质(可能是确定性的,也可能不是确定性的),而是关于你对它的了解。

考虑这个例子。

  • 你和你的朋友 Alice 和 Bob 坐在一起。

  • 我有一副标准的牌,洗好。

  • 顶牌是黑桃 A 的概率是多少?清楚地152.

  • 我把最上面的牌给爱丽丝看,但不给你或鲍勃看。

  • 如果我问爱丽丝,顶牌是黑桃 A 的概率是多少,她肯定会回答1或者0, 但不是152.

  • 但如果我问鲍勃,他还是会说152.

关键是要证明概率从根本上不是关于现实,而是关于你对现实的了解。卡片的顺序没有改变。

考虑扔一个公平的硬币正面朝上的概率是多少?12?

但事实上,掷硬币是一个确定性的过程,至少按照现代物理学的标准。科学家们已经制造出可以从运动的前几毫秒的视频中预测抛硬币的机器。一些魔术师已经训练自己投掷硬币如此准确,以至于他们可以随意获得正面或反面。我想他们是通过精确校准硬币翻转的力以及他们抓住它的那一刻来做到这一点的,这样他们就可以准确地知道它翻转了多少次。

但是,如果我没有受过训练,但要掷硬币,我无法预测结果。当我掷硬币时,它有时可能会高出两倍或三倍,或者角动量是其他时候的两倍或三倍。充其量我可以说它已经翻了 3 到 15 次。所以很明显,对我来说,即使我注意到它是从哪个方向开始的,我的概率仍然接近12.

同样,重点不是该过程不是确定性的——显然一些科学家和魔术师可以做到——而是我不知道确定性函数的参数是否准确我最初的无知,或知识的不精确,随着时间的推移而整合,扩大到涵盖可能结果的整个空间,以至于我不知道硬币会以哪种方式结束。

回到你的问题

我的问题是关于观察这个词的使用。上述引用是否暗示我们在自然/物理/实验中收集或观察到的任何数据都来自概率分布?确定性过程怎么样,肯定不是概率性的?

回到抛硬币的过程。在现代术语中,抛硬币是一个完全确定的过程——如果我们从初始条件开始并随着时间的推移进行整合,我们就会得到答案。使它“随机”的原因是我们不知道足够准确的初始条件来预测它是正面还是反面。我们可以对初始条件及其误差线进行估计,并使用略有不同的初始条件运行数百万次确定性的蒙特卡罗模拟,在每个单独的模拟中都会有一个答案,但答案会有所不同,并且比率从头到尾的数量约为12.

所以另一种思考方式是,假设宇宙是确定性的,那么“概率分布”是所有可能过去的时间积分的加权分布。也就是说,每一个可能的过去——那些我们不知道是错误的——通过时间确定性地整合到现在。

(毫无疑问,科尔莫哥洛夫将在坟墓中翻身。)

因此,在这种观点中,观察是一个基本事实,我们可以通过时间向后整合,以消除可能不会产生该观察的过去。

  • 如果你刚刚拿到红​​心 A,那意味着我之前没有拿到过。

总之,

  • 不会说观察来自概率分布。
  • 有一个现实引起了观察。
  • 观察为我们提供了有关该现实(特别是过去)的信息,我们可以结合观察来创建过去的模型,从而使我们能够对未来进行预测。
  • 过去的那个模型就是所指的概率分布