如何回答关于频率统计框架不适用于现实世界的批评?

机器算法验证 推理 解释 常客 哲学的
2022-03-27 05:05:06

我经常听到这样的论点,即常客统计数据是无用或扭曲的,因为没有任何事件是精确可重复的,更不用说可无限重复多次了,而且因为现实世界中没有独立同分布序列,因为“因果因素导致分布变化(?!)” . 以下是此类参数的过分使用示例:

http://mitchgordon.me/math/2021/04/02/probability.html

多年来,我成功地将常客统计应用到现实世界的问题上,我完全不同意这些论点。你能帮我找出以下论点的弱点吗:

  • 常客统计不适用于现实世界的问题,因为没有事件是完全可重复的,更不用说可以无限次重复了。
  • 看似可重复、独立同分布、随机的事件,例如掷硬币,实际上是确定性的。顺便说一句,我认为这里作者将单次掷硬币的可重复性与整个掷硬币序列的可重复性误认为是频率统计实际上关心的问题,但我认为这对什么没有太大的影响它考虑了这一批评。
3个回答

至于第一个批评,它可以是对任何和所有科学分支的批评。没有完全可重复的实验。完全控制任何实验是不可能的。例如,流星可能会撞击实验的位置。

此外,重复实验的能力也无关紧要。大多数频率论推论的形式为该框架中的频率是一种限制形式。如果模型为真,则 p 值有意义。更好的批评是“当模型不正确时会发生什么?” 这是一个很好的批评,因为你的 null 通常与你真正相信的相反。Pr(t(x)|θ)

频率论频率不是口语意义上的概率。它们是提供保证的概率。除了精确测试,当您阅读时,它实际上并不意味着它只是保证假阳性率(如果 null 为真)在无限次重复中不会超过 5%。然而,随着重复次数变得足够大,它会趋于收敛。p<.05p=.05

确实,一个人不能做无限次的重复,如果你只做一个样本,它可能是 100% 错误的。尽管如此,它确实提供了一种合理的推理和决策方式。它允许您控制被愚弄的频率。它不允许你说这一次不是我将成为傻瓜的时候。

困难不在于数学或使用,而在于人类需要没有误报或误报。问题在于人类需要统计显着性以完美地映射到真实的事物,而缺乏对虚假事物的意义。

第二个批评是对任何概率方法的有效批评。由于贝叶斯方法构造背后的逻辑,贝叶斯方法可能更好地处理这种批评,这可能是真的。

如果您需要对此保持纯粹的态度,那么可以将频率方法的使用限制在真正没有先验知识或真正感兴趣的零假设为尖锐零的情况下。

让我来说明这一点。

你有一个美国硬币,你将在一个特制的真空室中用精心构造的抛硬币机抛掷 50,000 次。您想确定硬币是否公平。

即使你认为这些硬币“大致公平”,放弃这种信念也是合理的,除非真的对美国硬币的公平性进行了对照研究。作为旁注,一组工程专业的学生已经完成了这样的研究。

折腾是完全确定性的并且高度受控。目前尚不清楚频率论方法在此处将如何处于不利地位。

现在让我们重做一下实验。

让我们假装你和我要在硬币的公平性上赌钱。确实,我相信硬币是如此不公平,以至于它会连续十次出现正面。你相信这是一枚公平的硬币。在赌博任何钱之前,我们将进行试点研究,并让第三方掷硬币十次。它出现了十分之六的正面。

所以我要求你以 500:1 的赔率下注。我将掷硬币十次。

就在你这样做之前,一位朋友在你耳边低语说我是我叔叔的学徒,他是一名舞台魔术师。另外,有人告诉你,我被逮捕了,但没有被定罪,因为我用化名 Slick Eddy 参与了一些街头游戏,比如三张牌蒙特和硬币游戏。指控被撤销是因为,尽管我可能与被指控的肇事者有着惊人的相似之处,但没有人愿意出面指认我在警察阵容中的身份。

您不想将这些信息与贝叶斯先验结合起来吗?

确实没有随机抛硬币这样的事情。任何物理学家、魔术师或骗子都会告诉你同样的事情。

频率论者方法会告诉你整个过程是不公平的,事后,但它不允许你纳入所有外部信息。频率论方法在构造上是完全准确的,但在这种情况下,结果估计量本质上不太精确。

第二个论点是符合目的。频率统计并不是人类所有疾病的万能药。它们是工具包中的工具。

让我们把上面的例子颠倒过来。

想象一下,你真的不具备任何你必须做出决定的外部知识。您确实有能力收集样本,并且可以使用贝叶斯或频率统计。

频率统计最小化了您需要承担的最大风险。贝叶斯方法没有。频率论方法尽管没有背景信息,但提供了有保证的性能水平。在真正无知的状态下,拥有它是一件很有价值的事情。贝叶斯方法不能做到这一点。

我认为问题中提出的论点的问题在于其背后的模型的朴素现实主义哲学。

如果我们以频率主义的方式对实验进行建模,我们所做的是,在使用模型时,我们将实验视为可以无限重复,随机结果的相对频率随着观察次数的增加而稳定。

所陈述的论点似乎暗示只有在实验真正客观地属于这种情况时,这才是合适的。但是模型是一种理想化。很明显,在预测(例如,在 1000 次抛硬币中将观察到多少个正面)时,涉及抛硬币的确切物理学将是毫无意义的努力。假设一个 iid 常客模型,这很容易实现。现在显然不能保证现实表现得像模型中所说的那样。然而,这可以(至少在某种程度上)凭经验进行检查,例如使用运行测试来查看正面和反面的序列是否偏离独立时的预期。以这种方式可以验证的不是模型的真实性,而是它对使用它的任务的适用性。

可以以这种方式使用模型,而不需要模型形式化的内容在幼稚的现实主义意义上是真实的。这可能行得通,也可能行不通;我们不应该忘记我们正在处理理想化并且我们正在做出可能影响我们从模型中得出的结论的假设。因此,模型及其假设需要进行批判性讨论,使用情况知识以及经验检查,并在需要时拒绝或更新。有时,模型的最佳用途是使研究人员能够了解违反的方式。

请注意,诸如“独立”和“相同重复”之类的概念最终是人类的建构。假设“独立性”意味着“任何可能的依赖来源都被观察者认为不重要”,“相同重复”意味着“观察者认为重复在任何相关方面都没有不同”。这涉及观察者的判断,这些判断可能会受到质疑、讨论,有时甚至会被经验证伪。观察者自己只能以试探性的方式做出这样的判断,在出现伪造或强烈怀疑的情况下可以学习和调整。

关于模型假设的另一句话:假设我们对估计某个实际数量感兴趣,并且我们有与之相关的观察结果。假设某个频率模型(例如“数据 iid 以未知参数呈指数分布”)并用我们在现实中感兴趣的参数来识别一个参数,可以让我们推导出一个在模型框架中定义明确的最优估计量。所以我们可以使用这个估计器来估计现实中感兴趣的数量。尽管估计器的保证最优性要求模型是真实的,但建立这样的模型是在现实中激发合理估计器的一种聪明方法,甚至可以使用例如置信区间来指示不确定性,即使没有任何保证模型是真实的。该模型在这里所做的是为我们提供了一个基本原理,一个想法,一个做什么,只要没有针对该模型的具体反对意见,我们就可以认为这是有道理的。只要我们没有更好的模型,就很难说我们可以做得更好(尽管我发现解释结果是可取的,承认使用该模型的原因不是我们知道它是真的)。

阅读博文后,我认为作者是在说我们不应该在现实世界的模型中使用随机性,因为现实世界不是随机的,因为一切(例如硬币翻转)实际上都有原因。

这使得概率论成为最后的科学。只有在真正用尽了调查因果因素和过程的能力之后,你才应该沉迷于概率思维。不这样做是一种逃避,一种危险的感觉是“科学”的。

但是,我不同意这一点。我想说概率只是一种量化你不知道的东西的方式,甚至只是说你不知道什么。

把某事当作随机的,就等于说你不知道。

因此,如果你坚持(像某些人那样)从不使用概率论,那么你就是在假设你知道与正在调查的问题相关的一切,在我看来,这更像是一种逃避,而不是直接承认你不知道一些事情。

您缺乏知识是否被量化为“如果事情发生了其他方式怎么办?” (常客)或“我一开始就不确定世界的基本状态”(贝叶斯)并不那么重要。重要的是,无论你想出什么答案,你都不应该确定它是正确的。那简直是疯了!

正如 Lewian 在上面的答案中所说,“所有模型都是错误的,但有些模型是有用的”也适用于概率本身。用概率表示不确定性是现实世界的一个模型,它通常很有用。