频率统计中的主观性

机器算法验证 贝叶斯 解释 常客 哲学的
2022-03-02 18:13:42

我经常听到这样的说法,即贝叶斯统计可能是高度主观的。主要论点是推理取决于先验的选择(即使可以使用无差异原则或最大熵来选择先验)。相比之下,常客的统计数据通常更客观。这句话有多少真实性?

此外,这让我想知道:

  1. 频率统计(如果有的话)有哪些具体元素可能特别主观,在贝叶斯统计中不存在或不那么重要?
  2. 贝叶斯统计中的主观性是否比频率统计中更普遍?
2个回答

我经常听到这样的说法,即贝叶斯统计可能是高度主观的。

我也是。但请注意,将某些事物称为主观存在很大的歧义。

主观性(两种感觉)

主观可以意味着(至少)其中之一

  1. 取决于研究人员的特质
  2. 明确关注个人的知识状况

贝叶斯主义在第二种意义上是主观的,因为它总是提供一种通过以信息为条件来更新由概率分布表示的信念的方法。(请注意,这些信念是某个主体实际拥有的信念还是只是一个主体可能拥有的信念与决定它是否是“主观的”无关。)

主要论点是推理取决于先验的选择

实际上,如果先验代表了您对某事的个人信念,那么您几乎可以肯定没有选择它,就像您选择了大多数信念一样。如果它代表了某人的信念,那么它可以或多或少地准确地代表这些信念,因此具有讽刺意味的是,关于它代表他们的程度会有一个相当“客观”的事实。

(即使可以使用无差异原则或最大熵来选择先验)。

可以,尽管这并不倾向于非常顺利地推广到连续域。此外,可以说不可能同时在所有参数化中保持平坦或“冷漠”(尽管我一直不太确定您为什么要这样做)。

相比之下,常客的统计数据通常更客观。这句话有多少真实性?

那么我们如何评估这种说法呢?

我建议在第二种主观意义上:它基本上是正确的。在第一个主观意义上:它可能是错误的。

作为主观的频率论(第二种意义)

一些历史细节有助于映射问题

对于 Neyman 和 Pearson 来说,只有归纳行为而不是归纳推理,并且所有统计评估都适用于估计器的长期采样特性。(因此是 alpha 和功率分析,但不是 p 值)。这在两种意义上都非常不主观。

事实上,有可能,而且我认为非常合理,按照这些思路争论频率论实际上根本不是一个推理框架,而是所有可能的推理过程的评估标准的集合,强调它们在重复应用中的行为。简单的例子是一致性、无偏性等。这使得它在意义 2 上显然是不主观的。但是,当我们必须决定在这些条件不适用时做什么时(例如,当没有有一个无偏的估计量)或当它们适用但相互矛盾时。

费舍尔提供了一种不那么客观的频率论,这很有趣。对于费舍尔来说,有一种叫做归纳推理的东西,从某种意义上说,一个主题,科学家,在数据分析的基础上做出推理,由统计学家完成。(因此是 p 值,但不是 alpha 和功率分析)。然而,关于如何表现、是否继续研究等的决定是由科学家基于她对领域理论的理解做出的,而不是由应用推理范式的统计学家做出的。由于这种费雪式的分工,主观性(意义 2)和个体主体(意义 1)都位于科学方面,而不是统计方面。

从法律上讲,费雪频率论主观的。只是主观的主体不是统计学家。

有各种可用的这些合成方法,既可以在应用统计教科书中找到这两者的几乎连贯的组合,也可以在更细微的版本中找到,例如 Deborah Mayo 推动的“错误统计”。后者在意义 2 中是相当不主观的,但在意义 1 中是高度主观的,因为研究人员必须使用科学判断 - Fisher 风格 - 来确定哪些错误概率很重要并且应该进行测试。

作为主观的频率主义(第一感觉)

那么,频率主义在第一种意义上是不是不太主观?这取决于。任何推理过程都可能充满实际应用的特质。所以也许问频率主义是否鼓励一种不那么主观(第一感觉)的方法更有用?我对此表示怀疑——我认为主观(第二感觉)方法的自我意识应用会导致主观(第一感觉)结果的减少,但无论哪种方式都可以争论。

暂时假设主观性(第一感觉)通过“选择”潜入分析。贝叶斯主义似乎确实涉及更多的“选择”。在最简单的情况下,选择总计为:一组用于频率论的潜在特殊假设(似然函数或等效函数)和两组贝叶斯假设(似然和对未知数的先验)。

然而,贝叶斯主义者知道他们对所有这些选择都是主观的(在第二种意义上),所以他们更容易意识到应该导致更少主观性(在第一种意义上)的含义。

相比之下,如果你在一大本测试书中查找测试,那么你可能会觉得结果不那么主观(第一感觉),但可以说这是用其他人对问题的理解代替自己的结果. 目前尚不清楚人们是否以这种方式变得不那么主观,但可能会有这种感觉。我想大多数人都会同意这是无益的。

频率论方法的主观性在推理的应用中非常猖獗。当你测试一个假设时,你设置了一个置信水平,比如 95% 或 99%。这是从哪里来的?它不是来自任何地方,而是来自您自己的偏好或您所在领域的普遍做法。

贝叶斯先验对大型数据集的影响很小,因为当您使用数据更新它时,随着越来越多的数据被处理,后验分布将偏离您的先验。

话虽如此,贝叶斯主义者是从概率、信念等的主观定义开始的。这使得它们与常客不同,后者根据客观概率进行思考。在小型数据集中,这会有所不同

更新:我希望你和我一样讨厌哲学,但他们不时有一些有趣的想法,考虑主观主义我怎么知道我真的在 SE 上?如果这是我的梦想呢?ETC。 :)