当我的数据集很大时,为什么我应该是贝叶斯?

机器算法验证 贝叶斯 大数据
2022-02-14 03:18:16

来自“为什么我的模型错误时我应该是贝叶斯? ”,贝叶斯推理的主要优点之一是能够以先验的形式将外生领域知识注入模型中。当您没有足够的观察数据来做出良好的预测时,这尤其有用。

然而,随着数据集变大,先验的影响会减小(到零?)。因此,如果您有足够的数据,则先验提供的价值很小。

在这种情况下使用贝叶斯分析有什么好处?

也许我们仍然得到参数值的后验分布?(但是对于足够大的数据,后验不会塌陷到 MLE 吗?)

4个回答
  1. 成为贝叶斯不仅是关于通过先验提供的信息。但即便如此:在先验为零的情况下,任何数据量都不会改变它。

  2. 拥有一个完整的贝叶斯后验分布可以打开大量的推理方法。

  3. 向任何听众解释可信区间很容易,而您知道大多数听众对置信区间的理解非常模糊。

  4. Andrew Gelman 在他的一个 youtube 视频中说,总是略低于,因为如果它不小,我们就不会阅读它,如果它小得多,他们会检查子组。虽然这不是绝对的真理,但实际上,当您拥有大量数据时,您会很想调查已定义的子组(“当我们只调查 30 岁以下的白人单身女性时仍然如此吗?”)并且即使是大数据也往往会缩小很多很多。p0.05

  5. p值往往变得毫无价值,因为在现实生活中,在大数据集中没有任何零假设成立。,这是关于值的传统的一部分,即使在绝对不需要如此大的误差范围的巨大数据集中也是如此。贝叶斯分析不限于点假设,并且可以发现数据处于与零假设实际等价的区域,贝叶斯因子可以让您相信某种等效的零假设,其中值只能积累反对它的证据. 你能找到通过置信区间和其他频率学方法来模拟的方法吗?可能是的,但贝叶斯以这种方法作为标准。p.05p

  6. “但是对于足够大的数据,后验不会塌陷到 MLE” - 如果后验是双峰的,或者如果两个预测变量相关,那么你可以有不同的组合,例如 - 后验可以代表这些不同的组合,MLE 点估计器不会。β8β9

我想以略微不同的重点回应另一个答案中的一些观点。

对我来说,最重要的问题是,贝叶斯关于不确定性/概率/随机性的观点直接回答了我们可能关心的问题,而频率论的不确定性观点直接回答了其他一些通常不重要的问题。贝叶斯推论试图告诉我们(或算法、机器等)在给定我们所看到的数据的情况下应该相信什么,或者换句话说“我可以从这些数据中了解世界的什么?” 频率论推论试图告诉我们,如果我们实际看到的数据被“重新生成”或“重复采样”无数次,我们的结果会有多么不同。就个人而言,我有时会发现常见问题很有趣,但我想不出贝叶斯问题不存在的场景 t 最重要的是什么(因为在我看到新数据后,我想决定相信什么或做什么)。值得注意的是,人们(包括统计学家)经常错误地将频率分析解释为回答贝叶斯问题,这可能背叛了他们的实际兴趣。当人们担心贝叶斯方法固有的主观性时,我想到了 Tukey 的一句话,“对正确问题的近似答案,通常是模糊的,比对错误问题的准确答案要好得多,这总是可以做出的精确的。” 就其价值而言,频率论方法也是主观的,并且可以说是以不太明显和不方便批评的方式。值得注意的是,人们(包括统计学家)经常错误地将频率分析解释为回答贝叶斯问题,这可能背叛了他们的实际兴趣。当人们担心贝叶斯方法固有的主观性时,我想到了 Tukey 的一句话,“对正确问题的近似答案,通常是模糊的,比对错误问题的准确答案要好得多,这总是可以做出的精确的。” 就其价值而言,频率论方法也是主观的,并且可以说是以不太明显和不方便批评的方式。值得注意的是,人们(包括统计学家)经常错误地将频率分析解释为回答贝叶斯问题,这可能背叛了他们的实际兴趣。当人们担心贝叶斯方法固有的主观性时,我想到了 Tukey 的一句话,“对正确问题的近似答案,通常是模糊的,比对错误问题的准确答案要好得多,这总是可以做出的精确的。” 就其价值而言,频率论方法也是主观的,并且可以说是以不太明显和不方便批评的方式。

离开我的贝叶斯高马,你是对的,对常见问题(尤其是 MLE)的回答有时与贝叶斯问题的答案非常吻合(在极少数情况下,完全一致)。

然而,大数据在某些意义上是一个模糊的概念,可以使贝叶斯和频率论 (MLE) 的答案保持不同:

  1. 大多数关于大数据的结果都是渐近的,因为样本量趋于无穷大,这意味着当我们的样本量实际上足够大以使渐近结果足够准确(达到某个已知的误差水平)时,它们不会告诉我们。如果您不厌其烦地对数据进行贝叶斯和频率分析,并发现它们在数值上相似,那么这并不重要。
  2. 通常对于“大”数据(例如许多观察),我们也有大量的问题或感兴趣的参数。这基本上是伯恩哈德的第 4 点。
  3. 由于测量误差或抽样偏差等问题,许多大型数据集的设计并不完美,并且与我们的利益间接相关。老实说,这些并发症甚至可能不会逐渐消失,这意味着将数据与我们关心的实际相关联的模型具有不可识别的敏感性参数,这些参数最自然地使用先验和贝叶斯机制来处理。

当然,这个问题的另一面是“当我的数据集很大时,为什么我应该成为常客?”

其他答案解决了可能是您的实际问题。但只是为了添加一个更具体的观点:如果您已经是贝叶斯(针对小型/中型数据集)并且您获得了大数据,为什么不使用您熟悉的方法呢?相对较慢,但您熟悉这些步骤,因此您犯错误的可能性较小,并且您更有可能发现问题。贝叶斯工作流程包括后验预测检查等,这对于理解您的模型很有用。

贝叶斯方法遇到大型数据集的一个地方是贝叶斯深度学习。当对神经网络使用贝叶斯方法时,人们通常使用相当简单的先验(高斯,以零为中心),这主要是出于计算原因,但也因为没有太多先验知识(神经网络参数是黑盒式的)。之所以使用贝叶斯方法,是因为它开箱即用地为我们提供了不确定性估计。