将参数理解为贝叶斯统计中的随机变量

机器算法验证 贝叶斯 随机变量 解释 参数化
2022-03-14 02:45:03

如果我理解正确,在贝叶斯统计中,参数是随机变量。在估计参数时,先验分布与数据相结合以产生后验分布。

问题:

  1. 每个数据点(样本和总体)是否由相同的参数实现生成?
  2. 如果是,我为什么要关心参数的分布(即其他可能的实现及其各自的概率质量或概率密度值)?毕竟,我试图从样本和先验中找出关于这个特定人群的一些信息。
  3. 如果没有,这如何反映在贝叶斯参数估计的公式中,如果有的话?

同时,我明白我的信念,无论是初始的(由先验反映)还是更新的(由后验反映)都是分布,我对此没有任何问题。但我想知道是否/为什么我应该假设参数本身是一个随机变量。

编辑:我收到了几个很有帮助的答案,但我会很感激另一个或几个更重要的答案。

3个回答

在频率统计中,我们假设在查看数据之前我们对感兴趣的参数一无所知。

在贝叶斯统计中,我们通过承认我们可能在查看数据之前对感兴趣的参数的可能值有所了解,从而放宽了这一假设——例如,参数在特定范围内取值的可能性有多大. 在我们看到数据之后,我们可以提炼/更新这些先验知识。因此,感兴趣的参数的先验分布封装了我们在看到数据之前关于这个(这些)参数的可能值的知识/信念,而相应的后验分布用从数据输入。

常客统计和贝叶斯统计都假设参数是必须估计的未知量。但它们在估计该数量所需的输入方面存在分歧:仅用于频率统计的数据与先验知识/信念加上贝叶斯统计的数据。

当贝叶斯主义者报告特定参数的后验分布的均值/中值/众数时,他们这样做是因为他们认为这是参数的最可能值(即,要估计的未知量)。但是参数是未知的,因此围绕这个最可能值(例如,95% 可信区间)的不确定性度量可以让您了解参数的真实值可能存在的位置。

作为一名接近贝叶斯领域的常客,我发现将参数视为我们试图估计的未知事物并将先验和后验分布视为封装我们在看到之前和之后对该未知实体的知识/信念状态的工具很有帮助数据,分别。

常客采用强硬的方法,即我们对我们所追求的未知实体一无所知,而贝叶斯主义者采用一种更现实和细致入微的方法,我们可能实际上知道一些事情,一旦我们看到数据,我们就会改进基于该知识。

因此,我们关心贝叶斯上下文中的分布,因为它们是表达当前知识/信念状态(对于先验分布)和希望在看到数据后实现的知识/信念状态改善(对于后验分布)的方便工具。

附录:

就个人而言,我赞同 Sander Greenland 在贝叶斯流行病学研究的观点:I. Foundations and basic methods,国际流行病学杂志,第 35 卷,第 3 期,2006 年 6 月 1 日,第 765-775 页(其中可在https://academic.oup.com/ije/article/35/3/765/735529获得):

人们常说(错误地)“参数被常客视为固定,但贝叶斯认为是随机的”。对于常客和贝叶斯主义者来说,参数的值可能从一开始就固定,或者可能是从一种物理上的随机机制。在任何一种情况下,都假设它具有我们想知道的某个固定值。贝叶斯使用正式的概率模型来表达关于该值的个人不确定性。这些模型中的“随机性”代表个人关于该值的不确定性参数的值;它不是参数的属性(尽管我们希望它准确地反映产生参数的机制的属性)。

有关此主题的更多思考,请参阅http://thestatsgeek.com/2015/04/22/bayesian-inference-are-parameters-fixed-or-random/

每个数据点(样本和总体)是否由相同的参数实现生成?

  • 在示例中,如果您认为诸如异方差之类的事物具有像σΔt2=Δtσ02
  • 在总体中,如果您将分布视为狄拉克泛函,答案可能是肯定的,但在总体中不是自动的。考虑赌场不时改变获胜概率的情况。对于赌场的固定 100 次实验抽奖,赌场获胜的概率将是变化值的加权平均值。结构性中断的时间是未知的。如果赌场获胜的概率足够接近 0.5,那么对结构性中断进行建模是没有意义的,因为自然噪音会淹没现实,除非变化非常明显,例如从 50% 的获胜机会变为 99% 的获胜机会以 50 平局休息。事后,获胜的联合概率是一组固定平局的固定值,如果人口固定,则固定的概率,

如果是,我为什么要关心参数的分布(即其他可能的实现及其各自的密度)?毕竟,我试图从样本和先验中找出关于这个特定人群的一些信息。

您的问题反映了贝叶斯抱怨频率方法违反似然原则。为什么要考虑在执行 t 检验时看不到的样本?因为频率学方法在样本空间上进行平均。为什么要考虑与您的样本无关的参数的实现?响应较弱是因为贝叶斯方法在参数空间上进行平均。

这个问题将是一个非常合理的攻击,特别是在主观贝叶斯方法上,如果有人想要争论的话。尽管在某些思考方式下,似然原理已被证明是错误的,但频率论方法的哲学构造似乎并不反映贝叶斯的工作。那应该是一篇论文,即使它可能会分享贝叶斯统计中似然原理的错误。

更强有力的答案是,即使作为我们缺乏无限的样本量。因此,由于贝叶斯方法将随机性视为不确定性,而不是像频率论方法那样将其视为偶然性,因此这是对您对自然理解中的不确定性的量化。如果您需要对参数采取行动,并且您已将其缩减为只有两个可能的值,例如作为唯一的真正可能值肯定是不连贯的(在德菲内蒂的意义上) 。limnθ^θθ^Aθ^BPr(θ=θ^A)=.75θ^B

举一个具体的例子,我测试了 78 个破产模型,发现其中 76 个的累积后验概率是,而其他两个分别约为 54% 和 46%。幸运的是,这两个模型都没有共享变量。关心的一个原因是,几乎可以肯定,我的真正模型是错误的。预测密度的模型平均允许我创建一个非常小的样本外误差。我关心高概率模型,如果我有资源在包括 76 个低概率模型的完整模型平均下计算结果,那么结果不会在我认为重要的位数内发生变化。1/10,000th

如果没有,这如何反映在贝叶斯参数估计的公式中,如果有的话?

这就是贝叶斯定理。如果一个人在智力上非常诚实,那么真正的、极端的主观主义观点,一种野蛮人,只需要适当的后验密度。如果我要和你一起赌博,按照德菲内蒂的说法,关于从十层楼走下来重力是否有效,那么我应该在进行赌博之前考虑对现实的另一种看法。现在,如果我想包括决策理论,因为走下 10 层楼的建筑物是全有或全无成本函数的自然版本,那么如果我对重力的信念足够强,那么我应该走下建筑物. 这样做时,我只会担心这个实验,因为如果我错了,可重复性就会成为问题。在这种情况下,除非我是正确的,否则您的问题没有任何意义。另一方面,如果我在赌钱,那么在大多数实际情况下,考虑到赌博需求曲线的性质以及与赌博收入的关系,二次损失将是合适的损失函数。

改变参数的可能性反映在贝叶斯更新中。您的问题仅在重复时才有意义。这是纯粹主观主义框架中贝叶斯更新的缩影。我如何模拟参数的主观绘制,通过运行许多实验并加入它们以将后验范围缩小到自然的解决方案?这是一个围绕生成模型构建的思维系统。

编辑 我想我应该备份一下。贝叶斯方法有不止一种解释和不止一种公理化。他们稍微强调了你的问题。

在主观解释中,参数是从分布中随机抽取的。该分布是先验密度。如果您考虑贝叶斯定理的分子,那么从逻辑上讲,分子强烈依赖于先验。由于是随机的,因此可以将实验视为的实例化。如果你做另一个实验,那么它是的另一个实例化。目标是找到参数的真实分布。这种分布可能在一个点上具有无限质量,而在其他任何地方质量为零。f(x|θ)π(θ)θθθ

在客观解释中,参数与频率论方法一样是固定的,但它们是未知的。先验表示的未知概率的量化。可能性是样本的分布。有一些自然已知的参数用于创建样本自然先验在单个点上具有无限质量,而在其他地方为零。您的先前包含有关您到目前为止所发现的信息的信息。可能性只考虑看到的样本并忽略样本空间的其余部分。θ=kθX

这两种解释在数学形式上没有区别。还有一种“方便解释”。它会是这样的。贝叶斯方法确实很有用,但找出先验则不然。如果可以创建不影响参数发现的先验,则应使用最方便和简单的先验,因为先验在规范化样本方面可能非常有价值。在这种观点下,参数仍然是随机变量,但没有人过多考虑它的含义。它只是有用的。

贝叶斯思维背后有三组主要的公理。在某些情况下,选择确实很重要。这不是由于计算差异,而是由于理论差异。例如,Savage 的公理允许研究人员将效用和概率分开。de Finetti 的公理不允许研究人员将效用与概率分开。这是因为德菲内蒂的构造中不存在概率。

de Finetti 有两个公理。首先是博彩公司不会接受在所有自然状态下都会导致肯定输的赌注。第二个是博彩公司将以博彩公司规定的价格接受所有有限投注。这是一种不寻常的方法来激发在标准温度和压力下物体速度的概率测试,但它确实有效。它重申了赌博的概率。请注意,这两个公理都没有提到概率和效用。德菲内蒂世界中的概率只是我们用来思考世界的一种计算,实际上并不存在。实用性也没有。因此,如果您将效用和概率一起使用,它们是无法区分的,因为它们都是存在以帮助理解世界的抽象计算。它们只是心智的构造。

例如,考虑频率论者和贝叶斯论者如何理解 Cho Han 的游戏。要了解贝叶斯观点,请观看 1962 年的日本电影 Zatoichi。Cho Han 是一款取决于骰子是偶数还是奇数的游戏。它通常用作 Yakuza 电影中的设备。这是因为,正如任何物理学家、魔术师或骗子都会告诉你的那样,不存在随机掷骰子或抛硬币这样的事情。结果对观众来说是不确定的,但对知情者来说是完全确定的。样本不可能是随机的,因为一旦完成它就是固定的。你知道的。问题是参数如何成为随机变量。

缺少的是创建参数的策略。在完美指定的模型中,无法区分一组实验,其中来自,不确定的位置。θπ(θ)θ=θtrueθtrue

至于问题二,你应该阅读关于可能性争议的内容。似然原理表面上可能无效,但它是您问题二的贝叶斯版本。这是一个非常深刻的问题,不能有一个肤浅的答案。你可以写一本书,当然也可以写一篇关于它的文章。

似然原则建立在两个原则之上,频率论推理违反了它。它建立在两个原则之上,即条件性原则和充分性原则。如果条件性原则和充分性原则成立,那么 p 值始终是确定推理的不正确方法。条件性原则和似然性原则对大多数统计学家来说都具有单独的吸引力,但它们联合起来可以被认为是对频率论的分析。您的问题可以被视为频率论者的平行。

因此,您得到的答案比您预期的要深。事实上,如果我是一名博士生,我可能会坐下来思考你的问题二。那里可能有一个深刻的基本原则。

参见例如,堆栈交换可能性问题

或者

可能性讲座

你的问题:是否每个数据点都由相同的参数实现产生?

我的回答:不。我认为每次抽取样本时参数都会发生变化。

我的推理:我查看了 Richard McElreath(第 1 版)的“Statistical Rethinking: A Bayesian Course with Examples in R and Stan”的第 83 页,发现了以下代码:

sample_mu <- rnorm(1e4, 178, 20)
sample_sigma <- runif(1e4, 0, 50)
prior_h <- rnorm(1e4, sample_mu, sample_sigma)
dens(prior_h)

该代码基本上从正态分布中生成 10,000 次绘制,其中均值遵循正态先验,而 sigma 遵循统一先验。代码表明,每次抽取样本时,参数 mu 和 sigma 都会发生变化。

假设其他情况,并假设所有采样观测值使用相同的参数值。然后这个样本将包含来自参数分布的单个值的信息,您无法从中估计超参数。