贝叶斯框架中的数据是如何生成的,生成数据的参数的性质是什么?

机器算法验证 贝叶斯 造型 事先的 常客 随机性
2022-03-29 04:41:46

我试图重新学习贝叶斯统计(每次我以为我终于明白了,其他一些我之前没有考虑过的东西突然出现......)但我不清楚(对我来说)数据生成过程是什么在贝叶斯框架中实际上是。

常客框架对我来说很清楚。有一些“真正的”参数并且该参数根据其参数化的分布生成数据。θ

但是,在贝叶斯设置中,我们将参数建模为随机变量。那部分不会让我感到困惑。这是有道理的,因为贝叶斯将这种概率解释为自己信念的不确定性。他们可以为不可重复的事件分配概率。所以我解释“贝叶斯主义”的方式是,它相信有一些参数生成数据,它肯定是未知的,但是一旦它被“自然”决定就固定了(也许自然确实随机决定了它应该是什么成为)。然而,它是固定的,因此它的创建是一个“不可重复的事件”。尽管它是不可重复的,但我们只是试图更新我们自己对θ给定的数据。因此,数据可能是由我们的概率分布(先验)考虑的任何参数生成的,但是,该参数是固定的且未知的。我们只是给它附加了一个概率值。

有了这种观点,我可以假设数据生成过程与常客的过程几乎相同。“自然”使用“真实”“先验”分布,一旦随机变量实现其“真实”(但固定)实现,它就会开始生成我们观察到的数据。θP(θ)

这是在贝叶斯框架中解释数据生成过程的标准方法吗?

关于我的观点的主要事情是,参数是明确固定的(被视为 rv 的实现),它根据生成数据。因此,我认为另一个非常重要的观点是,对我来说,我们的先验只是一种可量化的方式来表达我们的固定(和不可重复)事件的不确定性这是人们如何解释先前的吗?θθθP(θ)


侧面幽默说明:

我希望可以问“自然”她是如何做到的,并一劳永逸地解决这个问题……哈哈。

4个回答

这很简单:贝叶斯主义者和常客在数据生成模型的概念上没有区别。

为了理解这一点,首先考虑数据生成模型在可能性中的数学编码,这是贝叶斯和常客推理的基础。贝叶斯概率和频率概率之间的差异为零。

现在,您可以说:这并不意味着贝叶斯主义者认为数据生成过程的参数是固定的。当然,但实际上,以其他方式思考几乎没有意义 - 估计一个不固定的数量有什么意义?这在数学上意味着什么?当然,您的数量可能不是一个值,而是一个分布。但是然后你估计分布,所以它又被固定了。

正如@Xi'an 所说,真正的区别不在于我们的数据如何生成的假设,而在于推理。所以,当你说

但是,在贝叶斯设置中,我们将参数建模为随机变量。

我不同意——我们将关于真实参数的知识/不确定性建模为随机变量——这是微妙但重要的区别——我们将参数视为随机变量,以探索我们对其“真实”值的不确定性。

Gelman 等人的BDA第 3 页和第 4 页,第 3 版,很有启发性。贝叶斯统计旨在使用可观察量和不可观察量的概率模型从数据中进行推断。我们将不可观察的量称为参数,即使区别并不总是很明确。在贝叶斯统计中,模型中涉及的变量的所有不确定性都使用概率来表示。因此我们需要建立一个全概率模型,即所有人之间的联合概率我们的问题中涉及的变量,包括可观察的和不可观察的,即参数。这意味着我们使用随机变量来表示两者。这并不意味着我们相信参数是随机的:它仅仅意味着我们对参数真实值的了解是有限的,并且我们通过先验概率分布表示在观察数据之前我们所拥有的任何有限知识。然后,我们使用数据生成过程模型(产生一定的似然函数)和贝叶斯规则观察数据和观察数据的条件,以获得后验概率分布,它量化了我们对不可观察的数量。

换句话说,我们使用随机变量作为参数不是因为我们认为没有真正的参数,而是因为我们对它们的了解有限,在观察可测量变量的数据后有所改善,但它并没有完全消失。事实上,在某些技术条件下,后验分布趋向于 Dirac delta(因此用于表示参数的随机变量变得退化)在观察次数的限制下变为 0。如果没有参数的“真”值,这没有多大意义。现在,当然这些条件并不总是有效的,但在许多标准贝叶斯分析(即使不是全部)中,我们并不怀疑真实模型的存在,以及不可观测的真实或固定值的存在。

这是在贝叶斯框架中解释数据生成过程的标准方法吗?

不,这不是标准解释。实际上,您已经在问题中认识到概率的“主观”解释,这是贝叶斯统计的标准基础。在“主观主义”解释(更恰当地称为“认知”解释)下,参数的先验和后验概率分布用于表示用户对模型中未知参数的不确定性。在这种情况下,没有假设任何相应的形而上学过程在自然界中发生,或自然界中的任何随机性。事实上,在这种观点下,贝叶斯范式根本没有提供任何理论关于自然界的“数据生成过程”;它只是为我们提供了一种数学方法来模拟我们对自然界事物的不确定性,从而形成推理和预测理论

您的后一个描述是概率倾向理论的一个例子,它假设自然界中存在一个类似于概率演算的形而上学过程。这种对概率的解释假设自然界中存在某种内在的形而上学“倾向”,结果根据概率定律随机发生。与大多数贝叶斯主义者一样,我一直觉得倾向性帐户有点愚蠢。这确实是人类倾向于将我们自己的思维方式投射到自然上的一个例子,并假设自然界中存在与我们的认识论方法和结构类似的东西。(因此,“倾向解释”更恰当地是人类的倾向理论,而不是概率理论!)

现在,您可能决定采用主观主义的概率解释,或者您可能不同意我的观点并决定采用倾向解释。无论如何,如果你在这两种不同的解释之间模棱两可,你会让自己陷入可怕的混乱之中。这可能是目前给你带来困难的原因。

如果您假设您正在使用的基础模型是真实系统的完美表示,则参数然而,由于自然界通常比我们使用的任何数学模型复杂得多,因此不能做出这种假设。因此,您的模型没有“一个真正的固定”参数。θ

从数学上讲,随着您添加越来越多的数据,您将收敛到某个参数但是,这是由于您在建模过程中的假设不足。您应该小心地将其称为底层系统的真正固定参数。即使模型中的参数具有物理意义——也只是假设后验参数完全保留了这种解释。θ

贝叶斯视图中的数据是由“真正的系统”生成的——你永远无法正确建模。因此,假设模型的潜在真实参数不存在。