机器算法验证 - 贝叶斯统计结论：我们隐含地以任何协变量的已知值Xx - 吾爱随笔录

贝叶斯统计结论：我们隐含地以任何协变量的已知值Xx

机器算法验证贝叶斯条件概率预测器调理

2022-04-12 06:05:49

我的贝叶斯数据分析教科书说：

或未观测数据的贝叶斯统计结论是根据概率陈述得出的。的观测值为条件，在我们的符号中，简单地写为或。的已知值为条件。 $\theta$ $\tilde{y}$ $y$ $p(\theta|y)$ $p(\tilde{y}|y)$ $x$

第 6 页，贝叶斯数据分析，第三版，Gelman 等人。

我想知道最后一部分是什么意思：

的已知值为条件。 $x$

我知道是解释变量（也称为协变量或预测变量），但我们如何“隐含地以它们为条件”？这是什么意思？ $x$

如果人们能花时间解释这一点，我将不胜感激。

2个回答

对变量进行隐式条件仅仅意味着我们对它进行条件化，但我们没有在概率语句中将其声明为条件变量（即条件是隐式的，而不是显式的）。这通常是出于简洁的原因，特别是如果您在做大量陈述时总是以为条件，并且完全从您的符号中省略这一点会更简洁，以避免给读者带来负担。 $x$

所以 Gelman等人的意思是，他们将继续使用和类的符号，它们没有将表示为条件变量，但他们的工作也可以被解释为好像是每个语句中的隐式条件变量。因此，当他们在语句中使用这些函数时，它们实际上分别指的是和。 $p(\theta|y)$ $p(\tilde{y}|y)$ $x$ $x$ $p(\theta|y,x)$ $p(\tilde{y}|y,x)$

关于这个问题，还值得注意的是，许多概率理论认为所有概率都是以隐含信息为条件的。这个想法与数学家 Alfréd Rényi 的公理化方法最为著名（参见例如Kaminski 1984）。Rényi 认为，每个概率度量都必须被解释为以某些潜在信息为条件，而对边际概率的引用仅仅是对潜在条件隐含的概率的引用。

除了其他出色的答案外，在这里我将尝试提出更明确的论点。明确论证有助于理解其基本假设，因此我们可以判断何时使用论证，何时避免使用。这将是关于回归变量的条件与将它们视为固定变量之间有什么区别中提出的论点的贝叶斯版本？, 我将从那里使用符号。

所以假设我们对随机向量的一些类似回归的模型感兴趣，其联合密度可以分解为其中是给定（回归模型）的条件分布中的未知参数是的边际分布中的未知参数。我们假设感兴趣的焦点在回归关系中，所以是焦点或兴趣参数，而是一个附带的参数 $(X, Y)$ $f(y,x \mid \theta,\psi)$

f_{θ} (y ∣ x) \cdot f_{ψ} (x)

$f_\theta(y\mid x)\cdot f_\psi(x)$

θ

$\theta$

Y

$Y$

X

$X$

ψ

$\psi$

X

$X$

θ

$\theta$

ψ

$\psi$ 范围。

如果现在先验分布以相同的方式分解，即那么经过一些操作我们发现其中因此，在我们的假设下，后验分布因素与先验的方式相同，因此如果我们唯一感兴趣的是回归关系（因此在中），我们不需要对完全可以，所以可以为条件

π (θ, ψ) = π_{1} (θ) \cdot π_{2} (ψ)

$\pi(\theta,\psi) = \pi_1(\theta)\cdot \pi_2(\psi)$

π (θ, ψ ∣ y, x) = π_{1} (θ ∣ y, x) \cdot π_{2} (ψ ∣ x)

$\pi(\theta,\psi \mid y,x) = \pi_1(\theta \mid y,x)\cdot \pi_2(\psi\mid x)$

π_{1} (θ ∣ y, x) = \frac{f_{θ} (y ∣ x) π_{1} (θ)}{\int f_{θ} (y ∣ x) π_{1} (θ) d θ} π_{2} (ψ ∣ x) = \frac{f_{ψ} (x) π_{2} (ψ)}{\int f_{ψ} (x) π_{2} (ψ) d ψ}

$\pi_1(\theta\mid y,x)=\frac{f_\theta(y\mid x) \pi_1(\theta)}{\int f_\theta(y\mid x) \pi_1(\theta)\; d\theta} \\ \pi_2(\psi \mid x) = \frac{f_\psi(x) \pi_2(\psi)}{\int f_\psi(x) \pi_2(\psi)\; d\psi}$

θ

$\theta$

f_{ψ} (x)

$f_\psi(x)$ $x$ .

这个框架还可以很容易地看出这种条件何时有问题，一个明显的例子是当我们将滞后响应作为预测变量时。另一种情况是遗漏变量，在回归模型中，遗漏变量将隐含地成为误差项的一部分，因此，如果遗漏变量与其他预测变量相关，则会导致与回归中的误差项之间存在相关性，从而破坏分解. $X$

其它你可能感兴趣的问题

上一篇光滑度测量下一篇一个 ML 估计器怎么可能不是唯一的或一致的？