机器算法验证 - 使用条件分布从边际分布中抽样？ - 吾爱随笔录

机器算法验证采样条件概率蒙特卡洛边际分布

2022-02-04 13:20:08

我想从单变量密度中采样，但我只知道关系： $f_X$

f_{X} (x) = \int f_{X | Y} (x | y) f_{Y} (y) d y .

$f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy.$

我想避免使用 MCMC（直接在积分表示上），并且由于和很容易从中采样，我正在考虑使用以下采样器： $f_{X\vert Y}(x\vert y)$ $f_Y(y)$

然后，我将得到对，并且只取边缘样本。 它是否正确？ $(x_1,y_1),...,(x_N,y_N)$ $(x_1,\dots,x_N)$

1个回答

是的，这是正确的。基本上，你有

f_{X, Y} (x, y) = f_{X | Y} (x | y) f_{Y} (y),

$f_{X,Y}(x,y) = f_{X|Y}(x|y) f_Y(y),$

正如你所说，你可以从联合密度中取样。仅从样本中提取 s 会导致您从边缘分布中获取样本。 $x$

这是因为忽略的行为类似于对它进行积分。让我们通过一个例子来理解这一点。 $y$

假设 = 母亲的身高， = 女儿的身高。目标是从中获取样本，以了解女儿和母亲身高之间的关系。（我假设家中只有一个女儿，并将人口限制为所有 18 岁以上的女儿，以确保充分成长）。 $X$ $Y$ $(X,Y)$

你出去得到一个有代表性的样本

(x_{1}, y_{1}), \dots, (x_{N}, y_{N}) .

$(x_1, y_1), \dots, (x_N, y_N).$

因此，对于每个母亲来说，你都有他们女儿的身高。和之间应该有明确的关系。现在假设从您的数据集中，您忽略了女儿的所有数据（删除），那么您有什么？你有随机选择的母亲的确切高度，这将是从的边缘抽取。 $X$ $Y$ $Y$ $N$ $X$

其它你可能感兴趣的问题