机器算法验证 - 在贝叶斯模型中处理相关数据 - 吾爱随笔录

背景：考虑一系列相关数据点，

y_{1}, y_{2}, y_{3}, \dots, y_{N} .

$y_1,y_2,y_3,\cdots,y_N.$ 在依赖性由指数衰减的自相关函数很好地描述的情况下，很自然地只考虑每个

n

$n$ - 近似独立子样本的第一个数据点（例如，对于 MCMC），其中

n

$n$ 与特征相关长度相比很大。

但是，如果数据具有更复杂的依赖结构，则可以通过多种方式获得近似独立的子样本，而如何选择一个子样本而不是另一个子样本并不明显。

我的情况：我想计算一组模型参数的后验分布 $\theta$ ，给定多个数据点，

p (θ | y_{1}, y_{2}, \dots, y_{N}) \propto p (y_{1}, y_{2}, \dots, y_{N} | θ) p (θ)

$p(\theta | y_1, y_2, \cdots, y_N) \propto p(y_1,y_2,\cdots,y_N|\theta) p(\theta)$

似然函数的评估涉及许多项，这些项在 $N$ ，因此评估大型相关数据集的模型是不可行的。

但是，我确实对我的数据的依赖结构有所了解。我有一个对称的分数矩阵，表示每对数据点之间的依赖关系 $y_i, y_j$ （即类似于相关矩阵）。这个矩阵允许我选择数据点的子集（子样本），其中每个数据对的依赖分数低于阈值。

稍微不同的是，我可以识别出依赖于阈值以上的数据点块，然后通过为每个块选择一个数据点来识别一个近似独立的子集。假如说 $y_1, y_{42},y_{51},\cdots$ 对应这样一个独立的子集，我可以分解似然函数，后验很容易计算为

p (θ | y_{1}, y_{42}, y_{51} \dots) \propto p (y_{1} | θ) p (y_{42} | θ) p (y_{51} | θ) \dots p (θ)

$p(\theta | y_1, y_{42}, y_{51} \cdots) \propto p(y_1|\theta) p(y_{42}|\theta) p(y_{51} |\theta ) \cdots p(\theta)$

然而，有许多方法可以识别子集。

问题：给定近似独立数据的多个子集，但不同子集中的数据点具有不同程度的依赖关系，近似后验的最佳方法是什么？

平均后验分布似乎很自然，但我不确定这种方法的有效性。如果后验由超参数描述，对这些超参数进行平均是否合理，例如通过制作额外的超参数层来合并数据样本不同子集的平均？

或者，如果我只设法从后验样本中进行采样，那么基于不同数据子集从后验样本中组合相同大小的样本是否合理？