背景:考虑一系列相关数据点,
在依赖性由指数衰减的自相关函数很好地描述的情况下,很自然地只考虑每个- 近似独立子样本的第一个数据点(例如,对于 MCMC),其中与特征相关长度相比很大。
但是,如果数据具有更复杂的依赖结构,则可以通过多种方式获得近似独立的子样本,而如何选择一个子样本而不是另一个子样本并不明显。
我的情况:我想计算一组模型参数的后验分布 ,给定多个数据点,
似然函数的评估涉及许多项,这些项在,因此评估大型相关数据集的模型是不可行的。
但是,我确实对我的数据的依赖结构有所了解。我有一个对称的分数矩阵,表示每对数据点之间的依赖关系(即类似于相关矩阵)。这个矩阵允许我选择数据点的子集(子样本),其中每个数据对的依赖分数低于阈值。
稍微不同的是,我可以识别出依赖于阈值以上的数据点块,然后通过为每个块选择一个数据点来识别一个近似独立的子集。假如说对应这样一个独立的子集,我可以分解似然函数,后验很容易计算为
然而,有许多方法可以识别子集。
问题:给定近似独立数据的多个子集,但不同 子集中的数据点具有不同程度的依赖关系,近似后验的最佳方法是什么?
平均后验分布似乎很自然,但我不确定这种方法的有效性。如果后验由超参数描述,对这些超参数进行平均是否合理,例如通过制作额外的超参数层来合并数据样本不同子集的平均?
或者,如果我只设法从后验样本中进行采样,那么基于不同数据子集从后验样本中组合相同大小的样本是否合理?