在贝叶斯模型中处理相关数据

机器算法验证 相关性 贝叶斯 推理 后部 非独立的
2022-04-01 17:59:26

背景:考虑一系列相关数据点,

y1,y2,y3,,yN.
在依赖性由指数衰减的自相关函数很好地描述的情况下,很自然地只考虑每个n- 近似独立子样本的第一个数据点(例如,对于 MCMC),其中n与特征相关长度相比很大。

但是,如果数据具有更复杂的依赖结构,则可以通过多种方式获得近似独立的子样本,而如何选择一个子样本而不是另一个子样本并不明显。

我的情况:我想计算一组模型参数的后验分布 θ,给定多个数据点,

p(θ|y1,y2,,yN)p(y1,y2,,yN|θ)p(θ)

似然函数的评估涉及许多项,这些项在N,因此评估大型相关数据集的模型是不可行的。

但是,我确实对我的数据的依赖结构有所了解。我有一个对称的分数矩阵,表示每对数据点之间的依赖关系yi,yj(即类似于相关矩阵)。这个矩阵允许我选择数据点的子集(子样本),其中每个数据对的依赖分数低于阈值。

稍微不同的是,我可以识别出依赖于阈值以上的数据点块,然后通过为每个块选择一个数据点来识别一个近似独立的子集。假如说y1,y42,y51,对应这样一个独立的子集,我可以分解似然函数,后验很容易计算为

p(θ|y1,y42,y51)p(y1|θ)p(y42|θ)p(y51|θ)p(θ)

然而,有许多方法可以识别子集。

问题:给定近似独立数据的多个子集,但不同 子集中的数据点具有不同程度的依赖关系,近似后验的最佳方法是什么?

平均后验分布似乎很自然,但我不确定这种方法的有效性。如果后验由超参数描述,对这些超参数进行平均是否合理,例如通过制作额外的超参数层来合并数据样本不同子集的平均?

或者,如果我只设法从后验样本中进行采样,那么基于不同数据子集从后验样本中组合相同大小的样本是否合理?

0个回答
没有发现任何回复~