多重删失数据协方差矩阵的无偏估计

机器算法验证 相关性 估计 审查 协方差矩阵 无偏估计器
2022-02-05 17:57:38

环境样品的化学分析通常在报告限或各种检测/定量限以下进行审查。后者可以变化,通常与其他变量的值成比例。例如,可能需要稀释具有高浓度一种化合物的样品进行分析,从而导致该样品中同时分析的所有其他化合物的审查限成比例膨胀。作为另一个例子,有时化合物的存在会改变测试对其他化合物的响应(“基质干扰”);当实验室检测到这一点时,它将相应地夸大其报告限制。

我正在寻找一种实用的方法来估计此类数据集的整个方差 - 协方差矩阵,特别是当许多化合物经历超过 50% 的审查时,这通常是这种情况。传统的分布模型是(真实)浓度的对数呈多正态分布,这在实践中似乎很适合,因此针对这种情况的解决方案将是有用的。

(我所说的“实用”是指一种可以在至少一个普遍可用的软件环境(如 R、Python、SAS 等)中可靠编码的方法,其执行速度足以支持迭代重新计算,例如在多重插补中发生的情况,并且相当稳定[这就是为什么我不愿意探索 BUGS 实现,尽管贝叶斯解决方案通常是受欢迎的]。)

非常感谢您对此事的看法。

3个回答

我还没有完全内化矩阵干扰的问题,但这是一种方法。让:

Y是一个向量,表示未稀释样品中所有目标化合物的浓度。

Z是稀释样本中的对应向量。

d是稀释因子,即样品被稀释d:1。

我们的模型是:

YN(μ,Σ)

Z=Yd+ϵ

在哪里ϵN(0,σ2 I)表示由于稀释误差引起的误差。

因此,可以得出以下结论:

ZN(μd,Σ+σ2 I)

表示上述分布Z经过fZ(.).

O是观察到的浓度和τ表示测试仪器的阈值,低于该阈值它不能检测到化合物。那么,对于ith我们有的化合物:

Oi=ZiI(Zi>τ)+0I(Ziτ)

不失一般性,让第一个k化合物应低于阈值。那么似然函数可以写成:

L(O1,...Ok,Ok+1,...On|)=[i=1i=kPr(Ziτ)][i=k+1i=nf(Oi|)]

在哪里

f(Oi|)=jifZ(Oi|)I(Oi>τ)

估计是使用最大似然或贝叶斯思想的问题。我不确定上面的内容有多容易处理,但我希望它能给你一些想法。

另一个计算效率更高的选择是使用称为“二分高斯”的模型通过矩匹配来拟合协方差矩阵,实际上只是一个高斯 copula 模型。

Macke 等人 2010 年最近发表的一篇论文描述了一种用于拟合该模型的封闭形式程序,该程序仅涉及(删失的)经验协方差矩阵和一些双变量正态概率的计算。同一组(MPI Tuebingen 的 Bethge 实验室)也描述了混合离散/连续高斯模型,这可能是您想要的(即,因为高斯 RV 没有完全“二分法”——只有那些低于阈值的模型)。

至关重要的是,这不是ML 估计器,恐怕我不知道它的偏差属性是什么。

您的样品中有多少种化合物?(或者,有问题的协方差矩阵有多大?)。

Alan Genz 用各种语言(R、Matlab、Fortran;参见此处)编写了一些非常好的代码,用于计算超矩形上的多元正态密度的积分(即评估可能性所需的积分类型,如用户 28)。

我已经将这些函数(“ADAPT”和“QSIMVN”)用于大约 10-12 维的积分,并且该页面上的几个函数宣传积分(以及您可能需要的相关导数)以解决高达 100 维的问题。我不'不知道这是否足以满足您的目的,但如果是这样,它可能允许您通过梯度上升找到最大似然估计。