多重插补和期望最大化 (EM) 的相对优势

机器算法验证 缺失数据 多重插补 期望最大化
2022-03-12 16:31:42

我有一个问题在哪里

y=a+b

我观察到 y,但既不是也不是我要估计ab

b=f(x)+ϵ

我可以使用某种回归模型这给了我然后我可以估计ab^

b^=f(x)+ϵ

的回归模型可能导致为负数,这没有任何意义。不知道如何解决这个问题(不是我经常处理的那种问题),但似乎是其他人经常处理的那种事情。某种非高斯 GLM?ab^

主要问题是如何解释来自估计的主模型中的不确定性。我之前使用过多重插补来丢失协变量。但这是一个缺失的“潜在参数”。或者,它是结果数据,似乎可以估算但是我经常听说 EM 用于“潜在”参数。我不知道为什么,也不知道 EM 在这些情况下是否更好。MI 对于理解、实施和交流都很直观。EM 理解起来很直观,但似乎更难实现(我还没有做过)。 b^

EM 对我上面提到的那种问题有优势吗?如果是这样,为什么?其次,如何在 R 中为线性模型或半参数 (GAM) 模型实现它?

1个回答

使用 GLM 是否有意义取决于的分布。我倾向于对整个事情使用非线性最小二乘模型。y

因此,如果您的回归模型是其中是预测变量,是 a 的回归模型中的参数而您的 b 模型b但其中被限制为非负数,您可以编写并拟合这样的模型:a=Zα+νZαabb=f(x)+ϵf(x)f(x)=exp(ψ(x))

y=Zα+exp(ψ(x))+η

其中是两个单独的噪声项的总和。(如果你真的打算让完全没有错误,你必须以不同的方式来做;这不是一个真正的统计问题,而是一个近似问题,你可能想看看无穷范数。)ηy=a+b

如果你在中输入三次回归样条曲线,这将是获得一些一般平滑函数的一种简单方法。该模型可以通过非线性最小二乘法拟合。(事实上​​,一些算法可以利用的线性来简化和加速计算。)ψa

根据您对的假设,您可能会做其他事情。yf

这还没有真正解决插补问题。但是,可以将这种模型框架插入到您对使用 EM 的建议中。