在估计模型参数时最大化条件(对数)似然或联合(对数)似然有什么区别?

机器算法验证 估计 最大似然 优化
2022-03-12 19:46:57

考虑一个响应y和数据矩阵X假设我正在创建表单模型 -

y ~ g(X, )θ

(g() 可以是 X 和的任何函数)θ

现在,为了使用最大似然 (ML) 方法估计,我可以使用条件 ML(假设我知道条件密度f(y|X)的形式)或联合 ML(假设我知道联合的形式密度f(y,X)或等效地,f(X|y) * f(y) )θ

我想知道除了关于密度的假设之外,在继续使用上述两种方法中是否有任何考虑。此外,是否有任何实例(特定类型的数据)在大多数情况下一种方法胜过其他方法?

1个回答

这取决于您以后想对模型做什么。

联合模型试图预测的整体分布。它有一些有用的特性:Xy

  • 异常值检测。可以识别与您的训练样本非常不同的样本,因为它们的边际概率很低。条件模型不一定能告诉你这一点。
  • 有时更容易优化。例如,如果您的模型是高斯混合模型,那么有很多方法可以将其拟合到您可以插入的关节密度(期望最大化、变分贝叶斯),但是如果您想有条件地训练它,事情会变得更加复杂。
  • 根据模型,可以通过利用条件独立性来并行化训练,并且如果有新数据可用,您还可以避免以后重新训练它。例如,如果每个边际分布被单独参数化,并且您观察到一个新样本,那么您需要重新训练的唯一边际分布是其他边缘分布不受影响。此属性在条件模型中不太常见。f(X|y)(X=x1,y=y1)f(X|y=y1)f(X|y=y2),f(X|y=y3),
  • 我记得读过一篇论文,其中指出联合模型在有大量数据的情况下还有一些其他不错的属性,但不记得确切的声明,或者在我的有趣论文的大文件夹中找到它。如果我以后找到它,我会提供参考。

然而,条件模型也有一些有趣的特性

  • 他们可以很好地工作。
  • 有些人在寻找合理的优化策略方面做了很多工作(例如支持向量机)
  • 条件分布的建模通常比联合建模“更简单”——要对后者建模,您必须对前者建模以及对边际分布建模。如果您只想准确预测给定值,则将模型的能力集中在单独表示这一点上会更明智。yX