我想知道 CrossValidated 社区中的贝叶斯主义者如何看待模型不确定性问题以及他们更愿意如何处理它?我将尝试分两部分提出我的问题:
(根据您的经验/观点)处理模型不确定性有多重要?我在机器学习社区中没有找到任何处理这个问题的论文,所以我只是想知道为什么。
处理模型不确定性的常用方法是什么(如果您提供参考,则可以加分)?我听说过贝叶斯模型平均,尽管我不熟悉这种方法的具体技术/限制。还有哪些其他的,为什么你更喜欢其中一个?
我想知道 CrossValidated 社区中的贝叶斯主义者如何看待模型不确定性问题以及他们更愿意如何处理它?我将尝试分两部分提出我的问题:
(根据您的经验/观点)处理模型不确定性有多重要?我在机器学习社区中没有找到任何处理这个问题的论文,所以我只是想知道为什么。
处理模型不确定性的常用方法是什么(如果您提供参考,则可以加分)?我听说过贝叶斯模型平均,尽管我不熟悉这种方法的具体技术/限制。还有哪些其他的,为什么你更喜欢其中一个?
在处理模型选择时会出现两种情况:
当真实模型属于模型空间时。
使用BIC处理这个问题非常简单。有结果表明,BIC 会以高概率选择真实模型。
然而,在实践中,我们很少知道真正的模型。我必须指出,BIC 往往因此而被滥用(可能的原因是它与AIC的外观相似)。这些问题之前已经在这个论坛上以各种形式讨论过。一个很好的讨论是here。
当真实模型不在模型空间中时。
这是贝叶斯社区的一个活跃研究领域。但是,经证实,人们知道在这种情况下使用 BIC 作为模型选择标准是危险的。最近的高维数据分析文献表明了这一点。一个这样的例子就是这个。贝叶斯因子在高维度上的表现肯定出奇的好。已经提出了一些 BIC 的修改,例如 mBIC,但没有达成共识。Green 的RJMCMC是另一种流行的贝叶斯模型选择方法,但它也有自己的缺点。您可以对此进行更多跟进。
贝叶斯世界还有另一个阵营推荐模型平均。值得注意的是,拉夫特里博士。
贝叶斯模型平均。
Chris Volinksy 的这个网站是贝叶斯模型平均的综合资源。其他一些作品在这里。
同样,贝叶斯模型选择仍然是一个活跃的研究领域,根据您询问的对象,您可能会得到非常不同的答案。
“真正的”贝叶斯将通过边缘化(整合)所有似是而非的模型来处理模型的不确定性。因此,例如在线性岭回归问题中,您将边缘化回归参数(这将具有高斯后验,因此可以通过分析完成),然后通过例如 MCMC 边缘化超参数(噪声水平和正则化参数)方法。
“较小的”贝叶斯解决方案是边缘化模型参数,但通过最大化模型的边际似然(也称为“贝叶斯证据”)来优化超参数。然而,这可能导致比预期更多的过度拟合(参见例如Cawley 和 Talbot)。有关机器学习中证据最大化的信息,请参阅David MacKay的工作。为了进行比较,请参阅Radford Neal对类似问题的“整合一切”方法的工作。请注意,证据框架对于积分计算过于昂贵的情况非常方便,因此这两种方法都有适用范围。
贝叶斯有效地整合而不是优化。理想情况下,我们会陈述我们对解决方案的特征(例如平滑度)的先验信念,并在没有实际制作模型的情况下进行名义上的预测。机器学习中使用的高斯过程“模型”就是这个想法的一个例子,其中协方差函数编码了我们对解决方案的先验信念。请参阅Rasmussen 和 Williams的优秀著作。
对于实用的贝叶斯,总是有交叉验证,大多数事情都很难被击败!
我在“模型不确定性”世界中发现的一件有趣的事情是“真实模型”的概念。这隐含地意味着我们的“模型命题”具有以下形式:
我们从中计算后验概率。在我看来,这个程序在概念层面上非常可疑。假设命题是详尽无遗的,这是一个很大的要求(或不可能的计算)。对于您可以生产的任何一组模型,肯定会有一个您还没有想到的替代模型。无限回归也是如此……
穷举在这里至关重要,因为这可以确保概率加到 1,这意味着我们可以边缘化模型。
但这都是在概念层面——模型平均具有良好的性能。所以这意味着必须有一个更好的概念。
就个人而言,我将模型视为工具,就像锤子或钻头一样。模型是用于预测或描述我们可以观察到的事物的心理结构。说“真正的锤子”听起来很奇怪,说“真正的心理构造”同样奇怪。基于此,“真实模型”的概念对我来说似乎很奇怪。考虑“好”模型和“坏”模型,而不是“正确”模型和“错误”模型似乎更自然。
从这个观点来看,我们同样可以从选择的模型中不确定要使用的“最佳”模型。所以假设我们对这个命题进行推理:
现在,我认为这是思考“模型不确定性”的更好方法。我们不确定使用哪个模型,而不是哪个模型是“正确的”。这也使得模型平均似乎是一件更好的事情(无论如何对我来说)。据我所知,的后验作为一个粗略、简单的近似值非常好。此外,命题除了排他性之外是详尽无遗的。
然而,在这种方法中,您确实需要某种拟合优度,以衡量您的“最佳”模型有多好。这可以通过两种方式完成,通过针对“确定的”模型进行测试,这相当于通常的 GoF 统计数据(KL 散度、卡方等)。衡量这一点的另一种方法是在您的模型类中包含一个极其灵活的模型——可能是具有数百个组件的正常混合模型,或者是狄利克雷过程混合。如果这个模型是最好的,那么你的其他模型很可能是不够的。
本文进行了很好的理论讨论,并逐步通过一个示例来说明您如何实际进行模型选择。
正如 suncoolsu 所说,我知道人们使用 DIC 和贝叶斯因子。当他说“有结果表明 BIC 会以高概率选择真实模型”(参考文献?)时,我很感兴趣。但我使用了我唯一知道的东西,即后验预测检查,由 Andrew Gelman 倡导。如果你谷歌 Andrew Gelman 和后验预测检查,你会发现很多东西。我会看看 Christian Robert在 ABC上写的关于模型选择的文章。无论如何,这里有一些我喜欢的参考资料,以及 Gelman 博客中最近的一些帖子:
博客
DIC和AIC; 更多关于 DIC的信息。 模型检查和外部验证
关于后验预测检查的论文:
格尔曼,安德鲁。(2003a)。“探索性数据分析和拟合优度检验的贝叶斯公式”。国际统计评论,第一卷。71,n.2,第 389-382 页。
格尔曼,安德鲁。(2003b)。“复杂模型的探索性数据分析”。计算和图形统计杂志,第一卷。13,名词。4,第 755/779 页。
格尔曼,安德鲁;梅赫伦,伊文·范;韦贝克,吉尔特;海特詹,丹尼尔·F。米歇尔,米歇尔。(2005 年)。“模型检查的多重插补:带有缺失和潜在数据的完整数据图。” 生物识别 61, 74–85, 三月
格尔曼,安德鲁;孟晓丽;斯特恩,哈尔。(1996)。“通过已实现的差异对模型适应性进行后验预测评估”。《中国统计》,第 6 期,第 733-807 页。