“贝叶斯”一词表明我们正在使用数据更新分布,以获得后验分布。
贝叶斯信息准则 (BIC) 用于从一组模型中选择一个模型这一事实表明,它被称为 BIC,因为我们正在选择具有最高后验的模型,或者类似的东西。
但是,从 BIC 的定义来看,我并不清楚情况是否如此。是吗?贝叶斯信息准则被称为“贝叶斯”的原因是什么?
“贝叶斯”一词表明我们正在使用数据更新分布,以获得后验分布。
贝叶斯信息准则 (BIC) 用于从一组模型中选择一个模型这一事实表明,它被称为 BIC,因为我们正在选择具有最高后验的模型,或者类似的东西。
但是,从 BIC 的定义来看,我并不清楚情况是否如此。是吗?贝叶斯信息准则被称为“贝叶斯”的原因是什么?
BIC,有时称为 Schwarz 信息标准 (SIC),由 Gideon Schwartz 于 1975 年引入。这是那篇论文。它不是很长。
AIC 和 BIC 都解决了更多参数导致可能性增加的模型评估问题。为了解决这个问题,他们惩罚了额外的参数。施瓦茨给出了贝叶斯论证。他的中心论点是,“在给定维度的模型中,最大似然估计量可以作为贝叶斯估计量的大样本限制获得,用于任意无处消失的先验分布。”
因此,即使 BIC 的公式与贝叶斯无关,但由于它是从贝叶斯定理的特殊“大样本”情况推导出来的,因此原始论文充满了对该过程的贝叶斯解释。
我最喜欢的对 BIC 的简单解释和推导之一是 Michael Jordan 教授的演讲。这将边际似然的拉普拉斯近似(贝叶斯定理中的归一化常数,用于模型比较)与 BIC 联系起来。
https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/lectures/lecture16.pdf
在这里,他使用拉普拉斯近似和一些直观的渐近参数推导出 BIC。
拉普拉斯近似:
然后,
最后,