用于估计超参数的交叉验证与经验贝叶斯

机器算法验证 交叉验证 参考 经验贝叶斯
2022-01-18 17:44:43

给定一个层次模型p(x|ϕ,θ),我想要一个两阶段的过程来拟合模型。首先,修复一些超参数θ,然后对其余参数进行贝叶斯推理ϕ. 为了修复超参数,我正在考虑两个选项。

  1. 使用经验贝叶斯 (EB)并最大化边际似然p(all data|θ)(整合包含高维参数的模型的其余部分)。
  2. 使用交叉验证 (CV)技术,例如k-折叠交叉验证以选择θ最大化可能性p(test data|training data,θ).

EB 的优点是我可以一次使用所有数据,而对于 CV,我需要(可能)多次计算模型似然度并搜索θ. EB 和 CV 的性能在许多情况下是可比的 (*),而且通常 EB 的估计速度更快。

问:有没有将两者联系起来的理论基础(比如EB和CV在大数据的限制下是一样的)?或者将 EB 与一些普遍性标准(例如经验风险)联系起来?有人可以指出一个好的参考资料吗?


(*) 作为说明,这里是墨菲的机器学习第 7.6.4 节中的一个图,他说对于岭回归,两个过程产生非常相似的结果:

墨菲 - 经验贝叶斯 vs CV

墨菲还说,经验贝叶斯(他称之为“证据程序”)相对于 CV 的主要实际优势是θ由许多超参数组成(例如,每个特征的单独惩罚,如自动相关性确定或 ARD)。那里根本无法使用 CV。

2个回答

我怀疑是否会有一个理论联系表明 CV 和证据最大化是渐近等效的,因为证据告诉我们给定模型假设的数据概率。因此,如果模型指定错误,则证据可能不可靠。另一方面,交叉验证给出了数据概率的估计,无论建模假设是否正确。这意味着如果使用较少数据的建模假设是正确的,则证据可能是更好的指导,但交叉验证对于模型错误规范将是稳健的。CV 是渐近无偏的,但我会假设证据不是,除非模型假设恰好是完全正确的。

这本质上是我的直觉/经验;我也很想听听这方面的研究。

请注意,对于许多模型(例如岭回归、高斯过程、核岭回归/LS-SVM 等),留一法交叉验证可以至少与估计证据一样有效,因此不一定需要计算那里的优势。

附录:边际似然和交叉验证性能估计都是在有限的数据样本上评估的,因此如果通过优化任一标准来调整模型,则总是存在过度拟合的可能性。对于小样本,两个标准的方差差异可能决定哪个标准效果最好。看我的论文

Gavin C. Cawley, Nicola LC Talbot,“关于模型选择中的过度拟合和性能评估中的后续选择偏差”,机器学习研究杂志,11(7 月):2079-2107,2010。(pdf

如果您没有其他参数k,则 EB 与 CV 相同,只是您不必搜索。你说你正在融入k在 CV 和 EB 中。在这种情况下,它们是相同的。