借用信息究竟意味着什么?

机器算法验证 机器学习 贝叶斯 多层次分析 术语 分层贝叶斯
2022-03-05 01:05:48

我经常和他们谈论贝叶斯层次模型中的信息借用或信息共享。我似乎无法直接回答这实际上意味着什么,以及它是否是贝叶斯层次模型所独有的。我有点明白了:层次结构中的某些级别共享一个公共参数。不过,我不知道这如何转化为“信息借用”。

  1. “信息借用”/“信息共享”是人们喜欢抛出的流行词吗?

  2. 是否有一个封闭形式后验的例子来说明这种共享现象?

  3. 这是贝叶斯分析独有的吗?一般来说,当我看到“信息借用”的例子时,它们只是混合模型。也许我以老式的方式学习了这些模型,但我没有看到任何共享。

我对开始关于方法的哲学辩论不感兴趣。我只是好奇这个词的用法。

4个回答

这是一个专门来自经验贝叶斯(EB)的术语,实际上它所指的概念在真正的贝叶斯推理中并不存在。最初的术语是“借力”,它是由 John Tukey 在 1960 年代创造的,并由 Bradley Efron 和 Carl Morris 在 1970 年代和 1980 年代关于斯坦因悖论和参数 EB 的一系列统计文章中进一步普及。许多人现在使用“信息借用”或“信息共享”作为同一概念的同义词。您可能会在混合模型的上下文中听到它的原因是,最常见的混合模型分析具有 EB 解释。

EB 有许多应用程序并适用于许多统计模型,但上下文始终是您有大量(可能是独立的)案例,并且您正在尝试估计每个案例中的特定参数(例如均值或方差)。在贝叶斯推理中,您可以根据每个案例的观察数据和该参数的先验分布对参数进行后验推断。在 EB 推理中,参数的先验分布是从整个数据案例集合中估计的,然后进行贝叶斯推理的推理。因此,当您估计特定案例的参数时,您既使用该案例的数据,也使用估计的先验分布,后者代表“信息”或“强度”

现在您可以看到为什么 EB 有“借用”但真正的贝叶斯没有。在真正的贝叶斯中,先验分布已经存在,因此不需要乞求或借用。在 EB 中,先验分布是根据观察到的数据本身创建的。当我们对特定案例进行推断时,我们会使用从该案例中观察到的所有信息以及来自其他每个案例的一些信息。我们说它只是“借来的”,因为当我们继续对下一个案例进行推断时,信息会被返回。

EB 和“信息借用”的概念在统计基因组学中被大量使用,当每个“案例”通常是一个基因或一个基因组特征时(Smyth,2004;Phipson 等,2016)。

参考

埃夫隆、布拉德利和卡尔莫里斯。斯坦因统计悖论。科学美国人236,没有。5(1977):119-127。http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

史密斯,GK (2004)。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。遗传学和分子生物学中的统计应用第 3 卷,第 1 期,第 3 条 。http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS 和 Smyth, GK (2016)。稳健的超参数估计可防止高变基因并提高检测差异表达的能力。应用统计年鉴10, 946-963。 http://dx.doi.org/10.1214/16-AOAS920

考虑一个简单的问题,例如估计多个组的均值。如果您的模型将它们视为完全不相关,那么您拥有的关于每个平均值的唯一信息就是该组内的信息。如果您的模型将它们的均值视为有些相关(例如在某些混合效应类型模型中),那么估计值将更加精确,因为来自其他组的信息会告知(正则化、缩小到共同均值)给定组的估计值。这是“借用信息”的一个例子。

这个概念出现在与可信度相关的精算工作中 (不一定与“借款”这个特定术语一起出现,尽管在这个意义上的借款在公式中是明确的);这可以追溯到很久以前,至少可以追溯到一个世纪前,明显的前兆可以追溯到 19 世纪中叶。例如,请参阅 Longley-Cook, LH (1962) 可信度理论 PCAS 简介,49, 194-221。

这是 Whitney,1918 年(经验评级理论,PCAS,4,274-292):

例如,这里有一个风险,它显然被归类为机械车间。因此,在没有其他信息的情况下,它应该伪造机械车间费率,即此类所有风险的平均费率。另一方面,风险也有自己的经历。如果风险很大,这可能是比课堂体验更好的风险指南。无论如何,无论风险大小,这两个因素都有其作为证据的价值,都必须考虑在内。困难在于证据通常是矛盾的。因此,问题是找到并应用一个标准,赋予每个标准以适当的权重。

虽然此处没有借用一词,但使用组级信息来告知我们这家机加工车间的概念显然存在。[当“借力”和“借信息”开始应用于这种情况时,概念不变]

最常见的“借用信息”模型是混合效应模型。这可以在频率学或贝叶斯设置中进行分析。频率论方法实际上有一个经验贝叶斯解释。混合效应有一个先验,基于,随机效应的方差。我们不是根据先验信息进行设置,而是根据我们的数据进行估计。σR2

另一方面,从贝叶斯的角度来看,我们并没有把混合效应放在先验,而是它们是一个中等水平的参数。也就是说,我们在上放置了一个先验,然后它就像随机效应的超参数一样,但它不同于传统的先验,因为放置在随机效应上的分布不是纯粹基于关于先验信息,而是先验信息(即在上的先验)和数据的混合。σR2σR2

我认为很明显,“借用信息”不是纯粹的贝叶斯。有非贝叶斯混合效应模型和这些借用信息。但是,根据我使用混合效果模型的经验,我认为对此类模型的贝叶斯方法比某些人意识到的要重要一点。特别是,在混合效应模型中,人们应该认为我们正在估计充其量是我们拥有的个体受试者的数量。因此,如果我们有 10 个受试者测量 100 次,我们仍然仅从 10 个受试者不仅如此,我们实际上甚至没有直接观察随机效应,而是我们只是从数据和σR2σR2σR他们自己。所以很容易忘记基于我们实际必须估计的数据的信息有多么少数据中的信息越少,先验信息就越重要。如果您还没有这样做,我建议您尝试仅使用几个主题来模拟混合效果模型。您可能会惊讶于频率论方法的估计值有多不稳定,尤其是当您仅添加一两个异常值时……以及人们多久会看到没有异常值的真实数据集?我相信 Gelman 等人的贝叶斯数据分析中涵盖了这个问题,但遗憾的是我不认为它是公开的,所以没有超链接。σR2

最后,多级建模不仅仅是混合效果,尽管它们是最常见的。任何参数不仅受先验和数据影响,而且还受其他未知参数影响的模型都可以称为多级模型。当然,这是一组非常灵活的模型,但可以使用 Stan、NIMBLE、JAGS 等工具从头开始编写,只需最少的工作量。在这个程度上,我不确定我会说多级建模是“炒作”;基本上,您可以编写任何可以表示为有向无环图的模型并立即安装它(假设它有一个合理的运行时间,也就是说)。与传统选择(即回归模型包)相比,这提供了更多的功能和潜在的创造力,但并不需要人们从头开始构建整个 R 包来适应一种新型模型。

我假设,因为您标记了机器学习,您对预测感兴趣,而不是推理。(我相信我与@Glen_b 的答案一致,但只是翻译到这个上下文/词汇)

在这种情况下,我会声称这是一个流行语。具有组变量的正则化线性模型将借用信息:个体水平的预测将是组均值和个体效应的组合。考虑 l1/l2 正则化的一种方法是,它为每减少总误差分配一个系数成本,因为一个组变量比单个变量影响更多的样本,所以估计组效应会有压力,留下较小的偏差对每个单独变量的组效应。

对于数据足够的个体点,个体效应会“强”,对于数据少的个体效应会弱。

我认为看到这一点的最简单方法是考虑 L1 正则化和具有相同效果的同一组的 3 个人。未正则化,该问题有无限数量的解决方案,而正则化提供了唯一的解决方案。

将所有影响分配给组系数具有最低的 l1 范数,因为我们只需要 1 个值来覆盖 3 个个体。相反,将所有效果分配给单个系数的效果最差,即 3 倍于将效果分配给组系数的 l1 范数。

请注意,我们可以有尽可能多的层次结构,并且交互受到类似的影响:正则化会将影响推送到主要变量,而不是更罕见的交互。

博客 tjmahr.com/plotting-partial-pooling-in-mixed-effects-models– 由@IsabellaGhement 链接给出了借款强度的报价

“这种效应有时被称为收缩,因为更多的极端值收缩被拉向更合理、更平均值的值。在lme4 书中,道格拉斯贝茨提供了收缩 [name] 的替代方案”

“收缩”一词可能具有负面含义。John Tukey 更喜欢将这个过程称为对个体受试者“相互借鉴”的估计。这是混合效应模型与严格固定效应模型的根本区别。在混合效应模型中,我们假设分组因子的水平是从总体中选择的,因此可以预期在某种程度上共享特征。因此,混合效应模型的预测相对于严格固定效应模型的预测有所减弱。