频率和先验
关于 Robby McKilliam 的评论:我认为常客对此的困难在于“先验知识”的定义,而不是将先验知识纳入模型的能力。例如,考虑估计给定硬币正面朝上的概率。让我们假设我的先验知识本质上是一个实验,其中硬币被翻转 10 次并出现 5 个正面,或者可能是“工厂制造了 100 万枚硬币,而,由大量实验确定,是“。当你确实有这种类型的先验信息时,每个人都会使用贝叶斯规则(贝叶斯规则只是定义条件概率,它不是贝叶斯唯一的东西),所以在现实生活中,常客和贝叶斯会使用相同的方法,并且通过贝叶斯规则将信息合并到模型中。(注意:除非您的样本量足够大,以至于您很确定先前的信息不会对结果产生影响。)但是,对结果的解释是当然,不同。
困难出现了,特别是从哲学的角度来看,因为知识变得不那么客观/实验性并且更加主观。当这种情况发生时,频率论者可能根本不倾向于将这些信息纳入模型,而贝叶斯仍然有一些或多或少的正式机制来这样做,尽管很难得出主观先验。
关于正则化:考虑一个可能性和之前的. 没有什么可以阻止,至少在技术上,常客使用“正则化”的最大似然估计,如:
对于高斯分布,这相当于将缩小到高斯均值的二次惩罚,对于其他分布,依此类推。等于使用相同似然函数和先验的贝叶斯的最大后验 (MAP) 点估计。当然,再一次,常客估计和贝叶斯估计的解释会有所不同。贝叶斯也不受限于使用 MAP 点估计,可以访问完整的后验分布 - 但是,频率论者也不必最大化正则化对数似然,能够使用各种稳健的估计或方法- 时刻等,如果有的话。
同样,困难来自哲学的观点。为什么选择一个正则化函数而不是另一个?贝叶斯可以通过评估先验信息来做到这一点 - 转移到基于先验的观点。常客会更难(不能?)根据这些理由证明选择的合理性,但可能会在很大程度上基于应用于他/她的问题类型的正则化函数的属性,正如从联合中学到的那样许多统计学家的工作/经验。OTOH,(务实的)贝叶斯学派也用先验知识来做到这一点——如果我读过的每篇关于先验差异的论文都有 100 美元...
其他“想法”:我通过假设它不受常客/贝叶斯观点的影响而跳过了选择似然函数的整个问题。我确信在大多数情况下是这样,但我可以想象在不寻常的情况下,例如,出于计算原因,它会是这样。
总结:我怀疑常客可以从严格的数学和计算角度将几乎所有先验信息合并到他们的模型中,而贝叶斯可以这样做。结果的解释当然会有所不同。然而,我不相信常客会认为在所有情况下都这样做在哲学上是正确的,例如,在上面的正则化函数中,楼下真正了解的人说“我认为应该是大约 1.5 英寸。通过杰弗里的先验来整合近乎无知的信息是正确的。
为了回答这个问题,将频率定义为“对数据函数的采样分布的属性感兴趣”是有用的。这些函数可以是点估计量、检验统计的 p 值、置信区间、Neyman-Pearson 检验结果,或者基本上任何你能想到的东西。尽管存在一些指导原则,但频率主义并未全面说明如何构建估计量、p 值等,例如,如果可用,则使用足够的统计数据,如果可用,则使用关键统计数据等。从此从角度来看,先验信息并未并入模型本身,而是纳入将数据映射到函数输出的函数中。
上面提到的“兴趣”是被认为对推理很重要的属性,例如缺乏偏差、渐近一致性、方差、均方误差、平均绝对误差、置信覆盖率(尤其是名义与实际)、I 类错误控制等等否则对于从数据中学习具有明显或直观的重要性。无论函数是否包含先验信息,都可以评估这些属性(通过模拟,如果没有别的)。
无论数据生成过程背后的实际参数值如何,人们都特别关注这些属性。例如,在具有已知方差的正态独立同分布模型中,数据均值对于分布均值是无偏且渐近一致的,无论它是什么。相比之下,收缩估计量(数据均值的加权平均值和分布均值的先验猜测)如果分布均值接近先验猜测,则均方误差较低,否则均方误差较高,尽管它“从数据均值继承“渐近一致性。
所以我会说可以将先验信息放入推理方法中,但不会进入模型。Feldman and Cousins, A Unified Approach to the Classical Statistical Analysis of Small Signals是我在必须为非负的物理特性的置信区间上下文中概述的概念的一个非常好的说明。