为什么贝叶斯统计成为越来越热门的研究课题?

机器算法验证 贝叶斯 常客
2022-03-11 18:07:45

浏览美国新闻统计百强项目的研究领域,几乎都是贝叶斯统计的重头戏。但是,如果我去较低级的学校,他们中的大多数人仍在进行古典/频率统计研究。例如,我目前的学校(QS 世界统计排名在 150 到 200 之间,因此不被视为顶级学校)只有一位教授专注于贝叶斯统计,而且几乎对贝叶斯统计感到不满。我采访过的一些研究生甚至说贝叶斯统计学家正在做贝叶斯统计,我当然强烈反对。

但是,我想知道为什么会这样。我有几个有根据的猜测:

(a) 古典/频繁统计方法没有足够的进步空间,古典/频繁统计研究中唯一可行的研究是应用程序,这将是低级学校的主要重点,因为顶级学校应该更多偏向于理论和方法研究。

(b) 它严重依赖于场。统计的某些分支更适合贝叶斯统计,例如统计方法的许多科学应用,而其他分支更适合金融领域等经典统计。(如果我错了,请纠正我)鉴于此,在我看来,顶级学校有很多统计系在科学领域申请,而较低级学校的统计系主要关注金融领域的申请,因为这有助于他们创造收入和资金。

(c) 频率论方法存在无法解决的巨大问题,例如 MLE 容易过度拟合等。贝叶斯似乎提供了一个出色的解决方案。

(d) 计算能力在这里,因此贝叶斯计算不再像 30 年前那样成为瓶颈。

(e) 这可能是我最自以为是的猜测。古典/频繁的统计学家有阻力,他们只是不喜欢可能超越古典统计学作用的新方法论浪潮。但就像拉里·瓦瑟曼所说的那样,这取决于我们想要做什么,每个人都应该保持开放的心态,尤其是作为研究人员。

1个回答

就个人而言,我会冒险一些猜测:

(1) 在过去的几十年里,贝叶斯统计数据的受欢迎程度大幅上升。部分原因是由于 MCMC 的进步和计算资源的改进。贝叶斯统计从理论上非常好,但只适用于玩具问题,变成了一种可以更普遍应用的方法。这意味着几年前,说你从事贝叶斯统计工作可能确实让你成为一个非常有竞争力的员工。

现在,我想说贝叶斯统计仍然是一个优势,但在不使用贝叶斯方法的情况下解决有趣的问题也是如此。缺乏贝叶斯统计学背景对于大多数招聘委员会来说肯定是一个负面因素,但是在没有接受足够贝叶斯方法培训的情况下获得统计学博士学位将是相当令人惊讶的。

(2) 贝叶斯统计学家会在简历中提及“贝叶斯”。常客通常不会在他们的简历上写上“常客”,但更常见的是他们工作的领域(即生存分析、预测建模、预测等)。举个例子,我的很多工作都是编写优化算法,我猜这意味着你会说我在做Frequentist的工作。我还写了相当多的贝叶斯算法,但它肯定只占我工作的一小部分。贝叶斯统计在我的简历上,频率统计不是。

(3)在某种程度上,你在问题中所说的也有道理。与频率论领域相比,高效的通用贝叶斯计算存在更多的开放问题。例如,哈密顿蒙特卡罗最近已成为一种非常令人兴奋的算法,用于从贝叶斯模型中进行一般采样。通用的改进空间不大这些天优化;Newton Raphson、L-BFGS 和 EM 算法涵盖了很多基础。如果你想改进这些方法,你通常必须专门研究这个问题。因此,您更像是说“我从事地理空间模型的高维优化”,而不是“我从事高维最大似然估计”。机器学习世界是一个例外,因为发现新的随机优化方法(即 SGD、Adam 等)令人兴奋,但由于某些原因,这是一个稍微不同的野兽。

同样,在为模型提出好的先验知识方面还有很多工作要做。频率论方法确实有与此等价的方法(提出很好的惩罚,即 LASSO、glmnet),但先验可能比惩罚更有肥沃的土壤。

(4) 最后,这绝对是个人观点,很多人将频率论与 p 值联系起来。鉴于在其他领域观察到的 p 值普遍滥用,许多统计学家希望尽可能远离当前 p 值的滥用。