贝叶斯推理有多有用

数据挖掘 统计数据 可能性 贝叶斯
2021-09-21 05:10:31

最近几个月,我Bayesian Inference在 ML 课程中接触过,
随着进一步的研究,我来到了有 MCMC 技术来模拟后验分布的地方。
看起来很有趣。但是,我不确定它在行业中是否真的有用?
有没有人有贝叶斯推理的实际经验?

以 customer_lifetime_value 作为 X 为例
基本上,我的主要问题是贝叶斯推理如何比我仅绘制历史 X 的频率和累积频率更有用 因为 with frequency, i can estimate the mean X,
With cumulative frequency, i canestimate prob[X>x]
尝试进行贝叶斯推理有什么好处

2个回答

对于某些人来说,这可能是一个不受欢迎的观点,但根据我的经验,贝叶斯统计在工业数据科学中并不是特别有用,原因如下:

  • 当我们的问题是关于统计推断时,贝叶斯方法非常有用。然而,在数据科学中,我们通常处理的是预测。可能在某些情况下,贝叶斯方法比常客方法更有效,但我想不出任何副手,除了可以使用共轭先验的地方,在这种情况下,我们可能正在处理一个非常简单的模型。

  • 贝叶斯统计通常需要采样,例如马尔可夫链或哈密顿蒙特卡洛,这可能是计算量非常大的,即使对于相对较小的数据集也是如此。在工业中,我们经常处理“大数据”,而需要 MCMC 或 HMC 的贝叶斯模型是不切实际的。

编辑:要对此答案发表评论:

我对此有一个问题,统计推断与预测有何不同。就我的理解而言,预测通常是关于得到 P(Y=y | X),其中 X 是我们的数据,类似于统计推断

预测和推理是完全不同的。对于预测,我们真正关心的是预测的准确性,这是一件相对容易确定的事情——因为测试/验证过程正在最小化一些预测误差。另一方面,通过推理,我们关心系数估计值以及它们的标准误差。通常,研究人员会根据原因理论形成假设——例如,喝咖啡会导致癌症,他们将使用模型来确定数据是否支持他们的理论,以及在多大程度上支持他们的理论。这比预测困难得多。一方面,在因果推理中,基本要求是我们不希望对X 有偏见——而在预测中,我们不在乎它们是否有偏见,只要我们得到“好的”预测 y,并且回归模型中有很多很多的偏差来源——偏差可以而且确实来自混杂、中介、差异选择和碰撞。通常,问题的症结在于决定模型中包含哪些变量,以消除或减少这些偏差。通过预测,我们可以使用自动变量选择程序来选择要包含的变量(特征选择)。通过推理,这几乎是不可能的,因为自动化程序通常无法处理上述偏差。

在我对这个问题的回答中有对这些问题的详细讨论:
DAG 如何帮助减少因果推理中的偏差?

我认为贝叶斯分析的这些实际工业应用可能对您有所帮助:

此外,尤其是优步,在贝叶斯优化、贝叶斯预测方法 (Orbit) 和贝叶斯分层/多级模型(概率编程语言 Pyro/NumPyro)方面做了大量工作。例如,搜索 Uber Engineering 网站返回的结果如下:

对更多感兴趣?一般来说,我在这里跟踪贝叶斯分析的发展及其在工业中的应用:

我希望这是一个有用的答案。