样本量与先验对后验的影响之间有什么关系?

机器算法验证 贝叶斯 样本量 事先的
2022-02-05 04:45:09

如果我们的样本量很小,先验分布会不会对后验分布有很大影响?

2个回答

是的。参数的后验分布θ,给定一个数据集X可以写成

p(θ|X)p(X|θ)likelihoodp(θ)prior

或者,更常见的显示在对数刻度上,

log(p(θ|X))=c+L(θ;X)+log(p(θ))

对数似然,L(θ;X)=log(p(X|θ)),与样本大小 成比例,因为它是数据的函数,而先验密度不是。因此,随着样本量的增加,L(θ;X)在变大的同时log(p(θ))保持固定(对于固定值θ),因此总和L(θ;X)+log(p(θ))受到更大的影响L(θ;X)随着样本量的增加。

因此,要直接回答您的问题-先验分布变得越来越不相关,因为它被可能性所压倒。因此,对于小样本量,先验分布起着更大的作用。这与直觉一致,因为当没有太多数据可用于反驳它们时,您会期望先前的规范将发挥更大的作用,而如果样本量非常大,则数据中存在的信号将超过任何先验信念被放入模型中。

这是试图说明宏的出色(+1)答案中的最后一段。它显示了参数的两个先验p在里面Binomial(n,p)分配。对于几个不同的n,后验分布显示为x=n/2已观察到。作为n增长,两个后验变得越来越集中在1/2.

为了n=2差异是相当大的,但对于n=50几乎没有区别。

下面的两个先验是Beta(1/2,1/2)(黑色)和Beta(2,2)(红色的)。后验与派生它们的先验具有相同的颜色。

后验分布

(请注意,对于许多其他模型和其他先验,n=50之前的无关紧要是不够的!)