充分的统计——将直觉与数学定义联系起来

机器算法验证 数据转换 推理 直觉 充分统计
2022-03-26 00:39:32

我相信充分统计的启发式定义对我来说是有意义的——当你抽取样本以推断与概率分布相关的参数时,你将实现的样本减少为(充分的)统计——你没有失去有关参数的任何信息或“推理能力”。(然而,我们仍然不知道参数的实际真实值是多少,但我可以用统计数据估计参数值的范围,就像我用原始样本一样)。

(如果你觉得我上面说的有什么不准确的地方,请纠正我)

然而,我正在努力将这些点连接起来的是足够统计的数学定义是如何说同样的事情的。

定义:统计t=T(X)如果给定统计量的条件概率分布不依赖于参数是足够的(维基百科)θXt=T(X)θ

为什么在条件概率分布中消失意味着与的“推理能力”相同的事情θT(X)=tX=xθ

我对此的解释是“知道意味着您从样本的一切” - 但我的困惑是为什么这意味着条件分布不应该有一旦我们有 ->当我们获得时,我们并不知道的实际值,对吧?我只是想像是我们尝试进行推断时所需要的全部 - 对 theta的条件概率有什么关系T(X)θXθT(X)θT(X)T(X)θθ?

3个回答

我认为激发数学定义的常用方法如下。

假设您有足够的统计数据,而我只有数据/随机样本根据充分性的数学定义, rhs 是一个概率分布,您再次根据定义和理论上知道并可以用来进行推理。特别是,如果你抽取一个样本,那么这个样本也是从感兴趣的分布中抽取的,特别是直接依赖于的分布。一样多的信息的足够统计量恢复了样本T(X)X

p(X|T(X),θ)=P(X|T(X)).
XP(X|T(X))θX. 的我一样多(例如置信区间),因此知道就足够了。XT(X)

“如果数据 X 的条件概率分布在给定统计 t = T(X) 的情况下不依赖于参数 θ,则统计 t=T(X) 对于基础参数 θ 是足够的。”

如果某些数据的采样分布不依赖于那么这些数据怎么能说明呢?Xθθ

这就像通过观察一些不相关的东西来估计一些价值(这不取决于要估计的价值)。

这是一个笼统的说法。在这种情况下,我们将更具体地作为数据“以充分统计为条件的其余数据”。这令人困惑,因为其余数据的样本分布确实取决于要估计的参数。只是该数据的条件分布不依赖于要估计的参数。


示例 3(数据的不同结果,但对于给定的具有相同的概率)θ

(编辑:根据评论我想出了一个更简单/直观的解释)

假设你做了一个瓮问题,试图估计一个瓮中蓝球的比例。您通过绘制带有替换的球来进行实验。

假设您得到“ , , , ,x1=redx2=bluex3=redx4=bluex5=blue

那是总共3个蓝球(总数是足够的统计数据)。您可以基于此对瓮中蓝色球的比例进行 0.6 的点估计。(实际上,如果您想用窄带宽制作置信区间,您应该采取更大的样本,但这使得这个例子很难写下来)

现在,(对于分数)哪些特定的球在蓝色(除了我们已经知道总数 3 的事实之外)是否重要? , , , , ”或任何其他总共也有 3 个蓝色球的不同观察结果,估计值是否会有所不同?这些结果中的每一个,总共有 3 个蓝球,都是同样可能的。所以他们不会提供更多关于瓮中球的比例的信息。xix1=bluex2=redx3=redx4=bluex5=blue

我们可以将所有不同的结果制成表格,以及观察它们的概率如何取决于(花瓶中蓝色的比例)θ

observation        probability of observing given theta

bbbbb              (1-theta)^0(theta)^5

rbbbb              (1-theta)^1(theta)^4
brbbb              (1-theta)^1(theta)^4
bbrbb              (1-theta)^1(theta)^4
bbbrb              (1-theta)^1(theta)^4
bbbbr              (1-theta)^1(theta)^4

rrbbb              (1-theta)^2(theta)^3
rbrbb              (1-theta)^2(theta)^3
rbbrb              (1-theta)^2(theta)^3
rbbbr              (1-theta)^2(theta)^3
brrbb              (1-theta)^2(theta)^3
brbrb              (1-theta)^2(theta)^3
brbbr              (1-theta)^2(theta)^3
bbrrb              (1-theta)^2(theta)^3
bbrbr              (1-theta)^2(theta)^3
bbbrr              (1-theta)^2(theta)^3

rrrbb              (1-theta)^3(theta)^2
rrbrb              (1-theta)^3(theta)^2
rbrrb              (1-theta)^3(theta)^2
brrrb              (1-theta)^3(theta)^2
rrbbr              (1-theta)^3(theta)^2
rbrbr              (1-theta)^3(theta)^2
brrbr              (1-theta)^3(theta)^2
rbbrr              (1-theta)^3(theta)^2
brbrr              (1-theta)^3(theta)^2
bbrrr              (1-theta)^3(theta)^2

brrrr              (1-theta)^4(theta)^1
rbrrr              (1-theta)^4(theta)^1
rrbrr              (1-theta)^4(theta)^1
rrrbr              (1-theta)^4(theta)^1
rrrrb              (1-theta)^4(theta)^1

rrrrr              (1-theta)^5(theta)^0

请注意,在上表中,有具有完全相同的依赖性θ这意味着无论您观察 rbrbb 还是 brrbb 都无关紧要,它们以相同的方式可以认为所有带有三个蓝色球的观察都提供了关于的相同信息。θθ

这就是足够的统计数据所做的。的似然依赖性相同的观察组合在一起θ


我已经删除了示例 1 和 2,因为它使帖子变得非常大,但是您仍然可以在此帖子的历史记录中看到它们

这是一个非常简单的示例,可能会使事情变得清晰。对于样本大小为的正常模型对于来说已经足够了。如果不以条件,则取决于如果我以条件,则 不依赖于这表明一旦已知,就没有其他信息可用于估计XN(θ,1)n=1XθT(X)=XP(Xx)=Φ(xθ)θT(X)=X=c

P(Xx|X=c)={0if x<c1if xc
θT(X)θ. 如果有额外的信息可用,那么将取决于,就像所做的那样(并且肯定不会退化)。让我知道我是否犯了任何错误。P(Xx|T(X)=c)θP(Xx)