足够外行的统计数据

机器算法验证 机器学习 数理统计 直觉 充分统计
2022-01-23 06:30:23

有人可以用非常基本的术语解释足够的统计数据吗?我来自工程背景,经历了很多事情,但未能找到直观的解释。

3个回答

一个充分的统计数据总结了样本中包含的所有信息,因此无论我们给您样本还是仅提供统计数据本身,您都可以做出相同的参数估计。它是在不丢失信息的情况下减少数据。

这是一个例子。假设具有关于零的对称分布。我没有给你一个样本,而是给你一个绝对值的样本(这就是统计数据)。你看不到标志。但是您知道分布是对称的,因此对于给定值的可能性相同(条件概率为)。所以你可以掷一枚公平的硬币。如果出现正面,则将设为负数。如果出现反面,则使其为正。的样本具有相同的分布您基本上能够从统计数据中重建数据。这就是它足够的原因。Xxxx0.5xXX

用贝叶斯术语来说,你有一些可观察的属性X和一个参数Θ. 联合分布为X,Θ是指定的,但考虑为条件分布XΘ和先验分布Θ. 一个统计T当且仅当ΘX是一样的ΘT(X),对于每个先验分布 Θ. 换句话说,你更新的不确定性Θ知道价值后X与您更新的不确定性相同Θ知道价值后T(X)无论你有什么先前的信息 Θ. 请记住,充分性是一个依赖于模型的概念。

有点令人惊讶的是,这种充分性的贝叶斯定义是由 Kolmogorov 提出的(参见Rikhin (1990)第 1012 页的第二段)。

假设你有一枚硬币,你不知道它是否公平。换句话说,它有概率p出现正面(H) 和1p出现的尾巴(T),而你不知道p.

你试图了解p抛硬币几次,说n次。

比方说n=5你碰巧得到的结果就是序列(H,H,T,H,T).

现在你想让你的统计学家朋友估计p对你来说,也许会告诉你硬币是否可能是公平的。您需要告诉他们哪些信息,以便他们进行计算并得出结论?

你可以告诉他们所有的数据,即(H,H,T,H,T). 这有必要吗?你能在不丢失任何相关信息的情况下总结这些数据吗?

很明显,抛硬币的顺序无关紧要,因为每次抛硬币都在做同样的事情,而且抛硬币不会相互影响。如果结果是(H,H,T,T,H)相反,例如,我们的结论不会有任何不同。因此,您真正需要告诉您的统计学家朋友的只是计数有多少头。

我们通过说正面的数量是 p 的充分统计量来表达这一点。

这个例子给出了这个概念的味道。如果您想了解它如何与正式定义联系,请继续阅读。

形式上,如果给定统计量的值,结果的概率分布不涉及参数,则统计量对于参数就足够了。

在这个例子中,在我们知道正面的数量之前,任何结果的概率是pnumber of heads(1p)n - number of heads. 显然这取决于p.

但是一旦我们知道正面的数量是 3(或任何其他值),所有有 3 个正面的结果((H,H,T,H,T),(H,H,T,T,H),...)同样可能(实际上有十种可能性,所以它们都有概率1/10)。所以结果的条件分布不再与p. 直观地说,这意味着我们观察到的任何具体结果都不会告诉我们更多关于p,因为结果不受p.

顺便说一句,请注意,在我们知道正面数量之前的概率仅取决于p通过number of heads. 事实证明,这相当于number of heads足以p.