有人可以用非常基本的术语解释足够的统计数据吗?我来自工程背景,经历了很多事情,但未能找到直观的解释。
足够外行的统计数据
一个充分的统计数据总结了样本中包含的所有信息,因此无论我们给您样本还是仅提供统计数据本身,您都可以做出相同的参数估计。它是在不丢失信息的情况下减少数据。
这是一个例子。假设具有关于零的对称分布。我没有给你一个样本,而是给你一个绝对值的样本(这就是统计数据)。你看不到标志。但是您知道分布是对称的,因此对于给定值,和的可能性相同(条件概率为)。所以你可以掷一枚公平的硬币。如果出现正面,则将设为负数。如果出现反面,则使其为正。的样本具有相同的分布。您基本上能够从统计数据中重建数据。这就是它足够的原因。
用贝叶斯术语来说,你有一些可观察的属性和一个参数. 联合分布为是指定的,但考虑为条件分布和先验分布. 一个统计当且仅当是一样的,对于每个先验分布 . 换句话说,你更新的不确定性知道价值后与您更新的不确定性相同知道价值后,无论你有什么先前的信息 . 请记住,充分性是一个依赖于模型的概念。
有点令人惊讶的是,这种充分性的贝叶斯定义是由 Kolmogorov 提出的(参见Rikhin (1990)第 1012 页的第二段)。
假设你有一枚硬币,你不知道它是否公平。换句话说,它有概率出现正面() 和出现的尾巴(),而你不知道.
你试图了解抛硬币几次,说次。
比方说你碰巧得到的结果就是序列.
现在你想让你的统计学家朋友估计对你来说,也许会告诉你硬币是否可能是公平的。您需要告诉他们哪些信息,以便他们进行计算并得出结论?
你可以告诉他们所有的数据,即. 这有必要吗?你能在不丢失任何相关信息的情况下总结这些数据吗?
很明显,抛硬币的顺序无关紧要,因为每次抛硬币都在做同样的事情,而且抛硬币不会相互影响。如果结果是相反,例如,我们的结论不会有任何不同。因此,您真正需要告诉您的统计学家朋友的只是计数有多少头。
我们通过说正面的数量是 p 的充分统计量来表达这一点。
这个例子给出了这个概念的味道。如果您想了解它如何与正式定义联系,请继续阅读。
形式上,如果给定统计量的值,结果的概率分布不涉及参数,则统计量对于参数就足够了。
在这个例子中,在我们知道正面的数量之前,任何结果的概率是. 显然这取决于.
但是一旦我们知道正面的数量是 3(或任何其他值),所有有 3 个正面的结果(,,)同样可能(实际上有十种可能性,所以它们都有概率)。所以结果的条件分布不再与. 直观地说,这意味着我们观察到的任何具体结果都不会告诉我们更多关于,因为结果不受.
顺便说一句,请注意,在我们知道正面数量之前的概率仅取决于通过. 事实证明,这相当于足以.