为什么统计中通常会教授足够的统计/数据缩减?

机器算法验证 数理统计 推理 充分统计
2022-03-24 18:57:06

在大多数关于统计推断的高级课程中,通常会教授数据缩减和充分统计,但没有太多的动机。

我知道足够的统计数据对于许多定理很重要,例如 Lehmann-Scheffé 定理。然而,我也被告知强调数据减少是因为过去的统计学家无法访问大型计算资源,这就是原因。原因是什么?

3个回答

这个答案过于简单化,必然会受到批评,但我也相信它包含了充分统计数据有用的原因背后的本质:充分统计数据的动机是它使我们有可能在不需要所有人的情况下评估整个人口的信息数据

假设您在考试中取得了成绩,并且您想知道与同学相比您的表现如何。如果给你一个样本均值和方差,你可以在不询问每个人的成绩的情况下做到这一点。不是很酷吗?

您正确地建议几乎无限的计算资源的可用性意味着减少数据减少的重要性。例如,重采样统计数据有时计算量太大而无法实际使用,它允许直接利用整个样本而无需假设总体。然而,数据缩减和足够的统计数据仍然与以往一样重要。

数据缩减使您可以查看数据对感兴趣的主题的看法,而不会过多地分散数据的注意力。(关于森林和树木的东西应该放在这里,我怀疑。)选择与该主题相关的足够统计数据,并特别注意不会碰巧有一个。

你被告知的肯定不是真的。数据缩减与以往一样重要。例如,参见 Donoho 关于压缩感知和阈值估计器的工作。小波估计器和正则化估计器的工作方式也类似——目的是在尽可能少的系数上压缩数据。简单的概念也有相似之处——压缩允许我们用尽可能简单的模型来描述数据(但不是太简单)——最小描述/消息长度理论遵循这些思路。

充分性的概念几乎与(现代)统计的概念一样古老。它已由 Ronald A. Fisher在其 1922 年的开创性论文中定义。

正如您可能读到的,一个充分的统计数据对样本提供的全部相关信息的总结在数学上,如果要估计是一个包含关于值的全部信息的统计量,而是任何其他统计量,那么对,对于给定的值,对于给定的的分布不涉及θT1(X) θT2(X)T1(X) T2(X)θT1(X)T2(X)θT1(X)已知, 的值的知识不会进一步的值。T2(X)θ

也就是说,一旦您知道要估计的总体参数的足够统计值,您就不需要进一步的信息 - 您不需要存储/处理任何数据子集。关于数据可以说的所有内容都压缩在这个统计数据上。