足够的统计数据,细节/直觉问题

机器算法验证 数理统计 充分统计
2022-02-15 05:07:51

我正在自学一些统计数据,但我对足够的统计数据有些困惑。我将以列表格式写出我的困惑:

  1. 如果一个分布有n参数然后它会有n足够的统计数据?

  2. 充分的统计量和参数之间是否存在某种直接对应关系?或者是否将足够的统计数据仅用作“信息”池,以便我们可以重新创建设置,以便我们可以为基础分布的参数计算相同的估计值。

  3. 所有分布都有足够的统计数据吗?IE。分解定理会失败吗?

  4. 使用我们的数据样本,我们假设数据最可能来自的分布,然后可以计算分布参数的估计值(例如 MLE)。足够的统计数据是一种无需依赖数据本身就能计算出相同参数估计值的方法,对吧?

  5. 所有充分统计量的集合是否都具有最小的充分统计量?

这是我用来尝试理解主题的材料: https ://onlinecourses.science.psu.edu/stat414/node/283

据我了解,我们有一个分解定理,它将联合分布分成两个函数,但我不明白我们如何能够在将分布分解为我们的函数后提取足够的统计量。

  1. 这个例子中给出的泊松问题有一个明确的因式分解,但随后说明充分的统计量是样本均值和样本总和。我们如何仅通过查看第一个方程的形式就知道这些是充分的统计数据?

  2. 如果分解结果的第二个方程有时取决于数据值,如何使用足够的统计量进行相同的 MLE 估计Xi他们自己?例如,在 Poisson 情况下,第二个函数取决于数据阶乘乘积的倒数,我们将不再拥有数据!

  3. 为什么样本量n就网页上的泊松示例而言,这不是一个足够的统计数据吗?我们会要求n重构第一个函数的某些部分,为什么它也不是一个足够的统计数据?

1个回答

您可能会受益于阅读任何有关理论统计的教科书中的充分性,其中将详细介绍大多数这些问题。简要地 ...

  1. 不必要。这些是特殊情况:支持(数据可以取的值的范围)不依赖于未知参数的分布,只有指数族中的分布具有与数量相同维度的足够统计量参数。因此,为了从独立观察中估计 Weibull 分布的形状和尺度或逻辑分布的位置和尺度,顺序统计量(不考虑其序列的整个观察集)是最小的,你不能进一步减少它而不会丢失有关参数的信息。在支持确实取决于未知参数的情况下,它会有所不同:对于均匀分布(0,θ),样本最大值足以满足θ; 为均匀分布(θ1,θ+1)样本最小值和最大值加在一起就足够了。

  2. 我不知道您所说的“直接通信”是什么意思;您提供的替代方案似乎是描述足够统计数据的公平方式。

  3. 是的:总的来说,整个数据就足够了。(如果你听到有人说没有足够的统计数据,他们的意思是没有低维数据。)

  4. 是的,就是这个想法。(剩下的——以充分统计为条件的数据分布——可用于独立于未知参数检查分布假设。)

  5. 显然不是,尽管我收集的反例不是您可能想要在实践中使用的分布。[如果有人能解释这一点而不会过多地进入测量理论,那就太好了。]

为了回答进一步的问题......

  1. 第一个因素,enλλxi, 取决于λ只有通过xi. 所以任何一对一的函数xi足够了:xi,xi/n,(xi)2等。

  2. 第二个因素,1x1!x2!xn!,不依赖于λ& 所以不会影响λ在哪个f(x;λ)是最大值。导出 MLE 并亲自查看。

  3. 样本量n是一个已知常数,而不是随机变量的实际值,因此不被视为充分统计的一部分;除了您想要推断的参数之外,已知参数也是如此。

† 在这种情况下,平方是一对一的,因为xi总是积极的。

‡ 什么时候n 随机变量的实现值N,那么它将是充分统计量的一部分,(xi,n). 假设您通过掷硬币选择 10 或 100 的样本大小:n什么也没告诉你θ但确实会影响您估算它的精确程度;在这种情况下,它被称为辅助补充xi& inference 可以通过以它已实现的价值为条件进行——实际上忽略了它可能会产生不同的结果。