我们是否总是可以通过增加样本量来增加统计功效/估计精度?

机器算法验证 假设检验 数理统计 推理 统计能力 费希尔信息
2022-04-15 08:49:16

假设一个测试有 ~16.67%当样本量为3,并且随着我们通过向样本添加 IID 随机观察来增加大小4,5,6,7,...力量接近极限~20.83%,21.67%,21.81%,21.83%,...,所以在某个点之后的更多观察不会提供信息/精度的有意义的增加?(在这个例子中,功率按照收敛顺序增加,但这只是为了方便说明。)这可能吗?

作为一个更一般的问题:是否可以证明对于从总体的 IID 随机样本计算的任何随机变量,并且包含有关该总体参数的信息,我们总是可以将其信息(精度)增加到任何所需的水平(达到完美信息/精确精度/零标准误差)通过在样本中包含一些额外的 IID 随机观察?

一些规范:首先,这可能是 NHST 统计量或估计量——如果是前者,则拒绝零值的概率有上限;如果是后者,则标准误差有一个下限。其次,我指的是测试(或统计)的属性,而不是构造或数据收集方法的属性。第三,我不是在问是否有人们实际使用的这个属性的统计数据。我想没有人会认为它实用。我的问题是关于理论上的可能性,以及它是否在文献中被讨论或证明(一种或另一种方式)。

第四,我假设人们可以通过任意限制一个人从样本中使用多少信息作为样本大小的函数来构建这种测试的一个简单示例。例如,可以使用一个统计量,它是前 16 个观测值的总和、接下来的 16 个观测值的一半、接下来的 16 个观测值的四分之一等等;或者可能会使用所有观察结果,但故意添加与样本量成比例的噪声量。我不一定对此类示例感兴趣,但如果可以证明这是创建此类统计数据的唯一方法,或者没有找到此类统计数据的重要示例,那将非常有趣。

2个回答

费希尔信息增加

Fisher 信息(不是估计量的属性)随样本大小而变化。例如,请参见此处:https ://en.m.wikipedia.org/wiki/Fisher_information#Discrepancy_in_definition

,如果数据是独立同分布的,那么两个版本之间的差异只是一个因素n,样本中的数据点数。

大小样本的Fisher信息n(带 iid 测量)是单个测量次数的 Fisher 信息n.

有效的估计精度提高

你写

任何随机变量...并且包含有关该总体参数的Fisher信息

因此,如果您谈论有效的估计(精度等于 Fisher 信息的估计),那么:是的,精度将随着样本量的增加而增加。

类似地,任何其效率对所有人都有一些非零最小界限的估计器n

e(Tn)=1Var(Tn)×n×I(θ)emin>0
(在哪里I(θ)是单个测量的信息,并且nI(θ)n测量)将有Var(Tn)0为增加n.

其他估计可以做任何事情

但请注意,有许多非有效的估计量/统计量不会随着样本量的增加而扩展。

  • 病理估计器

    一个众所周知的例子是柯西分布的样本均值作为位置参数的估计量,随着样本量的增加,它保持不变(我相信还有一些例子,样本均值的方差甚至会随着样本量的增加而增加)。

  • 甲骨文估算器

    如果你不喜欢柯西分布的例子,因为它是一个病态分布,那么你可以考虑这个估计量

    θ^n=42

    这是一个可用于非病态分布的参数 θ 的估计量,并且当我们增加 n 时不会改善(精度增加)。(我同意这是一个几乎没有实际意义的例子,但它表明您可能需要更精确地定义“估计器”)。

  • 愚蠢的估算师

    你可以争辩说这个预言机估计器θ^n=42不包含信息(并且在您的编辑中您写了包含信息的估算器),在这种情况下,您可以使用这个愚蠢的估算器

    θ^n=min{x1,x2,,xn}(n+1)
    之间连续均匀分布的参数0θ

    的分布遵循 beta 分布,因此我们可以根据均值和方差轻松计算估计的均值和方差的 beta 分布。min{x1,x2,,xn}/θ Beta(1,n)

    E[θ^n]=θVar[θ^n]=θ2n(n+2)

    因此,随着样本量的增加,这个无偏估计量的方差将向\增长。θ2

显然,这些例子都是愚蠢的非实用估计。但是,那是因为您正在寻找的问题。您正在寻找在增加样本量时效果不佳的估计器,因此您会得到愚蠢的估计器作为示例。

另见:https ://en.wikipedia.org/wiki/Consistent_estimator

一个不随样本量增加而增加 Fisher 信息的统计量的示例是匹配统计量。匹配统计量 (Vernon, 1936) 在一对排名分数向量之间计算,作为匹配的配对排名数。Gordon Rae (1987, 1991) 表明,当向量之间的总体相关性为零时,的相对渐近效率为零。这意味着,如果我们在相同的数据上同时计算和 Spearman 的 rho(或另一个相对有效的相关估计量),则将是相当大的,但会在mmmmnn走向无穷大。还可以证明,当向量之间的总体相关性大于零时,的相对渐近效率为负。这意味着的标准误差随着的增加而增加,这意味着 Fisher 信息的丢失。mmn