大样本渐近/理论 - 为什么要关心?

机器算法验证 样本 渐近的
2022-01-26 14:35:45

我希望这个问题不会被标记为“过于笼统”,并希望开始讨论对所有人都有好处。

在统计学中,我们花费大量时间学习大样本理论。我们对评估估计量的渐近特性非常感兴趣,包括它们是否渐近无偏、渐近有效、它们的渐近分布等。的假设密切相关n

然而,实际上,我们总是处理有限的我的问题是:n

1)我们所说的大样本是什么意思?我们如何区分小样本和大样本?

2) 当我们说时,我们的字面意思是应该去吗?nn

例如对于二项分布,需要大约 n = 30 才能在 CLT 下收敛到正态分布。我们应该有还是在这种情况下我们的意思是 30 或更多?X¯n

3)假设我们有一个有限的样本,并假设我们知道关于我们的估计器的渐近行为的一切。所以呢?假设我们的估计量是渐近无偏的,那么我们对有限样本中感兴趣的参数是否有无偏估计,或者这意味着如果我们有,那么我们会有一个无偏估计?n

正如您从上面的问题中看到的那样,我试图理解“大样本渐近”背后的哲学,并了解我们为什么关心?我需要对我正在学习的定理有一些直觉。

1个回答

迟到总比不到好。首先让我列出三个(我认为很重要)为什么我们关注估计量的渐近无偏(一致性)的原因。

a) 一致性是最低标准。如果估计器即使有大量数据也不能正确估计,那有什么好处呢?这是 Wooldridge: Introductory Econometrics 中给出的理由。

b) 有限样本属性更难证明(或者更确切地说,渐近陈述更容易)。我目前正在自己​​做一些研究,只要您可以依赖大型示例工具,事情就会变得容易得多。大数定律、鞅收敛定理等是获得渐近结果的好工具,但对有限样本没有帮助。我相信 Hayashi (2000) 中提到了这些方面的内容:计量经济学。

c)如果估计器对小样本有偏差,则可以通过所谓的小样本校正来潜在地纠正或至少改进。这些在理论上通常很复杂(证明它们在没有校正的情况下改进了估计器)。另外,大多数人都可以依赖大样本,因此小样本校正通常不会在标准统计软件中实现,因为只有少数人需要它们(那些无法获得更多数据并且关心无偏性的人)。因此,使用这些不常见的修正存在一定的障碍。

关于你的问题。“大样本”是什么意思?这在很大程度上取决于上下文,对于特定工具,可以通过模拟来回答。也就是说,您人为地生成数据,并查看拒绝率如何表现为样本大小的函数,或者偏差如何表现为样本大小的函数。这里有一个具体的例子,作者在这里看到了 OLS 集群标准错误、块引导标准错误等需要多少集群才能表现良好。一些理论家也有关于收敛速度的陈述,但出于实际目的,模拟似乎更具信息性。

真的需要吗?如果这就是理论所说的,是的,但在应用中,我们可以接受小的、可忽略的偏差,我们有足够大的样本量并且概率很高。充分意味着什么取决于上下文,见上文。n

关于问题 3:通常,无偏性(对于所有样本量)和一致性(对于大样本的无偏性)问题是分开考虑的。估计量可能有偏,但一致,在这种情况下,确实只有大样本估计是无偏的。但也有一些无偏且一致的估计量,理论上适用于任何样本量。由于技术原因,估计器也可以是无偏的但不一致的。