是否有经验法则或什至有任何方法可以判断样本应该有多大才能估计具有给定参数数量的模型?
因此,例如,如果我想用 5 个参数估计最小二乘回归,那么样本应该有多大?
您使用什么估计技术(例如最大似然、最小二乘、GMM),或者您将执行多少或什么测试是否重要?在做出决定时是否应考虑样本的可变性?
是否有经验法则或什至有任何方法可以判断样本应该有多大才能估计具有给定参数数量的模型?
因此,例如,如果我想用 5 个参数估计最小二乘回归,那么样本应该有多大?
您使用什么估计技术(例如最大似然、最小二乘、GMM),或者您将执行多少或什么测试是否重要?在做出决定时是否应考虑样本的可变性?
简单的答案是更多的数据总是比更少的数据更受欢迎。
小样本的问题很明显。从技术上讲,在线性回归 (OLS) 中,您可以拟合诸如 OLS 之类的模型,其中 n = k+1,但您会从中得到垃圾,即非常大的标准误差。Arthur Goldberger 关于这个主题有一篇很棒的论文,叫做 Micronumerocity,在他的《计量经济学课程》一书的第 23 章中进行了总结。
一个常见的启发式方法是,对于要估计的每个参数,您应该有 20 个观察值。它始终是标准误差大小(以及显着性检验)和样本大小之间的权衡。这是我们中的一些人讨厌显着性检验的原因之一,因为您可以通过大量样本得到非常小的(相对)标准误差,因此在简单检验(例如回归系数是否为零)中发现毫无意义的统计显着性。
虽然样本量很重要,但您的样本质量更重要,例如样本是否可推广到总体,它是简单随机样本还是其他适当的抽样方法(并且在分析过程中已考虑到这一点),是否存在测量误差、反应偏差、选择偏差等。
我喜欢使用重采样:我对数据的子样本(比如总数的 80% 甚至 50%)重复我使用的任何方法。通过对许多不同的子样本进行此操作,我可以感受到估计值的稳健性。对于许多估计程序,这可以成为对您的错误的真实(即可发布)估计。
它应该总是足够大!;)
所有参数估计都带有估计不确定性,该不确定性由样本大小决定。如果您进行回归分析,它有助于提醒自己 X 2分布是根据输入数据集构建的。如果您的模型有 5 个参数并且您有 5 个数据点,那么您将只能计算 X 2分布的一个点。由于您需要将其最小化,因此您只能选择这一点作为最小值的猜测,但必须将无限误差分配给您的估计参数。拥有更多数据点将使您能够更好地映射参数空间,从而更好地估计 Χ 2分布的最小值,从而减小估计器误差。
您是否会使用最大似然估计器,而不是情况类似:更多数据点会导致更好地估计最小值。
至于点方差,您也需要对此进行建模。拥有更多数据点将使“真实”值周围的点聚类更加明显(由于中心极限定理),并且将较大的偶然波动解释为该点的真实值的危险将会下降。至于任何其他参数,您拥有的数据点越多,您对点方差的估计就会变得越稳定。
在这方面,我听过两条经验法则。有人认为,只要在误差项中有足够的观察值来引发中心极限定理,例如 20 或 30,就可以了。另一种观点认为,对于每个估计的斜率,至少应该有 20 或 30 个观测值。使用 20 或 30 作为目标数之间的区别是基于关于何时有足够的观察可以合理地唤起中心极限定理的不同想法。