当我们开始学习统计学时,我们会了解满足属性充分性和完整性的看似重要的估计量类。然而,当我阅读最近的统计文章时,我几乎找不到任何涉及完全足够统计的论文。为什么我们不再关心估计器的完整性和充分性?
为什么我们不再关心估计器的完整性和充分性?
我们仍然在乎。然而,现在大部分统计数据都是基于数据驱动的方法,其中这些概念可能不是必不可少的,或者还有许多其他重要的概念。
凭借计算能力和大量数据,大量统计数据致力于提供解决特定问题(例如预测或分类)的模型,这些模型可以使用给定的数据和交叉验证策略进行测试。因此,在这些应用中,模型最重要的特征是它们与数据有很好的拟合,并声称能够预测样本外。
此外,几年前,我们对无偏估计器非常感兴趣。我们仍然是。但是,在那个时候,在极少数情况下,可以考虑使用非无偏估计量。在我们对样本外预测感兴趣的情况下,如果能够减少样本外预测误差,我们可能会接受明显有偏差的估计量(例如岭回归、LASSO 和弹性网络)。使用这些估计器实际上我们“支付”了偏差以减少误差的方差或过度拟合的可能性。
这种新的文献焦点也带来了稀疏性等新概念。在统计学习理论中,我们研究了很多界限来理解模型的泛化能力(这是至关重要的)。例如,参见 Abu-Mostafa 等人的精美书籍“Learning From Data”。
计量经济学等相关领域也受到了这些变化的影响。由于该领域强烈地基于统计推断,并且使用与来自理论的模型相关的无偏估计器至关重要,因此变化较慢。然而,已经引入了一些尝试,并且机器学习(统计学习)对于处理例如高维数据库变得至关重要。
这是为什么?
因为在某些情况下,经济学家对系数感兴趣,而不是对可预测变量感兴趣。例如,想象一个尝试使用回归模型解释腐败级别的工作,例如:
请注意,系数和提供了指导公共政策的信息。根据系数的值,将执行不同的公共政策。所以,他们不能有偏见。
如果我们的想法是我们应该相信计量经济学回归模型的系数并且我们正在使用高维数据库,那么也许我们可以接受支付一些偏差以换取较低的方差:“偏差-方差权衡不仅适用于预测(在线性模型的情况下只是估计系数的线性组合),也适用于单个系数。通过引入偏差以减少方差,可以更准确地估计各个系数(根据预期平方误差)。因此,从这个意义上说,有偏见的估计器可能是可取的。请记住:我们的目标是找到真正的价值。如果方差很大并且我们的估计值与重复样本的平均真实值相差甚远,那么无偏性就没有帮助。” - @Richard_Hardy
这个想法促使研究人员寻找对经济学家来说听起来也不错的解决方案。最近的文献通过选择不受惩罚的焦点变量来解决这个问题。这些焦点变量对指导公共政策很重要。为了避免遗漏变量偏差,他们还使用收缩程序(例如 Lasso)对所有其他自变量运行此焦点变量的回归。系数不为零的那些也包括在回归模型中。他们确保这个过程的渐近是好的。请参阅此处的该领域领导者之一的论文。例如,参见该领域领导者的概述。
我们确实很在意,但通常要么问题得到了解决,要么我们没有做出具体的分布假设来应用这些考虑。
常用参数模型的许多常用估计量要么在该模型的通常分布假设下完全有效,要么在这些模型假设下渐近有效。除非我们处理的样本量相当小,否则无事可做。
考虑广义线性模型作为一个明显的例子。
我们通常没有完全明确的参数分布模型。我们可能会使用稳健的程序,或者我们可能会查看一些方便的估计器以及用于处理偏差和估计标准误差的引导程序。
如果没有明确的分布,甚至开始考虑充分性或完整性,就无事可做。
(考虑到为一个你确定会出错的模型找到一个有效的估计器可能没有什么意义......可能更有意义的是找到一个在近似模型的某种邻域中表现相当好的模型。A在考虑这样的问题时,稳健性理论的大部分内容对“邻域”一词有特殊的意义。)
在下面的评论中,尼克考克斯指出“与理想的偏差——通常是完全可以容忍的”;确实如此。Box 写道:“请记住,所有模型都是错误的;实际的问题是它们必须错到什么程度才能没有用。” 对我来说,这是一个非常核心的问题,但我会在“多么错误”之后添加“以及以何种特定方式”。
重要的是要了解我们使用的工具的行为,而不是它们最擅长的情况;他们什么时候表现得很好,什么时候表现得很差(希望在类似的情况下至少还有什么其他的表现)。
我们需要记住,像测试、估计和区间这样的统计工具都有我们期望它们“执行”的几种意义(例如显着性水平和功效、偏差和方差、区间宽度和覆盖率);例如,通常倾向于非常关注测试的显着性水平而不关注功效。
这些问题不如查看完整性或充分性那么清晰,而且我们没有一系列“整洁”的定理可供使用。在许多情况下,我们可能需要使用更粗略但更简单的工具(例如模拟)来大致了解可能发生的情况。[在某些情况下,了解一些鲁棒性工具有助于了解模拟哪些东西可能有意义。了解使某些事情完全脱离轨道需要什么是很好的。我见过有人报告说,一个测试“对偏度具有良好的鲁棒性”,同时模拟的不过是指数分布更极端,例如,只检查 I 类错误率。]