模型选择和错误规范测试对推理的影响:概率减少方法 (Aris Spanos)

机器算法验证 计量经济学 模型选择 推理 方法 指定错误
2022-04-05 13:39:03

这个问题是关于 Aris Spanos 的概率减少 (PR) 方法中的预测试偏差、模型选择后的推断和数据窥探(这与 Deborah Mayo 的错误统计哲学有关;例如参见她的博客)。


我一直在阅读 Aris Spanos ( 2000 , 2010 , 2016 , 2017 , 1989 ) 关于计量经济学中 PR 方法的论文。该方法可简要概括如下。有两个出发点,理论和真实数据生成过程(DGP),两者相遇产生一个计量经济学模型:

  • 理论理论模型可估计模型统计分析计量经济学模型。
  • True DGP观测数据统计模型统计分析计量经济学模型。

上面的序列大多是不言自明的,除了统计分析部分。统计分析相当于序列{规范、估计、重新规范}迭代,直到满足统计模型的所有假设,从而使模型达到“统计上足够”。统计分析的最后一步是确定理论模型与估计的统计模型相关联,从而产生了计量经济学模型。

一旦计量经济学模型到位,人们可能会参与测试一些理论主张并进行推理。

请注意,Estimable 模型必须嵌入到“统计上足够”的统计模型中(即后者必须嵌套前者)以方便测试和推理。Spanos 强调,只有满足统计模型的所有假设时,推理才有效,即我们有一个“统计上足够”的模型。否则推断是不可靠的。*

问题:但是臭名昭著的测试前偏差和选择后推理和数据窥探的问题呢?

在 PR 方法中,统计模型旨在描述 DGP。值得注意的是,统计模型的制定独立于理论模型,并且仅基于观察到的数据。它的构建是为了反映数据中发现的机会规律。因此,在数据上尝试的第一个统计模型极不可能满足模型的所有基本假设;因此,将根据观察到的数据执行多个重新指定和估计的步骤。因此,“统计上足够”的统计模型将通过利用数据中的相当多的信息来构建。然后这个模型将用于推理。我的下意识反应:测试前偏差,选择后推断。

斯潘诺斯(2000)

Spanos 在2000 年解决了我的担忧(几乎完全专注于该主题)建议有一个单一的通用模型并且只考虑它的子模型,这允许在选择一些回归变量时跟踪顺序和多重测试中的实际显着性水平(例如第 4.5 节结束)。这与 Spanos 批评的新回归器附加一般模型形成对比。

他还在第 6.2 节中指出,诊断测试不会导致测试前偏差,因为在诊断测试失败后,建模者不应该自动选择测试的隐式或显式替代作为新的统计模型,而是必须检查这个模型首先使用错误规范测试。这让我想知道这是否不会导致至少轻微形式的预测试偏差,因为推断将取决于是否通过了错误规范测试。

2000 年第 6.3 节认可数据窥探是构建“统计上足够”模型的宝贵工具,但没有讨论其对推理的影响(大概是因为之前已经讨论过规范测试和模型重新规范的影响)。

斯潘诺斯(2010)

Spanos 还在2010年的第 6.1 和 6.3 节中解决了这些问题。在第 6.1 节中,他说

[F] 或许多统计模型,包括简单的正态和正态/线性回归模型,[错误规范] 测试可以仅基于最大辅助统计 <...>,它独立于完整的足够统计 <... > 仅用于主要推理。

在我的理解中,这意味着本质上,错误规范测试中对数据提出的问题与进行推理时提出的问题非常不同,前者的答案不会影响后者的答案,因此不会重复使用数据,也不会预先-测试偏差。就这么简单吗?

他在第 6.3 节结束时说

预测试偏压是错误的,因为它歪曲了模型验证,因为它可能会在两个模型之间进行选择

第 6 节中前面的讨论试图表明,在某种程度上,模型规格测试和失败测试后的模型重新规格与模型选择不同,并且不会导致测试前偏差。我很难理解这个论点......


也许我的问题的答案在于对在查看数据之前指定的一些理论主张的推断与对基于观察到的数据指定的数据的统计特性的主张的推断之间的区别? 即,由于统计模型是在不考虑理论的情况下构建的,因此它不会(也不能)滥用模型选择以更好地适应理论。因此,对理论的推论不会以系统的方式受到影响(例如,它既不偏向于拒绝也不偏向于接受某些理论主张)。同时,基于数据建立模型,然后测试该模型以在查看数据后对指定数据的统计特性进行推断当然是错误的,因为正在测试的假设受到数据中观察到的机会规律的启发因此,这是对数据的典型有害双重用途。

问题重申:臭名昭著的测试前偏差和选择后推理和数据窥探的问题在 PR 方法中不是真正的问题吗?为什么?(我不明白这个论点......)

*有趣的是,斯帕诺斯评论说,著名的短语“所有模型都是错误的,但有些是有用的”适用于实质性方面的错误(我们无法用我们的简单模型解释复杂的现实世界现象,但我们仍然可以从我们学到的东西中受益这些模型)但不是在统计方面(我们必须确保统计模型符合他们的假设;否则这些模型的推断将无效)。

参考:

2个回答

Aris Spanos 的框架和 David Hendry 的计量经济学方法有很多相似之处。难怪斯帕诺斯是亨德利的学生。这是我对亨德利在面对 Edward Leamer 和 Dale Poirier 关于预测试和选择后推断问题时不得不说的简要总结(Hendry 等人,1990)

概括

Hendry 认为他的方法论中的预测试和选择后推理没有问题。他将其视为“经典假设检验理论范围之外”的模型发现阶段(第 213 页)。传统的估计和推理理论适用于具有未知参数的给定模型,而不适用于未知模型(第 201 页)。没有模型设计理论(第 224 页)。亨德利有意和心甘情愿地对模型进行推理(第 222 页)(!!!)

一个人如何得出一个模型并不重要,因为这与模型的有效性无关。然而,最终模型的路径确实会影响模型的吸引力。广泛的规范搜索使模型不那么引人注目,但不是更少(或更多)有效。

引号

以下是论文中的一些引述。第 207-210 页:

Poirier:大卫,你之前说过的话,我认为这表明行为非常符合似然原则。作为异教徒 [38, p. 7] 还指出,您的态度似乎是最终模型是如何得出的,这与得出关于未知参数的数据中存在哪些证据的结论在很大程度上无关。这是可能的支持者会坚持的。然而,到达那里的路径对于常客来说变得非常重要......
Hendry:路径显然与模型的有效性无关(例如,参见我上面关于浮力原理的评论)。
Poirier:嗯,为了对参数进行推断……
Hendry:不,我没说过。我们必须清楚路由独立命题适用于什么。模型作为对世界的内在描述的有效性与发现路径无关。您从模型中得出的推论可能仍然取决于路线。这就是 Ed 所说的“令人信服”的问题。如果我想到我洗澡时的模特,你可能会认为这不是很有说服力。您可能不接受来自该模型的任何推论。但是,该模型是否在所声称的程度上描述了现实,这与该模型的发现方式无关。这就是我要发表的声明。
普瓦里尔:这里混合了何时以数据为条件,何时不以数据为条件。我认为您是说可以根据它来评估模型,但不能用于对参数进行推断。
<...>
Leamer:我的理解是你拒绝服从任何一种方法的纪律。您显然不是在问作为您推荐的程序基础的先前分布是什么。我也没有看到您列出您正在使用的这些非常复杂的过程的采样属性。这让我很难知道你的推荐是否合适,因为我看不到有一个框架可以用来评估它。

更多关于 p。213-214:

Hendry:在评估的背景下,测试的作用是明确的。有人制作模型。我根据他们对模型的主张做出预测,并构建一个在商定的显着性水平上被接受为有效的测试。然后我检查结果是否在关键区域内。这是对模型的关键评估。在发现的背景下,我们超出了经典假设检验理论的范围。我们不知道我们的程序的属性是什么。但模型的内在有效性与路径无关,因此有效性不能取决于测试的顺序、进行了多少次测试等。找到好的模型的能力或其他人可能对模型的信任可能取决于程序,但后者并不让我非常担心。如果你想出好的模型,这些模型会随着时间的推移变得健壮,并且会服务于你声称它们所服务的功能,事实上,你在洗澡时想到了它们,或者做了五十次测试或五百次回归,或者在非常时期发现了它们。一审,在我看来无关紧要。但在评估或证明的背景下,揭示模型的第 400 次测试是否产生了第一次拒绝是非常重要的。

(重点是我的。)

P. 220-221(这很重要):

Hendry:我对预测试问题本身的处理是,在发现的背景下,测试不是测试,它们是选择标准或设计充分性的指标。它们显示您正在建造的桥梁是否能够承受特定的阵风或一定的交通量,其中的钢材是否正确制造等。这些都是自我评估的方式,因此您可以自己决定是否有符合与一致性相关的标准。所以你总是要看一些白噪声或创新的指标,一些外生性的指标,一些不变性和恒定性的指标,一些理论一致性的指标,以及一些包容性的指标。例如,PCGIVE(参见 Hendry [19])提供了许多我认为是必要的,尽管它们还不够。当一个人设计了模型来表征数据时,我称之为全等的。
预先测试的问题是,如果一个人想要在那个阶段做出不仅仅是“模型设计良好”的推论。当你引用这些标准时,这就是所有可以声明的内容:“这是我的设计标准,我符合它们。这座桥的设计目的是承载一辆 10 吨卡车。这是一辆 10 吨卡车越过它,它就站起来了。 " 这就是提供模型充分性指数的意义。
在这种情况之外,包括在新数据集中或针对新的竞争模型或使用新测试的诊断测试,那么您必须小心预测试问题。不是因为参数标准错误,而是因为如果在有效模型的空值下,您在 5% 的水平上进行了 100 次测试,那么您很有可能会被拒绝。如果您想正确解释它们,评估域中的整体测试规模是需要考虑的重要因素。它相当容易控制。您可以让它随着样本量的变大而变小,而随着测试数量的增加,每个单独的测试都可以变小。您很少会发现模型在许多方面表现良好,但在相当明显的维度上表现不佳,但这种情况可能会发生。

P. 222-224(这很重要):

Poirier:关于前测估计器的一个常客结果是,在通常情况下,它们是不可接受的。现在,作为一名优秀的常客,为什么不打扰你呢?
亨德利:因为归根结底我想以模型为条件考虑到路线独立性,如果模型与现实一致,那么我引用的统计数据就是预测方差等的正确基础。
<...>
通常不值得花大量时间担心估计器的特定属性当您处于发现的环境中时,因为修订过程将我们带到了正式的统计领域之外。
<...>
但我认为模型选择问题是关键问题,不能表述为“我们已经知道,只需要对的最佳估计”。后者是一个不同的统计问题,与预测试相关。但当我们分析数据时,它并不直接相关。Poirier:那么,您是否认为经典统计数据通过强调可接纳性标准和程序的抽样分布来误导人们?它是在问错误的问题吗?亨德利:它提出了不同的问题。它在问你是否知道y=Xβ+uβ

y=Xβ+u,并且你要从这个过程中得到不同的数据样本,你应该如何估计 j?这是属于我的第二类的数学/统计问题,我们可以在其中研究程序的属性,无论它们是贝叶斯程序、经典程序还是似然程序。我们可以研究它们,但它们无法解决计量经济学的问题。它们是必要的工具,但不能回答如何找到表征数据的模型的实际问题,这是我的第三类问题。
<...>
我们还没有任何理论,无论是贝叶斯或模型设计的抽样。它不在你的工作中,我在其他任何地方都没有看到它。

(重点是我的。)

参考:

有一些关于预测试对后续推理的影响的研究。从班克罗夫特 1944 年的工作开始,这有着悠久的传统。基线是它可能会造成伤害,但并非总是如此。那里没有黑色或白色。我们对此做了一份调查报告,得出了一些新的结果。

MI Shamsudheen & C. Hennig:我们应该在运行基于模型的测试之前测试模型假设吗?https://arxiv.org/abs/1908.02218

Spanos 对此并不十分热衷,请参见此处(我在评论中回复):https ://errorstatistics.com/2021/02/25/aris-spanos-modeling-vs-inference-in-frequentist-statistics-guest-邮政/