何时停止完善模型?

机器算法验证 造型 推理 aic
2022-01-20 12:07:19

在过去的 3 年里,我一直在研究许多书籍的统计数据,感谢这个网站,我学到了很多东西。然而,对我来说,一个基本问题仍未得到解答。它可能有一个非常简单或非常困难的答案,但我确信它需要对统计学有一些深刻的理解。

在将模型拟合到数据时,无论是常客还是贝叶斯方法,我们都会提出一个模型,该模型可能由似然函数形式、先验或内核(非参数)等组成。问题是任何模型适合具有某种程度的善良的样本。与目前手头的模型相比,人们总能找到更好或更差的模型。在某些时候,我们停止并开始得出结论,推广到总体参数,报告置信区间,计算风险等。因此,我们得出的任何结论始终取决于我们决定采用的模型。即使我们使用 AIC、MDL 等工具来估计预期的 KL 距离,它也没有说明我们在绝对基础上所处的位置,而只是在相对基础上改进了我们的估计。

现在假设我们想在构建模型时定义一个逐步应用于任何数据集的过程。我们应该指定什么作为停止规则?我们至少可以限制模型错误,这会给我们一个客观的停止点(这与使用验证样本停止训练不同,因为它也在评估的模型类中给出了一个停止点,而不是真正的 DGP)?

2个回答

不幸的是,这个问题没有一个好的答案。您可以根据以下事实选择最佳模型:它最小化绝对误差、平方误差、最大化似然性,使用一些惩罚似然性的标准(例如 AIC、BIC)仅提及一些最常见的选择。问题是这些标准都不会让您选择客观上最好的模型,而是选择您比较的最佳模型。另一个问题是,在优化时,您总是可以以某个局部最大值/最小值结束。还有一个问题是您对模型选择标准的选择是主观的。在许多情况下,您有意识地或半有意识地对您感兴趣的内容做出决定,并以此为基础选择标准。例如_,使用 BIC 而不是 AIC 会导致模型更简洁,参数更少。通常,对于建模,您对更简洁的模型感兴趣,这些模型会导致关于宇宙的一些一般性结论,而对于预测它不必如此,有时更复杂的模型可以具有更好的预测能力(但不必而且经常它不是)。在其他情况下,出于实际原因,有时更复杂的模型是首选,例如,在使用 MCMC 估计贝叶斯模型时,具有分层超先验的模型在模拟中的表现比更简单的模型更好。另一方面,通常我们害怕过拟合并且更简单的模型过拟合的风险更低,因此是更安全的选择。一个很好的例子是自动逐步模型选择,通常不推荐,因为它很容易导致过度拟合和有偏差的估计。还有一个哲学论点,奥卡姆剃刀,即最简单的模型是首选模型。另请注意,我们在这里讨论的是比较不同的模型,而在现实生活中,使用不同的统计工具也可能导致不同的结果——因此还有一层选择方法!

所有这些都导致了我们永远无法确定的悲伤但有趣的事实。我们从不确定性开始,使用方法来处理它,最终以不确定性结束。这可能是自相矛盾的,但回想一下,我们使用统计数据是因为我们相信世界是不确定的和概率性的(否则我们会选择先知的职业),那么我们怎么可能得出不同的结论呢?没有客观的停止规则,有多种可能的模型,它们都是错误的(对不起陈词滥调!),因为它们试图简化复杂的(不断变化和概率性的)现实。我们发现其中一些对我们的目的比其他的更有用,有时我们会这样做找到对不同目的有用的不同模型。您可以深入到最底层注意到在许多情况下我们制作未知模型θ的,在大多数情况下永远不知道,甚至不存在(人口是否有任何μ年龄?)。大多数模型甚至尝试描述现实,而是提供抽象和概括,因此它们不可能是“正确的”或“正确的”。

你可以更深入地发现现实中没有“概率”这样的东西——它只是我们周围不确定性的一些近似值,还有其他近似它的方法,比如模糊逻辑(参见 Kosko,1993供讨论)。即使是我们的方法所基于的非常基本的工具和定理也是近似值,并不是唯一可能的。在这样的设置中,我们根本无法确定。

您正在寻找的停止规则总是针对特定问题和主观的,即基于所谓的专业判断。顺便说一句,有很多研究示例表明,专业人士的判断力通常并不比外行人更好,有时甚至更差(例如丹尼尔卡尼曼在论文和书籍中复活),同时更容易过度自信(这实际上是关于为什么我们不应该尝试对我们的模型“确定”的争论


科斯科,B. (1993)。模糊思维:模糊逻辑的新科学。纽约:亥伯龙。

有一个完整的领域称为非参数统计,它避免使用强模型。但是,您对拟合模型本身的担忧是有效的。不幸的是,没有机械程序来拟合被普遍接受为“最佳”的模型。例如,如果您想定义最大化数据可能性的模型,那么您将被引导到经验分布函数。

但是,我们通常有一些背景假设和约束,例如连续有限的第一和第二时刻。对于这样的情况,一种方法是选择像香农微分熵这样的度量,并在满足边界约束的连续分布空间上最大化它。

我想指出的是,如果您不只是想默认使用 ECDF,那么您需要在数据之外添加假设才能到达那里,这需要主题专业知识,而且,是的,可怕的......专业判断

那么,建模是否有保证的停止点……答案是否定的。有足够好的地方停下来吗?一般来说,是的,但这一点不仅仅取决于数据和一些统计需求,您通常会考虑不同错误的风险,实施模型的技术限制,以及其估计的稳健性,等等

正如@Luca 指出的那样,您始终可以对一类模型进行平均,但是,正如您正确指出的那样,这只会将问题推向超参数的下一个级别。不幸的是,我们似乎生活在一个无限分层的洋葱中……在两个方向上!