不幸的是,这个问题没有一个好的答案。您可以根据以下事实选择最佳模型:它最小化绝对误差、平方误差、最大化似然性,使用一些惩罚似然性的标准(例如 AIC、BIC)仅提及一些最常见的选择。问题是这些标准都不会让您选择客观上最好的模型,而是选择您比较的最佳模型。另一个问题是,在优化时,您总是可以以某个局部最大值/最小值结束。还有一个问题是您对模型选择标准的选择是主观的。在许多情况下,您有意识地或半有意识地对您感兴趣的内容做出决定,并以此为基础选择标准。例如_,使用 BIC 而不是 AIC 会导致模型更简洁,参数更少。通常,对于建模,您对更简洁的模型感兴趣,这些模型会导致关于宇宙的一些一般性结论,而对于预测它不必如此,有时更复杂的模型可以具有更好的预测能力(但不必而且经常它不是)。在其他情况下,出于实际原因,有时更复杂的模型是首选,例如,在使用 MCMC 估计贝叶斯模型时,具有分层超先验的模型在模拟中的表现比更简单的模型更好。另一方面,通常我们害怕过拟合并且更简单的模型过拟合的风险更低,因此是更安全的选择。一个很好的例子是自动逐步模型选择,通常不推荐,因为它很容易导致过度拟合和有偏差的估计。还有一个哲学论点,奥卡姆剃刀,即最简单的模型是首选模型。另请注意,我们在这里讨论的是比较不同的模型,而在现实生活中,使用不同的统计工具也可能导致不同的结果——因此还有一层选择方法!
所有这些都导致了我们永远无法确定的悲伤但有趣的事实。我们从不确定性开始,使用方法来处理它,最终以不确定性结束。这可能是自相矛盾的,但回想一下,我们使用统计数据是因为我们相信世界是不确定的和概率性的(否则我们会选择先知的职业),那么我们怎么可能得出不同的结论呢?没有客观的停止规则,有多种可能的模型,它们都是错误的(对不起陈词滥调!),因为它们试图简化复杂的(不断变化和概率性的)现实。我们发现其中一些对我们的目的比其他的更有用,有时我们会这样做找到对不同目的有用的不同模型。您可以深入到最底层注意到在许多情况下我们制作未知模型θ的,在大多数情况下永远不知道,甚至不存在(人口是否有任何μ年龄?)。大多数模型甚至不尝试描述现实,而是提供抽象和概括,因此它们不可能是“正确的”或“正确的”。
你可以更深入地发现现实中没有“概率”这样的东西——它只是我们周围不确定性的一些近似值,还有其他近似它的方法,比如模糊逻辑(参见 Kosko,1993供讨论)。即使是我们的方法所基于的非常基本的工具和定理也是近似值,并不是唯一可能的。在这样的设置中,我们根本无法确定。
您正在寻找的停止规则总是针对特定问题和主观的,即基于所谓的专业判断。顺便说一句,有很多研究示例表明,专业人士的判断力通常并不比外行人更好,有时甚至更差(例如丹尼尔卡尼曼在论文和书籍中复活),同时更容易过度自信(这实际上是关于为什么我们不应该尝试对我们的模型“确定”的争论)。
科斯科,B. (1993)。模糊思维:模糊逻辑的新科学。纽约:亥伯龙。