我希望以下一般性问题是有意义的。请记住,出于这个特定问题的目的,我对引入非线性的理论(学科领域)原因不感兴趣。因此,我将制定完整的问题如下:
出于理论(学科领域)以外的原因,将非线性引入统计模型的逻辑框架(标准,如果可能,还有决策过程)是什么? 与往常一样,也欢迎相关资源和参考资料。
我希望以下一般性问题是有意义的。请记住,出于这个特定问题的目的,我对引入非线性的理论(学科领域)原因不感兴趣。因此,我将制定完整的问题如下:
出于理论(学科领域)以外的原因,将非线性引入统计模型的逻辑框架(标准,如果可能,还有决策过程)是什么? 与往常一样,也欢迎相关资源和参考资料。
最重要的问题是决定哪些类型的问题可以预期线性,否则在样本量允许的情况下允许关系是非线性的。生物学、社会科学和其他领域的大多数过程都是非线性的。我期望线性关系的唯一情况是:
后一个示例包括一个因变量也在基线(时间零)测量的情况。
我很少看到在大型数据集中到处都是线性的关系。
在回归模型中包含非线性的决定并不是来自全球统计原理,而是来自世界的运作方式。一个例外是选择了一个优化的统计框架,而必须引入非线性或交互项,以弥补不良选择的框架。有时可能需要交互项来抵消欠建模(例如,通过假设线性)主效应。可能需要更多的主效应来抵消因对其他主效应建模不足而导致的信息损失。
研究人员有时会为是否包含某个变量而苦恼,因为他们会通过迫使它们线性行动来欠拟合许多其他变量。以我的经验,线性假设是所有非常重要的假设中最被违反的假设之一。
模型构建过程涉及模型构建者做出许多决策。其中一项决定涉及在不同类别的模型中进行选择以进行探索。可以考虑多种类型的模型;例如,ARIMA 模型、ARDL 模型、多源错误状态空间模型、LSTAR 模型、Min-Max 模型等等。当然,某些模型类别比其他模型更广泛,并且发现某些模型类别是其他模型的子类别并不常见。
鉴于问题的性质,我们可以主要关注两类模型;线性模型和非线性模型。
考虑到上面的图片,我将开始从统计和方法论的角度解决 OPs 问题,即何时采用非线性模型是有用的,以及是否有这样做的逻辑框架。
首先要注意的是线性模型是非线性模型的一个小子类。换句话说,线性模型是非线性模型的特例。该声明有一些例外,但就目前的目的而言,我们不会因为接受它以简化问题而损失太多。
通常,模型构建者将选择一类模型,然后通过采用某种方法从该特定类中选择一个模型。一个简单的例子是当一个人决定将时间序列建模为 ARIMA 过程,然后按照 Box-Jenkins 方法从 ARIMA 模型类中选择一个模型。以这种方式工作,使用与模型族相关的方法,是一个实际需要的问题。
决定建立非线性模型的一个结果是,与从较小的线性模型集中进行选择相比,模型选择问题变得更大(必须考虑更多模型并面临更多决策),因此存在一个真实的手头的实际问题。此外,甚至可能没有完全开发的方法(已知、接受、理解、易于沟通)来使用,以便从一些非线性模型系列中进行选择。此外,构建非线性模型的另一个缺点是线性模型更易于使用,并且它们的概率属性更广为人知(Teräsvirta、Tjøstheim 和 Granger (2010))。
也就是说,OP 要求指导决策的统计依据,而不是实际或领域理论依据,所以我必须继续。
在考虑如何处理选择使用哪些非线性模型之前,必须首先决定是使用线性模型还是非线性模型。决定!如何做出这个选择?
借助 Granger 和Terasvirta (1993),我采用以下论点,对以下两个问题的回答主要有两点。
问:建立非线性模型什么时候有用?简而言之,当线性模型的类别已经被考虑并且被认为不足以表征所检查的关系时,建立非线性模型可能是有用的。这种非线性建模过程(决策过程)可以说是从简单到一般,从线性到非线性的意义上。
问:是否有统计依据可用于证明建立非线性模型的合理性?如果一个人决定根据线性测试的结果建立一个非线性模型,我会说,是的,有。如果线性测试表明关系中没有明显的非线性,则不建议建立非线性模型;测试应该在决定构建之前。
我将通过直接参考 Granger 和 Terasvirta (1993) 来充实这些观点:
在建立非线性模型之前,最好先确定线性模型是否能够充分表征所分析的[经济]关系。如果是这种情况,那么建立合理模型的统计理论将比非线性模型更合适。此外,如果模型是线性的,那么获得未来多个时期的最佳预测会简单得多。至少在时间序列很短的情况下,尽管变量之间的真实关系是线性的,但调查人员可能会成功估计非线性模型。因此,不必要地使模型构建复杂化的危险是真实存在的,但可以通过线性测试来减少。
在最近的一本书 Teräsvirta、Tjøstheim 和 Granger (2010) 中,给出了同样的建议,我现在引用:
从实践的角度来看,[因此]在尝试估计更复杂的非线性模型之前测试线性是有用的。在许多情况下,从统计的角度来看,测试甚至是必要的。许多流行的非线性模型未在线性下识别。如果生成数据的真实模型是线性的,而人们感兴趣的非线性模型嵌套了该线性模型,则无法一致地估计非线性模型的参数。因此,线性测试必须先于任何非线性建模和估计。
让我以一个例子结束。
在商业周期建模的背景下,使用统计依据来证明建立非线性模型的实际示例可能如下。由于线性单变量或向量自回归模型无法生成不对称的周期性时间序列,因此可以考虑处理数据中的不对称性的非线性建模方法。关于数据可逆性的这个例子的扩展版本可以在Tong (1993)中找到。
如果我过于关注时间序列模型,请道歉。但是,我确信其中一些想法也适用于其他环境。
在构建模型时,我总是尝试变量的平方和线性分量。例如,当建立一个简单的回归模型时
我也经常尝试非对称规范候选:
有时,我的数据中有一些特殊的值或波段;或者我的解释变量直方图有扭结和拐点。所以,我尝试了围绕这些特殊点或区域的线性样条。最简单的线性样条曲线是: 这将引入在点之前和之后的不同斜率。您可以在不同区域为同一变量设置多个斜率。如果我的线性样条很重要,那么我要么玩结点并使用它,要么考虑非线性模型。
这不是系统的方法,但这只是我经常做的事情之一。