在线性回归模型或非线性回归模型之间做出决定

机器算法验证 回归 假设检验 预测模型 非线性回归
2022-03-08 05:31:29

应该如何决定使用线性回归模型还是非线性回归模型?

我的目标是预测 Y。

对于简单的数据集,我可以通过绘制散点图轻松决定应该使用哪个回归模型。xy

等多变量的情况下我如何决定必须使用哪个回归模型?也就是说,我将如何决定使用简单的线性模型或非线性模型,例如二次、三次等。x1,x2,...xny

是否有任何技术或统计方法或图形来推断和决定必须使用哪个回归模型?

3个回答

这是一个称为模型选择的统计领域。在这方面进行了大量研究,但没有明确而简单的答案。

假设您有,并且您想知道是否应该在模型中包含项。在这种情况下,您更简约的模型嵌套在更复杂的模型中。换言之,变量 (简约模型)是变量(复杂模型)的子集。在模型构建中,您(至少)有以下两个主要目标之一:X1,X2X3X32X1,X2X3X1,X2,X3X32

  1. 解释数据:您试图了解某些变量集如何影响您的响应变量,或者您对如何影响以及控制X1YX2,...Xp
  2. 预测:您想准确预测,而不关心模型中有什么或多少变量YY

如果您的目标是第一,那么我推荐使用似然比检验 (LRT)。当您有嵌套模型并且您想知道“数据是否更可能来自复杂模型而不是简约模型?”时,使用 LRT。这将使您深入了解哪种模型可以更好地解释数据之间的关系。

如果您的目标是 2 号,那么我建议您根据数据的大小采用某种交叉验证 (CV) 技术( -fold CV、leave-one-out CV、test-training CV)。总之,这些方法在您的数据子集上构建模型并预测剩余数据的结果。根据交叉验证选择对剩余数据进行最佳预测的模型。k

当我在谷歌搜索“回归的线性或非线性模型”时,我得到了一些指向这本书的链接:http: //www.graphpad.com/manuals/prism4/RegressionBook.pdf 这本书不有趣,我不感兴趣不要 100% 相信它(出于某些原因)。

我还发现了这篇文章: http ://hunch.net/?p=524标题:几乎所有自然问题都需要非线性

我还发现了类似的问题并有很好的解释: https ://stackoverflow.com/questions/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

根据我的经验,当您不知道使用哪种型号时,请同时使用并尝试其他功能。

正如您所说,线性模型通常比非线性模型更简单,这意味着它们运行得更快(构建和预测),更容易解释和解释,并且通常在误差测量中直截了当。因此,目标是找出线性回归的假设是否适用于您的数据(如果您不支持线性,那么就使用非线性)。通常你会用所有变量单独重复你的单变量图,保持所有其他变量不变。

不过,也许更重要的是,您想知道是否可以应用某种转换、变量交互或虚拟变量来将数据移动到线性空间。如果您能够验证假设,或者如果您对数据足够了解以应用动机良好或以其他方式明智的转换或修改,那么您希望继续进行该转换并使用线性回归。获得残差后,您可以将它们与预测值或自变量作图,以进一步决定是否需要继续使用非线性方法。

杜克大学对线性回归的假设进行了很好的细分列出了四个主要假设,每个假设都分解为对模型的影响、如何在数据中诊断它,以及“修复”(即转换或添加)数据以使假设成立的潜在方法。这是顶部的一小段摘录,总结了所解决的四个假设,但您应该去那里阅读故障。

有四个主要假设证明使用线性回归模型进行推理或预测是合理的:

(i) 因变量和自变量之间关系的线性和可加性:

(a) 因变量的期望值是每个自变量的直线函数,其他变量保持不变。

(b) 该线的斜率不取决于其他变量的值。

(c) 不同自变量对因变量期望值的影响是相加的。

(ii) 误差的统计独立性(特别是在时间序列数据的情况下,>连续误差之间没有相关性)

(iii) 误差的同方差性(常数方差)

(a) 与时间的关系(在时间序列数据的情况下)

(b) 与预测相比

(c) 与任何自变量

(iv) 误差分布的正态性。