在响应的非线性建模中控制非线性变量

机器算法验证 回归 机器学习 造型 非线性回归 控制变量
2022-03-28 13:17:14

我需要根据连续特征进行建模,同时控制另一个连续特征目的是了解在控制)增加 1 平均会影响多少。yx1,...,xnxcx1yxc

如果关系是线性的,那么在正常线性回归中包含就足以控制,但事实并非如此。数据具有以下模式,这使得建模变得更加困难:xcxc

  • 之间的关系是高度非线性的yxc
  • 之间的关系是高度非线性的yx1,...,xn
  • 中的一些特征高度相关x1,...,xnxc

在控制的同时,我如何使用特征进行最佳建模?yx1,...,xnxc

3个回答

您真正告诉我们的是关系是非线性的,您要求我们告诉您如何获得最佳模型。这样做是不可能的,因为“非线性”是一大类关系。不过,这里有一些事情需要考虑:

  • 理想情况下,变量的某些方面会暗示一类非线性函数,这些函数可能对回归关系是合理的。有时,变量的性质和获得它们的背景会为我们提供一些关于它们可能具有的非线性关系类型的提示。

  • 如果不是这种情况,您可能需要在纯粹的经验基础上进行。对于非周期函数,您通常可以通过多项式在局部近似它们(基于泰勒级数理论),而对于周期函数,您通常可以通过正弦函数之和在局部近似它们(基于傅里叶级数理论)。这些近似在广泛的非线性函数上工作得相当好,因此在没有关于非线性关系性质的先验信息的情况下,它们通常用作非线性回归的起点。

  • 为模型制定合理的起点后,拟合模型并生成诊断图,特别注意添加的变量图后面的这些图将允许您根据数据仔细检查模型中选择的回归关系。这可以提醒您模型中的错误假设,并允许您选择更合适的回归函数来拟合您的数据。(但这是有限制的;要小心过度拟合的现象。)

  • 最后,解释变量的多重共线性问题是预测中的常见问题。除非您正在进行对照试验并且您可以控制解释变量,否则您对此无能为力,除非您要了解多重共线性对回归估计准确性的影响,并确保您清楚你想要做出什么样的预测推断(即,你想要以什么为条件)。

目的是了解在控制 x_c 的同时的平均影响有多大(强调补充。)𝑥1yxc

首先,鉴于预测变量与结果的非线性关联,没有唯一的答案。您必须指定的特定值来评估的变化或您将平均如果非线性涉及与其他预测变量的交互,您还需要指定交互预测变量的水平。记在脑子里。x1yx1

其次,如果您没有考虑理论模型,通常可以使用线性回归模型对预测变量与结果的非线性关联进行经验分析。一种特殊形式的多项式逼近,受限三次回归样条,是一种常见的选择。然后回归在系数中仍然是线性的,因此一旦指定了样​​条的一般形式(通过标准统计软件中的方法),只需要线性回归拟合即可。

Frank Harrell 课程笔记的第 2 章概述了对变量之间的非线性关系进行建模的方法(第 2.4 节),包括如何评估模型拟合和处理这些预测变量之间的相互作用(第 2.7 节)。此线程中讨论了与惩罚样条和广义加法模型相关的方法。

最后,由于评论表明对“特征重要性”的潜在兴趣,请参阅 Harrell 注释的第 5.4 节。他的包中的anova()函数之间的差异和自由度的数量。他使用对多个自举样本的分析来说明这种测量方法的不可靠程度。rmsχ2

来训练非线性模型来预测,即然后计算残差的剩余将得到控制,因为之间的关系xcyf(xc)=y^ϵ=y^yϵxcfxcy

您现在可以使用残差作为所有进一步分析的输入,例如任何建模或特征重要性算法。之间存在任何交互影响,您需要将作为一个特征包含在您的进一步分析中ϵxcxcx1,,xn

的非线性模型的选择方面,随机森林是一种很好且易于使用的方法,但也可以使用许多其他非线性模型(例如神经网络)。f

警告:我认为这种方法有效,但希望得到确认的参考!