嗨,我正在研究回归技术。
我的数据有 15 个特征和 6000 万个示例(回归任务)。
当我尝试了许多已知的回归技术(梯度提升树、决策树回归、AdaBoostRegressor 等)时,线性回归表现出色。
在这些算法中得分几乎是最高的。
这可能是什么原因?因为我的数据有很多例子,所以基于 DT 的方法可以很好地适应。
- 正则化线性回归岭,套索表现更差
谁能告诉我其他表现良好的回归算法?
- 分解机和支持向量回归是好的回归技术吗?
嗨,我正在研究回归技术。
我的数据有 15 个特征和 6000 万个示例(回归任务)。
当我尝试了许多已知的回归技术(梯度提升树、决策树回归、AdaBoostRegressor 等)时,线性回归表现出色。
在这些算法中得分几乎是最高的。
这可能是什么原因?因为我的数据有很多例子,所以基于 DT 的方法可以很好地适应。
谁能告诉我其他表现良好的回归算法?
您不应该只是将数据扔给不同的算法并查看预测的质量。您需要更好地了解您的数据,而实现这一点的方法是首先可视化您的数据(边际分布)。即使您最终只对预测感兴趣,如果您更好地理解数据,您将能够更好地制作更好的模型。所以,首先,试着更好地理解数据(以及适合数据的简单模型),然后你就可以更好地创建更复杂、希望更好的模型。
然后,拟合线性回归模型,将 15 个变量作为预测因子(稍后您可以查看可能的相互作用)。然后,根据该拟合计算残差,即 如果模型足够好,即能够提取来自数据的信号(结构),则残差不应显示任何模式。Box, Hunter & Hunter:“Statistics for Experimenters”(你应该看看,它是有史以来最好的统计书籍之一)将此与化学的类比进行了比较:该模型是一个“过滤器”,旨在从水(数据)。剩下的通过过滤器的东西应该是“干净的”,对其进行分析(残差分析)可以表明,当它不含杂质(结构)时。看
要知道要检查什么,您需要了解线性回归背后的假设,请参阅线性回归的常用假设的完整列表是什么?
一种常见的假设是同方差性,即恒定方差。为了检查这一点,绘制残差与预测值。要了解此过程,请参阅: 为什么使用残差与预测值构建残差图?.
其他假设是线性的。要检查这些,请针对模型中的每个预测变量绘制残差。如果您在这些图中看到任何曲线,那就是反对线性的证据。如果您发现非线性,您可以尝试一些转换,或者(更现代的方法)以非线性方式在模型中包含该非线性预测器,也许使用样条曲线(您有 6000 万个示例,所以应该非常可行! )。
然后你需要检查可能的交互。上述想法也可用于不在拟合模型中的变量。由于您拟合了一个没有交互的模型,其中包括交互变量,例如两个变量和。因此,针对所有这些交互变量绘制残差。包含许多示例图的博客文章是http://docs.statwing.com/interpreting-residual-plots-to-improve-your-regression/
R Dennis Cook & Sanford Weisberg:“回归中的残差和影响”,Chapman & Hall,一本书的长度。更现代的书籍长度处理方法是 Frank Harrell:“回归建模策略”。
并且,回到标题中的问题:“基于树的回归能否比普通线性回归表现更差?” 是的,当然可以。基于树的模型具有作为回归函数的非常复杂的阶跃函数。如果数据确实来自线性模型(表现得如同模拟),那么阶跃函数可能是一个不好的近似值。而且,如另一个答案中的示例所示,基于树的模型可能会严重推断出观察到的预测变量的范围之外。您也可以尝试 randomforrest ,看看它比一棵树好多少。
其中线性回归比回归树表现更好,外推到样本中的观察值之外。
在此图像中,黑点是观察值,彩色点是预测值。实际数据是根据带有一些噪声的简单线生成的,因此线性回归和神经网络可以很好地推断出观察到的数据。基于树的模型没有。
现在,有了 6000 万个数据点,您可能不必担心这一点。(不过,未来总是让我感到惊讶!)但这是一个直观的例子,说明了树木会枯萎的一种情况。
众所周知,树不适合模拟真正的线性关系。这是ISLR 书中的插图(图 8.7) :

顶行:一个二维分类示例,其中真正的决策边界是线性的,并由阴影区域表示。假设线性边界(左)的经典方法将优于执行平行于轴(右)的拆分的决策树。
因此,如果您的因变量以或多或少的线性方式依赖于回归变量,您会期望“线性回归表现出色”。
任何基于决策树的方法(CART、C5.0、随机森林、增强回归树等)都可以识别数据中的同质区域,并将该区域中包含的数据的平均值分配给相应的“离开”。因此,它们是细粒度的,然后,它们必须在输出中显示一系列步骤。那些基于“森林”的人并没有明显地表现出这种现象,但它仍然存在。大量树木的聚集使其细微差别。当给定值超出原始范围时,数据将分配给包含训练数据集中发现的极端条件的“休假”,因此输出是该休假中包含的值的平均值。因此,不可能进行外推。顺便说一下,人工神经网络是很差的外推器。您可以检查:Pichaid Varoonchotikul - 使用人工神经和 Hettiarachchi 等人的洪水预报。用于模拟降雨的人工神经网络的外推-径流关系它们非常具有说明性并且很容易在网络中找到!祝你好运!