改进线性回归模型的技巧

数据挖掘 机器学习 Python 回归 线性回归
2021-09-26 02:05:05

我刚刚在具有 7 个自变量和 1 个目标变量的数据集上运行了一个线性回归模型。下面是 R 平方和 MSE 值。

  • 训练集的均方误差:36530921.0123
  • R2 训练集的值:0.7477

任何人都可以给我一些技巧来提高这个模型的效率。

编辑:我刚刚使用带有归一化特征的线性回归实现了同样的问题。我得到以下输出: 训练集的均方误差:5.468490570335696e-10 训练集的 R2 值:0.9275088299658416 训练集的均方误差:4.111793316375822e-10 训练集的 R2 值:0.9342888671422529

那么我们可以考虑对数据集进行归一化以获得更好的准确性吗?

2个回答

您可以构建更复杂的模型来尝试捕获剩余的方差。这里有几个选项:

  • 添加交互项以模拟两个或多个自变量如何共同影响目标变量
  • 添加多项式项以模拟自变量和目标变量之间的非线性关系
  • 添加脊椎以近似分段线性模型

  • 拟合等渗回归以消除目标函数形式的任何假设

  • 拟合非参数模型,例如MARS

使用线性回归模型时,多重共线性可能是性能不佳的一个原因。多重共线性是指线性回归模型中的多个自变量彼此密切相关并且可能导致结果偏斜的情况。一般来说,多重共线性会导致自变量的置信区间更宽,概率值更不可靠。也可能线性回归的其他假设不成立。线性回归需要自变量和因变量之间的关系是线性的。检查异常值也很重要,因为线性回归对异常值影响很敏感。线性假设最好用散点图进行测试。线性回归分析要求数据中几乎没有或没有自相关。