降低线性回归的 MAE 或 RMSE

数据挖掘 机器学习 回归 随机森林 线性回归
2021-10-07 03:26:22

我试图猜测房价,最后我打算使用线性回归找出一个公式。正如您在此处看到的,我有 1480 个样本,其中包含 45 个特征,其中price(fiyat) 是目标变量。

做更高的价值RMSEMAE意味着无法以良好的方式训练数据集?

有没有办法减少这些值?如你看到的R2 看起来不错。

在此处输入图像描述

我们怎么能说平均有多少错误发生在猜测中?如果我们可以,你能说多少?

价格和猜测之间确实存在很大差异,如下所示:

在此处输入图像描述

4个回答

您可以尝试去除异常值、减少数据偏斜或堆叠不同的模型。如需高级回归指南,请查看Kaggle 中的内核。

使用以下步骤获得更好的结果:

  1. 使用 describe 函数,您将了解每列的值(如果它包含数字)。找出异常值并将其替换为平均值或中值或众数。
  2. 识别列以了解对数据集的影响例如:热图,我们将了解一次关键的列。
  3. 使用具有多个参数的多个模型(线性回归、随机森林、SVM 等)(更改每个模型中的参数值)以获得更好的结果。
  4. 检查具有多个参数的多个模型的错误并分析结果。

在删除异常值或“处理”数据足够长以适合您的模型之前,请查看以下文章并检查线性模型是否是您数据集的最佳选择。

请记住,所有这些统计模型都会对您作为输入提供的数据做出假设。只有满足这些假设,您才能获得可靠的结果。

均方根误差 (RMSE) 和绝对误差根 (RAE) 与目标值(在您的情况下为房价)具有相同的单位。它给出了模型在对给定数据集进行预测时产生的平均误差。根据您在训练数据中的房价规模,它可能不会那么高。如果房价规模以百万计,那么以千计的误差可能并没有那么糟糕。每个数据集都有一些噪声,这会导致每个模型的固有错误。

不过,如果根据您的数据集中的房价规模,它很高,您可以尝试以下一些方法:

  • 去除数据中的异常值
  • 做特征选择,一些特征可能没有那么丰富。
  • 尝试组合一些特征以使其更有意义,例如某些特征的比率可能比单个特征更有意义来预测价格。
  • 也许线性回归是欠拟合或过拟合数据,您可以检查 ROC 曲线并尝试分别使用更复杂的模型,如多项式回归或正则化