我试图猜测房价,最后我打算使用线性回归找出一个公式。正如您在此处看到的,我有 1480 个样本,其中包含 45 个特征,其中price
(fiyat) 是目标变量。
做更高的价值和意味着无法以良好的方式训练数据集?
有没有办法减少这些值?如你看到的 看起来不错。
我们怎么能说平均有多少错误发生在猜测中?如果我们可以,你能说多少?
价格和猜测之间确实存在很大差异,如下所示:
我试图猜测房价,最后我打算使用线性回归找出一个公式。正如您在此处看到的,我有 1480 个样本,其中包含 45 个特征,其中price
(fiyat) 是目标变量。
做更高的价值和意味着无法以良好的方式训练数据集?
有没有办法减少这些值?如你看到的 看起来不错。
我们怎么能说平均有多少错误发生在猜测中?如果我们可以,你能说多少?
价格和猜测之间确实存在很大差异,如下所示:
您可以尝试去除异常值、减少数据偏斜或堆叠不同的模型。如需高级回归指南,请查看Kaggle 中的此内核。
使用以下步骤获得更好的结果:
在删除异常值或“处理”数据足够长以适合您的模型之前,请查看以下文章并检查线性模型是否是您数据集的最佳选择。
请记住,所有这些统计模型都会对您作为输入提供的数据做出假设。只有满足这些假设,您才能获得可靠的结果。
均方根误差 (RMSE) 和绝对误差根 (RAE) 与目标值(在您的情况下为房价)具有相同的单位。它给出了模型在对给定数据集进行预测时产生的平均误差。根据您在训练数据中的房价规模,它可能不会那么高。如果房价规模以百万计,那么以千计的误差可能并没有那么糟糕。每个数据集都有一些噪声,这会导致每个模型的固有错误。
不过,如果根据您的数据集中的房价规模,它很高,您可以尝试以下一些方法: