我是新手,正在 Kaggle 上尝试 Zillow 有奖竞赛。我已经阅读了 Zillow 在他们的常见问题解答中使用相对错误的原因。(我认为这不是 Zillow 特有的问题,而是机器学习中的一般问题)
问:为什么 Zillow 选择日志错误而不是 RMSE 等绝对错误指标?
A : 房屋销售价格具有右偏分布,并且具有很强的异方差性,因此我们需要使用相对误差指标而不是绝对指标来确保估值模型不会偏向于昂贵的房屋. 像百分比错误或对数比率错误这样的相对错误度量可以避免这些问题。虽然我们在 Zillow.com 上以百分比的形式报告 Zestimate 错误,因为我们认为这对于消费者来说是一个更直观的指标,但我们不提倡使用百分比错误来评估 Zillow Prize 中的模型,因为它可能会导致模型有偏差。没有这种偏差问题,并且在使用自然对数时,误差非常接近接近 1 的近似百分比误差。有关相对误差以及为什么应使用日志误差而不是百分比误差的更多信息,请参阅本文。
我在这里询问了这个常见问题的解释。所以我主要理解“右偏异方差分布”是什么意思。但我仍然不明白为什么这些事情是问题。
以下是问题。
“偏向昂贵的房屋”是什么意思?这是否意味着模型对昂贵房屋的预测误差高于廉价房屋?
为什么我们需要避免制作“有偏见”的模型?很难说在昂贵房屋上误差较高的模型不好,因为便宜的房子比昂贵的房子多。我不能说哪个更好。
是什么导致模型“偏向于昂贵的房屋”,为什么会发生“偏向”?它是由“右偏”或“异方差”引起的,还是两者兼而有之?
在 jon_simon 的回答之后编辑:
我将解释我的理解和混淆点。请纠正我!
我知道绝对误差可能会受到 Y 大小的不成比例的影响,这就是我们应该使用相对误差度量的原因。但是我还不明白的是“这个问题可能是由右倾斜引起的”。(在 jon_simon 的回答中)
高价住宅比低价住宅多,高价住宅对 RMSE 等绝对误差指标的影响更大。因此,如果我们使用 RMSE,获得更好模型的关键是更多地减少昂贵房屋的预测误差。低价房屋的预测误差相对不那么重要。所以最终选择的模型应该有能力在高价模型中产生更低的错误,我认为这就是我第一个问题中“有偏见”的意思。
同样的,高价房比低价房对RMSE的影响更大。但不同的是低价房屋的数量。低价房比高价房多得多,就总误差而言,低价房比左偏分布的影响更大。所以,我想我们不知道最终的模型会偏向低价住宅还是高价住宅。(在右偏分布中)
换句话说,这是一个这样的问题:“是 sum(低价房的绝对误差)比总和(高价房的绝对误差)大(还是小)?”
如果我们可以说右偏分布肯定会导致“偏向昂贵的家庭”模型,我会感到困惑。(使用 RMSE)

