关于回归以最小化对数距离而不是距离

数据挖掘 回归
2022-02-18 07:02:57

假设我有很多点具有相应的非负标签并且我想做回归并对一些新数据点我没有标签。是否有选择参数模型以最小化成本函数而不是似乎最小化日志之间的差异具有一些不错的属性,例如,我很惊讶我没有在 Bishop 的机器学习书中看到这一点。 xiRNyiRxRNfθ:RNRi|log(fθ(xi))log(yi)|2i|fθ(xi)yi|2

当我考虑房屋定价问题时,我想到了这一点,我认为我更关心我错了的百分比,而不是纯粹的差异毕竟,在我的申请中(我相信很多其他人都喜欢它),错了50,000美元对于 60,000 美元的房子来说是可怕的,但对于 250 万美元的房子来说还可以。

任何阅读本文的数据科学资深人士都使用过我上面建议的带有日志的成本函数,或者谁能告诉我它叫什么(如果它有正式名称)?

1个回答

有一个损失称为 Root Mean Squared Log Error (RMSLE):(不要忘记,因为未定义在1ni=1n(log(yi+1)log(yi^+1))2+1log0

你会在这里找到一个简短的解释和讨论它也被用于比赛,例如这里