我有一个回归问题,我的大多数目标变量都在 5-30 范围内,但偶尔目标变量会飙升至 100、500 甚至 5000。这些值不是应该删除的虚假异常值,而是我希望预测算法尝试捕获的值。但是,我不希望这些变量上的错误支配树的训练。从概念上讲,百分比误差更类似于我感兴趣的内容(尽管不必完全如此)。具体来说,当目标为 30 而我预测为 15 时,我认为这与目标为 5000 但我的预测为 2500 时相似。我不希望 2500**2 平方误差压倒 15*** 2 平方误差。
对于此类问题,我解决此问题的最佳方法是什么?数据转换?自定义损失函数?ETC?