我正在开始我的数据科学之旅,我遇到了一个让我有点困惑的挑战。我有一个特征很少的集合和一个原始分布高度偏斜的目标变量。
我已经读过可以使用对数转换来规范化目标变量(以 $ 为单位的损失),从而提高准确性。
当我使用“y_raw”训练我的模型时,使用 MAE 时出现 306k 的错误。当我进行对数转换时
y = y.transform(np.log),我得到大约 2 的 MAE 精度(我想是对数转换单位?),即 e^2 = 7.39 (y_raw)。这是从 306k 到仅 7.39 ($) 的显着下降(或者我弄错了吗?),所以我对此有点怀疑。
所以这是我的问题:1)我是否正确地认为错误率从 306k 下降到只有 7.39 是真实的并且是有效的?2)我如何从那里做出预测?如果我向我的模型提供一个样本,接收一个对数转换的输出,假设它返回了 y_log = 10 的预测。然后我是否只需通过放置 e^10 = 22,026.5 来使用它的倒数,这将是我的最终预测吗?

