我正在做回归任务,我的数据集中的响应变量有一个倾斜的分布。说,为了简单起见,我有一个模型 Y~X 和 Y(响应变量)在 [1,5] 但在 [4,5] 范围内的值比 [1,2] 多得多范围。因此,如果我只看 MSE 误差,无论 X 的值如何,预测 Y 为 4.5 的多数预测器都可以完成线性回归。
我想知道是否有任何有条不紊的方法来纠正 MSE 以考虑这种情况,并且当它得到 Y = 1 错误时,可能比它得到 Y = 5 错误时更多地惩罚多数预测器。基本上,我正在为偏斜数据寻找一个公平的错误度量。
更新: 为简单起见,假设多数预测器预测所有事物的 4.5,而不管 X 的值如何。我的预测器准确地预测 1,但总是预测 5 的 4.4。
Y 的测试集是一个 1,其余是 200 个数字,每个数字等于 5。基于 MSE,多数预测器比我的预测器好,但它没有任何意义。
我想修改 MSE 以支持对 1 的准确预测,而不是对 5 的准确预测。也许我可以将每个残差乘以实际 Y 频率的倒数?对于 Y 是连续的情况,我如何使用这样的 MSE?
更新 2: 所以有些人建议也许应该更正确地对 Y 进行采样,我需要找到我的数据的子样本,以提供 Y 的均匀分布。这在我的情况下是不可能的。假设我正在爬亚马逊,我看到的大多数评级都是 5(因为亚马逊删除了表现不佳的产品),但也有一些项目的评级为 1。现在,如果我使用一个多数预测器在任何地方预测 5,它将在 MSE 值方面击败我的 SVM,但多数预测器对我的系统没有任何价值。此外,我不想仅仅为了使收视率分布均匀而丢弃我的数据。我相信它应该是通过正确选择度量(误差度量)来实现的
附件是一个示例分布。