关于不平衡数据集如何影响分类问题的预测准确性有大量信息。已经提出了几种解决方案(参见此处)。我的问题是:
高度偏斜的目标分布(即当响应变量是连续的而不是分类的)会在回归随机森林中产生类似的问题吗?我试图预测的响应以百分比表示,96% 的观察值为 0。
我正在使用 5 折交叉验证来估计 RMSE 和。这些指标中的任何一个是否受响应分布的影响?
如果偏斜分布是一个问题,我应该如何处理它?
关于不平衡数据集如何影响分类问题的预测准确性有大量信息。已经提出了几种解决方案(参见此处)。我的问题是:
高度偏斜的目标分布(即当响应变量是连续的而不是分类的)会在回归随机森林中产生类似的问题吗?我试图预测的响应以百分比表示,96% 的观察值为 0。
我正在使用 5 折交叉验证来估计 RMSE 和。这些指标中的任何一个是否受响应分布的影响?
如果偏斜分布是一个问题,我应该如何处理它?
有人可能会争辩说,这是一个带有小舍入误差的分类问题,而不是回归设计。RF 通常被称为在处理偏斜问题方面具有弹性,但它并非无敌。在这种情况下,几乎没有任何积极的反应会进入每棵正在生长的小树,或者进入测试它们的 OOB 子集。
无法正确预测您感兴趣的响应可能会反映在整体 r2 中,但是,它不会是最有用的描述符(最容易在 r2 的简单线性回归中可视化,用于零点云之间的关系和一些异常值)。那里列出的解决方案可能仍然适用于缓解问题;但是,我会将设计重新考虑为 1)一个不平衡的分类问题和 2)如果正面响应的子集足够大,则仅在您感兴趣的回归模式中处理正面响应。