我正在使用RandomForest
R 包,并且对如何在其部分依赖图中解释 Y 轴的值感到困惑。帮助文档指出,该图是“变量对类概率的边际效应的图形描述”。但是,我仍然对 y 轴到底代表什么感到困惑。
- 特别是,负值是什么意思?
- 对准确预测班级产生负面影响意味着什么?
- 这些数字中最重要的特征是什么,是最大值,趋势的形状等?
- 您可以将部分图与其他变量的部分图进行比较吗?
- 这些图与 Maxent(一种分布建模软件)中创建的响应曲线相比如何?
我正在使用RandomForest
R 包,并且对如何在其部分依赖图中解释 Y 轴的值感到困惑。帮助文档指出,该图是“变量对类概率的边际效应的图形描述”。但是,我仍然对 y 轴到底代表什么感到困惑。
先回答这两个:
特别是,负值是什么意思?对准确预测班级产生负面影响意味着什么?
如果您查看随机森林包文档中如何计算部分图的定义,则表示这些图从模型的角度显示了变量对类概率的相对 logit 贡献。换句话说,负值(在 y 轴上)意味着根据模型,对于自变量(x 轴)的值来说,正类的可能性较小。类似地,正值意味着根据模型,自变量的值更可能是正类。显然,根据模型,零意味着对类别概率没有平均影响。
这些数字中最重要的特征是什么,是最大值,趋势的形状等?
确定特征重要性的方法有很多种,最大绝对值只是一种简单的度量。通常,人们会查看部分图的形状以了解模型对变量与类标签之间关系的建议。
您可以将部分图与其他变量的部分图进行比较吗?
答案不是非黑即白。您可以肯定地查看每个图的 y 轴范围;如果在整个变量范围内对一个变量的部分依赖接近于零,则表明该模型与变量与类标签之间没有任何关系。回到您的问题,范围越大,整体影响越强,因此在这个意义上可以比较它们。
我没有使用 Maxent 的经验。