我可以在论文中安全地使用随机森林的可变重要性吗?

机器算法验证 机器学习 随机森林 预测器
2022-03-31 01:24:57

背景:我刚开始使用机器学习,我正在考虑将它用于我正在写论文的旧数据。该论文涉及辐射引起的肺损伤,数据包括呼吸频率测量,以及每只动物不同类型的组织学评分。

我想在论文中回答的问题之一是组织学是否是肺损伤的预测因子,如果是,组织学的哪个特征是最重要的预测因子。结果“肺损伤”是基于呼吸频率的布尔值。

我的想法是让随机森林使用评分数据预测结果,并在论文中报告重要变量,并声明“组织学特征 X、Y 和 Z 的评分是肺损伤的最佳预测指标”。IMO 使用机器学习来做到这一点会给我一个重要变量的定性测量,但会让我不必自己开发一个复杂的模型来预测结果,因为这不是本文的重点。

我的问题是:

  1. 这是可能的和一个好主意吗?
  2. 变量重要性是一个稳健的衡量标准,还是数据的微小变化会导致完全不同的变量重要性排名?
  3. 在这种情况下,预测的准确性是否重要?预测必须有多准确才能让我确定变量重要性是正确的?

非常感谢您的见解!

2个回答

在这种情况下,您似乎无法证明“X、Y 和 Z 是最佳预测因子”这句话是正确的。至少因为所有的预测器都是最适合目的的,即它们是否如此具体以至于它们可以用作诊断的最终真相,或者它们是如此敏感以至于给定一些预测器值,不会遗漏任何病例,或者那些表现优于其他人平均?

您可以说的正是您获得的结果:X、Y 和 Z 在 RandomForest 算法的可变重要性尺度上得分最高。

看起来您研究了各种预测变量与结果的关联,这是许多研究人员都在做的一种研究,所以我鼓励您使用医学和生物学研究中报告关联的事实标准,即优势比的组合 (效应大小)和精确费舍尔检验的 p 值。这些措施经常被报道(如果不是总是),并允许其他研究人员比较论文之间的结果。

当然,如果将重要性指标添加到最常用的两个指标中,它不会伤害任何人。

同意coulminer上面回答的一切。会添加一些我不确定是否有用的点:
- 可能很难证明使用RF更传统的方法是合理的。您可能需要强调大量变量 + 未知数量的交互作用 + 非线性效应的组合才能令人信服。
- 重要性度量试图衡量RF模型内的重要性。而已。除非您RF出于其他原因构建模型,否则它们可能不会添加任何内容。gbm将产生不同重要性的不同度量 - 再次特定于该模型。
-Boruta和类似的包试图找到一个所有相关的功能子集。我会为此目的使用它们,而不是太重视它们产生的可变重要性。
- 有不止一种RF可变的重要性度量。randomForest包里有两个。一个在party包里。randomForestSRC包装中单独的一个。你甚至可以使用这个rminer包。如果您更改采样(内部欠采样),变量重要性可能会发生变化-> 不要认为有一个完美的变量重要性度量,或者您应该过于相信。