背景:我刚开始使用机器学习,我正在考虑将它用于我正在写论文的旧数据。该论文涉及辐射引起的肺损伤,数据包括呼吸频率测量,以及每只动物不同类型的组织学评分。
我想在论文中回答的问题之一是组织学是否是肺损伤的预测因子,如果是,组织学的哪个特征是最重要的预测因子。结果“肺损伤”是基于呼吸频率的布尔值。
我的想法是让随机森林使用评分数据预测结果,并在论文中报告重要变量,并声明“组织学特征 X、Y 和 Z 的评分是肺损伤的最佳预测指标”。IMO 使用机器学习来做到这一点会给我一个重要变量的定性测量,但会让我不必自己开发一个复杂的模型来预测结果,因为这不是本文的重点。
我的问题是:
- 这是可能的和一个好主意吗?
- 变量重要性是一个稳健的衡量标准,还是数据的微小变化会导致完全不同的变量重要性排名?
- 在这种情况下,预测的准确性是否重要?预测必须有多准确才能让我确定变量重要性是正确的?
非常感谢您的见解!