我已经阅读了以下回答我要问的问题的帖子:
这是我到目前为止所做的:我将 Logistic 回归与随机森林进行了比较,并且 RF 的表现优于 Logistic。现在,与我合作的医学研究人员希望将我的射频结果转化为医学诊断工具。例如:
如果您是 25 至 35 岁的亚洲男性,维生素 D 低于 xx,血压高于 xx,您有 76% 的机会患上 xxx 病。
然而,RF 并不适合简单的数学方程(见上面的链接)。所以这是我的问题:你们对使用 RF 开发诊断工具有什么想法(无需导出数百棵树)。
以下是我的一些想法:
- 使用 RF 进行变量选择,然后使用 Logistic(使用所有可能的交互)来制作诊断方程。
- 以某种方式将 RF 森林聚合成一棵“巨型树”,以某种方式平均节点在树上的分裂。
- 与 #2 和 #1 类似,使用 RF 选择变量(例如总共 m 个变量),然后构建数百个分类树,所有这些树都使用每个 m 个变量,然后选择最佳的单棵树。
还有其他想法吗?此外,做#1 很容易,但是关于如何实现#2 和#3 的任何想法?

