我有一个由 6 个参数(我的自变量)描述的 1000 个肿瘤的数据集。对于每个肿瘤,我有 8 种不同分割方法的准确度值。
鉴于描述肿瘤的 6 个参数,我想建立一个可以预测的模型,哪种分割方法会产生最高的准确度分数。有什么办法可以用决策树甚至随机森林方法来做到这一点?如果是这样,有没有软件可以做到这一点?(SPSS 似乎只处理二元决策树)如果没有,您有不同的建议吗?
我有一个由 6 个参数(我的自变量)描述的 1000 个肿瘤的数据集。对于每个肿瘤,我有 8 种不同分割方法的准确度值。
鉴于描述肿瘤的 6 个参数,我想建立一个可以预测的模型,哪种分割方法会产生最高的准确度分数。有什么办法可以用决策树甚至随机森林方法来做到这一点?如果是这样,有没有软件可以做到这一点?(SPSS 似乎只处理二元决策树)如果没有,您有不同的建议吗?
如果我正确理解您的问题,也许最好的方法不是多输出。
您正在尝试预测要使用的分段。所以看起来你可以通过两种方式做到这一点。
给每个肿瘤一个类别——类别是获得最佳准确度分数的分割——并进行类别预测。我想,这就是你对彼得的回应所说的话。确实,它忽略了次优方法,但您可能会得到类别预测正确的概率度量。
将其构建为预测每种方法的准确性的回归问题。因此,对于任何新肿瘤,您将获得每个类别的预测准确度分数。然后,你会采用这种方法。
话虽如此,如果你真的想要多输出预测:
http://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression_multioutput.html
http://scikit-learn.org/stable/modules/generated/sklearn.multioutput.MultiOutputRegressor.html
对于 n 路输出,我认为您可以构建 n 决策(回归)树。树 i 将采用 m 个输入变量(m=6 个肿瘤参数),并预测第 i 个输出的准确度等级(i 在 {1..n},n=8,分割方法)。
因此,第 i 个树将尝试捕获第 i 个分割方法运行良好的参数值范围。当两种方法 i,j 效果相同时,正如您在评论中提到的那样,i 和 j 的决策树可能都输出相似的等级值。
因此,任何标准的树软件都可以工作。