如何根据决策树学习模型衡量每个新观察的置信度?

计算科学 优化
2021-12-25 11:44:18

我有一个决策树模型——我用一些数据训练过。

我刚刚获得了一个新数据集,我想在模型中运行它。有什么方法可以测量新观察被分类到的类的“置信区间”吗?

1个回答

如果你使用的是随机森林——你应该是;在大多数情况下,它们比决策树更好——那么是的,您可以测量“置信区间”。随机森林是树木的集合。每棵树都会给你一个预测。随机森林分类器获得这些预测的多数票(或平均值)。

要获得置信度分数,您现在可以查看所有树的预测分布。如果有 1000 棵树,每棵树都投了一票,因此您可以查看该输入的 1000 票的分布情况。

  • 例如,如果您正在进行布尔分类,随机森林分类器将获得这 1000 票中的多数票;但您也可以计算这 1000 票中有多少与分类器的输出一致,并将其用作置信度分数。

  • 例如,如果你在做回归,随机森林预测器可能会从 1000 棵树中取 1000 个值的平均值或中值;但您也可以对这 1000 个值进行排序,找到第 5 和第 95 个四分位数,并将它们用作 90% 的“置信区间”。

好的库将为您完成所有这些工作,并且还可能实现一些更复杂的方法。

关于随机森林的文献中有更多关于此的文章。参见,例如,https : //stats.stackexchange.com/q/56895/2921、https ://stats.stackexchange.com/q/12425/2921、http : //blog.datadive.net/prediction-intervals-随机森林/,http://blog.revolutionanalytics.com/2016/03/confidence-intervals-for-random-forest.html